සොයන්න
උණුසුම් පුවත්

විශේෂාංග

වීඩියෝ මවන කෘතීම බුද්ධියේ නවතම පෙරළිය​ Open AI Sora

ඔයාල බොහොමයක් දෙනා මේ වෙද්දිත් Open AI ලගේ Chat GPT, DALL E3 වගේම Google Bard සහ ඒ ආශ්‍රිත Google AI Powered Image Generating සේවාවන් එදිනෙදා කටයුතු සඳහා භාවිතා කරනවා ඇති. අද අපි කතාකරන්න යන්නේ තරමක් විශේෂ දෙයක් ගැන​. ඒ කියන්නේ text prompt එකක් යොදලා විනාඩියක කාලයක් වගේ දිග වීඩියෝ එකක් generate කරගැනීමට හැකියාව තිබෙන අපූරු ටූල් එකක් ගැන​. මේ අළුත්ම generating AI model එකේ නම තමයි Sora. Text to Video Generator එකක් වෙන සෝරා වල Demo videos කිහිපයක්ම ඔවුන් විසින් මේ වෙද්දී අන්තර්ජාලයට මුදා හැරලා තිබෙනවා. බොහෝ විශ්ලේෂකයන් අර්ථ දක්වන විදිහට මේ වීඩියෝ වල තිබෙන සුවිශේෂීත්වය තමයි ඒවා ඉතාම දියුණු මට්ටමක තිබෙනවා කියන එක​.

ඇත්තෙන්ම කීවොත් මේ ක්‍ෂේත්‍රය පිළිබඳව උනන්දුවෙන් හිටපු බොහෝමයක් දෙනා දැන සිටි කාරණාවක් තමයි text to video generating models මීට පෙරත් භාවිතයට තිබුණා කියන එක​. නමුත් ඒවායෙන් තරමක දිග වීඩියෝ නිර්මාණය කර ගැනීමට හැකියාවක් තිබුණේ නැහැ වගේම අපි බලාපොරොත්තු වෙන විදිහේ professional වැඩකට යෙදවිය හැකි output එකක් ලබා ගැනීමේ හැකියාව ලැබුණෙත් නැහැ. ඒ වීඩියෝ length එක උපරිමයෙන් තත්පර 10, 15 වගේ කාලයකට සීමාවුණා වගේම resolution එකත් බොහොම අඩුවුණා. හැබැයි සෝරාට හැකියාව තිබෙනවා මිනිත්තුවක වගේ කාලයක් දිග වීඩියෝවක් generate කරන්න වගේම 1080p resolution එකක් ඔයාගේ වීඩියෝවට ලබාදෙන්නත්.

video generating වලට අමතරව image generate කිරීමේ හැකියාවත් Soraට තිබෙනවා. Soraට කරන්න පුළුවන් තවත් සුවිශේෂීම දෙයක් තමයි image එකක් සහ​ text prompt එකක් input එක විදිහට අරගෙන අදාළ ඉමේජ් එකට ඇනිමේෂන් එකක් ලබාදීම​. ​එතකිනුදු නොනැවතී video සහ​ text prompt දෙකම​ input විදිහට ලබාගෙන වීඩියෝවේ objects වෙනස් කිරීමටත් length එක වැඩි කිරීමටත් සෝරාට හැකියාව තිබෙනවා. සෝරාට සිදු කරන්න පුළුවන්කම තියෙන තවත් සංකීර්ණම දෙයක් තමයි වීඩියෝ දෙකක් එකතු කරලා අළුත්ම විදිහේ වීඩියෝවක් නිර්මාණය කරන එක​. Sora වෙබ් අඩවියේ තිබෙන සාම්පල පරීක්‍ෂා කරන විටනම් ඒවායේ ප්‍රතිඵල ඉතාම ඉහළ මට්ටමක තිබෙනවා කියන්න පුළුවන්. Video editing වගේම​ VFX ගැන ඉහළ දැනුමක් තිබෙන අයෙක් සිදු කරන මිනිස් පැය සැලකිය යුතු ප්‍රමාණයක් වැය කල යුතු වැඩක් සෝරා හරහා අවශ්‍ය​ inputs ලබාදීමකින් පමණක් සිදුකර ගැනීමේ හැකියාව සැලසෙනවා.

ඉදින් සෝරාට පුළුවන්කම ලැබෙනවා visual data භාවිතා කරලා visual patches සාදාගන්න​. මෙවැනි model එකක් ට්‍රේන් කිරීමේදී ඒ සඳහා විශාල විෂුවල් ඩේටා ප්‍රමාණයක් භාවිතා වෙනවා. එම ඩේටා විදිහට​ Images සහ වීඩියෝස් වගේම ඒවාට නිවැරදිව attach කරන ලද description ද අන්තර්ගත වෙනවා.

​වැඩි වශයෙන් training data, processing power යොදාගෙන වීඩියෝව​ scale කිරීමේදී වීඩියෝවේ හැකියාවන් ඉහළ ගුණාත්මකභාවයකින් යුතුව දක්නට ලැබෙනවා. Sora Design කරපු ඉංජිනේරුවන් භාවිතා කරල තියෙන තවත් අපූරු උපක්‍රමයක් තමයි යූසර්ස් ලා ඉතා දීර්ඝ​ prompt එකක් භාවිතා නොකරන අවස්ථාවක දී එය​ GPT model එකක් වෙත ලබා දීලා එහි විස්තර තව වැඩි කරලා ලැබෙන prompt එකෙන් ඉතා හොඳ මට්ටමක වීඩියෝවක් ලබා දීම සිදු කිරීම​. 

https://openai.com/research/video-generation-models-as-world-simulators

ඔබ හිතන විදිහට පරිගණක විද්‍යාඥයන් මේ ආකාරයේ හඳුන්වාදීම් සිදු කරලා අවසානාත්මකව බලාපොරොත්තු වන්නේ කුමක් විය හැකිද​? ඒ තමයි AGI එකක් නැතිනම් Artificial General Intelligence එකක් නිර්මාණය කිරීම​. සරලවම කියනවා නම් අපේ මොළය විසින් සිදු කරනවා වගේ හැම වැඩක්ම කරන්න පුළුවන්, දේවල් සිතීමේ සහ තර්කානුකූලව ලෝකය සහ ඒ තුල වෙන දේවල් තේරුම් ගැනීමේ හැකියාව ඇති කෘතීම බුද්ධියක් නිර්මාණය කරන​​ එක​. Sora කියන්නේ එහි පළවෙනි පියවර වශයෙන් හැඳින්වීමටත් පුළුවන්. යම්කිසි දවසක අවට ලෝකය තුල සිදුවෙන සියළුම යාන්ත්‍රණයන් තේරුම් ගැනීමේ හැකියාව ඇති කෘතිම බුද්ධියක් ගොඩනැගුණොත් ඒකට චිත්ත රූප මවා ගැනීමටත් ලෝකයේ අනාගතය පුරෝකථනයන් කරගැනීමටත් හැකියාවක් ලැබේවි.

ඉදින් මේ වගේම රසබර තාක්‍ෂණික තොරතුරු කැටි වුණු ලිපියකින් නැවතත් හමුවෙමු! ඔබට සුභ දවසක්!

 

Tags