Pradžia / Kompiuteriai ir programinė įranga / Sora video generatorius: kaip iš teksto sukurti filmą

Sora video generatorius: kaip iš teksto sukurti filmą

Kas yra Sora ir kodėl visi apie tai kalba?

Jei pastaruosius kelis mėnesius sekate technologijų naujienas, tikriausiai bent kartą girdėjote apie Sora – OpenAI sukurtą dirbtinio intelekto įrankį, kuris generuoja vaizdo įrašus tiesiog iš teksto aprašymo. Ir ne kokius nors primityvius animacijos bandymus, o tikrai įspūdingus, kinematinius kadrus, kurie pirmą kartą pamačius verčia susimąstyti: ar tai tikra, ar sugeneruota?

OpenAI Sora pristatė 2024 metų vasarį, ir internetas tiesiog sprogo. Žmonės dalino generuotus klipus – toksintos gatvės, lėtai judantys žmonės, bangos, gyvūnai – ir daugelis negalėjo patikėti, kad tai ne realūs filmukai. Vėliau tais pačiais metais Sora tapo prieinama plačiajai auditorijai per ChatGPT Plus ir Pro planus.

Bet kas tai iš tikrųjų reiškia? Ar tai tik dar vienas hype’o burbulas, ar tikrai kažkas, kas keičia žaidimo taisykles? Pabandykime išsiaiškinti be marketinginių frazių.

Kaip Sora veikia po gaubtu

Sora naudoja vadinamąjį difuzijos modelį – tą pačią technologiją, kuri maitina DALL-E ir Stable Diffusion paveiksliukų generatorius, tik pritaikytą vaizdo įrašams. Paprastai tariant, modelis išmoko iš milžiniško vaizdo duomenų rinkinio suprasti, kaip atrodo pasaulis – kaip juda vanduo, kaip krenta šviesa, kaip žmonės vaikšto, kaip keičiasi perspektyva.

Kai tu įvedi tekstinį aprašymą, Sora nesukuria vaizdo kadro po kadro kaip animatorius. Vietoj to ji generuoja viską vienu metu, suprasdama erdvinį ir laiko kontekstą. Tai reiškia, kad ji gali išlaikyti nuoseklumą – tas pats veikėjas išlieka atpažįstamas per visą klipą, objektai elgiasi fiziškai tikėtinai.

Techniškai kalbant, Sora naudoja transformer architektūrą, panašią į tą, kuri naudojama GPT modeliuose, tik pritaikytą vaizdo duomenims. Vaizdo įrašas suskaidomas į mažus „žetonus” (tokens), ir modelis mokosi jų tarpusavio ryšių. Rezultatas – sistema, kuri supranta ne tik tai, kaip atrodo daiktai, bet ir kaip jie elgiasi laike.

Svarbu suprasti vieną dalyką: Sora nekopijuoja esamų vaizdo įrašų. Ji generuoja naujus, remdamasi išmoktais šablonais. Tai panašu į tai, kaip žmogus, matęs tūkstančius filmų, gali įsivaizduoti ir aprašyti scenos, kurios niekada nebuvo nufilmuotos.

Kaip pradėti: žingsnis po žingsnio

Gerai, teorija – teorija, bet kaip tai veikia praktiškai? Štai ką reikia žinoti, jei nori pabandyti pats.

Pirmas žingsnis – prieiga. Sora šiuo metu pasiekiama per sora.com arba integruota į ChatGPT. Norint naudotis, reikia turėti ChatGPT Plus (20 USD per mėnesį) arba ChatGPT Pro (200 USD per mėnesį) prenumeratą. Plus planas leidžia generuoti vaizdo įrašus iki 480p raiškos ir ribotą kiekį per mėnesį. Pro planas suteikia 1080p kokybę ir žymiai daugiau generavimo laiko.

Antras žingsnis – prompt’o rašymas. Tai yra pats svarbiausias dalykas. Sora supranta natūralią kalbą, tad galima rašyti angliškai (lietuviškai rezultatai gali būti mažiau tikslūs). Geras prompt’as turėtų apimti:

  • Scenos aprašymą (kas vyksta, kur, kada)
  • Kameros judėjimą (artėjantis kadras, panorama, iš viršaus)
  • Nuotaiką ir apšvietimą (saulėlydis, dramatiška šviesa, švelni dienos šviesa)
  • Stilių (kinematiška, dokumentinis, animacinis)

Trečias žingsnis – parametrų nustatymas. Sora leidžia pasirinkti vaizdo įrašo trukmę (nuo kelių sekundžių iki minutės), formatą (horizontalus, vertikalus, kvadratinis) ir raišką. Pradedantiesiems rekomenduoju pradėti nuo trumpų, 5-10 sekundžių klipų – taip greičiau pamatysi rezultatą ir galėsi koreguoti.

Ketvirtas žingsnis – iteracija. Pirmasis rezultatas retai būna tobulas. Sora turi funkciją, kuri leidžia „remix’inti” – paimti sugeneruotą klipą ir jį modifikuoti, keičiant prompt’ą. Tai leidžia laipsniškai tobulinti rezultatą.

Prompt’ų menas: kaip gauti tai, ko nori

Čia prasideda tikrasis kūrybiškumas. Sora yra galinga, bet ji nėra telepatė – ji daro tai, ką jai liepi. Ir jei liepi neaiškiai, gausi neaiškų rezultatą.

Štai keletas konkrečių pavyzdžių, kaip rašyti efektyvius prompt’us:

Blogas prompt’as: „Moteris mieste”

Geras prompt’as: „A young woman in a red coat walking through a rainy Tokyo street at night, neon signs reflecting on wet pavement, slow cinematic tracking shot, moody atmospheric lighting, 4K quality”

Matote skirtumą? Geras prompt’as nurodo:

  • Subjektą su detalėmis (jauna moteris, raudonas paltas)
  • Vietą su kontekstu (Tokijo gatvė, naktis, lietus)
  • Vizualinę atmosferą (neoniniai ženklai, atspindžiai)
  • Kameros stilių (lėtas kinematikas sekimas)
  • Bendrą nuotaiką (atmosferinis, tamsus)

Keli papildomi patarimai iš praktikos: jei norite specifinio kino stiliaus, minėkite režisierius ar filmus – „in the style of Wes Anderson” arba „like a Blade Runner scene” duoda labai aiškius rezultatus. Taip pat verta eksperimentuoti su kameros terminais: „dolly shot”, „aerial view”, „close-up”, „wide establishing shot” – Sora juos supranta ir taiko.

Vienas dalykas, kurio reikia vengti: per daug informacijos viename prompt’e. Jei bandysite aprašyti sudėtingą sceną su daugybe veikėjų, skirtingomis vietomis ir kompleksišku siužetu – Sora tikriausiai sumaišys elementus. Geriau kurti paprastesnes, bet vizualiai stiprias scenas.

Kur Sora šviečia ir kur dar klunga

Būkime sąžiningi – Sora nėra tobula, ir svarbu žinoti jos ribas prieš investuojant laiką ir pinigus.

Kur ji tikrai puiki:

Gamtos vaizdai, atmosferinės scenos, architektūra – čia Sora tiesiog žvilga. Sugeneruoti bangų, miesto panoramų, miškų ar dykumų klipai dažnai atrodo stulbinančiai realistiškai. Taip pat labai gerai sekasi su abstrakčiais ar stilizuotais vaizdais – animaciniu stiliumi, impresionistiniu, futuristiniu.

Kameros judesiai ir kompozicija taip pat stipri pusė. Sora supranta kinematografiją – ji gali sukurti įtikinamą „drone shot” arba dramatišką „low angle” kadrą.

Kur ji dar klunga:

Žmonių rankos – klasikinis AI problema. Kartais pirštai atrodo keistai, skaičius gali neatitikti. Taip pat sudėtinga su tekstu vaizdo įrašuose – jei norite, kad ekrane būtų matomas konkretus užrašas, rezultatai gali nuvili.

Fizika kartais „plyšta” – objektai gali elgtis nelogiškai, ypač ilgesniuose klipuose. Veikėjų nuoseklumas per ilgesnę seką taip pat gali šlubuoti – tas pats personažas gali šiek tiek pasikeisti tarp kadrų.

Ir dar vienas svarbus dalykas: Sora negeneruoja garso. Klipai išeina be muzikos ar garsų efektų – juos reikia pridėti atskirai naudojant kitus įrankius.

Praktinis panaudojimas: kam tai tikrai naudinga

Gerai, bet kam visa tai galima panaudoti realiai? Ne visi esame Holivudo prodiuseriai ar didelių kompanijų marketingo vadovai.

Socialiniai tinklai ir content kūrimas. Jei vedate Instagram, TikTok ar YouTube kanalą, Sora gali būti tikras laiko taupytojas. Vietoj to, kad ieškotumėte stock vaizdo įrašų ar samdytumėte operatorių, galite per kelias minutes sugeneruoti unikalų vizualinį foną savo turiniui. Ypač naudinga „b-roll” kadrų kūrimui.

Reklamos prototipai. Prieš investuojant į brangią vaizdo produkciją, galima greitai sukurti koncepcijos demonstraciją klientui. Tai sutaupo laiko ir pinigų ankstyvose projekto stadijose.

Edukaciniai vaizdo įrašai. Istorinių scenų vizualizacija, mokslinių procesų iliustravimas, geografinių vietovių demonstravimas – Sora gali padėti mokytojams ir edukatoriais kurti patrauklų turinį be didelių biudžetų.

Kūrybiniai projektai ir menas. Muzikantai gali kurti vaizdo klipų koncepcijas, menininkai – eksperimentuoti su naujomis išraiškos formomis, rašytojai – vizualizuoti savo istorijų scenas.

Žaidimų ir aplikacijų prototipavimas. Kūrėjai gali greitai vizualizuoti žaidimų scenas ar aplikacijų UI animacijas prieš pradėdami tikrą kūrybos procesą.

Svarbu pabrėžti: Sora nėra skirta pakeisti profesionalius vaizdo kūrėjus sudėtinguose projektuose. Bet kaip papildomas įrankis arba greito prototipavimo priemonė – ji tikrai verti dėmesio.

Etika, autorių teisės ir kiti nepatogūs klausimai

Negalima kalbėti apie Sora nepalietę šio klausimo. Dirbtinio intelekto vaizdo generavimas kelia rimtų etinių ir teisinių klausimų, ir būtų neatsakinga juos ignoruoti.

Deepfake’ų problema. OpenAI turi griežtą politiką prieš realių žmonių veidų generavimą be jų sutikimo. Sora atsisako kurti turinį su atpažįstamais viešais asmenimis realistiniame kontekste. Bet technologija tobulėja, ir ribos tarp leistino ir neleistino tampa vis sudėtingesnės.

Autorių teisės. Kas yra Sora sugeneruoto vaizdo įrašo savininkas? Šiuo metu OpenAI taisyklės numato, kad naudotojas turi teisę naudoti sugeneruotą turinį, tačiau teisinė bazė šioje srityje dar formuojasi. Jei planuojate naudoti Sora komerciniais tikslais, verta pasikonsultuoti su teisininku.

Dezinformacija. Realistiškai atrodantys sugeneruoti vaizdo įrašai gali būti naudojami klaidinančiai informacijai skleisti. OpenAI integruoja C2PA metaduomenis į generuotus vaizdo įrašus – tai skaitmeninis žymėjimas, rodantis, kad turinys buvo sukurtas DI. Bet tai nėra tobulas sprendimas.

Kūrybinių profesijų ateitis. Tai jautri tema. Sora tikrai gali pakeisti kai kuriuos darbus – ypač stock vaizdo įrašų kūrėjų ir tam tikrų reklamos segmentų. Bet kartu ji sukuria naujų galimybių tiems, kurie moka ją naudoti. Kaip ir su bet kuria kita technologija, prisitaikymas yra raktas.

Ateitis jau čia, bet dar nereikia skubėti į pensiją

Sora yra vienas iš tų retų technologinių momentų, kai galima tikrai pasakyti: tai keičia žaidimą. Ne todėl, kad ji tobula – ji tikrai nėra. Ne todėl, kad ji pakeis visus filmų kūrėjus – ji nepakeis. Bet todėl, kad ji demokratizuoja vaizdo kūrimą taip, kaip iPhone demokratizavo fotografiją.

Prieš dešimt metų profesionali vaizdo produkcija reikalavo brangios įrangos, didelės komandos ir solidaus biudžeto. Šiandien vienas žmogus su geru prompt’u ir 20 dolerių per mėnesį gali sukurti vizualiai įspūdingą turinį. Tai nėra mažas dalykas.

Jei esate content kūrėjas, marketingo specialistas, mokytojas ar tiesiog smalsus žmogus – verta bent pabandyti. Pradėkite nuo paprastų eksperimentų, mokykitės rašyti geresnius prompt’us, stebėkite, kaip technologija tobulėja. Sora šiandien yra įspūdinga, bet tai tik pradžia – OpenAI ir konkurentai (Runway, Pika, Google Veo) nuolat tobulina savo modelius.

Ir svarbiausia – nepamirškite, kad technologija yra tik įrankis. Geriausias vaizdo įrašas vis tiek reikalauja geros idėjos, aiškios vizijos ir kūrybiško mąstymo. Sora gali realizuoti jūsų idėją, bet idėją vis tiek turite sugalvoti jūs. Ir čia joks algoritmas kol kas nepakeis žmogaus.