A legutóbbi videóban volt némi vad rész, először arra gondoltam, hogy azt magyarázom el, utána viszont kedvem támadt beszélni arról, hogyan tette be a lábát a videókba a mesterséges intelligencia (Artifiical Intelligence, AI).
Ha már a természetes annyira nem remekelt.

Először nézzük a nyitóképeket. Régebben ide igyekeztem olyan képeket kitúrni a netről, melyek illenek az éppen aktuális videókhoz, na meg dögösen néznek ki. Ez egy ideig működött, de már régóta nem. Az ok az emberi mohóság, vagy más néven search ranking, magyarul keresőoptimalizálás. Ma már bármilyen képre is keresel a google keresővel, az első négy oldal tuti stock fotó lesz. Mert azokért fizetni kell, azaz kifejezetten erre felingerelt mágusok követnek el minden trükköt azért, hogy a keresési találatoknál az oldaluk minél előbb legyen, még akkor is, ha nem pont azt kerested, ami nekik van.
Videókban stock fotót használni nem elegáns, meg egyébként is tilos.

Logikus lépés volt az AI bevonása a folyamatba. Ekkor ugyanis elég volt alaposan, pontosan megfogalmaznom, milyen képet szeretnék (na, ez külön tudomány), utána 3-4 körből (ez 12-16 kép) már általában akadt megfelelő. Illetve… ez azért kicsit döcögősebb volt. A kezdeti időben szegény AI igencsak szeretett horrorban utazni, ekkor keletkeztek csontvázszerű végtagok, koponyára aszott fejek, féllábú, félkarú emberek. Ebben az időben külön meg kellett adnom a promptban, hogy lécci, az emberek inkább legyenek háttal, akkor kevésbé ijesztőek. Viszont lehetett szeretni is ezeket az időket. Például a Dall-e-2 (amely még fizetős volt) bizonyos promptokra kifejezetten meggyőző művészi produkciót alkotott. Ma már a 4-es verziója fut, jobb, sokkal jobb, de ez már fotorealisztikus képeket generál. Nem rossz, persze, de nekem tetszett a 2-es művészkedése is.
Mutatom, mire gondolok.


Konkrétan annyira tetszettek a 2-es festményei, hogy a salzkammerguti videókban végig azokat használtam. De a 4-est sem akarom bántani, itt van, mire képes. Ez már nem koponya, nem csontváz, teljesen élethű alak.

Aztán jött a tatai videó, az, amelyikben annyira komolyan vettem az értekezést a felszerelésről, hogy a Népligettől Pilisszentkeresztig kizárólag arról beszéltem. Nos, véleményem szerint nem létezik olyan videó, mely ezt képes lett volna elviselni, szóval valahogy ki kellett dobnom az egészet. Csakhogy a videó tematikája az volt, hogy felszerelés, ebből pont a felszerelés elmagyarázását kidobni, minimum véleményes. Ekkor találtam ki, hogy tisztelgek egyet Frank Zappa számomra legkomplexebb alkotása, a Joe Garázsa trilógia előtt. Ez egy szép hosszú történet, melynek egyik szála, hogy az úgynevezett Központi Megfigyelő (Central Scrutinizer) elmeséli, mi minden történt két szám között. Nekem most pont ez kellett, egy Központi Megfigyelő, aki elmagyarázza, miért lett kidobva egy, egyébként lényegi rész a videóból. A szöveget megírtam, igyekeztem géphangon fel is mondani, a háttérbe odavágtam az eredeti hangot, szóval minden rendben volt, kivéve, hogy kellett volna egy kép is a Központi Megfigyelőről. A lemez borítóján volt is, de azt évekkel ezelőtt elajándékoztam, a neten meg nem találtam meg. Meg úgy általában, a Central Scrutinizer kifejezésre is csak meglehetősen béna képeket kaptam.
Bezzeg az AI.
Először is, egyből tudta, miről beszélek. Utána pedig sorra jöttek a jobbnál jobb képek, melyek közül az alábbit választottam ki.

Végül pedig így alakult ki az ominózus jelenet.

Aztán itt van a hang. Időnként azzal is érdemes játszani. Még nem mélyedtem el benne, de az alábbi videón elmagyarázza a hapi, hogyan lehet hangminta alapján lecserélni egy számban az énekes hangját (konkrétan egy Taylor Swift számból csinál Iron Maiden feldolgozást), ez eléggé gondolatébresztőnek tűnik.

Nekem mondjuk pont nem ez kell, én azon gondolkodok, hogy a narrációt mondatom el ismert emberek hangján (valahogy úgy, ahogy a Szondi Utcában is csinálják), de kiindulási alapnak jó lehet. Vicces, de az első szereplő valószínűleg én magam leszek, ugyanis jelenleg – alsó fogsor nélkül – durván pöszítek, így ha alá kell mondanom valamit a készülő videómnak, akkor kénytelen leszek magamat a mesterséges intelligenciával szintetizálni.(1)

Micsoda világ.

(1) Update
Ezt még akkor írtam, amikor fogsorilag kihívásokkal küzdöttem és egy videó konkrétan azért állt pihenőpályán, mert utólag úgy éreztem, hogy egy helyen szükség van némi szöveges magyarázatra. Aztán hamarabb készült el a fogam, mint ahogy befejeztem ezt az írást.