DALL·E: Umělá inteligence nakreslí cokoliv!

Unikátní umělá inteligence DALL·E tvoří kresby a fotky na základě zadání v přirozeném jazyce.

Společnost OpenAI je výzkumná instituce a laboratoř zaměřená na vývoj v oblasti tzv. Friendly AI neboli přátelské umělé inteligence. V roce 2015 ji založil s několika dalšími lidmi miliardář Elon Musk, nyní je financovaná zejména firmou Microsoft a řadou charitativních organizací.

V loňském roce OpenAI představila světu jedinečnou umělou inteligenci zvanou DALL·E (čti Dalí). Ta před nedávnem dostala významná vylepšení a nyní se jako DALL·E 2 pyšní schopností generovat obrázky se čtyřikrát vyšším rozlišením i ještě větší přesností. Jméno aplikace odráží slavného umělce Salvadora Dalího a sci-fi film WALL-E (v ČR jako VALL-I), čímž upozorňuje zejména na to, že i to, co se zdá nemožné, se může jednou stát skutečností.

Jak funguje DALL·E

Neuronová síť, která celé řešení obsluhuje, je schopna zpracovat zadání podle až 1 280 vstupních parametrů. Celkem 256 z nich mohou představovat slova v anglickém jazyce, kterými zadavatel popíše, jaký obrázek chce vidět. Zbylých 1 024 se obsadí automaticky již existujícími obrázky, na kterých jsou výjevy podobné tomu, který zadavatel popsal slovy.

Kdo je Elon Musk • Zdroj: Videhub

Pro samotné generování kreseb a fotek využívá aplikace princip zvaný autoregrese. Každý vhodný obrázek rozřeže na šachovnici o velikosti 32 x 32 čtverců a následně hledá jejich podobnosti v řádcích a sloupcích. Vybere několik desítek až stovek fotografií z databáze, jejichž šachovnice nejlépe odpovídá zadání, a poté je začne kombinovat ve vysokém rozlišení.

Umělá inteligence chápe

Čím je DALL·E oproti jiným podobným systémům unikátní? Dokáže s ohromující přesností generovat i obrázky, které zatím ve skutečnosti nikdy neexistovaly a nebýt umělé inteligence, asi by ani nikdy nevznikly.

Z ukázek tvorby umělé inteligence jednoznačně vyplývá, že systém chápe přídavná jména či připodobnění, kterých prý umí rozlišit až 12 miliard! A tak si klidně můžete vymyslet naprostý nesmysl, jako je třeba „kreslená okurka v čarodějnickém klobouku, která venčí psa“. Stačí pár kliků a voilà – vaše okurky 30x jinak jsou připraveny!

Budoucnost kreslířů

Kdybyste chtěli to stejné zadání připravit ve stylu malíře Moneta ve 3D připomínajícím počítačovou hru Minecraft nebo jako dílky puzzle, DALL·E si se vším poradí. A tak se přímo nabízí otázka, zda umělá inteligence nepošle zástupy počítačových grafiků na úřady práce.

„Jsme si vědomi toho, že naše práce s modely pro generování obrázků mají potenciál velkého dopadu na společnost. V budoucnu bychom rádi zkoumali to, jaký bude vliv modelů, jako je DALL·E, na některá povolání. Řešit budeme i potenciální předpojatost modelu nebo etické otázky, které tato technologie klade,“ vysvětluje tým stojící za DALL·E.

Falešný prezident

Naráží tím například na problematiku tzv. deep fakes, což je využití umělé inteligence a neuronové sítě v oblasti filmu. Pokročilé systémy dnes umí vytvořit video, na kterém jsou člověku (např. prezidentovi nějaké země) vkládána do úst slova, která nikdy neřekl.

Taková videa pak mohou být šířena prostřednictvím dezinformačních kampaní a v krajním případě třeba vyvolat občanské nepokoje nebo válku. V Česku na problém v minulosti upozornila třeba společnost HBO, která k propagaci svého seriálu Bez vědomí použila falešný projev prezidenta Miloše Zemana.

Více než knedlík

Autoři zatím řeší spíše první zmíněnou oblast, tedy to, že aplikace má určité předsudky. „Testovali jsme způsob, jakým DALL·E rozumí jednoduchým zeměpisným konceptům jako vlajky, národní kuchyně nebo zvířata typická pro danou zemi.

Přestože reaguje na mnoho takových zadání s úspěchem, často odráží povrchní stereotypy, místo aby ukazovala pestrost skutečného světa,“ popisují autoři. Svoje zjištění ilustrují 30 vygenerovanými obrázky na téma „jídlo v Číně“, z nichž více než 20 zobrazuje nějakou formu knedlíčků zvaných jiaozi. A to přesto, že tamější kuchyně nabízí mnoho zajímavějších jídel. Platí však, že DALL·E je neuvěřitelný vynález, o kterém ještě hodně uslyšíme.

Tihle čtenáři Ábíčka NEEXISTUJÍ

Velký ohlas vzbudili v roce 2019 autoři stránky This Person Does Not Exist (Tento člověk neexistuje). Ti využili podobný algoritmus jako DALL·E – StyleGAN od společnosti NVIDIA – k vytvoření veřejně dostupné stránky, na níž si kdokoliv může vygenerovat velmi realistické portréty lidí, kteří ale nejsou skuteční. Jejich rozeznání je někdy možné při zaměření se na detaily (může to být třeba rozmazané oblečení nebo rozdílné náušnice na každém uchu), jindy není možné vůbec.