Inteligentne fotomontaże

Bawiłem się kiedyś w fotomontaże. Brałem kilka zdjęć i łączyłem je ze sobą w Photoshopie, często osiągając bardzo dobre efekty. Czyli takie, że nie było w ogóle widać, że to kilka połączonych ze sobą prac. Metoda ta miała jednak podstawowy mankament: była mocno ograniczająca. Nie wystarczyło bowiem znaleźć fotografie przedstawiające odpowiednie elementy, ale musiały one jeszcze do siebie pasować. Trudno np. połączyć ze sobą korpus pokazany z przodu i profil twarzy. No ale cóż, jak się nie ma co się lubi, to się lubi co się ma. Nie potrafiłem dobrze rysować, więc łączyłem ze sobą gotowe komponenty.

Ale dlaczego o tym piszę? Otóż wydaje mi się, że na podobnej zasadzie działa sztuczna inteligencja. Tworzy ona nowe obrazy, ale zawsze bazuje na tym co już gdzieś kiedyś powstało. Dlatego rewelacyjnie radzi sobie z twarzami (choć oczywiście nie zawsze), a zdecydowanie gorzej ze "scenami rodzajowymi" z wieloma szczegółami. Nie są to jednak kolaże z wyciętych elementów. Wszystko jest zazwyczaj dodatkowo przetworzone. AI, niczym grafik używający Photoshopa, potrafi tak modyfikować obrazy, że wyglądają one podobnie, ale jednak różnią się od siebie. Jak to wszystko odnieść do praw autorskich? Podejrzewam, że tak jak do tradycyjnego kolażu. W wyroku Sądu Najwyższego z dnia 23 listopada 2004 roku (I CK 232/04) czytamy, że utwory wykorzystujące cytaty plastyczne aby mogły być uznane za samodzielne, muszą na tyle zmieniać sens i sytuację przejmowanego utworu, by było wiadomo, że przedstawiają własne spojrzenie na problematykę zawartą w utworze inspirującym i nie są zwykłym naśladownictwem. Grafiki generowane przez AI często spełniają ten warunek.

Przyjrzyjmy się kilku przykładom. Na początek coś gitarowego. W jednym z wpisów z cyklu Sztuka i AI pisałem, że aplikacja Wonder niespecjalnie radzi sobie z gitarami. Postanowiłem sprawdzić jak ogarnia to Midjourney. Na początek "young woman with long blonde hairs, full lips, clear jaw, large eyes playing guitar, 1970's style, analog photography, --ar 16:9".

No i cóż... na pierwszy rzut oka efekty wydają się rewelacyjne. Gdy jednak przyjrzymy się bliżej, to dostrzeżemy mankamenty. Zdjęcie 1: rozjechane struny w okolicach otworu rezonansowego; zdjęcie 2: nienaturalnie wystający palec; zdjęcie 3: lewa ręka wchodząca w gitarę, zdjęcie 4: główka pod kątem 90 stopni. Podejrzewam jednak, że część z tych błędów dałoby się usunąć poprzez generowanie kolejnych wersji poszczególnych wariantów.

Pozostańmy przy długowłosej blondynce z gitarą. Zmieńmy jednak technikę. Zamiast analogowej fotografii dajmy drzeworyt. Jak zwykle otrzymujemy cztery propozycje.

Tu prawdopodobnie gryf został "wycięty" w całości, bo nie ma żadnych niedoróbek. Główka jednak ma dodatkowy klucz. Nie zgadza się też liczba palców.
Gitara wygląda na wklejoną. Co więcej, ma nienaturalny kształt.
Struny są lekko przekrzywione, ale to chyba najlepszy projekt.
Gitara doklejona a liczba strun płynnie się zmienia...

Do poprawki zgłosiłem dwa projekty: 1 i 3.

W przypadku pierwszej grafiki udało się poprawić palce i klucze. W przypadku trzeciej jest gorzej niż było...

Idźmy jednak dalej. Tym razem "woodcut" zamieniłem na "pencil drawing, black and white contrasts".

Niestety wszystkie cztery mają mankamenty. Co prawda gryfy są proste, ale coś nie tak jest z palcami i kluczami. Tym razem jednak prośba o modyfikację czwartego projektu przyniosła dobry skutek. Co jednak ciekawe zarówno dziewczyna, jak i gitara zostały zmienione. Pojawiła się też lekka niedoróbka przy lewym rękawie.

Niestety im więcej instrumentów, tym więcej mankamentów. Przekonałem się o tym bardzo dobrze próbując wygenerować jakąś ilustrację do wpisu o otrzymanej dotacji na nagranie starych pieśni.

Pierwsza próba (folk band, comics style --ar 16:9) okazała się totalnym niewypałem...

Cóż, błędów jest tyle, że nawet nie ma sensu ich wyliczać. Zmodyfikowałem więc zapytanie na: "folk musicans, woodcut technique, --ar 16:9". I tu też większość propozycji była wybrakowana. Niemniej jedna była całkiem ok. Co prawda, jest ona trochę statyczna. Bardziej przypomina to przerwę w graniu niż granie, ale przynajmniej każdy gra na swoim instrumencie. Najbardziej widoczny "error" to trzeci but grajka po lewej (może zapasowy).

Próbowałem jednak dalej. A może jakiś surrealizm? Let's try! Wpisałem komendę: "music happiness by Salvador Dali, --ar 16:9".

Efekty spoko, ale chyba trochę za bardzo odjechane. W sumie można się było tego spodziewać, skoro AI miała zainspirować się Dalim. W kolejnej próbie zamieniłem go na Tamarę Łempicką.

No takie se. Szukałem więc dalej. Pozostałem jednak przy Łempickiej. Tym razem jednak wpisałem: "folk music by Tamara Łempicka, --ar 16:9".

I znów sporo mankamentów. Spodobała mi się jednak pani grająca na "chybalutni". Postanowiłem więc spróbować ją "naprawić".

Próba 1

Próba 2

Próba 3

Próba 4

Próba 5

Jak widać dopiero piąta modyfikacja dała zadowalający rezultat. Otrzymałem go jednak dopiero pisząc niniejszy wpis.

Niestety tak to wygląda na Midjourney. Za pierwszym razem nieczęsto otrzymamy zadowalający rezultat. Co jednak istotne, każda próba wyczerpuje limit czasu pracy "silnika". W przypadku planu BASIC starczyło go na wykonanie około 300 zapytań. Jeśli każda grafika wymagałaby 6 prób to w sumie podstawowy plan (jego koszt to ~50 zł) pozwoliłby na stworzenie 50 grafik.

Wróćmy jednak do moich poszukiwań grafiki do artykułu. Jak już wspomniałem powyższą ilustrację z "chybalutnią" wygenerowałem dopiero teraz. Na tamtym etapie miałem więc kobietę z powyłamywanymi palcami. Próbowałem więc dojść do celu inną drogą. Wpisałem: "woman playing cello by Tamara Łempicka, --ar 16:9".

AI ewidentnie ma problem ze smyczkiem. Trzeci projekt jednak mi się spodobał. Postanowiłem go więc zmodyfikować.

Wariant trzeci, mimo pewnych niedoróbek (vide: palce) spodobał mi się na tyle, że postanowiłem go wykorzystać.

Z ciekawości jednak spróbowałem wygenerować też inne ilustracje. Niestety z marnym skutkiem.

bagpiper, guitarist and violinist, printmaking, --ar 16:9

Polish folk music, linocut, --ar 16:9

concert, medieval art --ar 16:9

Ostatnia próba jest najśmieszniejsza, bo wygląda to tak, jakby AI wkleiła świętym z różnych obrazów instrumenty muzyczne.

Na koniec mały konkurs na grafikę związaną z muzyką. Do wygrania 5 RCRT. Wystarczy w komentarzu wpisać komendę, którą ja skopiuję do Midjourney. Wygenerowane grafiki wkleję potem w komentarzach pod komendami i wybiorę najlepszą. Jeśli konkurs się spodoba, będzie można pomyśleć o kolejnej edycji i jakiejś formie głosowania. Oprócz opisów można też określać parametry (tutaj je można zobaczyć). Np. --ar 15:10 ustala proporcje grafiki, domyślnie są w kwadracie. Każdy ma po jednej próbie. Na propozycje czekam do środy do 23.59.