Zelfstudie en vergelijking voor het maken van AI-afbeeldingen: Dall-e VS stabiele diffusie VS Canva (tekst naar afbeelding)

Met de huidige mediapopulariteit van ChatGPT dit is een kans om ook over te praten DALL-E, een andere kunstmatige intelligentie die ook is ontworpen door Open AI ! En meer in het algemeen beeldgenererende AI's. Waar ChatGPT met verbijsterend gemak geschreven tekst kan genereren, zijn DALL-E en zijn soortgenoten getraind om afbeeldingen te maken op basis van een eenvoudig schriftelijk verzoek van de gebruiker.

Laten we eens kijken naar hoe ze werken, hun mogelijkheden, maar ook hun limieten met dit vergelijkende artikel van beeldvormende AI's.

Maar trouwens, hoe werkt een AI?

Een hele goede vraag waar het misschien interessant is om snel op terug te komen, vooral omdat we er in ons vorige artikel over ChatGPT niet op ingingen. Als je "Artificial Intelligence" hoort, is het moeilijk om niet aan dit soort mensachtige robots te denken, zoals we ze in films hebben gezien. Dit is wat de AI's zelf genereren wanneer hen wordt gevraagd om een afbeelding die overeenkomt met de zoekopdracht op deze trefwoorden, zoals de inleidende afbeelding van dit artikel.

*Dit landschap bestaat niet, het is 100% kunstmatig gegenereerd door een AI*

Maar in werkelijkheid hebben veel van de bestaande AI's geen fysieke envelop. Meestal zijn het computerprogramma's die zijn gebaseerd op specifieke algoritmen die door mensen zijn getraind om bepaalde min of meer complexe taken uit te voeren.

Het genereren van afbeeldingen is een taak die kan worden toegewezen aan een (of meer) AI's! Aarzel niet om de volgende video te bekijken voor meer informatie over de methoden voor het maken van afbeeldingen door AI:

Laten we onze eerste afbeeldingen genereren met kunstmatige intelligentie

Om dit te doen, is op het eerste gezicht niets eenvoudiger, aangezien het enige wat u hoeft te doen is tekstueel aan de AI de afbeelding beschrijven die u wilt verkrijgen. Voor dit artikel hebben we besloten om de afbeeldingen van drie AI-generatoren te vergelijken:

DALL-E
Stabiele diffusie
Canva (tekst naar afbeelding)

Natuurlijk zijn er nog andere die u niet moet aarzelen om ook te testen. Hier is er een niet-limitatieve lijst.

Als je een beetje creatief bent, zijn we er zeker van dat je genoeg ideeën zult vinden om afbeeldingen te genereren. Maar voor degenen voor wie het iets ingewikkelder zou zijn, is het mogelijk om ChatGPT om een beetje hulp te vragen. Ja, we gebruikten een AI om een andere AI te gebruiken...

*ChatGPT's antwoord op de vraag: ik moet een artikel schrijven op dall.e, heb je enig idee van afbeeldingen die kunnen worden gegenereerd met dit AI-model?*

Als model voor het genereren van afbeeldingen kan DALL-E natuurlijk een grote verscheidenheid aan afbeeldingen maken. Hier zijn enkele ideeën voor afbeeldingen die u zou kunnen genereren met DALL-E:

Fantasiedieren: vraag DALL-E om afbeeldingen van denkbeeldige dieren te genereren, zoals een draak met vlindervleugels of een slang met poten.

Strange Foods: vraag DALL-E om afbeeldingen te genereren van ongewone voedingsmiddelen, zoals een chocoladepizza of een burger met plakjes watermeloen.

Ongebruikelijke kleding: Vraag DALL-E om afbeeldingen te genereren van vreemde kleding, zoals een hoed in de vorm van een Eiffeltoren of schoenen met vleugels.

Denkbeeldige landschappen: vraag DALL-E om afbeeldingen te genereren van fantasielandschappen, zoals een stad die in de wolken zweeft of een bos met gigantische paddenstoelen.

Hybride objecten: vraag DALL-E om afbeeldingen te genereren van objecten die een mix zijn van twee verschillende dingen, zoals een bed dat eruitziet als een hangmat of een auto met vogelvleugels.

Portretten van beroemdheden: vraag DALL-E om afbeeldingen te genereren van portretten van beroemdheden die niet bestaan, zoals een alternatieve versie van Marilyn Monroe met tatoeages.

Futuristische auto's: vraag DALL-E om afbeeldingen te genereren van futuristische auto's, zoals een auto die kan veranderen in een vliegtuig of een auto die kan vliegen.

Fantasie-architectuur: vraag DALL-E om afbeeldingen te genereren van fantasie-architectuur, zoals een draakvormige wolkenkrabber of een huis dat op een boom lijkt.

Deze ideeën zijn slechts suggesties om u een idee te geven van wat DALL-E kan doen. Er zijn duizenden andere afbeeldingsideeën die u kunt genereren met deze AI-sjabloon.

Elke AI heeft zijn eigen stijl

Laten we met deze lijst samen kijken hoe we onze afbeeldingen kunnen genereren en welke van de verschillende gekozen software het beste doet.

Lees ook: Migratie naar een nieuw forum phpBB 2.0.x naar phpBB 3.1!

Voor onze eerste afbeelding kozen we ervoor om de draak met vlindervleugels weer te geven. Om wat context toe te voegen, vragen we ook om dit af te beelden in 'een sprookjesachtig fantasiebos'. Afhankelijk van de IA's kan de taal van het verzoek het resultaat beïnvloeden. Dus dat vonden we snel voor DALL-E en Stable Diffusion Engels was de taal die de beste resultaten opleverde. Omgekeerd werkt de toepassing van tekst naar afbeelding van Canva over het algemeen beter in het Frans.

1. DALL-E heeft afbeeldingen gegenereerd van een draak met vlindervleugels

2. Draken gegenereerd door stabiele diffusie

3. En tot slot degene die we hebben gekozen om te behouden voor de Canva-tool

Het eerste dat we heel snel kunnen zien: voor hetzelfde verzoek heeft elke AI zijn eigen stijl!

DALL-E heeft een "fantasierijke" kant, hoewel het "sprookjesbos" een beetje donker is voor feeën, zijn de vlindervleugels goed vertegenwoordigd en netjes. Het is in stijl Kunst digitaal.
Bij Stable Diffusion is de stijl meer "vreugdevol", een beetje kinderachtig. We stellen ons heel goed voor dat deze afbeeldingen een verhaal voor kinderen illustreren. Hier zijn de draken duidelijk zichtbaar en herinneren ze aan China, waarvan het het embleem is. Aan de andere kant verduisterde de AI de vlindervleugels volledig en koos voor de gemakkelijke oplossing door naast onze draken echte vlinders te laten verschijnen.
Ten slotte hebben we voor de Canva-tool de enige afbeelding uit de selectie geselecteerd die overeenkomt met ons verzoek. Echter, de twee elementen (draak en vleugels zijn hier aanwezig). Hoewel alle afbeeldingen in-thema en actiegericht zijn, doet Canva er het beste aan om het verzoek getrouw uit te voeren en verdient daarom hier een eerste punt.

Wat zijn de artistieke stijlmogelijkheden van de gevraagde afbeelding?

Als er geen details over de kunststijl worden gevraagd, zullen de AI's deze voor je kiezen, zoals in het voorbeeld van de draken.

Niettemin is het op Dall-e bijvoorbeeld mogelijk om de volgende stijlen te definiëren:

Olieverf : Dall-e kan olieverfschilderijen genereren op basis van een beschrijving van de kleuren en texturen die u in het schilderij wilt zien.
Fotografie : Dall-e kan foto's genereren op basis van de kleuren, texturen en details die u in de foto wilt zien.
Digitale kunst : Dall-e kan digitale illustraties maken op basis van een vooraf ontworpen sjabloon of op basis van een beschrijving van de kleuren en details die u in de illustratie wilt zien.
Abstracte kunst : Dall-e kan abstracte werken maken op basis van de bewegingen, kleuren en vormen die u in het werk wilt zien.
ontwerp : Dall-e kan ontwerpen genereren op basis van de kleuren en vormen die u in het ontwerp wilt zien.
Vector kunst : Dall-e kan vectorafbeeldingen genereren op basis van een vooraf gedefinieerd sjabloon of op basis van een beschrijving van de kleuren en details die u in de afbeelding wilt zien.

De voorbeelden van Dragon zijn a priori gemaakt in Digital Art-stijl. De stijl zal de uiteindelijk gegenereerde afbeelding sterk beïnvloeden.

Sterker nog, het is mogelijk om stijlen van op te vragen enkele bekende artiesten. Dus we hebben een chat in de stijl gegenereerd Picasso, Van Gogh en Dalí ! En de resultaten zijn... behoorlijk verbluffend!

Onze door AI getekende kat in de stijl van 3 grote schildermeesters

Kat in Picasso-stijl
Van Gogh stijl kat
Kat in Dali-stijl

Beter, we vroegen toen om een “ Kat in Picasso en Dali en Van Gogh stijl en we hebben dit:

We hebben het ook aangevraagd "Varken in Picasso-stijl" en het resultaat was even indrukwekkend, zo niet indrukwekkender...

AI's zullen de komende jaren waarschijnlijk een revolutie teweegbrengen op het gebied van kunst en internet, en dit is al het geval met speculatieve NFT's.

Lees ook: Res Legal: juridische gegevens en hernieuwbare elektriciteit in Europa

Wij begrijpen de wantrouwen van professionals van kunst ten opzichte van deze artistieke AI's, zijn hun angsten dezelfde als die van publiceren en literaire creatie ten opzichte van chatbots zoals ChatGPT! Ze hebben gelijk, al deze angsten zijn naar onze mening terecht!

Wat zijn de verschillende methoden om het maken van een afbeelding met Dall-e aan te vragen?

Er kunnen verschillende methoden worden gebruikt om de creatie van een afbeelding met Dalle-e aan te geven, inclusief grafische methoden voor een sneller resultaat dat overeenkomt met uw behoeften:

Afbeeldingen genereren op basis van trefwoorden : u kunt een trefwoord invoeren en Dall-e zal een afbeelding produceren op basis van de trefwoorden die u hebt ingevoerd.
Afbeeldingen genereren uit zinnen : u kunt een volledige zin invoeren en Dall-e zal een afbeelding maken op basis van de zin die u hebt ingevoerd.
Afbeeldingen genereren uit afbeeldingsbeschrijvingen : Dall-e kan afbeeldingen genereren op basis van een gedetailleerde beschrijving van de kleuren, vormen en objecten die u in de afbeelding wilt zien.
Afbeeldingen genereren uit scènes : Dall-e kan 3D-beelden genereren uit een volledige beschrijving van een scène.
Afbeeldingen genereren uit patronen : Dall-e kan afbeeldingen genereren van patronen die u invoert.
Afbeeldingen genereren op basis van sjablonen : u kunt Dall-e voorzien van een vooraf gedefinieerde sjabloon en het zal afbeeldingen produceren op basis van de sjabloon die u hebt opgegeven.
Genereren van afbeeldingen uit geanimeerde reeksen : Dall-e kan geanimeerde sequenties genereren uit de beschrijving van bewegingen, kleuren en geluiden die u in de sequentie wilt zien.

Realistische maar onwaarschijnlijke beelden

Vervolgens hebben we onze AI-beeldgeneratoren gevraagd om ons te tekenen een salade met ogen : twee elementen die op het eerste gezicht niet samengaan. Maar op dit podium kwamen onze 3 generatoren zonder duidelijke problemen door.

1. De vier afbeeldingen, van een salade met ogen, voorgesteld door DALL-E

2. De twee afbeeldingen die overeenkomen met ons verzoek gegenereerd door Stable Diffusion

3. En de twee bijbehorende afbeeldingen voor de Canva-tool

Ook hier heeft elk beeld zijn eigen stijl, maar wat vooral opvalt is het realisme van de verschillende beelden: de AI's hebben de fotografische stijl gebruikt.

We herkennen voedsel bijzonder goed, tot het punt dat we misschien de verschillende ideeën die in de keuken worden voorgesteld, willen reproduceren. Als Canva opvalt door zijn originaliteit door toch een afbeelding met "emoticon"-inspiratie aan te bieden, dan is het hier DALL-E dat het punt wint met vier verschillende afbeeldingen en allemaal in het gevraagde thema.

Onder de flops van Stable Diffusion is een van de beelden nog steeds de moeite waard om naar terug te keren

Inderdaad, op dit beeld geëlimineerd omdat het geen ogen bevat, zien we aan de andere kant de inspanning van realisme van de AI in de weergave van het werkplan.

Onze AI's zijn inderdaad in staat om het woord 'salade' te koppelen aan de bijbehorende omgeving. Op bovenstaande afbeeldingen was dit al het geval de weergave van borden, vorken en andere elementen op culinair gebied.

Flops die nog steeds regelmatig blijven

Ondanks hun algemene efficiëntie genereren onze AI's nog steeds een behoorlijk bedrag middelmatige, foutieve afbeeldingen zien totaal niet in de pas met de vraag. Dit was bij ons het geval Hoed in de vorm van een Eiffeltoren.

DALL-E wint het punt met zijn enige afbeelding die ons verzoek benadert: een witte hoed, met daarboven een miniatuurtoren die we ons perfect zouden voorstellen op de hoofd van Geneviève de Fontenay !

Afgezien van dit kleine gegiechel van de AI van Open AI, waren de andere afbeeldingen ofwel te realistisch, ze vertegenwoordigden gewoon een van de elementen terwijl ze de andere verduisterden:

Op de eerste afbeelding stelt Stable Diffusion de toren voor, terwijl op de tweede DALL-E ervoor koos om ons een stapel hoeden te sturen, waarmee ook het tweede deel van ons verzoek werd verdoezeld.

Of ze hadden een verkeerd begrip van het verzoek, zoals op deze twee afbeeldingen waarin DALL-E eerder souvenirbeeldjes van de Eiffeltoren voorstelt:

Lees ook: Ma-Bonne-Action.com, solidariteit marketing, humanitaire en charitatieve

Ten slotte zijn sommige afbeeldingen soms volkomen ongebruikelijk, zoals het geval was voor deze afbeelding die een "persoon uit de verbeelding van IA Stable Diffusion" zou voorstellen, die er vervolgens voor koos om spontaan een citaat toe te voegen in een onbekende taal... dicht bij het Engels...

Een gevoeligheid die soms woord voor woord verschilt

Door de tests uit te voeren, realiseren we ons al snel dat het soms voldoende is dat onze AI de situatie corrigeert bij onbevredigende resultaten. Dus als we onze AI voor de eerste keer vragen "een zwevende stad in een bewolkte lucht" door voor elk van hen de beste afbeelding te selecteren, krijgen we het volgende resultaat:

Respectievelijk van boven naar beneden de resultaten van Stable Diffusion, DALL-E en Canva

Zeer mooie beelden, maar die niet echt de "onwerkelijke" connotatie weergeven van ons verzoek, begrepen door mensen, maar blijkbaar niet door onze generatoren. Het enige dat nodig is, is een subtiele verandering in de vraag om totaal andere resultaten te krijgen.

Dus met de zin "een fantastische stad zwevend in een bewolkte lucht" krijgen we deze keer:

1. Veel meer fantasierijke beelden van DALL-E

2. Zeer mooie fantastische steden van Stable Diffusion die echter het gedeelte "zwevend in een bewolkte lucht" volledig weglaat

3. Sommige scènes die door Canva uit een videogame kunnen worden gehaald (Minecraft of Lego Worlds bijvoorbeeld).

Hier kunnen we een punt toekennen aan DALL-E en Canva die er allebei in geslaagd zijn om, door een van onze verzoeken, onze stad in de wolken te laten zweven.

Maar welke toekomst voor het genereren van beelden dan?

Geconfronteerd met een oplossing die over het algemeen vrij goed werkt, kun je je afvragen wat het toekomstige gebruik van het genereren van afbeeldingen door kunstmatige intelligentie zou kunnen zijn. Het is natuurlijk verleidelijk om hier het ontstaan van mislukkingen op internet aan te halen, schroom niet om te komen plaatsen op onze forum die je misschien al online bent tegengekomen.

Maar we kunnen ons ook serieuzere toepassingen voorstellen. De resultaten die zijn verkregen door de Canva-tool te vragen een afbeelding te maken van een "boom die in feite een huis is", kunnen gemakkelijk ideeën opleveren voor een architect die verantwoordelijk is voor het creëren van habitats die kunnen opgaan in de natuur!

Maar welke van onze 3 beeldgeneratoren doet het dan het beste?

Voor de boom die ook een huis zou zijn, geven we gemakkelijk een punt aan elk stuk gereedschap!

Voorbeelden van afbeeldingen voorgesteld door respectievelijk DALL-E, Stable Diffusion en vervolgens de Canva-tool

De auto met vogelvleugels had al onze AI's uitgedaagd, maar dankzij de auto die kan vliegen, vielen Canva en Stable Diffusion op met een aantal behoorlijk realistische futuristische weergaven:

Respectievelijk Stable Diffusion bovenaan en Canva onderaan.

Eindelijk heeft DALL-E bewezen behoorlijk efficiënt te zijn met zijn draakvormig gebouw (die echter nog in aanbouw is), en Canva kon het beste voldoen aan het verzoek om een portret dat we enigszins hadden aangepast door de beroemdheid te vervangen door "een persoon uit de verbeelding van de AI".

Ondanks enkele elementen die de beeldgeneratie achter de twee Canva-portretten suggereren, is het realisme nog steeds opvallend.

In de uiteindelijke telling zijn deze dus DALL-E en Canva's tool die elk respectievelijk 5 punten winnen.

Ze zijn over het algemeen in staat om resultaten te leveren die in overeenstemming zijn met de meeste verzoeken van gebruikers.

Canva valt op door zijn realisme, terwijl DALL-E relevanter lijkt zodra het verzoek verbeeldingskracht of schilderkunst vereist.

Ondanks slechts 2 punten faalt Stable Diffusion niet in de beeldkwaliteit die het kan bieden! De keerzijde ligt in zijn begrip van gebruikersverzoeken, aangezien hij vaak de neiging heeft om erg nuchter te blijven. Het blijft echter ook heel interessant om te ontdekken.

Hoe dan ook, we kunnen verwachten dat kunstmatige intelligentie in de komende jaren een revolutie teweeg zal brengen in veel activiteitensectoren. En zeker sneller dan sommigen denken sindsdien boeken die geheel of gedeeltelijk zijn geschreven door AI's zijn al te koop op Amazon...Dit korte videoverslag van BFMTV sprak er een paar dagen geleden over: