AI görüntü oluşturma eğitimi ve karşılaştırması: Dall-e VS Stable Diffusion VS Canva (Text to Image)

Mevcut medya popülaritesi ile Sohbet GPT'si bu da hakkında konuşmak için bir fırsat DÖŞEMEtarafından tasarlanan başka bir yapay zeka AI'yi aç ! Ve daha genel olarak görüntü oluşturan yapay zekalar. ChatGPT'nin şaşırtıcı bir kolaylıkla yazılı metin oluşturabildiği yerlerde, DALL-E ve benzerleri, kullanıcıdan gelen basit bir yazılı istekten görüntüler oluşturmak üzere eğitilmiştir.

Görüntü oluşturan yapay zekalarla ilgili bu karşılaştırmalı makale ile nasıl çalıştıklarına, yeteneklerine ve aynı zamanda sınırlarına bir göz atalım.

Ama bu arada, bir yapay zeka nasıl çalışır?

Özellikle ChatGPT ile ilgili önceki makalemizde ele almadığımız için, hemen geri dönmenin ilginç olabileceği çok iyi bir soru. "Yapay Zeka" denilince aklımıza filmlerde gördüğümüz bu tür insansı robotlar gelmemesi elde değil. Bu makalenin giriş resmi gibi, bu anahtar kelimelerin aranmasına karşılık gelen bir resim istendiğinde AI'ların kendilerinin ürettiği şey budur.

Bu manzara mevcut değil, bir yapay zeka tarafından oluşturulmuş %100 yapaydır.

Yine de gerçekte, mevcut yapay zekaların birçoğunun fiziksel bir zarfı yoktur. Gerçekten de, çoğu zaman, insanlar tarafından belirli az ya da çok karmaşık görevleri yerine getirmek için eğitilmiş, belirli algoritmalara dayalı bilgisayar programlarıdır.

Görüntü oluşturma, bir (veya daha fazla) yapay zekaya atanabilen bir görevdir! AI ile görüntü oluşturma yöntemleri hakkında daha fazla bilgi edinmek için aşağıdaki videoyu izlemekten çekinmeyin:

Yapay zeka ile ilk görüntülerimizi oluşturalım

Bunu yapmak için ilk bakışta hiçbir şey daha basit olamaz çünkü tek yapmanız gereken elde etmek istediğiniz görüntüyü yapay zekaya metinsel olarak anlatmak. Bu makale için üç AI oluşturucu tarafından verilen görüntüleri karşılaştırmaya karar verdik:

  • DÖŞEME
  • Kararlı Difüzyon
  • Canva (Metinden Resme)

Elbette test etmekten çekinmemeniz gereken başkaları da var. İşte burada olmayan liste.

Biraz yaratıcıysanız, görüntülerin üretilmesi için pek çok fikir bulacağınızdan eminiz. Ancak biraz daha karmaşık olacak olanlar için ChatGPT'den biraz yardım istemek mümkündür. Evet, başka bir yapay zekayı kullanmak için bir yapay zeka kullandık…

ChatGPT'nin soruya cevabı: dall.e'de bir makale yazmam gerekiyor, bu AI modeliyle oluşturulabilecek görüntüler hakkında herhangi bir fikriniz var mı?

Elbette bir görüntü oluşturma modeli olarak DALL-E çok çeşitli görüntüler oluşturabilir. DALL-E ile oluşturabileceğiniz görüntüler için bazı fikirler:

  1. Fantezi Hayvanlar: DALL-E'den kelebek kanatlı bir ejderha veya bacaklı bir yılan gibi hayali hayvanların resimlerini oluşturmasını isteyin.
  2. Garip Yiyecekler: DALL-E'den çikolatalı pizza veya karpuz dilimli hamburger gibi sıra dışı yiyeceklerin resimlerini oluşturmasını isteyin.
  3. Olağandışı giysiler: DALL-E'den Eyfel Kulesi şeklindeki bir şapka veya kanatlı ayakkabılar gibi tuhaf giysilerin resimlerini oluşturmasını isteyin.
  4. Hayali Manzaralar: DALL-E'den bulutlarda yüzen bir şehir veya dev mantarlardan oluşan bir orman gibi fantastik manzaraların resimlerini oluşturmasını isteyin.
  5. Hibrit nesneler: DALL-E'den hamak gibi görünen bir yatak veya kuş kanatlı bir araba gibi iki farklı şeyin karışımı olan nesnelerin görüntülerini oluşturmasını isteyin.
  6. Ünlü Portreleri: DALL-E'den, Marilyn Monroe'nun dövmeli alternatif bir versiyonu gibi var olmayan ünlü portrelerinin resimlerini oluşturmasını isteyin.
  7. Fütüristik arabalar: DALL-E'den uçağa dönüşebilen bir araba veya uçabilen bir araba gibi fütüristik arabaların resimlerini oluşturmasını isteyin.
  8. Fantezi Mimarisi: DALL-E'den ejderha şeklindeki bir gökdelen veya ağaca benzeyen bir ev gibi fantezi mimarisine ait görüntüler oluşturmasını isteyin.

Bu fikirler sadece size DALL-E'nin neler yapabileceğine dair bir fikir vermek için önerilerdir. Bu AI şablonuyla oluşturabileceğiniz binlerce başka görsel fikri var.

Her yapay zekanın kendi stili vardır

Bu liste ile görsellerimizi nasıl oluşturacağımızı ve seçilen farklı yazılımlardan hangisinin en iyi sonucu verdiğini birlikte görelim.

Ayrıca Oku:  Yeni'ye geçiş forum phpBB 2.0.x - phpBB 3.1!

İlk görselimiz için kelebek kanatlı ejderhayı temsil etmeyi seçtik. Bir bağlam eklemek için, bunun "bir peri masalı fantezi ormanında" tasvir edilmesini de istiyoruz. IA'lara bağlı olarak, isteğin dili sonucu etkileyebilir. DALL-E ve Kararlı Difüzyon için bunu hemen bulduk. İngilizce en iyi sonuçları veren dildi. Tersine, Canva'nın metinden resme uygulaması genellikle Fransızca'da daha iyi çalışır.

1. DALL-E, kelebek kanatlı bir ejderhanın görüntülerini oluşturdu

2. Stable Diffusion tarafından üretilen ejderhalar

3. Ve son olarak, Canva aracı için saklamayı seçtiğimiz araç

Çok çabuk görebildiğimiz ilk şey: aynı istek için her yapay zekanın kendi stili var!

  • DALL-E'nin "hayal gücü kuvvetli" bir yanı vardır, "masal" ormanı periler için biraz karanlık olsa da, kelebek kanatları iyi temsil edilmiş ve derli topludur. bu tarz Sanat Dijital.
  • Stable Diffusion'da stil daha "neşeli", biraz çocukça. Çocuklar için bir hikaye anlatan bu görüntüleri çok iyi hayal ediyoruz. Burada ejderhalar açıkça görülüyor ve amblemi olduğu Çin'i hatırlıyor. Öte yandan AI, kelebek kanatlarını tamamen gizledi ve ejderhalarımızın yanında gerçek kelebeklerin görünmesini sağlayarak kolay çözümü seçti.
  • Son olarak Canva aracı için seçimden isteğimize uygun tek görseli seçtik. Ancak iki element (burada ejderha ve kanatlar mevcuttur). Tüm resimler konuya uygun ve eyleme dönüştürülebilir olsa da Canva, isteği sadık bir şekilde yerine getirme konusunda elinden gelenin en iyisini yapıyor ve bu nedenle burada bir ilk puan kazanıyor.

İstenen görüntünün sanatsal stil olanakları nelerdir?

Sanat stili hakkında herhangi bir ayrıntı istenmezse, AI'lar ejderha örneğinde olduğu gibi sizin için bunları seçecektir.

Bununla birlikte, örneğin Dall-e'de aşağıdaki stilleri tanımlamak mümkündür:

  • Peinture à l'huile : Dall-e, tabloda görmek istediğiniz renklerin ve dokuların açıklamasından yağlı boya tabloları oluşturabilir.
  • Fotoğrafçılık : Dall-e, fotoğrafta görmek istediğiniz renklere, dokulara ve ayrıntılara göre fotoğraflar oluşturabilir.
  • Dijital sanat : Dall-e, önceden tasarlanmış bir şablondan veya resimde görmek istediğiniz renklerin ve detayların açıklamasından dijital sanat eseri üretebilir.
  • Soyut sanat : Dall-e eserde görmek istediğiniz hareket, renk ve şekillerden yola çıkarak soyut eserler üretebilmektedir.
  • dizayn : Dall-e, tasarımda görmek istediğiniz renk ve şekillere göre tasarımlar üretebilir.
  • vektör sanatı : Dall-e, önceden tanımlanmış bir şablondan veya görüntüde görmek istediğiniz renklerin ve ayrıntıların açıklamasından vektör görüntüler oluşturabilir.

Dragon örnekleri, Dijital Sanat tarzında yapılmış a priori idi. Stil, oluşturulan nihai görüntüyü güçlü bir şekilde etkileyecektir.

Daha da güçlüsü, şu tarzları talep etmek mümkündür: bazı ünlü sanatçı. Bu yüzden tarzda bir sohbet oluşturduk Picasso, Van Gogh ve Dali ! Ve sonuçlar…oldukça çarpıcı!

3 büyük resim ustasının stillerinde yapay zeka ile çizilmiş kedimiz

  1. Picasso tarzı kedi
  2. Van Gogh tarzı kedi
  3. Dali tarzı kedi

Daha iyisi, daha sonra bir “ Picasso ve Dali ve Van Gogh tarzında kedi ve bunu aldık:

biz de talep ettik "Picasso Tarzında Domuz" ve sonuç, daha fazla olmasa da eşit derecede etkileyiciydi…

Yapay Zekaların önümüzdeki yıllarda Sanat ve İnternet alanında devrim yaratması muhtemeldir (olacaktır), bu zaten spekülatif NFT'lerde geçerlidir.

Ayrıca Oku:  Web barındırma: platformunuzu nasıl seçersiniz?

anlıyoruz profesyonellere güvensizlik sanatın bu sanatsal AI'lara karşı korkuları, ChatGPT gibi sohbet robotlarına karşı yayıncılık ve edebi yaratım korkularıyla aynıdır! Haklılar, tüm bu korkular bize göre haklı!

Dall-e ile bir görüntünün oluşturulmasını talep etmenin farklı yöntemleri nelerdir?

Dalle-e ile bir görüntünün oluşturulmasını belirtmek için, ihtiyaçlarınıza karşılık gelen daha hızlı bir sonuç için grafik yöntemler dahil olmak üzere çeşitli yöntemler kullanılabilir:

  • Anahtar kelimelerden resim oluşturma : bir anahtar kelime girebilirsiniz ve Dall-e girdiğiniz anahtar kelimelere göre bir resim üretecektir.
  • Cümlelerden görüntü oluşturma : tam bir cümle girebilirsiniz ve Dall-e girdiğiniz cümleye göre bir görüntü üretecektir.
  • Görüntü açıklamalarından görüntüler oluşturma : Dall-e, görüntüde görmek istediğiniz renklerin, şekillerin ve nesnelerin ayrıntılı açıklamalarından görüntüler oluşturabilir.
  • Sahnelerden görüntüler oluşturma : Dall-e, bir sahnenin tam tanımından 3 boyutlu görüntüler oluşturabilir.
  • Desenlerden görüntüler oluşturma : Dall-e, girdiğiniz kalıplardan görüntüler oluşturabilir.
  • Şablonlardan Görüntü Oluşturma : Dall-e'ye önceden tanımlanmış bir şablon sağlayabilirsiniz ve Dall-e, sağladığınız şablona göre görüntüler üretecektir.
  • Animasyon dizilerinden görüntülerin oluşturulması : Dall-e, dizide görmek istediğiniz hareketlerin, renklerin ve seslerin açıklamasından animasyonlu diziler oluşturabilir.

Gerçekçi ama olası olmayan görüntüler

Daha sonra yapay zeka görüntü oluşturucularımızdan bizi çizmelerini istedik. gözleri olan bir salata : İlk bakışta bir araya gelmeyen iki unsur. Ancak bu etapta 3 jeneratörümüz hiçbir zorluk çekmeden geçti.

1. DALL-E tarafından önerilen, gözleri olan bir salatanın dört resmi

2. Kararlı Difüzyon tarafından oluşturulan isteğimize karşılık gelen iki resim

3. Ve Canva aracı için karşılık gelen iki resim

Burada yine her görüntünün kendi stili vardır, ancak özellikle çarpıcı olan, farklı görüntülerin gerçekçiliğidir: AI'lar fotoğraf stilini kullanmışlardır.

Mutfakta önerilen farklı fikirleri yeniden üretmek isteyebileceğimiz noktaya kadar, yiyecekleri özellikle iyi tanıyoruz. Canva, yine de "ifade" esintileri taşıyan bir görsel sunarak orijinalliğiyle öne çıkıyorsa, burada DALL-E dört farklı görselle ve hepsi istenen temada puan kazanıyor.

Kararlı Difüzyon başarısızlıkları arasında, görüntülerden biri hala geri dönmeye değer.

Nitekim göz içermediği için elenen bu görselde, öte yandan yapay zekanın çalışma planının temsilinde gerçekçilik çabasını görüyoruz.

AI'larımız gerçekten de "salata" kelimesini karşılık gelen ortamla ilişkilendirebilir. Bu, yukarıdaki resimlerde zaten böyleydi. tabakların, çatalların temsili ve mutfak alanıyla ilgili diğer unsurlar.

Hala normal kalan başarısızlıklar

Genel verimliliklerine rağmen, AI'larımız hala iyi bir miktar üretiyor. vasat, hatalı görüntüler talebe tamamen ayak uyduramaz. bizim için durum böyleydi Eyfel Kulesi şeklinde şapka.

DALL-E, isteğimize yaklaşan tek görüntüsüyle puan kazanıyor: üzerinde mükemmel bir şekilde hayal edebileceğimiz minyatür bir Kule ile örtülü beyaz bir şapka. Geneviève de Fontenay'ın başkanı !

Open AI'ın yapay zekasının sunduğu bu küçük kıkırdama dışında, diğer görseller ya fazla gerçekçiydi, basitçe öğelerden birini temsil ederken diğerini karartıyordu:

İlk görüntüde Kararlı Difüzyon Kule'yi temsil ederken, ikinci görüntüde DALL-E bize bir yığın şapka göndermeyi seçerek talebimizin ikinci bölümünü de gizledi.

DALL-E'nin daha çok Eyfel Kulesi'nin hatıra heykelciklerini temsil ettiği bu iki görseldeki gibi ya talebi yanlış anlamışlardır:

Ayrıca Oku:  Kirliliği yeni teknolojiler: BT, internet, yüksek teknoloji ... 2

Son olarak, "IA Stable Difüzyon'un hayal gücünden bir kişiyi" temsil etmesi gereken bu görüntünün, daha sonra bilinmeyen bir dilde... İngilizce'ye yakın bir dilde kendiliğinden bir alıntı eklemeyi seçmesi gibi, bazı görüntüler bazen tamamen sıra dışıdır...

Bazen kelimeden kelimeye değişen bir hassasiyet

Testleri gerçekleştirerek, tatmin edici olmayan sonuçlar olması durumunda yapay zekamızın durumu düzeltmesi için bazen yalnızca bir ayrıntının yeterli olduğunu çabucak anlıyoruz. Bu yüzden AI'larımıza her biri için en iyi görüntüyü seçerek ilk kez "bulutlu bir gökyüzünde yüzen bir şehir" sorduğumuzda aşağıdaki sonucu alıyoruz:

Sırasıyla yukarıdan aşağıya, Stable Difüzyon, DALL-E ve Canva'nın sonuçları

Çok güzel görüntüler, ancak talebimizin insanlar tarafından anlaşılan ama görünüşe göre jeneratörlerimiz tarafından anlaşılmayan "gerçek dışı" çağrışımını gerçekten yansıtmayan görüntüler. Tamamen farklı sonuçlar elde etmek için tek gereken talepte ince bir değişiklik.

Yani "bulutlu bir gökyüzünde yüzen fantastik bir şehir" cümlesiyle bu sefer şunu elde ederiz:

1. DALL-E'den çok daha yaratıcı görüntüler

2. "Bulutlu bir gökyüzünde süzülmek" kısmını tamamen atlayan Stable Diffusion'dan oldukça fantastik şehirler

3. Canva'nın bir video oyunundan (örneğin Minecraft veya Lego Worlds) alınabilecek bazı sahneler

Burada, taleplerimizden biri veya diğeriyle şehrimizi bulutların üzerinde uçurmayı başaran DALL-E ve Canva'ya bir puan verebiliriz.

Ama sonra, görüntülerin üretimi için hangi gelecek?

Genel olarak oldukça iyi çalışan bir çözümle karşı karşıya kalındığında, yapay zeka tarafından görüntü üretiminin gelecekteki kullanımlarının ne olabileceği merak ediliyor. Elbette burada internette başarısız olanların yaratılmasından alıntı yapmak cazip geliyor, gelmekten çekinmeyin bizimkinde yayınla forum zaten çevrimiçi karşılaşmış olabileceğiniz şeyler.

Ancak daha ciddi kullanımları da hayal edebiliriz. Dolayısıyla, Canva aracından “aslında bir ev olan bir ağaç” görüntüsü oluşturmasını isteyerek elde edilen sonuçlar, doğayla bütünleşebilecek yaşam alanları yaratmaktan sorumlu bir mimara kolayca fikir verebilir!

Peki, 3 görüntü oluşturucumuzdan hangisi en iyisini yapıyor?

Aynı zamanda bir ev olacak ağaç için, her araca kolayca bir puan veriyoruz!

Sırasıyla DALL-E, Stable Difüzyon ve ardından Canva aracı tarafından önerilen görüntü örnekleri

Kuş kanatlı araba, tüm AI'larımıza meydan okudu, ancak uçabilen araba, Canva ve Stable Diffusion'ın bazı oldukça gerçekçi fütüristik görüntülerle öne çıkmasını sağladı:

Sırasıyla Stable Difusion üstte ve Canva altta.

Sonunda DALL-E, oldukça verimli olduğunu gösterdi. ejderha şeklindeki bina (ancak yapım aşamasındadır) ve Canva, ünlüyü "yapay zekanın hayal gücünden bir kişi" ile değiştirerek bir şekilde değiştirdiğimiz bir portre talebini en iyi şekilde karşılayabildi.

İki Canva portresinin ardındaki görüntü oluşumunu düşündüren bazı unsurlara rağmen, gerçekçilik hala çarpıcı.

Son sayımda, bunlar bu nedenle DALL-E ve Canva'nın her biri 5'er puan kazandıran aracı.

Genellikle kullanıcı isteklerinin büyük bir çoğunluğu doğrultusunda sonuç verebilmektedir.

Canva, gerçekçiliğiyle ön plana çıkarken, DALL-E, talep hayal gücü veya resim alanı gerektirdiğinde daha alakalı görünüyor.

Ancak sadece 2 puan almasına rağmen Stable Diffusion sağladığı görüntü kalitesinden ödün vermiyor! Dezavantajı, genellikle çok gerçekçi kalma eğiliminde olduğu için kullanıcı isteklerini anlamasında yatmaktadır. Bununla birlikte, keşfedilmesi de çok ilginç olmaya devam ediyor.

Her neyse, önümüzdeki yıllarda yapay zekanın birçok faaliyet sektöründe devrim yaratmasını bekleyebiliriz. Ve kesinlikle bazılarının düşündüğünden daha hızlı Kısmen veya tamamen yapay zekalar tarafından yazılan kitaplar zaten Amazon'da satışta…BFMTV'den gelen bu kısa video raporu, birkaç gün önce bundan bahsetti:

Herhangi bir açıklama veya soru için, konuyu ziyaret edin forum yapay zekaya adanmış.

YORUM BIRAKIN

E-posta adresiniz gösterilmeyecektir. Doldurulması zorunlu alanlar * ile işaretlenmiştir *