İnsanlar yeni problemleri, herhangi bir özel eğitim veya uygulama olmaksızın, bunları tanıdık problemlerle karşılaştırarak ve çözümü yeni probleme genişleterek kolayca çözerler. Analojik muhakeme olarak bilinen bu sürecin, uzun zamandır eşsiz bir insan yeteneği olduğu düşünülüyordu.
UCLA psikologları tarafından yapılan araştırma, şaşırtıcı bir şekilde, yapay zekâ dil modeli GPT-3'ün, zekâ testlerinde ve SAT gibi standartlaştırılmış testlerde tipik olarak ortaya çıkan türde akıl yürütme problemlerini çözmeleri istendiğinde üniversite mezunları kadar iyi performans gösterdiğini gösteriyor.
Ancak makalenin yazarları, çalışmanın şu soruyu gündeme getirdiğini yazıyor: GPT-3, devasa dil eğitimi veri setinin bir yan ürünü olarak insan muhakemesini mi taklit ediyor yoksa temelde yeni bir tür bilişsel süreç mi kullanıyor?
GPT-3'ün iç işleyişine erişim olmadan, UCLA bilim adamları muhakeme yeteneklerinin nasıl çalıştığını kesin olarak söyleyemezler. Ayrıca, GPT-3'ün bazı muhakeme görevlerinde beklediklerinden çok daha iyi performans göstermesine rağmen, popüler yapay zekâ aracının diğerlerinde yine de muhteşem bir şekilde başarısız olduğunu yazıyorlar.
UCLA'da psikoloji alanında doktora sonrası araştırmacı ve çalışmanın ilk yazarı olan Taylor Webb, "Sonuçlarımız ne kadar etkileyici olursa olsun, bu sistemin önemli sınırlamaları olduğunu vurgulamak önemlidir" dedi. "Analojik akıl yürütme yapabilir, ancak fiziksel bir görevi çözmek için araçlar kullanmak gibi insanlar için çok kolay olan şeyleri yapamaz. Ona bu tür, bazılarını çocukların hızla çözebileceği problemler verdiğimizde önerdiği şeyler saçmaydı."
Webb ve meslektaşları, GPT-3'ün bir dizi sorunu çözme becerisini, deneğin karmaşık bir şekil düzenlemesinde bir sonraki görüntüyü tahmin etmesini isteyen Raven'ın Progresif Matrisleri olarak bilinen bir testten esinlenerek test ettiler. GPT-3'ün şekilleri "görmesini" sağlamak için Webb, görüntüleri GPT-3'ün işleyebileceği bir metin biçimine dönüştürdü; bu yaklaşım aynı zamanda yapay zekanın bu sorularla daha önce hiç karşılaşmayacağını da garanti ediyordu.
Araştırmacılar 40 UCLA lisans öğrencisinden aynı problemleri çözmelerini istedi.
Çalışmanın kıdemli yazarı UCLA psikoloji profesörü Hongjing Lu, "Şaşırtıcı bir şekilde, GPT-3 sadece insanlar kadar iyi değil, aynı zamanda benzer hatalar da yaptı" dedi.
GPT-3, problemlerin %80'ini doğru bir şekilde çözdü. İnsan deneklerin ortalama puanı olan %60'ın biraz üzerinde, ancak en yüksek insan puanlarının oldukça içinde.
Araştırmacılar ayrıca GPT-3'ü internette hiç yayınlanmadığına inandıkları bir dizi SAT benzetme sorularını çözmeye yönlendirdi. Bu, soruların GPT-3'ün eğitim verilerinin bir parçası olma ihtimalinin düşük olduğu anlamına geliyor. Sorular, kullanıcılardan aynı türden ilişkileri paylaşan kelime çiftlerini seçmelerini ister. (Örneğin, "'Aşk', 'nefret etmektir', çünkü 'zengin' hangi kelimeye karşılık gelir?" probleminde, çözüm "fakir" olacaktır.)
GPT-3'ün puanlarını üniversite adaylarının SAT puanlarının yayınlanan sonuçlarıyla karşılaştırdılar ve yapay zekanın insanlar için ortalama puandan daha iyi performans gösterdiğini buldular.
Araştırmacılar daha sonra GPT-3'ten ve öğrenci gönüllülerden kısa öykülere dayalı benzetmeler çözmelerini istedi. Onlardan bir pasajı okumalarını ve ardından aynı anlamı taşıyan farklı bir öykü belirlemelerini istedi. OpenAI teknolojisinin en son yinelemesi olan GPT-4, GPT-3'ten daha iyi performans gösterse de teknoloji bu problemlerde öğrencilerden daha az başarılı oldu.
UCLA araştırmacıları, insan bilişinden ilham alan kendi bilgisayar modellerini geliştirdiler ve yeteneklerini ticari yapay zekanınkilerle karşılaştırıyorlar.
UCLA psikoloji profesörü Keith Holyoak, "Yapay zekâ daha iyiye gidiyordu, ancak psikolojik YZ modelimiz, Taylor'ın GPT-3'ün en son yükseltmesini aldığı geçen aralık ayına kadar analoji problemlerini çözmede hala en iyisiydi ve o kadar iyi ya da daha iyiydi" dedi çalışmanın ortak yazarı.
Araştırmacılar, GPT-3'ün şimdiye kadar fiziksel alanı anlama gerektiren sorunları çözemediğini söyledi. Örneğin, sakız toplarını bir kâseden diğerine aktarmak için kullanabileceği bir dizi aletin açıklamaları sağlandığında, GPT-3 tuhaf çözümler önerdi.
Lu, "Dil öğrenme modelleri sadece kelime tahmini yapmaya çalışıyor, bu yüzden akıl yürütme yapabildiklerine şaşırdık" dedi. "Geçtiğimiz iki yılda, teknoloji önceki enkarnasyonlarına göre büyük bir sıçrama yaptı."
UCLA bilim adamları, dil öğrenme modellerinin aslında insanlar gibi "düşünmeye" başlayıp başlamadığını veya yalnızca insan düşüncesini taklit eden tamamen farklı bir şey yapıp yapmadığını keşfetmeyi umuyor.
Holyoak, "GPT-3 bir tür insan gibi düşünüyor olabilir" dedi. "Fakat öte yandan, insanlar tüm interneti yutarak öğrenmediler, bu yüzden eğitim yöntemi tamamen farklı. Bunu gerçekten insanların yaptığı gibi mi yapıyor, yoksa yepyeni bir şey mi, bilmek istiyoruz."
Öğrenmek için, yapay zekâ modellerinin kullandığı, yazılıma ve yazılımı eğitmek için kullanılan verilere erişim gerektiren temel bilişsel süreçleri belirlemeleri ve ardından yazılımın henüz yapmadığından emin oldukları testleri uygulamaları gerekir. Bunun, yapay zekanın ne olması gerektiğine karar vermede bir sonraki adım olacağını söylediler.
Webb, "Yapay zekâ ve bilişsel araştırmacıların GPT modellerinin arka ucuna sahip olması çok yararlı olacaktır" dedi. "Sadece girdiler yapıyoruz ve çıktılar alıyoruz ve olmasını istediğimiz kadar belirleyici değil."