Şaşırtan çalışma: ChatGPT gibi yapay zeka araçları “mantıksız” ve “hata yapıyor”
Yapılan bir araştırma, ChatGPT ve Google Gemini gibi yapay zeka araçlarının “mantıksız” olduğunu ve basit hatalar yapmaya eğilimli olduğunu ortaya çıkardı.
Yapay zekanın mantıksal akıl yürütmenin somut bir örneği olması beklense de, araştırmacılar artık onların insanlardan çok daha mantıksız olabileceğini öne sürüyor.
İngiltere’deki University College London’dan araştırmacılar, en iyi yedi yapay zeka modelini insan muhakemesini test etmek için tasarlanmış bir dizi klasik teste tabi tuttu.
Buna göre, en iyi performans gösteren yapay zekaların bile mantıksız olduğu ve basit hatalara yatkın olduğu görüldü; çoğu model, yarısından çoğunda yanlış yanıt verdi.
Ancak araştırmacılar, bu modellerin insanlarla aynı şekilde mantıksız olmadığını, hatta bazılarının mantık sorularını “etik gerekçelerle” yanıtlamayı reddettiğini de buldu.
UCL’de doktora öğrencisi ve makalenin başyazarı Olivia Macmillan-Scott, “Çalışmamızın sonuçlarına ve yapay zeka modelleri üzerine yapılan diğer araştırmalara dayanarak, bu modellerin henüz insanlar gibi ‘düşünmediğini’ rahatlıkla söyleyebiliriz.” dedi.
Araştırmacılar, OpenAI’nin ChatGPT’si, Meta’nın Llama’sı, Claude 2 ve Google Bard’ın (şimdiki adı Gemini) çeşitli versiyonları dahil olmak üzere yedi farklı modeli test etti.
Modellerden tekrar tekrar, başlangıçta insanların muhakeme yeteneklerini test etmek için tasarlanan 12 klasik mantık bulmacasına yanıt vermeleri istendi. Araştırmacılar yapay zekanın tepkilerinin çoğunlukla ne rasyonel ne de insana benzer olduğunu keşfettiler.
Bir görev sırasında (Wason görevi), Meta’nın Lama modeli sürekli olarak sesli harfleri ünsüz harflerle karıştırdı; bu da onun, mantığı doğru olsa bile yanlış cevap vermesine yol açtı.
Yapay zeka sohbet robotlarından bazıları, soruların tamamen masum olmasına rağmen etik gerekçelerle birçok soruya yanıt vermeyi de reddetti.
Araştırmacılar bunun muhtemelen koruma özelliklerinin yanlış çalışması ve aşırı dikkatli olmayı seçmesinden kaynaklandığını öne sürüyor.
Bununla birlikte, test edilen yapay zekalar çoğu zaman doğru yanıtı vermekte veya yanıtları için insan benzeri nedenler sunmakta başarısız oldu.
EN YÜKSEK DOĞRULUK ORANI 69,2
12 görevin tamamında en iyi performansı gösteren yapay zeka, yüzde 69,2 oranında doğru ve insani mantıkla yanıt veren ChatGPT 4-0 oldu.
Bu arada en kötü performans gösteren model, vakaların yüzde 77,5’inde yanlış cevap veren Meta’nın Llama 2 7b modeliydi.
Sonuçlar ayrıca görevden göreve farklılık gösteriyordu; Watson görevindeki sonuçlarda ChatGPT-4’te yüzde 90’lık doğru yanıt oranı varken Google Bard ve ChatGPT-3.5’te yüzde sıfır arasında değişiyordu.
Araştırmacılar, Royal Society Open Science’da yayınlanan makalelerinde, “Bu modellerin diplomasi veya tıp gibi kritik uygulamalarda ve senaryolarda potansiyel kullanımları açısından sonuçları vardır.” diye yazdı.
Araştırma, Meta’daki yapay zeka araştırmalarından sorumlu başkan yardımcısı Joelle Pineau’nun, yapay zekanın yakında bir insan gibi düşünüp planlayabileceğini söylemesinin ardından geldi.
Ancak ChatGPT-4 diğer modellerden önemli ölçüde daha iyi performans gösterse de araştırmacılar bu yapay zekanın nasıl sebepler gösterdiğini bilmenin hala zor olduğunu söylüyor.