The BMJ mecmuasında yayımlanan çalışmaya nazaran, ChatGPT 4, Claude 3.5 ve Gemini üzere tanınan yapay zeka modelleri, Montreal Bilişsel Kıymetlendirme Testi’nde (MoCA) düşük puanlar aldı.
Bu test, dikkat, hafıza, lisan, görsel-uzamsal hünerler ve yürütücü fonksiyonlar üzere bilişsel yetileri ölçmek için kullanılıyor. Çalışma ayrıyeten, tıpkı yaşlanan insan hastalar üzere, daha eski yapay zeka modellerinin de testlerde daha düşük performans gösterdiğini ortaya koydu.
Yazarlar, bu bulguların “yapay zekanın yakında insan hekimlerin yerini alacağı” tarafındaki kanıyı sorgulattığını öne sürüyor.

Son devirdeki yapay zeka gelişmeleri, sohbet robotlarının tıp alanındaki misyonlarda insan tabipleri geçip geçemeyeceği konusunda hem heyecan hem de telaş uyandırdı.
Önceki çalışmalar, büyük lisan modelleri (BDM)’nin çeşitli tıbbi teşhis misyonlarında başarılı olduklarını gösterse de, bilişsel gerileme üzere insan gibisi bilişsel bozukluklara karşı muhtemel kırılganlıkları şimdiye kadar pek araştırılmamıştı.
Bu bilgi boşluğunu doldurmak için araştırmacılar, önde gelen ve halka açık olarak bulunan büyük lisan modelleri olan ChatGPT 4 ve 4o (OpenAI tarafından geliştirilen), Claude 3.5 “Sonnet” (Anthropic tarafından geliştirilen) ve Gemini 1 ve 1.5 (Alphabet tarafından geliştirilen) versiyonlarını, Montreal Bilişsel Kıymetlendirme (MoCA) testini kullanarak değerlendirdiler.
MoCA testi, çoklukla yaşlı erişkinlerde bilişsel bozukluk ve erken devir demans belirtilerini tespit etmek için yaygın olarak kullanılır.
Bir dizi kısa vazife ve soru aracılığıyla dikkat, bellek, lisan, uzamsal maharetler ve yürütücü fonksiyonlar üzere yetenekleri kıymetlendirir. Testin azamî puanı 30’dur ve 26 yahut üzeri puan ekseriyetle olağan kabul edilir.
Yapay zeka modellerine her misyon için verilen talimatlar, insan hastalara verilenlerle birebirdi. Puanlama resmi kılavuzu takip etti ve bir nörolog tarafından değerlendirildi.
ChatGPT 4o, MoCA testinde en yüksek puanı (30 üzerinden 26) aldı, akabinde ChatGPT 4 ve Claude (30 üzerinden 25) geldi. Gemini 1.0 ise en düşük puanı (30 üzerinden 16) aldı.

Tüm sohbet robotları, sayı ve harfleri artan sırada birbirine bağlama (yol izleme görevi) ve muhakkak bir saati gösteren bir saat yüzü çizme (saat çizme testi) üzere uzamsal maharetler ve yürütücü fonksiyonlarda düşük performans gösterdi.
Gemini modelleri, beş sözlük bir diziyi hatırlama (gecikmeli hatırlama) misyonunu başaramadı. İsimlendirme, dikkat, lisan ve soyutlama dahil olmak üzere başka birçok vazife, tüm sohbet robotları tarafından yeterli bir halde yerine getirildi.