Yapay zekayı ölçen testlerin çoğu hatalı çıktı

Oxford, Stanford ve Berkeley üniversitelerinin de yer aldığı uluslararası araştırma, yapay zekanın güvenliği ve performansını değerlendiren 445 testin büyük kısmında ciddi geçerlilik sorunları bulunduğunu ortaya koydu.

04.11.2025 - 17:07 Yayınlanma

Yapay zekayı ölçen testlerin çoğu hatalı çıktı

İngiltere Yapay Zeka Güvenlik Enstitüsü öncülüğünde yürütülen ve Oxford, Stanford, Berkeley gibi dünyanın önde gelen üniversitelerinden bilim insanlarının katkı sunduğu kapsamlı bir araştırma, yapay zekayı değerlendirmede kullanılan yüzlerce testin güvenilirliğini sorguladı.

Araştırma ekibi, "Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği" başlıklı çalışmada, yapay zekanın alt dallarından olan doğal dil işleme ve makine öğrenimi alanlarında kullanılan 445 değerlendirme testini mercek altına aldı.

Bilim insanları, testlerin neredeyse tamamında "sonuçların geçerliliğini zedeleyecek" düzeyde hatalar tespit etti. Bu kusurların, modellerin güvenliği, doğruluğu ve etkinliği hakkında yapılan değerlendirmeleri geçersiz kılabileceği vurgulandı.

Çalışmanın baş yazarı, Oxford İnternet Enstitüsünden Andrew Bean, Guardian’a yaptığı açıklamada, bu testlerin büyük teknoloji şirketleri tarafından piyasaya sürülen yeni yapay zeka modellerinin başarısını ölçmede temel alındığını belirtti.

Bean, “Bu testler yapay zekayla ilgili tüm iddiaların temelini oluşturuyor. Ortak tanımlar ve sağlam ölçüm yöntemleri olmadan modellerin gerçekten gelişip gelişmediğini anlamamız mümkün değil,” ifadelerini kullandı.

Uzmanlar, hatalı değerlendirmelerin, yapay zekanın toplum üzerindeki etkilerini anlamayı ve güvenlik standartlarını belirlemeyi güçleştirdiğine dikkat çekti.

Kaynak: HABER MERKEZİ