Çoğu yapay zeka testinin bize bu kadar az şey söylemesinin nedeni budur

Çoğu yapay zeka testinin bize bu kadar az şey söylemesinin nedeni budur

Salı günü Anthropic girişimi piyasaya sürülmüş sınıfının en iyi performansına ulaştığını iddia ettiği bir üretken yapay zeka modelleri ailesi. Birkaç gün sonra rakip Çekim AI OpenAI’nin de aralarında bulunduğu en yetenekli modellerden bazılarıyla eşleşmeye yaklaştığını iddia ettiği bir modeli tanıttı. GPT-4kalitede.

Anthropic ve Inflection, modellerinin rekabeti karşıladığını veya objektif bir ölçüye göre yendiğini iddia eden ilk yapay zeka firmaları kesinlikle değil. Google da aynısını savundu İkizler burcu modeller piyasaya sürüldüğünde ve OpenAI bunu GPT-4 ve öncülleri için söyledi, GPT-3, GPT-2 ve GPT-1. liste gitmek Açık.

Peki hangi ölçümlerden bahsediyorlar? Bir satıcı, bir modelin en son teknolojiye sahip performansa veya kaliteye ulaştığını söylediğinde, bu tam olarak ne anlama geliyor? Belki daha da önemlisi: Teknik olarak başka bir modelden daha iyi “performans” sergileyen bir model gerçekten de daha iyi performans gösterecek mi? hissetmek somut bir şekilde iyileştirildi mi?

Bu son soruda pek olası değil.

Bunun nedeni, daha doğrusu sorun, yapay zeka şirketlerinin bir modelin güçlü ve zayıf yönlerini ölçmek için kullandığı kriterlerde yatıyor.

Bugün yapay zeka modelleri için en yaygın kullanılan kıyaslamalar (özellikle OpenAI’ler gibi chatbot destekli modeller) SohbetGPT ve Antropik Claude – ortalama bir kişinin test edilen modellerle nasıl etkileşime girdiğini yakalama konusunda kötü bir iş çıkarıyorlar. Örneğin, Anthropic’in son duyurusunda alıntı yaptığı bir kıyaslama olan GPQA (“Lisans Düzeyinde Google Kanıtı Soru ve Cevap Karşılaştırması”), yüzlerce doktora düzeyinde biyoloji, fizik ve kimya sorusu içeriyor – ancak çoğu kişi sohbet robotlarını bunun için kullanıyor. gibi görevler e-postalara yanıt vermek, kapak mektupları yazmak Ve onların duyguları hakkında konuşuyoruz.

Kâr amacı gütmeyen yapay zeka araştırma kuruluşu Allen Yapay Zeka Enstitüsü’nden bilim adamı Jesse Dodge, sektörün bir “değerlendirme krizine” ulaştığını söylüyor.

Dodge, TechCrunch’a verdiği bir röportajda şunları söyledi: “Kıyaslamalar genellikle statiktir ve bir modelin tek bir alandaki gerçekliği veya matematiksel muhakeme çoktan seçmeli soruları çözme yeteneği gibi tek bir yeteneğin değerlendirilmesine dar bir şekilde odaklanır.” “Değerlendirme için kullanılan kriterlerin çoğu, yapay zeka sistemlerinin çoğunlukla yalnızca araştırma için kullanıldığı ve çok fazla gerçek kullanıcıya sahip olmadığı dönemden bu yana üç yıldan fazla bir geçmişe sahip. Ayrıca insanlar üretken yapay zekayı birçok şekilde kullanıyor; çok yaratıcılar.”

En çok kullanılan kıyaslamaların tamamen işe yaramaz olduğu söylenemez. Birisi şüphesiz ChatGPT doktora düzeyinde matematik soruları soruyor. Bununla birlikte, üretken yapay zeka modelleri giderek kitlesel pazar, “her şeyi yapan” sistemler olarak konumlandırıldıkça, eski ölçütler daha az uygulanabilir hale geliyor.

Cornell’de yapay zeka ve etik üzerine çalışan doktora sonrası araştırmacı David Widder, ilkokul düzeyindeki matematik problemlerini çözmekten bir cümlenin anakronizm içerip içermediğini belirlemeye kadar ortak değerlendirme testindeki becerilerin çoğunun kullanıcıların çoğunluğu için asla alakalı olmayacağını belirtiyor.

Widder, TechCrunch’a şunları söyledi: “Eski yapay zeka sistemleri genellikle belirli bir bağlamdaki belirli bir sorunu (örneğin tıbbi yapay zeka uzman sistemleri) çözmek için oluşturuldu ve bu belirli bağlamda iyi performansı neyin oluşturduğuna dair derinlemesine bağlamsal bir anlayışı daha mümkün hale getirdi.” “Sistemler giderek daha fazla ‘genel amaçlı’ olarak görüldükçe, bu daha az mümkün oluyor, bu nedenle modellerin farklı alanlardaki çeşitli kıyaslamalarda test edilmesine giderek daha fazla odaklanıldığını görüyoruz.”

Kullanım durumlarıyla ilgili yanlış uyum bir yana, bazı kıyaslamaların ölçmeyi iddia ettikleri şeyi doğru şekilde ölçüp ölçmediğine dair sorular var.

Bir analiz Modellerdeki sağduyulu muhakemeyi değerlendirmek için tasarlanmış bir test olan HellaSwag’ın testi, test sorularının üçte birinden fazlasının yazım hataları ve “anlamsız” yazı içerdiğini ortaya çıkardı. Başka yerde, Google, OpenAI ve Anthropic gibi satıcılar tarafından, modellerinin mantık problemleri üzerinden akıl yürütebildiğinin kanıtı olarak gösterilen bir kıyaslama olan MMLU (“Massive Multitask Language Understanding”in kısaltması), ezberleme yoluyla çözülebilecek sorular soruyor.

“[Benchmarks like MMLU are] Widder, iki anahtar kelimeyi ezberleme ve ilişkilendirme konusunda daha fazla bilgi sahibi olduğunu söyledi. “Bulabilirim [a relevant] Oldukça hızlı bir şekilde makale yazabilir ve soruyu yanıtlayabilirim, ancak bu, nedensel mekanizmayı anladığım veya öngörülemeyen bağlamlardaki yeni ve karmaşık sorunları gerçekten derinlemesine düşünmek ve çözmek için bu nedensel mekanizmayı anladığım anlamına gelmez. Bir model de bunu yapamaz.”

Yani kriterler bozuldu. Ama bunlar düzeltilebilir mi?

Dodge böyle düşünüyor; daha fazla insan katılımıyla.

“Burada ileriye doğru giden doğru yol, değerlendirme kriterlerinin insan değerlendirmesiyle birleşimidir” dedi ve “gerçek bir kullanıcı sorgusu ile bir modele yönlendirmek ve ardından yanıtın ne kadar iyi olduğunu derecelendirmesi için bir kişiyi işe almak” dedi.

Widder ise bugünkü kıyaslamaların (yazım hataları gibi daha belirgin hatalara yönelik düzeltmeler olsa bile) üretken yapay zeka modeli kullanıcılarının büyük çoğunluğu için bilgilendirici olacak noktaya kadar geliştirilebileceği konusunda daha az iyimser. Bunun yerine, model testlerinin bu modellerin alt yöndeki etkilerine ve etkilerin, iyi ya da kötü, etkilenenler için arzu edilir olarak algılanıp algılanmadığına odaklanması gerektiğini düşünüyor.

“Yapay zeka modellerinin hangi spesifik bağlamsal hedefler için kullanılmasını istediğimizi sorardım ve bu tür bağlamlarda başarılı olup olmadıklarını veya başarılı olup olmadıklarını değerlendirirdim” dedi. “Ve umarım bu süreç, bu tür bağlamlarda yapay zekayı kullanıp kullanmamamız gerektiğini değerlendirmeyi de içerir.”

Yorum gönder