Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

Antropik araştırmacılar tekrarlanan sorularla yapay zeka etiğini yıpratıyor

Yapay zekanın yanıtlamaması gereken bir soruyu yanıtlamasını nasıl sağlarsınız? Bu tür pek çok “hapisten kaçış” tekniği var ve Antropik araştırmacılar yeni bir tane buldular; burada geniş bir dil modeli, önce birkaç düzine daha az zararlı soruyla hazırlanırsa size nasıl bomba yapılacağını anlatmaya ikna edilebilir.

Yaklaşım diyorlar “Çok atışlı jailbreak” ve her ikisine de sahip bir makale yazdım Bu konuda bilgi sahibi oldular ve aynı zamanda yapay zeka topluluğundaki akranlarını da bu konuda bilgilendirdiler, böylece hafifletilebilirdi.

Bu güvenlik açığı, en yeni nesil LLM’lerin artan “bağlam penceresi” nedeniyle ortaya çıkan yeni bir güvenlik açığıdır. Bu, kısa süreli hafıza diyebileceğiniz şeyde tutabilecekleri veri miktarıdır; bir zamanlar sadece birkaç cümle iken şimdi binlerce kelime ve hatta bütün bir kitap.

Anthropic’in araştırmacılarının bulduğu şey, geniş bağlam pencerelerine sahip bu modellerin, komut isteminde o görevin çok sayıda örneği varsa, birçok görevde daha iyi performans gösterme eğiliminde olduğuydu. Dolayısıyla, bilgi isteminde (veya modelin bağlam içinde sahip olduğu büyük bir bilgi listesi gibi ön belgede) çok sayıda önemsiz soru varsa, cevaplar aslında zamanla daha iyi hale gelir. Yani şu bir gerçek ki ilk soru olsa yanlış olabilirdi, yüzüncü soru olsa doğru olabilirdi.

Ancak bu “bağlam içi öğrenmenin” beklenmedik bir uzantısı olarak, modeller uygunsuz sorulara yanıt verme konusunda da “daha iyi” hale geliyor. Yani ondan hemen bir bomba yapmasını isterseniz reddedecektir. Ancak ondan daha az zararlı diğer 99 soruyu yanıtlamasını ve ardından bir bomba yapmasını isterseniz… uyma olasılığı çok daha yüksektir.

Resim Kredisi: Antropik

Bu neden işe yarıyor? Hiç kimse bir LLM olan karmaşık ağırlık karmaşasında neler olup bittiğini gerçekten anlamıyor, ancak bağlam penceresindeki içerikten de anlaşılacağı üzere, kullanıcının ne istediğine odaklanmasını sağlayan bir mekanizma olduğu açıkça görülüyor. Kullanıcı trivia istiyorsa, düzinelerce soru sordukça yavaş yavaş daha fazla gizli trivia gücünü etkinleştiriyor gibi görünüyor. Ve her ne sebeple olursa olsun, kullanıcıların onlarca uygunsuz yanıt istemesi durumunda da aynı şey oluyor.

Ekip, meslektaşlarını ve aslında rakiplerini bu saldırı hakkında zaten bilgilendirdi; bu saldırının “bunun gibi istismarların Yüksek Lisans sağlayıcıları ve araştırmacıları arasında açıkça paylaşıldığı bir kültürü teşvik edeceğini” umuyor.

Kendi azaltımları için, bağlam penceresini sınırlamanın yardımcı olmasına rağmen, bunun aynı zamanda modelin performansı üzerinde olumsuz bir etkisi olduğunu da buldular. Buna izin verilemez; bu yüzden modele gitmeden önce sorguları sınıflandırmak ve bağlamsallaştırmak üzerinde çalışıyorlar. Elbette bu, kandırabileceğiniz farklı bir modele sahip olmanızı sağlıyor… ancak bu aşamada, yapay zeka güvenliğinde hedef direğinin hareket etmesi beklenebilir.

Yorum gönder