Yapay zeka teknolojilerinin günlük ömürden iş dünyasına kadar pek çok alanda tesirini artırdığı bir periyotta, bu sistemlerin nasıl geliştirildiği, hangi datalarla eğitildiği ve bu bilgilerin kimlere ilişkin olduğu giderek daha çok tartışılıyor.
Şirketler, rekabet avantajı sağlamak hedefiyle kullandıkları data kaynaklarını bilinmeyen tutarken, içerik üreticileri ve hukukçular bu teknolojilerin yarattığı kıymetin gerisindeki yaratıcı emeğin görmezden gelinip gelinmediğini sorguluyor.
Gelişmiş lisan modelleri romanlardan akademik kaynaklara kadar geniş bir içerik yelpazesinden beslenerek insan gibisi karşılıklar üretmeye başlarken, bu süreçte telif hakkı, etik, şeffaflık ve adil tazminat üzere temel sorunlar yine gündeme geliyor.
İşte bu tartışmaların tam merkezinde yer alan dikkat cazip bir dava, Meta’nın ‘Llama’ isimli büyük lisan modeline dair bugüne dek bilinmeyen tutulan kimi deneysel çalışmalarını gün yüzüne çıkardı. Mahkeme evrakları, Meta’nın Llama modellerinin eğitiminde uyguladığı tartışmalı ‘ablasyon’ tekniklerini ve korsan içeriklerin yapay zekanın muvaffakiyetini nasıl etkilediğini gözler önüne seriyor.
ABD’de sürmekte olan Kadrey v. Meta davası kapsamında kamuya açıklanan evraklar, Meta’nın Llama yapay zeka modellerini geliştirmek için yürüttüğü ‘ablasyon’ ismi verilen deneyleri içeriyor. Ablasyon, yapay zeka araştırmalarında bir sistemin belli bileşenlerini çıkararak bu bileşenlerin model performansına tesirini ölçmeyi amaçlayan bir tahlil formülü.
Bu bağlamda Meta, kimi yapay zeka eğitim datalarını kasıtlı olarak çıkarttı ve yerine LibGen isimli korsan kitap arşivinden alınan içerikleri ekledi. Yapılan iki farklı deneyde, birinci olarak bilim, teknoloji ve kurgu kitapları; ikinci olarak ise sırf kurgu kitaplar kullanıldı.

HER İKİ SENARYODA DA PERFORMANSTA DİKKATE PAHA ARTIŞ OLDU
Meta’nın iç evraklarında yer alan datalara nazaran, her iki senaryoda da Llama modellerinin performansı dikkate paha formda güzelleşti. Örneğin, yapay zeka modellerinin bilgi ve mantık yeteneklerini ölçen BooIQ testinde, eğitim bilgilerine bilimsel ve kurgusal içerikler eklendiğinde yüzde 4,5, sırf kurgu kitaplar eklendiğinde ise yüzde 6 oranında bir performans artışı kaydedildi.
Başka bir test olan SIQA kıyaslamasında ise bu artış yüzde 5,5’e kadar çıktı. Princeton Üniversitesi’nden Peter Henderson, bu sonuçları gösteren grafiklerin kimilerini toplumsal medyada paylaşarak dikkat çekti.
Yapay zeka araştırmacısı Nick Vincent ise bu durumun Meta’nın eğitim bilgilerine paha atayabildiğini ve hangi içeriğin performans açısından ne kadar değerli olduğunu bildiğini gösterdiğini söyledi. Vincent, “Bu çeşit sonuçların kamuoyuna açıklanması, içerik üreticilerinin hak tez etmeleri için yer hazırlayabilir” tabirlerini kullandı.

TELİF HAKKI DAVALARI DAHA KARMAŞIK HALE GELEBİLİR
Meta, bu deneylerin sonuçlarını kamuya açıklamasa da dahili evraklarda eğitim bilgilerinin model başarısına katkısının açıkça ölçüldüğü görülüyor. Fakat bu durum, halihazırda teknoloji devlerinin karşı karşıya kaldığı telif hakkı davalarını daha da karmaşık hale getirebilir.
Çünkü şirketlerin, yapay zeka sistemlerini eğitmekte kullandıkları içeriklere bedel atamaları, bu içeriklerin sahiplerinin tazminat talep etmesine yol açabilir. Vincent bu bahiste, “Bu bedel kestirimlerinin yayımlanması, telif hakkı davalarında büyük teknoloji şirketlerinin savunmalarını zayıflatabilir” dedi.
Meta’nın bir sözcüsü ise davaya ait yaptığı açıklamada, “Llama modelleri bireylerin ve şirketlerin daha yenilikçi ve yaratıcı olmasına yardımcı oluyor. Kendimizi güçlü bir formda savunmaya ve üretken yapay zekanın gelişimini tüm insanlığın faydasına olacak formda muhafazaya devam edeceğiz” sözlerini kullandı.

EĞİTİM BİLGİLERİNDE SAKLILIK EĞİLİMİ
Ablasyon deneylerinin kapalı tutulması, kesimde son yıllarda gözlemlenen daha geniş bir eğilimin kesimi. 2017’de Google, üretken yapay zeka ihtilalini başlatan araştırmasında kullandığı dataları detaylı halde açıklarken, bugün şirketler bu bilgileri kamuya duyurmaktan kaçınıyor.
Örneğin Meta, bu yılın nisan ayında duyurduğu Llama 4 modeli için yayımladığı model kartında sadece genel bilgi kaynaklarından bahsetti; ablasyon deneylerine yahut kullanılan kitap içeriklerine dair hiçbir bilgi yer almadı.

‘İKİ SEFER ÖDEME YAPILMALI’
ProRata isimli bir içerik tazminatı teşebbüsünün CEO’su Bill Gross, Meta üzere şirketlerin bilgi kaynaklarını açıklamamasının hayal kırıklığı yarattığını söyledi. Gross, içerik üreticilerine iki defa ödeme yapılması gerektiğini savunuyor: “İlk olarak dataları modelleri eğitmek için kullanıldığında, ikinci olarak da model bu içeriği bir soruya karşılık verirken kullandığında.”
Ayrıca Gross’a nazaran, yüzde 5 üzere küçük görünen performans artışları bile yapay zeka dünyasında epey değerli: “Yapay zekada her puan kıymetlidir. Bu kadar büyük bir fark yaratmak kolay değildir.”
Meta, 2021 yılında Facebook’un yine markalaşmasıyla ortaya çıkan bir teknoloji şirketi. Kurucusu Mark Zuckerberg, şirketin ismini ‘Meta’ olarak değiştirme kararını, sanal dünya ve artırılmış gerçeklik üzere yeni teknolojilere odaklanma vizyonuyla ilişkilendirdi.
Meta, Facebook, Instagram, WhatsApp üzere tanınan toplumsal medya platformlarını bünyesinde barındırıyor.
Şirket, kullanıcılarına daha etkileşimli ve entegre bir dijital tecrübe sunmayı amaçlarken, Metaverse (sanal evren) konseptine büyük yatırımlar yapıyor. Bu alan, kullanıcıların sanal ortamlarda etkileşimde bulunabileceği, oyun oynayabileceği ve toplumsal etkinliklere katılabileceği bir dünya olarak tanımlanıyor.
Meta, birebir vakitte yapay zeka araştırmalarına ve gelişimine de kıymet veriyor. Bu bağlamda, Llama üzere güçlü lisan modelleri üzerinde çalışmalar yaparak, doğal lisan sürece ve yapay zeka uygulamalarında öncü olmayı hedefliyor. Fakat, şirketin bilgi kullanımı ve saklılığı konusundaki tartışmalar, vakit zaman tenkit oklarının maksadı olmasına neden oluyor.
Business Insider’ın ‘Inside Meta’s secret experiments that improve its AI models’ başlıklı haberinden derlenmiştir.