Brezilya’da bulunan Minas Gerais Federal Üniversitesi’nden bir grup araştırmacı, 2015 ile 2024 yılları arasında halka açık Discord sunucularında paylaşılan 2 milyardan fazla mesajı toplayarak anonimleştirilmiş bir veri seti halinde internette yayımladı. Veriler, “Discord Unveiled: A Comprehensive Dataset of Public Communication (2015 – 2024)” başlıklı akademik çalışmanın bir parçası olarak kamuoyuna sunuldu.
2 milyar Discord mesajı paylaşıldı
Toplamda 2.052.206.308 mesaj, 4.735.057 farklı kullanıcıya ait olarak, Discord’un halka açıldığı 2015 yılından 2024 yılına kadar olan dönemde 3.167 farklı sunucudan toplandı. Araştırmacılar, bu veri setinin Discord’daki tüm halka açık sunucuların yaklaşık yüzde 10’unu temsil ettiğini belirtti.
Araştırmanın amacı, bilimsel çalışmalarda kullanılabilecek nitelikte, insan davranışlarına ilişkin büyük bir veri örneklemi sunmak olarak açıklandı. Çalışma kapsamında, dijital platformların siyasi söylemler üzerindeki etkisinin, yanlış bilginin yayılmasının ve bu tür ortamlara özgü etkili denetleme ve düzenleme stratejilerinin geliştirilmesinin araştırılması hedefleniyor. Ayrıca, söylem analizi, sosyal medya ile ruh sağlığı arasındaki ilişkiler ve yapay zeka destekli sohbet robotlarının eğitimi gibi alanlarda bu verilerin kullanılabileceği ifade edildi.
Araştırma ekibi, veri setinin anonimleştirildiğini belirtti. Bu kapsamda kullanıcı adlarının rastgele oluşturulmuş takma adlarla değiştirildiği, kullanıcı ve mesaj kimliklerinin hashlenerek kısaltıldığı ve kimlik tespitine yol açabilecek diğer unsurların da veri setinden çıkarıldığı bilgisi paylaşıldı. Ancak uzmanlara göre, bu tür anonimleştirme yöntemlerinin her zaman tam koruma sağlamadığı ve bazı durumlarda, mesajların akışı bir araya getirildiğinde kullanıcı kimliğinin dolaylı olarak tespit edilebileceği ifade ediliyor.
Araştırmanın uygulanma biçimi, Discord’un hizmet şartları açısından da tartışma konusu oldu. Araştırmacılar verilerin halka açık sunuculardan toplandığını belirtse de, Discord’un 2020 yılından bu yana geçerli olan Hizmet Şartları, şu ifadeyi açıkça içeriyor:
“Discord hizmetlerinde ya da bu hizmetler aracılığıyla sunulan hiçbir veri, içerik veya bilgiyi kazımayın (scrape etmeyin).”
Bu duruma ilişkin olarak Discord yetkilileri, 404 Media’ya verdikleri açıklamada şunları kaydetti:
“Yazılı iznimiz olmadan hizmetlerimizin kazınması, Hizmet Şartlarımızın ve Topluluk Kurallarımızın ihlalidir. Discord bu faaliyeti titizlikle araştırıyor ve uygun yaptırımları uygulayacaktır.”
Discord sözcüsü açıklamasında ayrıca şu ifadeleri kullandı:
“Bu ciddi bir meseledir ve kullanıcılarımızın gizliliğini ve verilerini korumaya kararlıyız. İlk incelememize göre, kullanıcı hesapları, keşfedilebilir ve genel olarak erişilebilir Discord sunucularına erişim sağlamış ve izinsiz şekilde veri kazıma işlemi gerçekleştirmiştir. Araştırmacıların kimlikleri korumaya yönelik adımlar attığı görülmektedir, ancak bu durum yine de politikalarımızı ihlal etmektedir ve süreci tamamen araştırıyoruz.”
Araştırmanın bilimsel amaçlarla yapılmış olması, kullanıcıların açık rızası alınmadan bu verilerin toplanmış olması nedeniyle çeşitli gizlilik tartışmalarını da beraberinde getirdi. Her ne kadar kullanıcı isimleri gibi doğrudan tanımlayıcı bilgiler silinmiş olsa da, dijital ortamlarda yapılan anonimleştirmelerin geri döndürülebilir olabileceği ve bireylerin dolaylı yollarla tanımlanabileceği, bu tür veri çalışmalarında sürekli gündeme gelen konular arasında yer alıyor.
İlginizi çekebilir: Fujifilm’den analog tutkunlarına