Posted on :: Tags: ,

Yarım Kalan Projeler#3: Fact Checker’s Tool

Asıl ismiyle “Fact Checker’s Tool” ya da “FCT”, farklı kişi ve kurumlar tarafından “FactHacker”, “FactChecker”, “Fact Maker” gibi birbirinden ilginç isimlerle hitap edilen, en sonda karmaşıklıklardan kurtulmak için “Factly” adını verdiğimiz bu projenin hedefi aslında çok basitti, yalan haberlerin keşfedilmesine yardımcı olmak.

Projenin detaylarına girmeden, nereden çıktığından bahsedeyim. Daha Covid-19'un ilk aylarındayken, girişimcilikle ilgilenen birkaç farklı kişi/kuruluş salgının yarattığı olumsuz etkileri azaltabilecek, düzeltebilecek projelerin ortaya çıkması için Coronathon adında bir hackathon düzenlemeye karar veriyor. 1 haftadan daha kısa bir sürede 100'den fazla takım ve 100'den fazla mentör bir araya toplanıyor. O sırada biz de Ahmet YÜKSEL ile yarışmayı görüp katılmaya karar verdik, Ozan Akın ve Ozan Sazak ile birlikte 4 kişilik bir ekip kurduk. Birkaç farklı fikri tartıştıktan sonra FCT’de karar kıldık.

Fact Checker’s Tool , Teyit.org veya Doğruluk Payı gibi haber doğrulama organizasyonların yalan haberleri daha hızlı keşfetmesine yardımcı olacak bir araç olarak tasarlandı.

Projenin arkasındaki ana fikir çok basitti.

Yanlış haberlere inanan ve yanlış haberleri yayan kişiler yanlış haberlere inanmaya ve yanlış haberleri yaymaya devam edecektir.

Daha az şiirsel olacak olursam, daha öncesinde yanlış haberleri beğenen ve paylaşan davranışlarını tekrarlama ihtimali daha yüksektir. O halde, haberlerin yayılımını incelediğimizde, daha öncesinde yanlış haberleri beğenen ve paylaşan kişiler tarafından paylaşılmaları halinde yanlış haber olma ihtimalleri yüksek olacaktır.

Burada, birkaç eksik noktayı doldurmak gerekiyor.

  • Haber beğenmek ve paylaşmak ne demek, hangi platform üzerinde yapılıyor?
  • Yanlış haber ne demek, neye göre ve nasıl tanımlanıyor?
  • Bir haberin yanlış olduğuna nasıl karar veriyoruz? Bir haberin yanlış olma ihtimalinin yüksek olması bize ne anlatıyor?

Projeyi Twitter üzerinde düşündük. Retweet mekaniğinin haberlerin yayılımını hızlandırması, yüksek kullanım seviyesi, diğer sosyal medya ağlarına göre daha çok haber paylaşımına elverişli olması ve haber paylaşımı için kullanılması, bir de üstüne geçmişte yalan haberlerin paylaşımına dair bilimsel bir literatür bulunmasından dolayı Twitter’ı mantıklı bulduk.

Yanlış haberleri ise, doğru haberlerin tersi üzerinden tanımladık. Teyit.org, Doğruluk Payı gibi haber doğrulama organizasyonları IFCN(International Fact-Checking Network) adı verilen, haber doğrulama üzerine standartlar, rehberler ve yönlendiriciler sağlayan büyük bir organizasyonun içinde yer alıyorlar. IFCN tarafından kabul edilen organizasyonların yaptığı haberleri doğru haber olarak kabul ettik. Bu haberlerin yalanladığı tüm haberleri ise yanlış olarak. Bu şekilde, Twitter içindeki her bir hesabın bu haberlere dair attıkları tweet’lere dayanarak oluşturulan bir güvenilirlik puanı oluştu.

Bu haberlere dair tweet atmayanlar için de bu güvenilirlik puanlarını HITS(Hyperlink-Induced Topic Search) adı verilen, arama motorlarının web sayfalarının sıralamasına karar vermek için kullandıkları bir algoritmayı kullanarak oluşturduk.

Yeni bir haber ortaya çıktığında, o haberi yayan kullanıcıların güvenilirlik puanlarına dayalı olarak o habere de bir güvenilirlik puanı atanıyor. Bu puan belli bir eşik sınırın altındaysa haber doğrulama ajanslarına haberin araştırılması için bildirim gönderiliyor.

Bu süreci bir akış diyagramı olarak göstermek istersek aşağıdaki gibi bir sonuçlar karşılaşıyoruz.

Akış Diyagramı

Fikrin çıkış noktası Covid-19 salgınının ilk dönemlerinde(ve gördüğümüz üzere sonrasında) yaşanan bilgi kirliliğinin azaltılmasına katkıda bulunmaktı.

Maalesef ki bunlardan hiçbirisi gerçekten hayata geçmedi.

Yukarıdaki diyagramı incelediğinizde, “Stance Detection-Duruş Çıkarımı” adlı bir hamle görüyorsunuz. Duruş Çıkarımı , bir tweet’i alıp onun ne ile ilgili olduğunu ve aynı zamanda o konuya bakış açısını anlamak demek.

Biz, konunun içine biraz daha girdiğimizde fark ettik ki bunu güvenilir ve kaliteli bir şekilde yapmanın bir yolu yok, en azından biz bilmiyoruz ve bulamıyoruz. Bunu da, neyse ki hiçbir yerden yatırım veya fon almadan, kimseye yanlış vaadler sunmadan fark etmiş olduk.

Bu farkındalık anı da, Ağustos ayında sıcak Ankara güneşinin altında çalışırken geldi. O dönem proje bir şekilde Boğaziçi TTO’nun(Teknoloji Transfer Ofisi) dikkatini çekmişti, onlara yaptığımız sunum sonucunda bizim için ciddi bir miktarda yardımda bulunacaklardı. Ortaya finansal bir yükümlülük girince, girdiğimiz işten emin olmak için tekrardan projenin çalışması için gerekli bileşenlerin her birini tek tek incelemeye başladık. “ Proje neden başarısız olabilir?” sorusunu defalarca sorduk.

Cevabımızı, “Topic Modelling” için kullanmayı düşündüğümüz “LDA(Latent Dirichlet Allocation)” algoritmasının sabit bir konu sayısıyla çalıştığını fark ettiğimizde verdik. LDA’nın kullandığı istatistiksel model bir K sayısı alıyor, metinleri o sayıda farklı konuya ayırmayı deniyor. En baştan itibaren zaten tweet’lerin ironik ve komedi içerikleri, sosyal medyanın dinamikleri, tweet’lerin kısa olması dolayısıyla konularının anlaşılamaması gibi problemlerin varlığını tahmin ettiğimiz için sisteme dair zaten belli şüphelerimiz ve korkularımız mevcuttu. Bunların hepsinin üstüne bir de kullanmayı düşündüğümüz modelin kullanımımıza uygun olmadığını gördüğümüzde, Ahmet YÜKSEL ’e döndüm ve dedim ki “Bırakalım. Bu proje olmayacak ben inancımı kaybettim”. Tek problem LDA olsaydı belki Topic Modelling için başka yollar arayabilirdik, ama projenin temelinin yeterince sağlam olmadığına dair inancımıza yeni problemler eklenince bizim için inanç eşiğini geçmiş olduk, projeyi tamamen bıraktık.

Sürece bakınca, proje bize çok ilginç tecrübeler yaşattı. Ahmet YÜKSEL Faruk Eczacıbaşı ile toplantı yaptı, ben Habertürk’e çıktım, ODTÜ Teknokent’te ofis kiralamak için pazarlık yaptık. AI Ethics Lab projeyle ilgili bir rapor yazdı, ilk kez bir projemizi gerçekleştirsek oluşabilecek etik problemleri düşünme fırsatı bulduk. Teyit.org’un Factory Bootcamp ’ine katıldık, insanların teknik olarak imkansız fikirleri sanki mümkünmüş gibi sunmasına açık açık şahit olduk. Raporlar yazdık, sunumlar hazırladık, gelir modelleri tasarladık, hatalar yaptık, bir noktada günde 10–12 saat toplantıya giriyor çalışıyorduk. Ahmet YÜKSEL ile o dönemde şimdiki dostluğumuzun temellerini attık. Tek bir kelimeyle, öğrendik . Sürekli bir şekilde öğrendik, tecrübe edindik.

Bu yazıyı yazmak için o dönem hazırladığım bazı dökümanlara baktım, yazım hataları, tasarım hataları, açık bir şekilde mantıksal boşlukları olan fikirler… Geriye bakıp kendini beğenmemek ne güzel bir hismiş onu tekrar hatırladım; gelişmenin önemini gördüm.

Bu projenin tekrardan ayağa kalkma şansı olduğunu düşünmüyorum. Bu projeden aldığım en büyük ders, denemek gerektiği. Bir şeyleri deneyip, hayal edip, heyecanlanıp, emek ve vakit harcamak gerek. En güzel anılar böyle böyle birikiyor.

Aşağıda o dönemde hazırladığımız sunum ve raporlardan bazı parçalar paylaşıyorum.

Konsept Logolar: