Sayfa:Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi.pdf/4

Bu sayfa doğrulanmış

Utku TANRIVERE


Değinilen çalışmalar Türkçe bağlamında önerilen yazar tanıma uygulamaları olarak oldukça kayda değer olsalar da, kısa metinlerin incelenmesinde aynı derecede geçerli olduklarını söylemek mümkün olmamaktadır. Benzer şekilde, İngilizce alan yazınında da yazar tanıma konusundaki yöntemlerin çoğunun, kısa metinlerde yazar tanıma uygulaması için uygun olmadıkları belirtilmiştir (MacLeod ve Grant, 2012, s.210).

Bu çalışma çerçevesinde geliştirilmesi ve sınanması hedeflenen yöntem ise doğrudan adli dilbilimsel yazar tanıma uygulamaları için, Twitter adlı mikro-blog sitesinden seçilen örneklemin incelenmesi ile yakın bir zamanda önerilmiştir (Tanrıvere, 2018, s. 177). Twitter üzerinde iletilerini “herkese açık” (public) olarak paylaşan rastgele 10 hesaptaki yine rastgele 5’er adet olmak üzere toplam 50 ileti incelenmiş ve farklı yazarların oluşturdukları iletiler arasında görülen noktalama işareti veya büyük ve küçük harf kullanımı gibi farklılıklar, karşılaştırmaya yönelik bir ölçüte dönüştürülerek sunulmuştur (Tanrıvere, 2018, ss. 180-181). Söz konusu ölçütler yöntem başlığı altında detaylandırılmaktadır. Ayrıca çalışma kapsamında incelemeye konu edilen iletilerin tamamı, Twitter kullanıcıları tarafından Kasım 2017’den önce paylaşılmıştır (Tanrıvere, 2018, s. 181) ve belirtilen tarihten önce Twitter’de oluşturulabilecek iletilerin uzunluğu günümüzdeki gibi 280 değil, 140 karakter ile sınırlıdır. Dolayısıyla burada sınanacak olan yöntem, 140 karakter ile sınırlı iletilerin incelenmesiyle önerilmiştir. Bu durumun, mevcut çalışma kapsamında herhangi bir olumsuzluk yaratmayacağı değerlendirilmekte, zira uzun metinler için geliştirilen yazar tanıma yöntemleri kısa metinlerde kullanışlı olmasa da bunun aksinin herhangi bir fark yaratmayacağı varsayılmaktadır.

Veri

Öncelikle Twitter üzerinde, aşağıda belirtilen varsayım, nitelik ve kısıtlamalar kapsamında, 50 farklı hesaptan paylaşılan 20’şer olmak üzere toplam 1000 adet ileti rastgele biçimde toplanmıştır. Elde edilen bu 1000 gönderinin içerisinden de, karşılaştırma uygulamasında kullanılmak üzere 138 farklı ileti yine rastgele tespit edilmiştir. Bu 138 ileti; 2’şer yazardan ve 5’er yazardan, her yazardan 1’er ve 5’er karşılaştırma metinli olmak üzere seçilmiştir. İletiler, her bir grupta 3’er kez tekrarlanmak üzere toplam 12 tekil uygulamada kullanılmak üzere gruplandırılmıştır.

İncelemeye alınan iletilerin paylaşıldıkları tarihte üretildikleri ve bir hesap aracılığıyla paylaşılmış tüm iletilerin aynı aygıt aracılığıyla yazıldığı varsayılmaktadır. İletilerdeki dil kullanımını etkileyebilecek olan aygıtlarla ilgili bu varsayım, aynı zamanda mevcut çalışma kapsamında olası “etki karışımı” konusunu oluşturmaktadır. Zira aynı yazarın farklı aygıtlar üzerinde oluşturduğu iletiler incelendiğinde, yazarların ayırt edilmesinde kullanılabilecek bazı ölçütlerde hatalı sonuçlar alınması söz konusu olabilecektir. (Tanrıvere, 2018, ss. 184, 190). Bununla birlikte iletileri karşılaştırılacak her bir Twitter hesabının yalnızca bir yazarının olduğu ve ayrıca her bir yazarın sadece bir hesaptan paylaşım yaptığı, incelenen iletilerin yayınlandığı birden fazla hesapta aynı yazarın yer almadığı varsayılmaktadır. Son olarak çalışma kapsamında yazarların, Türkçenin anadil konuşucusu oldukları ve paylaşılan iletilerin, kendi ürünleri olduğu varsayımları da yer almaktadır.

Örneklem için Twitter hesaplarındaki paylaşımlar toplanırken, aynı yazarların iletileri arasında en az iki günlük bir süreç bulunması gözetilmiş olup böylelikle birden çok karşılaştırma metniyle yapılacak deneyler için yazarların anlık değişkenlerden olabildiğince az etkilenmiş yerleşik dilsel üsluplarının tespit edilmesi hedeflenmiştir. Yazarların kendilerine ait olmayan özlü sözler ve sair alıntılar, çalışmanın dışında tutulmuştur. Twitter’de bir ileti için daha önce 140 olan karakter kısıtlaması, Kasım 2017’den sonra 280’e yükseltilmiş ve bu nedenle belirtilen tarihten önceki paylaşımlar örnekleme dahil edilmemiştir. Metin uzunluğu yönünden 2’den fazla sözcük içeren bu paylaşımlar, yalnızca kendileriyle sınırlı olup herhangi bir medya (harici bir internet sitesine bağlantı, fotoğraf veya video, başka bir kimsenin yaptığı paylaşım vb.) içermemektedir. Çalışmanın niteliği gereği çeşitli kurum ve kuruluşların ya da basın danışmanı, sözcü, iletişim kişisi gibi birtakım kimselerin paylaşımda bulunduğu tanınmış kişilerin hesaplarından yapılan paylaşımlar örneklemden hariç tutulmuştur.


  Derlenmiş olan iletilerin tamamı, veri toplama çalışmasının gerçekleştirildiği tarihlerde “herkese açık” olarak yayındadır. Twitter (2018), gizlilik politikası ile sayfasında, herkese açık olarak yapılan

249