Sayfa:Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi.pdf/3

Bu sayfa doğrulanmış

Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi


süre (Olsson, 2008, ss. 33-34) gibi birtakım etkenler, aynı kişinin konuşma veya metinleri arasında farklılıklar görülmesine de sebep olabilecek niteliktedir. Bu bağlamda Olsson (2008, s. 33), bir kişiye ait üslup değişkenliğini ise “tek-yazar değişkesi” (intra-author variation) olarak ifade etmektedir.

Bütüncül olarak yazar tanıma çalışmaları da genel bir bakış açısıyla bu değişkelerin, daha özel bir yaklaşımla da yazarlararası değişkelerin tespit edilmesine odaklanmaktadır. İncelemeye alınan metinler arasında yazarlararası değişke görülmeyişi, metinlerin aynı kişi tarafından yazıldığı; varlığı ise farklı kişiler tarafından yazıldığı görüşünün dilbilimsel bir gerekçeyle ortaya konulmasını sağlamaktadır.

İlgili Alanyazın

Özellikle İngilizce alan yazınına bakıldığında hem genel bağlamda metinler hem de doğrudan kısa metinler çerçevesinde gerek dilbilimciler gerekse bilgisayar bilimciler tarafından çok çeşitli yazar tanıma çalışmalarının yapıldığı görülmektedir (Amasyalı ve Diri, 2006; Bhargava, Mehndiratta ve Asawa, 2013; Coulthard, 1998, 2004; Grant, 2008; MacLeod ve Grant, 2012; Taş ve Görür, 2007). Ne var ki, özellikle bilgisayar bilimcilerin kısa metinler özelinde gerçekleştirdikleri stilometrik çalışmalar, adli dilbilim bağlamında karşılaşıldığı belirtilen metinlerin metin uzunluğu yönünden niteliği ve dolayısıyla ihtiyaç duyulan yaklaşımdan uzak görünmektedir.

Örneğin Twitter üzerinde stilometrik yöntemlerle gerçekleştirilen bir yazar tanıma uygulaması kapsamında sözcüksel ve sözdizimsel unsurlar ile birlikte Twitter sitesine özgü özellikler ve duygu belirtmeye yarayan diğer işaretler (emoji) olmak üzere dört başlık içeren bir çalışma yapılmıştır (Bhargava ve diğerleri, 2013): Dört başlıkta yer alan ölçütler birlikte kullanıldığında yazar tanıma yöntemi 10 ileti içeren bir grupta %91,11 gibi önemli bir başarı sağlamışsa da çalışmanın her bir yazardan 300 farklı ileti (tweet) seçildikten sonra, 5-6 sözcük içeren kısa iletilerin hariç tutularak gerçekleştirildiği görülmektedir.[1] Dolayısıyla örneklem, yukarıda ifade edildiği gibi adli dilbilim yazını bağlamında, kısa metinler üzerine gerçekleştirilen yazar tanıma uygulamalarına ilişkin ihtiyaca karşılık vermemektedir.

Doğrudan adli dilbilim alanına katkıda bulunan yazarlar olarak MacLeod ve Grant (2012) ise farklı hassasiyet düzeylerinde, daha önce değinilen adli bağlama çok daha yakın bir uygulama gerçekleştirmiştir. Bu çalışma kapsamında tekil iletiler için yapılan karşılaştırmada %90’a, gruplandırılmış birden fazla ileti için yapılan uygulamada ise %100’e varan sonuçlar elde edilmiş olmakla beraber çalışmanın hiçbir safhasında bir ileti yanlış bir yazara atfedilmemiş, diğer bir deyişle hiçbir durumda “hatalı pozitif” sonuç alınmamıştır (MacLeod ve Grant, 2012, s. 219-221). Uzmanlar, yazar tanıma için kullandıkları ölçütleri dilbilgisi, sözcük, noktalama ve üretim biçimine özgü diğer özellikler olarak dört ana başlık altında sunmaktadır (MacLeod ve Grant, 2012, s. 217-218). Mevcut çalışmada sınanmak istenen yöntem de oldukça yakın bir ölçüt gruplandırması önermektedir (Tanrıvere, 2018, s. 184).

Türkçe örneklem ile gerçekleştirilen çalışmalara bakıldığında bilgisayar bilimcilerin, yazar tanıma çalışmalarına dilbilimcilerden daha fazla ilgi duyduğu görülmekteyse de, İngilizce alan yazını için değinilen yöntem ve veri niteliği, bu çalışmalar genelinde de geçerliliğini korumaktadır (Tanrıvere, 2018, s. 179-180). Yazın kapsamında istatistik temelli (stilometrik) ölçüm yöntemleri, örneklem olarak gazetelerin köşe yazıları üzerinde uygulanmış ve bu yazıların köşe yazarlarıyla eşleştirilmeleri sağlanmıştır (Amasyalı ve Diri, 2006, s. 222, 224; Doğan ve Diri, 2010, s. 11-12; Taş ve Görür, 2007, s. 153-154). Nispeten daha yakın bir zamanda ise on köşe yazarının yazmış olduğu 50’şer köşe yazısı ile aynı yazarların kendi Twitter hesaplarında paylaştıkları 200’er ileti bir çalışmaya konu edilmiş, Twitter ortamında paylaşılmış her bir iletinin, tek tek, bir köşe yazısıyla eşleştirilmeye çalışılmasındansa, bu iletilerin bir araya getirilmesiyle oluşturulan bir grubun karşılaştırmaya konu edilmesinin, uygulama kapsamında daha verimli olacağı görüşü ifade edilmiştir (Mayda ve Amasyalı, 2016).


  1. Yazar tanıma için önerilen yöntemlerin başarılı olması adına çok kısa metinlerin çalışmadan hariç tutulması oldukça anlaşılırdır. Bununla birlikte beş ya da altı sözcük içeren metinlerin de adli dilbilim uygulamaları kapsamında yazar tanıma faaliyetine konu olması muhtemeldir. Bu çalışma ile sınanacak yöntem için, en az üç sözcük içeren iletiler seçilecek, yalnızca bir veya iki sözcük içeren iletiler hariç tutulacaktır.

248