Package net.zemberek.araclar.turkce
Class TurkishTokenStream
java.lang.Object
net.zemberek.araclar.turkce.TurkishTokenStream
TurkishTokenStream
Verilen bir doayadan veya herhangi bir stream'dan Türkce kelimeleri
sirayla almak için kullanilir. İki constructor'u vardır, istenirse verilen bir
dosyayi istenirse de herhangi bir inputstream'ı isleyebilir.
Biraz optimizasyona ihtiyaci var ,ama corpus.txt deki tüm kelimeleri tek tek
nextWord() ile cekmek yaklasik 0.8 saniye aldi. (Athlon 900)
- Author:
- MDA invalid input: '&' GBA
-
Field Summary
Fields -
Constructor Summary
ConstructorsConstructorDescriptionTurkishTokenStream
(InputStream is, String encoding) Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.TurkishTokenStream
(String fileName, String encoding) Dosyadan kelime okuyan TurkishTokenStream oluşturur -
Method Summary
Modifier and TypeMethodDescriptionchar
harfIsle
(char chIn) boolean
isSentenceDelimiter
(char ch) Metindeki veya stream'deki bir sonraki cümleyi getirirnextWord()
Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.void
setStatistics
(Istatistikler statistics)
-
Field Details
-
MAX_KELIME_BOY
public static int MAX_KELIME_BOY -
MAX_CUMLE_BOY
public static int MAX_CUMLE_BOY
-
-
Constructor Details
-
TurkishTokenStream
Dosyadan kelime okuyan TurkishTokenStream oluşturur- Parameters:
fileName
-encoding
- : default için null verin
-
TurkishTokenStream
Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.- Parameters:
is
-encoding
- : default için null verin
-
-
Method Details
-
nextWord
Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.- Returns:
- Sonraki kelime, eğer kelime kalmamışsa null
-
nextSentence
Metindeki veya stream'deki bir sonraki cümleyi getirir- Returns:
- Sonraki cümle, eğer kalmamışsa null
-
harfIsle
public char harfIsle(char chIn) -
isSentenceDelimiter
public boolean isSentenceDelimiter(char ch) -
setStatistics
-