Review Article
BibTex RIS Cite

Turkish News Articles Classification Using Machine Learning Techniques

Year 2021, Volume: 2 Issue: 1, 15 - 20, 31.01.2021

Abstract

In today's information age, where the largest source of information is accepted as the internet, the issue of text mining and machine learning has become important as a result of the increasing amount of texts in the electronic environment. In parallel with the advancement of technology, innovations are being developed in these areas. Due to the innovations, the need arises to classify the texts found irregularly on any platform into a meaningful whole. In this study; Turkish news texts are classified using different machine learning methods. A data set containing many news texts and news categories was used as news content. In the study, comparing the analysis results performed according to the Support Vector Classifier, Random Forest and Naive Bayes Classifier, it was seen that the method with the most successful performance was the Naive Bayes Classifier with 91% accuracy.

References

  • [1] D. Kılınç, E. Borandağ, F. Yücalar, V. Tunali, M. Şimşek, and A. Özçift. 2016. KNN Algoritması ve R Dili ile Metin Madenciliği Kullanılarak Bilimsel Makale Tasnifi,” Marmara Fen Bilim. Derg., 28(3), 89–94.
  • [2] H. K. Yıldız, M. Genctav, N. Usta, B. Diri, and M. F. Amasyali. 2007. Metin Sınıflandırmada Yeni Özellik Çıkarımı. 2007 IEEE 15th Signal Processing and Communications Applications, 1–4.
  • [3] K. Kowsari, K. J. Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown. 2019. Text Classification Algorithms: A Survey. Information, 10(4), 1–68.
  • [4] C. C. Aggarwal and C. Zhai. 2012. Mining Text Data. Springer, New York.
  • [5] A. Onan and S. Korukoğlu. 2016. Metin sınıflandırmada öznitelik seçim yöntemlerinin değerlendirilmesi. Akademik Bilişim.
  • [6] S. Yıldırım and T. Yıldız. 2018. Türkçe için Karşılaştırmalı Metin Sınıflandırma Analizi. Pamukkale Üniversitesi Mühendislik Bilim. Derg., 24(5), 879–886.
  • [7] C. Toraman, F. Can, and S. Koçberber. 2011. Developing a Text Categorization Template for Turkish News Portals. 2011 International Symposium on Inovations in Intelligent Systems and Applications, 379–383.
  • [8] P. Tüfekci, E. Uzun, and B. Sevinç. 2012. Türkçe Dilbilgisi Özelliklerini Kullanarak Web Tabanlı Haber Metinlerinin Sınıflandırılması. 2012 20th Signal Processing and Communications Applications Conference (SIU), 1–4.
  • [9] Ç. İ. Acı and A. Çırak. 2019. Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknol. Derg., 12(3), 219–228.
  • [10] F. Wang, X. Peng, Y. Qin, and C. Wang. 2020. What can the news tell us about the environmental performance of tourist areas? A text mining approach to China’s National 5A Tourist Areas. Sustain. Cities Soc., 52(101818).
  • [11] S. Choi, H. Shin, and S. S. Kang. 2020. Predicting Audience-Rated News Quality: Using Survey, Text Mining, and Neural Network Methods. Digit. Journal., 1–22.
  • [12] S. Mukherjee and K. Sarkar. 2020. Analyzing Large News Corpus Using Text Mining Techniques for Recognizing High Crime Prone Areas. 2020 IEEE Calcutta Conference, CALCON, 444–450.
  • [13] S. Camilleri, M. R. Agius, and J. Azzopardi. 2020. Analysis of Online News Coverage on Earthquakes Through Text Mining. Front. Earth Sci., 8(May), 1–12.
  • [14] C. Li, Q. Liu, and L. Huang. 2020. Credit Risk Management of Scientific and Technological Enterprises Based on Text Mining. Enterp. Inf. Syst., 1–17.
  • [15] A. C. Tantuğ.2012. Metin Sınıflandırma (Text Classification). Türkiye Bilişim Vakfı Bilgi. Bilim. Ve Mühendisliği Derg., 5(2).
  • [16] G. S. Chavan, S. Manjare, P. Hegde, and A. Sankhe. 2014. A Survey of Various Machine Learning Techniques for Text Classification. Int. J. Eng. Trends Technol., 15(6), 288–292.
  • [17] S. Ayhan and Ş. Erdoğmuş. 2014. Destek Vektör Makineleriyle Sınıflandırma Problemlerinin Çözümü İçin Çekirdek Fonksiyonu Seçimi. Eskişehir Osmangazi Üniversitesi İktisadi ve İdari Bilim. Derg., 9(1), 175–201.
  • [18] Ü. Veranyurt, A. F. Deveci, M. F. Esen, and O. Veranyurt. 2020. Makine Öğrenmesi Teknikleriyle Hastalık Sınıflandırması: Random Forest, K-Nearest Neighbour Ve Adaboost Algoritmaları Uygulaması. Uuslararası Sağlık Yönetimi ve Strat. Araştırma Derg., 6(2), 275–286.
  • [19] M. Bilgin. 2017. Gerçek Veri Setlerinde Klasik Makine Öğrenmesi Yöntemlerinin Performans Analizi. Breast, 2(9), 683–688.
  • [20]L. Breiman. 2001. Random Forest. Mach. Learn, 45, 5–32.
  • [21] M. Ikonomakis, S. Kotsiantis, and V. Tampakas. 2005. Text Classification Using Machine Learning Techniques. WSEAS Trans. Comput., 4(8), 966–974.
  • [22] S. Yıldırım. 2017. Text Categorization for Turkish - Multi NB. https://www.kaggle.com/savasy/text-categorization-for-turkish-multi-nb. (Erişim Tarihi: 28.11.2020).
  • [23] A. Yeşilyurt. 2018. Veri Bilimi için Python Kütüphaneleri. https://medium.com/@amine.yesilyurt/python-kutuphaneleri-e59fe08cc276. (Erişim Tarihi: 29.11.2020)
  • [24] Wikipedia. Natural Language Toolkit. https://en.wikipedia.org/wiki/Natural_Language_Toolkit . (Erişim Tarihi: 29.11.2020)

Türkçe Haber Metinlerinin Makine Öğrenmesi Yöntemleri Kullanılarak Sınıflandırılması

Year 2021, Volume: 2 Issue: 1, 15 - 20, 31.01.2021

Abstract

En büyük bilgi kaynağının internet olarak kabul edildiği günümüz bilgi çağında, elektronik ortamda yer alan metinlerin gün geçtikçe artması sonucunda metin madenciliği ve makine öğrenimi konusu önem kazanmıştır. Teknolojinin gelişmesine paralel olarak bu alanlarda da yenilikler geliştirilmektedir. Yapılan yenilikler ile herhangi bir platformda düzensiz olarak bulunan metinlerin, anlamlı bir bütün haline getirilerek sınıflandırılması ihtiyacı doğmaktadır. Bu çalışmada; farklı makine öğrenmesi yöntemleri kullanılarak Türkçe haber metinlerinin sınıflandırması yapılmaktadır. Haber içerikleri olarak birçok haber metninin ve haber kategorisinin yer aldığı bir veri seti kullanılmıştır. Çalışmada, Destek Vektör Sınıflandırıcısı, Rastgele Orman ve Naive Bayes Sınıflandırıcına göre gerçekleştirilen analiz sonuçları karşılaştırılarak, en başarılı performansa sahip yöntemin 91% doğruluk oranı ile Naive Bayes Sınıflandırıcısı olduğu görülmüştür.

References

  • [1] D. Kılınç, E. Borandağ, F. Yücalar, V. Tunali, M. Şimşek, and A. Özçift. 2016. KNN Algoritması ve R Dili ile Metin Madenciliği Kullanılarak Bilimsel Makale Tasnifi,” Marmara Fen Bilim. Derg., 28(3), 89–94.
  • [2] H. K. Yıldız, M. Genctav, N. Usta, B. Diri, and M. F. Amasyali. 2007. Metin Sınıflandırmada Yeni Özellik Çıkarımı. 2007 IEEE 15th Signal Processing and Communications Applications, 1–4.
  • [3] K. Kowsari, K. J. Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown. 2019. Text Classification Algorithms: A Survey. Information, 10(4), 1–68.
  • [4] C. C. Aggarwal and C. Zhai. 2012. Mining Text Data. Springer, New York.
  • [5] A. Onan and S. Korukoğlu. 2016. Metin sınıflandırmada öznitelik seçim yöntemlerinin değerlendirilmesi. Akademik Bilişim.
  • [6] S. Yıldırım and T. Yıldız. 2018. Türkçe için Karşılaştırmalı Metin Sınıflandırma Analizi. Pamukkale Üniversitesi Mühendislik Bilim. Derg., 24(5), 879–886.
  • [7] C. Toraman, F. Can, and S. Koçberber. 2011. Developing a Text Categorization Template for Turkish News Portals. 2011 International Symposium on Inovations in Intelligent Systems and Applications, 379–383.
  • [8] P. Tüfekci, E. Uzun, and B. Sevinç. 2012. Türkçe Dilbilgisi Özelliklerini Kullanarak Web Tabanlı Haber Metinlerinin Sınıflandırılması. 2012 20th Signal Processing and Communications Applications Conference (SIU), 1–4.
  • [9] Ç. İ. Acı and A. Çırak. 2019. Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknol. Derg., 12(3), 219–228.
  • [10] F. Wang, X. Peng, Y. Qin, and C. Wang. 2020. What can the news tell us about the environmental performance of tourist areas? A text mining approach to China’s National 5A Tourist Areas. Sustain. Cities Soc., 52(101818).
  • [11] S. Choi, H. Shin, and S. S. Kang. 2020. Predicting Audience-Rated News Quality: Using Survey, Text Mining, and Neural Network Methods. Digit. Journal., 1–22.
  • [12] S. Mukherjee and K. Sarkar. 2020. Analyzing Large News Corpus Using Text Mining Techniques for Recognizing High Crime Prone Areas. 2020 IEEE Calcutta Conference, CALCON, 444–450.
  • [13] S. Camilleri, M. R. Agius, and J. Azzopardi. 2020. Analysis of Online News Coverage on Earthquakes Through Text Mining. Front. Earth Sci., 8(May), 1–12.
  • [14] C. Li, Q. Liu, and L. Huang. 2020. Credit Risk Management of Scientific and Technological Enterprises Based on Text Mining. Enterp. Inf. Syst., 1–17.
  • [15] A. C. Tantuğ.2012. Metin Sınıflandırma (Text Classification). Türkiye Bilişim Vakfı Bilgi. Bilim. Ve Mühendisliği Derg., 5(2).
  • [16] G. S. Chavan, S. Manjare, P. Hegde, and A. Sankhe. 2014. A Survey of Various Machine Learning Techniques for Text Classification. Int. J. Eng. Trends Technol., 15(6), 288–292.
  • [17] S. Ayhan and Ş. Erdoğmuş. 2014. Destek Vektör Makineleriyle Sınıflandırma Problemlerinin Çözümü İçin Çekirdek Fonksiyonu Seçimi. Eskişehir Osmangazi Üniversitesi İktisadi ve İdari Bilim. Derg., 9(1), 175–201.
  • [18] Ü. Veranyurt, A. F. Deveci, M. F. Esen, and O. Veranyurt. 2020. Makine Öğrenmesi Teknikleriyle Hastalık Sınıflandırması: Random Forest, K-Nearest Neighbour Ve Adaboost Algoritmaları Uygulaması. Uuslararası Sağlık Yönetimi ve Strat. Araştırma Derg., 6(2), 275–286.
  • [19] M. Bilgin. 2017. Gerçek Veri Setlerinde Klasik Makine Öğrenmesi Yöntemlerinin Performans Analizi. Breast, 2(9), 683–688.
  • [20]L. Breiman. 2001. Random Forest. Mach. Learn, 45, 5–32.
  • [21] M. Ikonomakis, S. Kotsiantis, and V. Tampakas. 2005. Text Classification Using Machine Learning Techniques. WSEAS Trans. Comput., 4(8), 966–974.
  • [22] S. Yıldırım. 2017. Text Categorization for Turkish - Multi NB. https://www.kaggle.com/savasy/text-categorization-for-turkish-multi-nb. (Erişim Tarihi: 28.11.2020).
  • [23] A. Yeşilyurt. 2018. Veri Bilimi için Python Kütüphaneleri. https://medium.com/@amine.yesilyurt/python-kutuphaneleri-e59fe08cc276. (Erişim Tarihi: 29.11.2020)
  • [24] Wikipedia. Natural Language Toolkit. https://en.wikipedia.org/wiki/Natural_Language_Toolkit . (Erişim Tarihi: 29.11.2020)
There are 24 citations in total.

Details

Primary Language Turkish
Subjects Computer Software
Journal Section Research Articles
Authors

Osman Uslu 0000-0002-4377-5952

Serel Özmen-akyol 0000-0002-5344-4065

Publication Date January 31, 2021
Submission Date January 1, 2021
Acceptance Date January 10, 2021
Published in Issue Year 2021 Volume: 2 Issue: 1

Cite

IEEE O. Uslu and S. Özmen-akyol, “Türkçe Haber Metinlerinin Makine Öğrenmesi Yöntemleri Kullanılarak Sınıflandırılması”, Journal of ESTUDAM Information, vol. 2, no. 1, pp. 15–20, 2021.

Journal of ESTUDAM Information is indexed by Index Copernicus, Google ScholarASOS Index and ROAD index.