İçeriğe geç →

[Bitirme Tezi] Veri Madenciliği ile ABD Dolar Kuru Tahmini Uygulaması

Feragatname (disclaimer) : Bu metin tamamen eğitim amaçlı yayınlanmış olup, hiçbir mali kayıptan veya bilgi yanlışlığından sorumluluk kabul edilmez.

Öncelikle bu tezde bana yardımcı olan danışmanım  Dr. Zehra Aysun ALTIKARDEŞ hocama teşekkürlerimi sunarak başlamak istiyorum. Bu yazı 33 sayfalık tezimin özeti şeklinde, bu konuda uğraşacak, bu konuda bitirme tezi/projesi yazacak arkadaşların işini kolaylaştırmak, deneyimlerimi aktarmak için yazılmıştır. Yazının sonunda ilgili dosyaları indirebileceğiniz bağlantı vardır. O zaman hadi başlayalım…

Bitirme Tezi nedir ? 

Bitirme tezi ülkemizde yüksek öğretim kurumlarının son sınıflarında ders olarak verilen mezuniyet için gerekli proje ödevidir. Bitirme tezi sunumu sınav yerine geçer. Burada amaçlanan öğrenciye akademik araştırma ve proje yapımını öğretip, tattırarak akademik olarak devam edip etmeyeceğini kararlaştırmasını sağlamaktır.  Her ne kadar akademik çalışma yaptırılsa da bu ödev teoriden çok proje odaklıdır.

Bitirme tezi olarak veri  madenciliği projesi almak ne kadar mantıklı ?

Bu soru birazda amacınıza bağlı. Eğer amacınız kolay olsun hemen bitireyim ise yazının devamını okumanıza gerek yok, size erkenden veda ediyoruz demektir. Eğer bu projeyi alabileceğiniz konu hakkında bilgisi olan hatta mümkünse yüksek lisans veya doktorası bu konuda olan bir hocanız varsa bunu düşünmelisiniz aksi takdirde hem hoca için hem sizin için zorlama bir iş olur. Son hafta çıkartabileceğiniz bir ödev olmaktan çok uzak anlayacağınız… Ödevi verirken bir şeyler öğreneyim, kendime bir şeyler katayım diyorsanız, tebrikler tarzsınız 😉

Gelelim Haticeye…

Projede KNIME veri  madenciliği uygulaması kullanılmış olup, tüm veriler 2005 – 2015 yılları arasını kapsamaktadır. Bunun nedeni ise dünya bankasının politik istikrar verisinin 2015 yılından sonra Türkiye için yayınlanmamasıdır. İlgili  veriler  ön işlemeye sokulmuştur. Bu veriler proje dosyaları içinde eksiksiz verilmiştir.

  • ABD Dolar Kuru : Bu nitelik Türkiye Cumhuriyeti merkez bankası elektronik veri dağıtım sisteminden elde dilen verilere dayanmaktadır. Veriler projede kullanılan öğrenme kümesi (train set) ve modelin sınamasını yapma amacıyla kullanılmıştır.
  • İhracat İthalat Verileri : Bu nitelik TÜİK verilerine dayanmaktadır. Gelecek çıkarımı yapmak için kullanılmıştır.
  • Tüketici Fiyat Endeksi (TÜFE) : Enflasyonun doğrudan belirleyicisidir. Tüketici ürünlerin fiyatının ne kadar arttığını gösterir. TÜİK verilerinden faydalanılmıştır.
  • TCMB Gecelik Faiz Oranı : Merkez bankasının yabancı para kurları üzerindeki en büyük silahlarından biridir. Bu veri sitedeki  html dökümünden elde edilmiştir.
  • Politik İstikrar İndeksi: Dünyadaki tüm ülkelerin siyasal kaos durumuna göre bir sıralamaya tabi tutulması ile oluşturulan veridir. Bu projede dünya bankası verileri göz önünde bulundurulmuştur.
  • FED 10 Yıllık Faiz : FED, yani Amerikan merkez bankasının belirlediği tüm dünya para kurlarını etkilen faiz oranıdır. ABD de kuru etkileyen ana faizdir.
  • Dolar/Euro Paritesi : Dolar ve Euro kurları arasındaki bağıntıyı belirleyen parametredir.

Gelelim neticeye…

Projede Polinomsal ilkelleme (polynomial regression) ve random forest algoritmaları denenmiştir. Uygunluk açısından random  forest tree algoritması seçilmiştir.

Aşağıda pattern’ın en kötü çalıştığı verileri görüyorsunuz. En kötü veride orjinal veriden %1.07 sapma var. Soldan sağa kırmızı kutuya alınmış ilk sütun gerçek dolar verisini gösteriyor, ikinci kırmızı kutu bilgisayar tahmini, üçüncü kutu ise sapma oranını.
Aşağıdaki verilerde en iyi tahminleri gösteriyor.

Elde edilen sonuçlara göre dolar kuru tahmini gibi karmaşık bir uygulamada polinomsal ilkellemenin yeterli olmadığı görülmüştür. Bu çalışmada görüldüğü gibi karar ağaçları uygulaması projede büyük farkla daha isabetli  nitelik çıkarımı  yapmaktadır. Rasgele karar ağacı en fazla %1.07 sapma ile sonuç bulurken polinomsal ilkelleme ise %30.43 sapma verdiğinden böyle bir sapmanın toleransa tabii tutulması doğru olmayacaktır ancak hız açısından polinomsal ilkelleme, rastgele karar ağacı gibi ağaç dalına özel hesap yapmadığından daha hızlı çalıştığı söylenebilir.

Elde edilen sonuçların daha verimli yorumlama bilinmesi için ilgili verilerimizin 2005-2015 tarihleri arasından çok daha uzun dönemlere göre uyarlanması faydalı olabilir ancak veri miktarı uzadıkça işlenen veriye bağıl olmak üzere işlem süresi artacaktır. Bu nedenle en uygun dönemlerin bulunup, buna göre bir veri kümesi hazırlanması için iktisatçılarla disiplinler arası bir proje yapılabilir.

Sadece tez için tıklayınız   Tez dosyası ve veriler için tıklayınız.

Published in Veri Bilimi

Comments

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir