Pekiştirmeli Öğrenme (Reinforcement Learning) Temel Eğitimi

Eğitim hakkında

Pekiştirmeli öğrenme makine öğrenmesinin bir alt alanıdır, aynı zamanda otomatik karar verme ve yapay zeka için kullanılan genel amaçlı bir öğrenme tekniğidir.

1950’lerde Richard Bellman tarafından ortaya atılan dinamik programlama, pekiştirmeli öğrenmenin temelini oluşturmaktadır. 1990’larda dinamik programlama makine öğrenmesi ile birleşmiştir ve bu şekilde güçlenen pekiştirmeli öğrenme ilk ciddi başarısını 1992’de geliştirilen bir model ile tavla şampiyonunu yenerek kazanmıştır. Sonrasında uzun bir süre çok fazla gelişme olmamıştır ancak 2013’te pekiştirmeli öğrenme yapay sinir ağı ile birleşince büyük bir aşama kaydedilmiş ve atari oyunlarında kendi kendisine öğrenerek insan seviyesi performansını geçmeyi başarmıştır. 2016’da ise pekiştirmeli öğrenmeyi kullanan AlphaZero,  Go oyununda dünya şampiyonu Lee Sedol’u yenerek büyük başarı elde etmiştir.

Pekiştirmeli öğrenme günümüzde sürücüsüz arabalar gibi kendi kendine karar veren birçok otonom sistemde kullanılmaktadır. Yeni bir uygulama olarak atmosfere gönderilen internet servisi sağlayan balonların navigasyonu da pekiştirmeli öğrenme tarafından yapılmaktadır.

Bu kursta pekiştirmeli öğrenmenin klasik ve modern algoritmalarının altında yatan temel kavramlar anlatılacaktır.  Pekiştirmeli öğrenmenin temelleri olan Markov süreçleri, Bellman eşitlikleri dinamik programlama ve örnekleme dayalı öğrenme kursun en önemli içeriklerini oluşturmaktadır.

Katılımcıların kursa aktif katılımını sağlayabilmek amacıyla kursun içine çok sayıda soru cevap dahil edilmiştir. Pekiştirmeli öğrenmenin teorik altyapısı anlatılmakla beraber sıklıkla dahil edilen örnek problemlerle daha anlaşılır kılınmıştır.

Eğitimin sonunda katılımcıların pekiştirmeli öğrenmenin temel kavramlarını öğrenmeleri ve kendi şirketlerinde ya da ortamlarında hangi problemlerin çözümü için pekiştirmeli öğrenme kullanacaklarını belirleyebilmeleri hedeflenmektedir.

Kimler katılmalı

Pekiştirmeli öğrenmeye ilgi duyan ve bu teknoloji hakkında bilgi sahibi olmak isteyen herkes eğitime katılabilir. Eğitim içeriği farklı rollerdeki kişilere (yönetici, tasarımcı, analist, yazılımcı) hitap edecek şekilde hazırlanmıştır. Eğitime katılım için ön şart olmamakla beraber mühendislik temel matematik bilgisi teorik kısımların daha iyi anlaşılmasını sağlayacaktır.

Eğitim İçeriği

 

Giriş

  • Kavramlar
    • Temsilci (Agent), politika (policy), çevre (environment), model, getiri (return), değer fonksiyonu (value function)

Markov Özelliği

  • Markov zinciri (Markov chain)
  • Markov ödül süreci (Markov reward process)
  • Markov karar süreci (Markov decision process-MDP)
  • Bellman eşitlikleri

Dinamik programlama

  • Politika değerlendirmesi (Policy evaluation)
  • Politika araştırması (Policy iteration)
  • Genelleştirilmiş politika araştırması (Generalized policy iteration-GPI)
  • Değer araştırması (Value iteration)

Faydalanma(Exploitation) ve exploration (araştırma)

  • E-greedy
  • İyimser ilk değerler
  • Yukarı güvenlik sınırı (Upper confidence bound –UCB)

Örnekleme dayalı öğrenme (Sample based learning)

  • Monte Carlo yöntemleri
    • Her ziyaret/İlk ziyaret Monte Carlo
    • Monte Carlo değerlendirme
    • Monte Carlo kontrol
  • Zamansal fark öğrenmesi (temporal difference learning-TD)
    • TD(0) ve TD(λ)
    • TD kontrol
      • SARSA
      • Beklenen SARSA (Expected SARSA)
      • Q-öğrenmesi (Q-learning)

Eğitim süresi

  • 2 gün (8 saat)

Eğitmen