Pekiştirmeli Öğrenme (Reinforcement Learning) İleri Eğitimi

Eğitim hakkında

Pekiştirmeli öğrenme makine öğrenmesinin bir alt alanıdır, aynı zamanda otomatik karar verme ve yapay zeka için kullanılan genel amaçlı bir öğrenme tekniğidir.

1950’lerde Richard Bellman tarafından ortaya atılan dinamik programlama pekiştirmeli öğrenmenin temelini oluşturmaktadır. 1990’larda dinamik programlama makine öğrenmesi ile birleşmiştir ve bu şekilde güçlenen pekiştirmeli öğrenme ilk ciddi başarısını 1992’de geliştirilen bir model ile tavla şampiyonunu yenerek kazanmıştır. Sonrasında uzun bir süre çok fazla gelişme olmamıştır ancak 2013’te pekiştirmeli öğrenme yapay sinir ağı ile birleşince büyük bir aşama kaydedilmiş ve atari oyunlarında kendi kendisine öğrenerek insan seviyesi performansını geçmeyi başarmıştır. 2016’da ise pekiştirmeli öğrenmeyi kullanan AlphaZero, Go oyununda dünya şampiyonu Lee Sedol’u yenerek büyük başarı elde etmiştir.

Pekiştirmeli öğrenme günümüzde sürücüsüz arabalar gibi kendi kendine karar veren birçok otonom sistemde kullanılmaktadır. Yeni bir uygulama olarak atmosfere gönderilen internet servisi sağlayan balonların navigasyonu da pekiştirmeli öğrenme tarafından yapılmaktadır.

Bu kurs pekiştirmeli öğrenme temel eğitiminin devamı niteliğinde tasarlanmıştır. Gerçek hayata daha uygun, model bilgisinin bilinmediği, sonlu olmayan sistemlerin öğrenilmesinde kullanılan değer fonksiyonu yaklaşıklama ve politika gradyan inişi yöntemleri bu kursun ana kapsamını oluşturmaktadır. Son yıllarda dünyada ses getiren pekiştirmeli öğrenme uygulamalarında temel olarak kullanılan bu teknikler eğitim kapsamındadır.

Katılımcıların kursa aktif katılımını sağlayabilmek amacıyla kursun içine çok sayıda soru cevap dahil edilmiştir. Pekiştirmeli öğrenmenin teorik altyapısı anlatılmakla beraber örnek problemler ve gerçek hayattaki uygulamalar da aktarılarak daha anlaşılır olması sağlanmıştır.

Eğitimin sonunda katılımcıların; pekiştirmeli öğrenmenin güncel ve yeni yöntemlerini öğrenmiş olmalarını ve kendi şirketlerinde ya da ortamlarında hangi problemlerin çözümü konusunda hangi yöntemi kullanabileceklerini belirleyebilmeleri hedeflenmektedir.

Kimler katılmalı

Pekiştirmeli öğrenme ileri eğitimine katılmak için öncesinde pekiştirmeli öğrenme temel eğitimini almış olmak ya da onun içeriğindeki konulara hakim olmak gerekmektedir. Pekiştirmeli öğrenmeye ilgi duyan ve bu teknoloji hakkında bilgi sahibi olmak isteyen herkes eğitime katılabilir. Eğitim içeriği, farklı rollerdeki kişilere (yönetici, tasarımcı, analist, yazılımcı) hitap edecek şekilde hazırlanmıştır. Eğitime katılım için ön şart olmamakla beraber mühendislik temel matematik bilgisi teorik kısımları daha iyi anlaşılmasını sağlayacaktır.

Eğitim İçeriği

 

DYNA

  • DYNA Q ve DYNA Q+

Değer fonksiyonu yaklaşıklama (Value function approximation-VFA)

  • Giriş
    • Parametrik değer fonksiyonu
    • Genelleştirme ve ayrıştırma (Generalization and discrimination)
    • Danışmanlı öğrenme ile değer fonksiyonu tahmini
    • Ortalama karesel hata (Mean square value error objective)
  • Durum birleştirme (State aggregation)
    • Kaba kodlama ve tanecikleme (Coarse coding and tiling)
  • VFA ile değerlendirme
    • Gradyan Monte Carlo (Gradient Monte Carlo)
    • Yarı gradyan TD (Semi gradient TD)
    • Yapay sinir ağları ile değer fonksiyonu tahminleme
  • VFA ile kontrol
    • Sonlu deneyimler (episodic) SARSA ile değer fonksiyonu yaklaşıklama
    • Beklenen SARSA ile değer fonksiyonu yaklaşıklama
    • Q-öğrenmesi (Q-learning) ile değer fonksiyonu yaklaşıklama
  • VFA araştırma (exploration)
  • Ortalama ödül
    • Farksal SARSA

Politika gradyan inişi yöntemleri (Policy gradient methods)

  • Parametrik politika (parametrized policy)
  • Softmax actor-critic
  • Gaussian actor-critic

Eğitim süresi

  • 1 gün (5 saat)

Eğitmen