Deep Distributional Temporal Difference Learning for Game Playing
Med modern teknik inom artificiell intelligens (AI) kan datorprogram lära sig spela spel genom att öva. I mitt examensarbete lär sig ett datorprogram spela luffarschack (5-i-rad) genom att spela 200 000 partier mot sig själv. I början spelar programmet helt slumpmässigt, men till slut är det väldigt svårslaget. Brädspel har en lång historia inom AI-forskningen. De är med sin unika kombination avTemporal difference learning is considered one of the most successful methods in reinforcement learning. Recent developments in deep learning have opened up a new world of opportunities. In this project, we compare classic scalar temporal difference learning with three new distributional algorithms for playing the game of 5-in-a-row using deep neural networks: distributional temporal difference le