The FUTURE is NOW
The FUTURE is NOW

Deep Reinforcement Learning

Deep Reinforcement Learning (DRL) verwendet Prinzipien des Deep Learning und des Reinforcement Learning, um effiziente Algorithmen zu entwickeln, die auf Bereiche wie Robotik, Videospiele, Finanzen, Gesundheitswesen angewendet werden können.

 

Durch die Implementierung einer Deep Learning Architektur (Deep Neural Networks oder etc.) mit Reinforcement Learning Algorithmus (Q-Learning, Akteurskritiker oder etc.) kann ein leistungsfähiges Modell (DRL) erstellt werden, das in der Lage ist, Probleme, die bisher unlösbar waren, zu bewältigen.

 

Das liegt daran, dass DRL in der Regel rohe Sensor- oder Bildsignale als Input verwendet, wie man es im DQN für ATARI-Spiele sehen kann, und den Vorteil des End-to-End-Verstärkungslernens sowie des faltungsneuronalen Netzwerks erhalten kann.

 

DLR Architektur Quelle: Standford University / ang. Alexander Kolbai 2019 

Was steckt hinter dem Deep Reinforcement Learning?

 

Deep Reinforcement Learning ist ein faszinierendes Gebiet. Es ist nicht wirklich datengesteuert wie Deep Learning. Im Deep Learning ist ein guter Datensatz immer Voraussetzung. Stattdessen ist Deep Reinforcement Learning zielorientiert. Dies bedeutet: Im Deep Reinforcement Learning trainieren Sie nicht einen intelligenten Agenten mit Daten, sondern lehren ihn gutes Verhalten, indem Sie ihm sensorische Informationen und Ziele vermitteln.
 

Solche Ziele werden als Belohnungen bezeichnet. Belohnungen kommen in der Regel aus der Umgebung, wenn ein Agent eine Aktion ausführt. Die Umgebung ist die Situation, in der sich der Agent befindet. Der Agent kann die Umgebung mit Sensoren wahrnehmen. Und es kann darin mit Stellgliedern wirken. Positive Belohnungen verstärken positive Verhaltensweisen. Und negative Belohnungen entmutigen schlechtes Verhalten. Ich schätze, du erinnerst dich aus deiner Kindheit daran.
 

Quelle: Dr. Tristan Behrens AI-Guru

Beispiele:

 

Mit Agent basierenden Deep Reinforcement Learning Systemen werden aktuell enorme Fortschritte im Bereich Deep Learning gemacht. Ein gutes Beispiel ist hier Alpha Go und Go2. Wurde Alpha Go noch durch Spiele mit einem Menschen trainiert, so trainierten sich bei Alpha Go2 zwei virtuelle Agents gegeneinander und war danach selbst für den Alpha Go Weltmeister nicht zu schlagen.

Druckversion Druckversion | Sitemap
© exxternity business consulting 2018