ChatPaper.aiChatPaper

Aprendiendo a Identificar Estados Críticos para el Aprendizaje por Refuerzo a partir de Videos

Learning to Identify Critical States for Reinforcement Learning from Videos

August 15, 2023
Autores: Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, Jürgen Schmidhuber
cs.AI

Resumen

Trabajos recientes en aprendizaje por refuerzo profundo (DRL, por sus siglas en inglés) han señalado que la información algorítmica sobre políticas efectivas puede extraerse de datos offline que carecen de información explícita sobre las acciones ejecutadas. Por ejemplo, videos de humanos o robots pueden transmitir mucha información implícita sobre secuencias de acciones que generan recompensas, pero una máquina de DRL que desee beneficiarse de observar dichos videos primero debe aprender por sí misma a identificar y reconocer estados/acciones/recompensas relevantes. Sin depender de anotaciones de referencia, nuestro nuevo método, llamado Identificador de Estados Profundos (Deep State Identifier), aprende a predecir retornos a partir de episodios codificados como videos. Luego, utiliza un tipo de análisis de sensibilidad basado en máscaras para extraer/identificar estados críticos importantes. Experimentos extensivos demuestran el potencial de nuestro método para comprender y mejorar el comportamiento de los agentes. El código fuente y los conjuntos de datos generados están disponibles en https://github.com/AI-Initiative-KAUST/VideoRLCS.
English
Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline data which lack explicit information about executed actions. For example, videos of humans or robots may convey a lot of implicit information about rewarding action sequences, but a DRL machine that wants to profit from watching such videos must first learn by itself to identify and recognize relevant states/actions/rewards. Without relying on ground-truth annotations, our new method called Deep State Identifier learns to predict returns from episodes encoded as videos. Then it uses a kind of mask-based sensitivity analysis to extract/identify important critical states. Extensive experiments showcase our method's potential for understanding and improving agent behavior. The source code and the generated datasets are available at https://github.com/AI-Initiative-KAUST/VideoRLCS.
PDF70December 15, 2024