ChatPaper.aiChatPaper

Agentes con Difusión Aumentada: Un Marco para la Exploración Eficiente y el Aprendizaje por Transferencia

Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

July 30, 2024
Autores: Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan
cs.AI

Resumen

Presentamos Agentes Aumentados por Difusión (DAAG, por sus siglas en inglés), un marco novedoso que aprovecha modelos de lenguaje grandes, modelos de visión y modelos de difusión para mejorar la eficiencia de muestra y el aprendizaje por transferencia en el aprendizaje por refuerzo para agentes incorporados. DAAG reconsidera retrospectivamente la experiencia pasada del agente utilizando modelos de difusión para transformar videos de manera temporal y geométricamente coherente para alinearse con instrucciones objetivo con una técnica que llamamos Aumento de Experiencia con Perspectiva. Un modelo de lenguaje grande orquesta este proceso autónomo sin requerir supervisión humana, lo que lo hace adecuado para escenarios de aprendizaje continuo. El marco reduce la cantidad de datos etiquetados con recompensa necesarios para 1) ajustar finamente un modelo de lenguaje visual que actúa como detector de recompensa, y 2) entrenar agentes de RL en nuevas tareas. Demostramos las ganancias de eficiencia de muestra de DAAG en entornos de robótica simulados que involucran manipulación y navegación. Nuestros resultados muestran que DAAG mejora el aprendizaje de detectores de recompensa, la transferencia de experiencias pasadas y la adquisición de nuevas tareas, habilidades clave para desarrollar agentes eficientes de aprendizaje continuo. El material suplementario y visualizaciones están disponibles en nuestro sitio web https://sites.google.com/view/diffusion-augmented-agents/
English
We introduce Diffusion Augmented Agents (DAAG), a novel framework that leverages large language models, vision language models, and diffusion models to improve sample efficiency and transfer learning in reinforcement learning for embodied agents. DAAG hindsight relabels the agent's past experience by using diffusion models to transform videos in a temporally and geometrically consistent way to align with target instructions with a technique we call Hindsight Experience Augmentation. A large language model orchestrates this autonomous process without requiring human supervision, making it well-suited for lifelong learning scenarios. The framework reduces the amount of reward-labeled data needed to 1) finetune a vision language model that acts as a reward detector, and 2) train RL agents on new tasks. We demonstrate the sample efficiency gains of DAAG in simulated robotics environments involving manipulation and navigation. Our results show that DAAG improves learning of reward detectors, transferring past experience, and acquiring new tasks - key abilities for developing efficient lifelong learning agents. Supplementary material and visualizations are available on our website https://sites.google.com/view/diffusion-augmented-agents/

Summary

AI-Generated Summary

PDF252November 28, 2024