Embodied-RAG: Memoria Corporizada General no paramétrica para Recuperación y Generación
Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation
September 26, 2024
Autores: Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk
cs.AI
Resumen
No hay límite para cuánto puede explorar y aprender un robot, pero todo ese conocimiento debe ser buscable y accionable. Dentro de la investigación del lenguaje, la recuperación aumentada generación (RAG) se ha convertido en el caballo de batalla del conocimiento no paramétrico a gran escala, sin embargo, las técnicas existentes no se transfieren directamente al dominio incorporado, que es multimodal, los datos están altamente correlacionados y la percepción requiere abstracción.
Para abordar estos desafíos, presentamos Embodied-RAG, un marco que mejora el modelo fundamental de un agente incorporado con un sistema de memoria no paramétrico capaz de construir autónomamente conocimiento jerárquico tanto para la navegación como para la generación de lenguaje. Embodied-RAG maneja una amplia gama de resoluciones espaciales y semánticas en diversos entornos y tipos de consultas, ya sea para un objeto específico o una descripción holística del ambiente. En su núcleo, la memoria de Embodied-RAG está estructurada como un bosque semántico, almacenando descripciones de lenguaje en diferentes niveles de detalle. Esta organización jerárquica permite que el sistema genere de manera eficiente salidas sensibles al contexto en diferentes plataformas robóticas. Demostramos que Embodied-RAG conecta efectivamente RAG con el dominio de la robótica, manejando con éxito más de 200 consultas de explicación y navegación en 19 entornos, destacando su promesa como sistema no paramétrico de propósito general para agentes incorporados.
English
There is no limit to how much a robot might explore and learn, but all of
that knowledge needs to be searchable and actionable. Within language research,
retrieval augmented generation (RAG) has become the workhouse of large-scale
non-parametric knowledge, however existing techniques do not directly transfer
to the embodied domain, which is multimodal, data is highly correlated, and
perception requires abstraction.
To address these challenges, we introduce Embodied-RAG, a framework that
enhances the foundational model of an embodied agent with a non-parametric
memory system capable of autonomously constructing hierarchical knowledge for
both navigation and language generation. Embodied-RAG handles a full range of
spatial and semantic resolutions across diverse environments and query types,
whether for a specific object or a holistic description of ambiance. At its
core, Embodied-RAG's memory is structured as a semantic forest, storing
language descriptions at varying levels of detail. This hierarchical
organization allows the system to efficiently generate context-sensitive
outputs across different robotic platforms. We demonstrate that Embodied-RAG
effectively bridges RAG to the robotics domain, successfully handling over 200
explanation and navigation queries across 19 environments, highlighting its
promise for general-purpose non-parametric system for embodied agents.Summary
AI-Generated Summary