ChatPaper.aiChatPaper

Embodied-RAG: Memoria Corporizada General no paramétrica para Recuperación y Generación

Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation

September 26, 2024
Autores: Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk
cs.AI

Resumen

No hay límite para cuánto puede explorar y aprender un robot, pero todo ese conocimiento debe ser buscable y accionable. Dentro de la investigación del lenguaje, la recuperación aumentada generación (RAG) se ha convertido en el caballo de batalla del conocimiento no paramétrico a gran escala, sin embargo, las técnicas existentes no se transfieren directamente al dominio incorporado, que es multimodal, los datos están altamente correlacionados y la percepción requiere abstracción. Para abordar estos desafíos, presentamos Embodied-RAG, un marco que mejora el modelo fundamental de un agente incorporado con un sistema de memoria no paramétrico capaz de construir autónomamente conocimiento jerárquico tanto para la navegación como para la generación de lenguaje. Embodied-RAG maneja una amplia gama de resoluciones espaciales y semánticas en diversos entornos y tipos de consultas, ya sea para un objeto específico o una descripción holística del ambiente. En su núcleo, la memoria de Embodied-RAG está estructurada como un bosque semántico, almacenando descripciones de lenguaje en diferentes niveles de detalle. Esta organización jerárquica permite que el sistema genere de manera eficiente salidas sensibles al contexto en diferentes plataformas robóticas. Demostramos que Embodied-RAG conecta efectivamente RAG con el dominio de la robótica, manejando con éxito más de 200 consultas de explicación y navegación en 19 entornos, destacando su promesa como sistema no paramétrico de propósito general para agentes incorporados.
English
There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.

Summary

AI-Generated Summary

PDF32November 13, 2024