Embodied-RAG: 検索と生成のための一般的な非パラメトリックな具現化メモリ
Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation
September 26, 2024
著者: Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk
cs.AI
要旨
ロボットが探索し学習する限りは制限はありませんが、その知識はすべて検索可能で実行可能である必要があります。言語研究において、検索増強生成(RAG)は大規模な非パラメトリック知識の中核となっていますが、既存の技術は具象領域への直接の移行が困難です。具象領域はマルチモーダルであり、データが高度に相関しており、知覚には抽象化が必要です。
これらの課題に対処するため、私たちは具象的RAGというフレームワークを導入します。これは、具象的エージェントの基本モデルを非パラメトリックメモリシステムで拡張し、ナビゲーションと言語生成のために階層的知識を自律的に構築できるものです。具象的RAGは、さまざまな環境やクエリタイプにわたる空間的および意味的解像度の完全な範囲を処理し、特定のオブジェクトや雰囲気の包括的な説明のために使用されます。具象的RAGの中核となるメモリは、言語の説明を異なる詳細レベルで保存する意味論的フォレストとして構造化されています。この階層的組織化により、システムは異なるロボットプラットフォームで効率的にコンテキストに敏感な出力を生成できます。具象的RAGが効果的にRAGをロボティクス領域に結びつけ、19の環境で200を超える説明とナビゲーションクエリを成功裏に処理することを実証し、具象的エージェント向けの汎用非パラメトリックシステムとしての可能性を示しています。
English
There is no limit to how much a robot might explore and learn, but all of
that knowledge needs to be searchable and actionable. Within language research,
retrieval augmented generation (RAG) has become the workhouse of large-scale
non-parametric knowledge, however existing techniques do not directly transfer
to the embodied domain, which is multimodal, data is highly correlated, and
perception requires abstraction.
To address these challenges, we introduce Embodied-RAG, a framework that
enhances the foundational model of an embodied agent with a non-parametric
memory system capable of autonomously constructing hierarchical knowledge for
both navigation and language generation. Embodied-RAG handles a full range of
spatial and semantic resolutions across diverse environments and query types,
whether for a specific object or a holistic description of ambiance. At its
core, Embodied-RAG's memory is structured as a semantic forest, storing
language descriptions at varying levels of detail. This hierarchical
organization allows the system to efficiently generate context-sensitive
outputs across different robotic platforms. We demonstrate that Embodied-RAG
effectively bridges RAG to the robotics domain, successfully handling over 200
explanation and navigation queries across 19 environments, highlighting its
promise for general-purpose non-parametric system for embodied agents.Summary
AI-Generated Summary