ChatPaper.aiChatPaper

LLM-Grounder: Open-Vocabulary 3D Visuele Verankering met een Groot Taalmodel als Agent

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

September 21, 2023
Auteurs: Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
cs.AI

Samenvatting

3D-visuele gronding is een essentiële vaardigheid voor huishoudelijke robots, waardoor ze kunnen navigeren, objecten kunnen manipuleren en vragen kunnen beantwoorden op basis van hun omgeving. Terwijl bestaande benaderingen vaak afhankelijk zijn van uitgebreide gelabelde data of beperkingen vertonen bij het verwerken van complexe taalvragen, stellen wij LLM-Grounder voor, een nieuwe zero-shot, open-vocabulary, op Large Language Models (LLM) gebaseerde 3D-visuele grondingspijplijn. LLM-Grounder maakt gebruik van een LLM om complexe natuurlijke taalvragen te ontleden in semantische componenten en gebruikt een visuele grondingstool, zoals OpenScene of LERF, om objecten in een 3D-scène te identificeren. De LLM evalueert vervolgens de ruimtelijke en gezondverstandrelaties tussen de voorgestelde objecten om een definitieve grondingsbeslissing te nemen. Onze methode vereist geen gelabelde trainingsdata en kan generaliseren naar nieuwe 3D-scènes en willekeurige tekstvragen. We evalueren LLM-Grounder op de ScanRefer-benchmark en tonen state-of-the-art zero-shot grondingsnauwkeurigheid aan. Onze bevindingen geven aan dat LLM's de grondingscapaciteit aanzienlijk verbeteren, vooral voor complexe taalvragen, waardoor LLM-Grounder een effectieve benadering is voor 3D-visie-taaltaken in robotica. Video's en interactieve demo's zijn te vinden op de projectwebsite https://chat-with-nerf.github.io/.
English
3D visual grounding is a critical skill for household robots, enabling them to navigate, manipulate objects, and answer questions based on their environment. While existing approaches often rely on extensive labeled data or exhibit limitations in handling complex language queries, we propose LLM-Grounder, a novel zero-shot, open-vocabulary, Large Language Model (LLM)-based 3D visual grounding pipeline. LLM-Grounder utilizes an LLM to decompose complex natural language queries into semantic constituents and employs a visual grounding tool, such as OpenScene or LERF, to identify objects in a 3D scene. The LLM then evaluates the spatial and commonsense relations among the proposed objects to make a final grounding decision. Our method does not require any labeled training data and can generalize to novel 3D scenes and arbitrary text queries. We evaluate LLM-Grounder on the ScanRefer benchmark and demonstrate state-of-the-art zero-shot grounding accuracy. Our findings indicate that LLMs significantly improve the grounding capability, especially for complex language queries, making LLM-Grounder an effective approach for 3D vision-language tasks in robotics. Videos and interactive demos can be found on the project website https://chat-with-nerf.github.io/ .
PDF172December 15, 2024