ChatPaper.aiChatPaper

3D-GRAND: Un Dataset su Scala Milionaria per 3D-LLM con Miglior Grounding e Minore Allucinazione

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

June 7, 2024
Autori: Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
cs.AI

Abstract

L'integrazione tra linguaggio e percezione 3D è cruciale per sviluppare agenti e robot incarnati che comprendono e interagiscono con il mondo fisico. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato impressionanti capacità di comprensione e generazione del linguaggio, il loro adattamento agli ambienti 3D (3D-LLM) è ancora nelle fasi iniziali. Una delle principali sfide è l'assenza di dataset su larga scala che forniscano un ancoraggio denso tra linguaggio e scene 3D. In questo articolo, introduciamo 3D-GRAND, un dataset pionieristico su larga scala che comprende 40.087 scene domestiche accoppiate a 6,2 milioni di istruzioni linguistiche densamente ancorate alle scene. I nostri risultati mostrano che l'ottimizzazione delle istruzioni con 3D-GRAND migliora significativamente le capacità di ancoraggio e riduce le allucinazioni nei 3D-LLM. Come parte dei nostri contributi, proponiamo un benchmark completo, 3D-POPE, per valutare sistematicamente le allucinazioni nei 3D-LLM, consentendo confronti equi tra i modelli futuri. I nostri esperimenti evidenziano un effetto di scala tra la dimensione del dataset e le prestazioni dei 3D-LLM, sottolineando il ruolo cruciale dei dataset su larga scala di testo 3D nel far progredire la ricerca sull'IA incarnata. In particolare, i nostri risultati mostrano segnali precoci di un efficace trasferimento da simulazione a realtà, indicando che i modelli addestrati su grandi quantità di dati sintetici possono performare bene su scansioni 3D del mondo reale. Attraverso 3D-GRAND e 3D-POPE, miriamo a fornire alla comunità dell'IA incarnata risorse e intuizioni essenziali, preparando il terreno per 3D-LLM più affidabili e meglio ancorati. Sito web del progetto: https://3d-grand.github.io
English
The integration of language and 3D perception is crucial for developing embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is the absence of large-scale datasets that provide dense grounding between language and 3D scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons among future models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the critical role of large-scale 3D-text datasets in advancing embodied AI research. Notably, our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with essential resources and insights, setting the stage for more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io
PDF302February 7, 2026