3D-GRAND: Un conjunto de datos a gran escala para modelos de lenguaje 3D con mejor fundamentación y menos alucinaciones
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
June 7, 2024
Autores: Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
cs.AI
Resumen
La integración del lenguaje y la percepción 3D es crucial para desarrollar agentes y robots corporizados que comprendan e interactúen con el mundo físico. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de comprensión y generación de lenguaje, su adaptación a entornos 3D (3D-LLMs) sigue en sus primeras etapas. Un desafío principal es la ausencia de conjuntos de datos a gran escala que proporcionen un anclaje denso entre el lenguaje y las escenas 3D. En este artículo, presentamos 3D-GRAND, un conjunto de datos pionero a gran escala que comprende 40,087 escenas domésticas emparejadas con 6.2 millones de instrucciones de lenguaje ancladas densamente a las escenas. Nuestros resultados muestran que el ajuste por instrucciones con 3D-GRAND mejora significativamente las capacidades de anclaje y reduce las alucinaciones en los 3D-LLMs. Como parte de nuestras contribuciones, proponemos un punto de referencia integral, 3D-POPE, para evaluar sistemáticamente las alucinaciones en los 3D-LLMs, permitiendo comparaciones justas entre futuros modelos. Nuestros experimentos destacan un efecto de escalabilidad entre el tamaño del conjunto de datos y el rendimiento de los 3D-LLMs, enfatizando el papel crítico de los conjuntos de datos de texto 3D a gran escala en el avance de la investigación en IA corporizada. Notablemente, nuestros resultados muestran señales tempranas de una transferencia efectiva de simulación a realidad, indicando que los modelos entrenados con grandes cantidades de datos sintéticos pueden desempeñarse bien en escaneos 3D del mundo real. A través de 3D-GRAND y 3D-POPE, nuestro objetivo es equipar a la comunidad de IA corporizada con recursos y conocimientos esenciales, sentando las bases para 3D-LLMs más confiables y mejor anclados. Sitio web del proyecto: https://3d-grand.github.io
English
The integration of language and 3D perception is crucial for developing
embodied agents and robots that comprehend and interact with the physical
world. While large language models (LLMs) have demonstrated impressive language
understanding and generation capabilities, their adaptation to 3D environments
(3D-LLMs) remains in its early stages. A primary challenge is the absence of
large-scale datasets that provide dense grounding between language and 3D
scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset
comprising 40,087 household scenes paired with 6.2 million densely-grounded
scene-language instructions. Our results show that instruction tuning with
3D-GRAND significantly enhances grounding capabilities and reduces
hallucinations in 3D-LLMs. As part of our contributions, we propose a
comprehensive benchmark 3D-POPE to systematically evaluate hallucination in
3D-LLMs, enabling fair comparisons among future models. Our experiments
highlight a scaling effect between dataset size and 3D-LLM performance,
emphasizing the critical role of large-scale 3D-text datasets in advancing
embodied AI research. Notably, our results demonstrate early signals for
effective sim-to-real transfer, indicating that models trained on large
synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and
3D-POPE, we aim to equip the embodied AI community with essential resources and
insights, setting the stage for more reliable and better-grounded 3D-LLMs.
Project website: https://3d-grand.github.ioSummary
AI-Generated Summary