3D-GRAND: Многомасштабный набор данных для 3D-LLM с лучшей привязкой и меньшим галлюцинированием.
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
June 7, 2024
Авторы: Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
cs.AI
Аннотация
Интеграция языка и трехмерного восприятия является ключевой для развития инкорпорированных агентов и роботов, которые понимают и взаимодействуют с физическим миром. В то время как большие языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации языка, их адаптация к трехмерным окружениям (3D-LLM) находится на начальной стадии. Одним из основных вызовов является отсутствие крупномасштабных наборов данных, обеспечивающих плотное соответствие между языком и трехмерными сценами. В данной статье мы представляем 3D-GRAND, первоначальный крупномасштабный набор данных, включающий 40 087 домашних сцен, сопоставленных с 6,2 миллионами плотно соотнесенных инструкций сцена-язык. Наши результаты показывают, что настройка инструкций с использованием 3D-GRAND значительно улучшает способности соотнесения и снижает галлюцинации в 3D-LLM. В рамках наших вкладов мы предлагаем комплексный бенчмарк 3D-POPE для систематической оценки галлюцинаций в 3D-LLM, обеспечивая честные сравнения среди будущих моделей. Наши эксперименты подчеркивают эффект масштабирования между размером набора данных и производительностью 3D-LLM, подчеркивая критическую роль крупномасштабных трехмерных текстовых наборов данных в продвижении исследований в области инкорпорированного искусственного интеллекта. Значительно, наши результаты демонстрируют ранние сигналы эффективного переноса из симуляции в реальность, указывая на то, что модели, обученные на крупных синтетических данных, могут успешно работать на реальных трехмерных сканах. Через 3D-GRAND и 3D-POPE мы стремимся обеспечить сообщество инкорпорированного искусственного интеллекта необходимыми ресурсами и идеями, подготавливая почву для более надежных и тщательно обоснованных 3D-LLM. Веб-сайт проекта: https://3d-grand.github.io
English
The integration of language and 3D perception is crucial for developing
embodied agents and robots that comprehend and interact with the physical
world. While large language models (LLMs) have demonstrated impressive language
understanding and generation capabilities, their adaptation to 3D environments
(3D-LLMs) remains in its early stages. A primary challenge is the absence of
large-scale datasets that provide dense grounding between language and 3D
scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset
comprising 40,087 household scenes paired with 6.2 million densely-grounded
scene-language instructions. Our results show that instruction tuning with
3D-GRAND significantly enhances grounding capabilities and reduces
hallucinations in 3D-LLMs. As part of our contributions, we propose a
comprehensive benchmark 3D-POPE to systematically evaluate hallucination in
3D-LLMs, enabling fair comparisons among future models. Our experiments
highlight a scaling effect between dataset size and 3D-LLM performance,
emphasizing the critical role of large-scale 3D-text datasets in advancing
embodied AI research. Notably, our results demonstrate early signals for
effective sim-to-real transfer, indicating that models trained on large
synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and
3D-POPE, we aim to equip the embodied AI community with essential resources and
insights, setting the stage for more reliable and better-grounded 3D-LLMs.
Project website: https://3d-grand.github.ioSummary
AI-Generated Summary