Robin3D: Улучшение 3D большой языковой модели с помощью устойчивой настройки инструкций
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
Авторы: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
Аннотация
Недавние достижения в области трехмерных больших языковых моделей (3DLLM) подчеркнули их потенциал в создании универсальных агентов в трехмерном реальном мире, однако остаются вызовы из-за отсутствия качественных устойчивых данных по следованию инструкциям, что приводит к ограниченной дискриминационной способности и обобщению 3DLLM. В данной статье мы представляем Robin3D, мощную 3DLLM, обученную на масштабных данных по следованию инструкциям, сгенерированных нашим новаторским движком данных, движком Robust Instruction Generation (RIG). RIG генерирует два ключевых типа инструкционных данных: 1) данные по следованию инструкциям с адверсарным подходом, включающие смешанные отрицательные и положительные примеры для улучшения дискриминационного понимания модели. 2) разнообразные данные по следованию инструкциям, содержащие различные стили инструкций для улучшения обобщения модели. В результате мы создаем миллион данных по следованию инструкциям, включающих 344 тыс. адверсарных примеров, 508 тыс. разнообразных примеров и 165 тыс. примеров обучающего набора для эталонного тестирования. Для более эффективной обработки этих сложных инструкций Robin3D сначала внедряет Relation-Augmented Projector для улучшения пространственного понимания, а затем укрепляет способность к обращению и привязке объектов через ID-Feature Bonding. Robin3D последовательно превосходит предыдущие методы по пяти широко используемым бенчмаркам трехмерного мультимодального обучения без необходимости специфической настройки. Значительно, мы достигаем улучшения на 7,8\% в задаче привязки (Multi3DRefer) и на 6,9\% в задаче подписывания (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).