Robin3D: Melhorando o Modelo de Linguagem 3D através do Ajuste Robusto de Instruções
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
Autores: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem 3D de Grande Escala (3DLLMs) destacaram seu potencial na construção de agentes de propósito geral no mundo real em 3D, no entanto, desafios persistem devido à falta de dados robustos de alta qualidade para seguir instruções, resultando em poder discriminativo e generalização limitados dos 3DLLMs. Neste artigo, apresentamos o Robin3D, um poderoso 3DLLM treinado em dados de grande escala de seguimento de instruções gerados por nossa nova engine de dados, Robust Instruction Generation (RIG). O RIG gera dois tipos principais de dados de instrução: 1) os dados de Seguimento de Instrução Adversarial, que apresentam amostras mistas negativas e positivas para aprimorar a compreensão discriminativa do modelo. 2) os dados de Seguimento de Instrução Diversos, que contêm vários estilos de instrução para aprimorar a generalização do modelo. Como resultado, construímos 1 milhão de dados de seguimento de instruções, compostos por 344 mil amostras Adversariais, 508 mil amostras Diversas e 165 mil amostras do conjunto de treinamento de referência. Para lidar melhor com essas instruções complexas, o Robin3D primeiro incorpora um Projetor com Relações Aumentadas para aprimorar a compreensão espacial e, em seguida, fortalece a capacidade de referenciar e ancorar objetos por meio de Ligação de Recursos de Identificação. O Robin3D supera consistentemente métodos anteriores em cinco benchmarks amplamente utilizados de aprendizado multimodal 3D, sem a necessidade de ajuste fino específico da tarefa. Notavelmente, alcançamos uma melhoria de 7,8\% na tarefa de ancoragem (Multi3DRefer) e uma melhoria de 6,9\% na tarefa de legendagem (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).Summary
AI-Generated Summary