Robin3D : Amélioration du modèle de langage 3D via un réglage robuste des instructions
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
Auteurs: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
Résumé
Les récents progrès dans les Modèles de Langage 3D Large (3DLLMs) ont mis en lumière leur potentiel dans la construction d'agents polyvalents dans le monde réel en 3D, cependant des défis persistent en raison du manque de données robustes de haute qualité pour suivre des instructions, ce qui limite le pouvoir discriminatif et la généralisation des 3DLLMs. Dans cet article, nous présentons Robin3D, un puissant 3DLLM entraîné sur des données de suivi d'instructions à grande échelle générées par notre moteur de données novateur, Robust Instruction Generation (RIG). RIG génère deux types de données d'instructions clés : 1) les données d'Adversarial Instruction-following, qui présentent des échantillons négatifs et positifs mélangés pour améliorer la compréhension discriminative du modèle. 2) les données de Diverse Instruction-following, qui contiennent divers styles d'instructions pour améliorer la généralisation du modèle. En conséquence, nous construisons un million de données de suivi d'instructions, comprenant 344K échantillons Adversarial, 508K échantillons Diverse, et 165K échantillons de l'ensemble d'entraînement de référence. Pour mieux gérer ces instructions complexes, Robin3D intègre d'abord un Projecteur Augmenté par Relation pour améliorer la compréhension spatiale, puis renforce la capacité de référencement et d'ancrage d'objets grâce à l'ID-Feature Bonding. Robin3D surpasse de manière constante les méthodes précédentes sur cinq benchmarks d'apprentissage multimodal 3D largement utilisés, sans nécessiter de fine-tuning spécifique à la tâche. Notamment, nous obtenons une amélioration de 7,8\% dans la tâche d'ancrage (Multi3DRefer) et une amélioration de 6,9\% dans la tâche de légendage (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).Summary
AI-Generated Summary