Robin3D: Verbesserung des 3D Large Language Model durch robustes Anweisungstuning
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
Autoren: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei 3D Large Language Models (3DLLMs) haben ihr Potenzial beim Aufbau von allgemeinen Agenten in der dreidimensionalen realen Welt hervorgehoben, dennoch bestehen Herausforderungen aufgrund des Mangels an hochwertigen robusten Anweisungsfolge-Daten, was zu einer begrenzten diskriminativen Leistung und Verallgemeinerung der 3DLLMs führt. In diesem Artikel stellen wir Robin3D vor, ein leistungsstarkes 3DLLM, das auf groß angelegten Anweisungsfolge-Daten trainiert wurde, die von unserem neuartigen Datenmotor, dem Robust Instruction Generation (RIG) Motor, generiert wurden. RIG generiert zwei Schlüssel-Anweisungsdaten: 1) die Adversarial Anweisungsfolge-Daten, die gemischte negative und positive Beispiele enthalten, um das diskriminative Verständnis des Modells zu verbessern. 2) die Diverse Anweisungsfolge-Daten, die verschiedene Anweisungsstile enthalten, um die Verallgemeinerung des Modells zu verbessern. Als Ergebnis erstellen wir 1 Million Anweisungsfolge-Daten, bestehend aus 344.000 Adversarial-Beispielen, 508.000 Diversen Beispielen und 165.000 Beispielen des Benchmark-Trainingsdatensatzes. Um diese komplexen Anweisungen besser zu verarbeiten, integriert Robin3D zunächst einen Relation-Augmented Projector, um das räumliche Verständnis zu verbessern, und stärkt dann die Fähigkeit zur Objektverweisung und -verankerung durch ID-Feature Bonding. Robin3D übertrifft konsistent frühere Methoden in fünf weit verbreiteten 3D-multimodalen Lern-Benchmarks, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Bemerkenswert ist, dass wir eine Verbesserung von 7,8\% bei der Verankerungsaufgabe (Multi3DRefer) und eine Verbesserung von 6,9\% bei der Bildunterschriftenaufgabe (Scan2Cap) erzielen.
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).Summary
AI-Generated Summary