ChatPaper.aiChatPaper

Robin3D: Verbetering van het 3D Groot Taalmodel via Robuuste Instructie Afstelling

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

September 30, 2024
Auteurs: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI

Samenvatting

Recente ontwikkelingen in 3D Large Language Models (3DLLMs) hebben hun potentieel benadrukt bij het bouwen van algemene agenten in de driedimensionale echte wereld, maar er blijven uitdagingen bestaan door het gebrek aan hoogwaardige robuuste instructievolggegevens, wat leidt tot beperkte onderscheidingskracht en generalisatie van 3DLLMs. In dit artikel introduceren we Robin3D, een krachtige 3DLLM getraind op grootschalige instructievolggegevens gegenereerd door onze nieuwe gegevensengine, de Robuuste Instructiegeneratie (RIG) engine. RIG genereert twee belangrijke instructiegegevens: 1) de Tegenstander Instructievolggegevens, die gemengde negatieve en positieve voorbeelden bevatten om het onderscheidend begrip van het model te verbeteren. 2) de Diverse Instructievolggegevens, die verschillende instructiestijlen bevatten om de generalisatie van het model te verbeteren. Als gevolg hiervan construeren we 1 miljoen instructievolggegevens, bestaande uit 344K Tegenstander-voorbeelden, 508K Diverse voorbeelden en 165K voorbeelden van de benchmark-trainingsset. Om deze complexe instructies beter te verwerken, integreert Robin3D eerst een Relation-Augmented Projector om het ruimtelijk begrip te verbeteren, en versterkt vervolgens de objectverwijzing en verankering door ID-Feature Bonding. Robin3D presteert consequent beter dan eerdere methoden op vijf veelgebruikte 3D multimodale leerbenchmarks, zonder de noodzaak voor taakspecifieke fijnafstemming. Opmerkelijk is dat we een verbetering van 7,8% behalen in de verankeringstaak (Multi3DRefer) en een verbetering van 6,9% in de bijschriftentaak (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted their potential in building general-purpose agents in the 3D real world, yet challenges remain due to the lack of high-quality robust instruction-following data, leading to limited discriminative power and generalization of 3DLLMs. In this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale instruction-following data generated by our novel data engine, Robust Instruction Generation (RIG) engine. RIG generates two key instruction data: 1) the Adversarial Instruction-following data, which features mixed negative and positive samples to enhance the model's discriminative understanding. 2) the Diverse Instruction-following data, which contains various instruction styles to enhance model's generalization. As a result, we construct 1 million instruction-following data, consisting of 344K Adversarial samples, 508K Diverse samples, and 165K benchmark training set samples. To better handle these complex instructions, Robin3D first incorporates Relation-Augmented Projector to enhance spatial understanding, and then strengthens the object referring and grounding ability through ID-Feature Bonding. Robin3D consistently outperforms previous methods across five widely-used 3D multimodal learning benchmarks, without the need for task-specific fine-tuning. Notably, we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\% improvement in the captioning task (Scan2Cap).

Summary

AI-Generated Summary

PDF52November 16, 2024