Robin3D: Miglioramento del Modello Linguistico 3D tramite Ottimizzazione Robusta delle Istruzioni
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
Autori: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici Tridimensionali (3DLLM) hanno messo in luce il loro potenziale nella costruzione di agenti ad uso generale nel mondo reale tridimensionale, tuttavia rimangono delle sfide a causa della mancanza di dati robusti di istruzioni di alta qualità, che limitano il potere discriminativo e la generalizzazione dei 3DLLM. In questo articolo, presentiamo Robin3D, un potente 3DLLM addestrato su dati di istruzioni di larga scala generati dal nostro innovativo motore di dati, Robust Instruction Generation (RIG). RIG genera due tipi di dati di istruzioni chiave: 1) i dati di Istruzioni Avversarie, che presentano campioni misti negativi e positivi per potenziare la comprensione discriminativa del modello. 2) i dati di Istruzioni Diverse, che contengono vari stili di istruzioni per potenziare la generalizzazione del modello. Di conseguenza, costruiamo un milione di dati di istruzioni, composti da 344K campioni Avversari, 508K campioni Diversi e 165K campioni dell'insieme di addestramento di riferimento. Per gestire meglio queste istruzioni complesse, Robin3D incorpora inizialmente un Proiettore Potenziato dalle Relazioni per migliorare la comprensione spaziale, e rafforza successivamente la capacità di riferimento e ancoraggio degli oggetti attraverso il Legame di Caratteristiche ID. Robin3D supera costantemente i metodi precedenti su cinque ampiamente utilizzati benchmark di apprendimento multimodale 3D, senza la necessità di un raffinamento fine specifico del compito. In particolare, otteniamo un miglioramento del 7,8\% nel compito di ancoraggio (Multi3DRefer) e un miglioramento del 6,9\% nel compito di descrizione (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).