ChatPaper.aiChatPaper

Robin3D: Mejorando el Modelo de Lenguaje 3D a través de Ajuste de Instrucciones Robusto

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

September 30, 2024
Autores: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI

Resumen

Los avances recientes en Modelos de Lenguaje 3D a Gran Escala (3DLLMs) han destacado su potencial en la construcción de agentes de propósito general en el mundo real en 3D, sin embargo, persisten desafíos debido a la falta de datos robustos de alta calidad para seguir instrucciones, lo que resulta en una capacidad discriminativa limitada y generalización de los 3DLLMs. En este documento, presentamos Robin3D, un potente 3DLLM entrenado con datos a gran escala de seguimiento de instrucciones generados por nuestro novedoso motor de datos, Motor de Generación de Instrucciones Robustas (RIG). RIG genera dos tipos clave de datos de instrucciones: 1) los datos de Seguimiento de Instrucciones Adversariales, que presentan muestras mixtas negativas y positivas para mejorar la comprensión discriminativa del modelo. 2) los datos de Seguimiento de Instrucciones Diversas, que contienen diversos estilos de instrucciones para mejorar la generalización del modelo. Como resultado, construimos 1 millón de datos de seguimiento de instrucciones, compuestos por 344K muestras Adversariales, 508K muestras Diversas y 165K muestras del conjunto de entrenamiento de referencia. Para manejar mejor estas instrucciones complejas, Robin3D primero incorpora un Proyector Aumentado por Relaciones para mejorar la comprensión espacial, y luego fortalece la capacidad de referencia y anclaje de objetos a través del Vínculo de Características de Identificación. Robin3D supera consistentemente a métodos anteriores en cinco benchmarks ampliamente utilizados de aprendizaje multimodal en 3D, sin necesidad de ajustes finos específicos de la tarea. Destacadamente, logramos una mejora del 7.8\% en la tarea de anclaje (Multi3DRefer) y una mejora del 6.9\% en la tarea de descripción (Scan2Cap).
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted their potential in building general-purpose agents in the 3D real world, yet challenges remain due to the lack of high-quality robust instruction-following data, leading to limited discriminative power and generalization of 3DLLMs. In this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale instruction-following data generated by our novel data engine, Robust Instruction Generation (RIG) engine. RIG generates two key instruction data: 1) the Adversarial Instruction-following data, which features mixed negative and positive samples to enhance the model's discriminative understanding. 2) the Diverse Instruction-following data, which contains various instruction styles to enhance model's generalization. As a result, we construct 1 million instruction-following data, consisting of 344K Adversarial samples, 508K Diverse samples, and 165K benchmark training set samples. To better handle these complex instructions, Robin3D first incorporates Relation-Augmented Projector to enhance spatial understanding, and then strengthens the object referring and grounding ability through ID-Feature Bonding. Robin3D consistently outperforms previous methods across five widely-used 3D multimodal learning benchmarks, without the need for task-specific fine-tuning. Notably, we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\% improvement in the captioning task (Scan2Cap).

Summary

AI-Generated Summary

PDF52November 16, 2024