OmniBind: Representación multimodal omni a gran escala a través de espacios de unión

Resumen

Recientemente, la interacción humano-computadora con diversas modalidades ha mostrado aplicaciones prometedoras, como GPT-4o y Gemini. Dada la función fundamental de la representación conjunta multimodal en los procesos de comprensión y generación, las representaciones conjuntas omni de alta calidad serían un paso hacia el procesamiento conjunto de información multimodal más diversa. En este trabajo, presentamos OmniBind, modelos de representación conjunta multimodal a gran escala que van desde 7 mil millones hasta 30 mil millones de parámetros, que admiten entradas en 3D, audio, imagen y lenguaje. Debido a la escasez de pares de datos en todas las modalidades, en lugar de entrenar grandes modelos desde cero, proponemos remapear y unir los espacios de varios modelos especializados pre-entrenados. Este enfoque permite "escalar" aumentando indirectamente los parámetros del modelo y la cantidad de datos vistos. Para integrar eficazmente varios espacios, asignamos dinámicamente pesos a diferentes espacios mediante el aprendizaje de enrutadores con dos objetivos: alineación general entre modalidades y desacoplamiento de la representación del lenguaje. Es importante destacar que, dado que tanto la unión como el enrutamiento de espacios solo requieren redes ligeras, OmniBind es extremadamente eficiente en el entrenamiento. Aprender el modelo más grande de 30B solo requiere datos unimodales no emparejados y aproximadamente 3 días en un solo nodo 8-4090. Experimentos extensos demuestran la versatilidad y superioridad de OmniBind como modelo de representación omni, resaltando su gran potencial para diversas aplicaciones, como consultas de cualquier tipo y comprensión multimodal componible.

English

Recently, human-computer interaction with various modalities has shown promising applications, like GPT-4o and Gemini. Given the foundational role of multimodal joint representation in understanding and generation pipelines, high-quality omni joint representations would be a step toward co-processing more diverse multimodal information. In this work, we present OmniBind, large-scale multimodal joint representation models ranging in scale from 7 billion to 30 billion parameters, which support 3D, audio, image, and language inputs. Due to the scarcity of data pairs across all modalities, instead of training large models from scratch, we propose remapping and binding the spaces of various pre-trained specialist models together. This approach enables "scaling up" by indirectly increasing the model parameters and the amount of seen data. To effectively integrate various spaces, we dynamically assign weights to different spaces by learning routers with two objectives: cross-modal overall alignment and language representation decoupling. Notably, since binding and routing spaces both only require lightweight networks, OmniBind is extremely training-efficient. Learning the largest 30B model requires merely unpaired unimodal data and approximately 3 days on a single 8-4090 node. Extensive experiments demonstrate the versatility and superiority of OmniBind as an omni representation model, highlighting its great potential for diverse applications, such as any-query and composable multimodal understanding.

OmniBind: Representación multimodal omni a gran escala a través de espacios de unión

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Resumen

Support