OmniBind: Representación multimodal omni a gran escala a través de espacios de unión
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
Autores: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
Resumen
Recientemente, la interacción humano-computadora con diversas modalidades ha mostrado aplicaciones prometedoras, como GPT-4o y Gemini. Dada la función fundamental de la representación conjunta multimodal en los procesos de comprensión y generación, las representaciones conjuntas omni de alta calidad serían un paso hacia el procesamiento conjunto de información multimodal más diversa. En este trabajo, presentamos OmniBind, modelos de representación conjunta multimodal a gran escala que van desde 7 mil millones hasta 30 mil millones de parámetros, que admiten entradas en 3D, audio, imagen y lenguaje. Debido a la escasez de pares de datos en todas las modalidades, en lugar de entrenar grandes modelos desde cero, proponemos remapear y unir los espacios de varios modelos especializados pre-entrenados. Este enfoque permite "escalar" aumentando indirectamente los parámetros del modelo y la cantidad de datos vistos. Para integrar eficazmente varios espacios, asignamos dinámicamente pesos a diferentes espacios mediante el aprendizaje de enrutadores con dos objetivos: alineación general entre modalidades y desacoplamiento de la representación del lenguaje. Es importante destacar que, dado que tanto la unión como el enrutamiento de espacios solo requieren redes ligeras, OmniBind es extremadamente eficiente en el entrenamiento. Aprender el modelo más grande de 30B solo requiere datos unimodales no emparejados y aproximadamente 3 días en un solo nodo 8-4090. Experimentos extensos demuestran la versatilidad y superioridad de OmniBind como modelo de representación omni, resaltando su gran potencial para diversas aplicaciones, como consultas de cualquier tipo y comprensión multimodal componible.
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.Summary
AI-Generated Summary