SEA: Alineación de Incrustaciones Supervisada para Integración Visual-Textual a Nivel de Token en MLLMs
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
August 21, 2024
Autores: Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han demostrado recientemente notables habilidades perceptivas y de razonamiento, típicamente compuestos por un Codificador de Visión, un Adaptador y un Modelo de Lenguaje de Gran Escala (LLM). El adaptador sirve como puente crítico entre los componentes visual y de lenguaje. Sin embargo, entrenar adaptadores con supervisión a nivel de imagen a menudo resulta en un desalineamiento significativo, socavando las capacidades de los LLMs y limitando el potencial de los MLLMs. Para abordar esto, presentamos el Alineamiento de Incrustaciones Supervisado (SEA), un método de alineación a nivel de token que aprovecha modelos pre-entrenados de visión-lenguaje, como CLIP, para alinear tokens visuales con el espacio de incrustación del LLM a través de aprendizaje por contraste. Este enfoque garantiza una integración más coherente de las representaciones visual y de lenguaje, mejorando el rendimiento y la interpretabilidad de los MLLMs mientras se preservan sus capacidades inherentes. Experimentos extensos muestran que SEA mejora efectivamente los MLLMs, especialmente para modelos más pequeños, sin agregar datos adicionales o computación de inferencia. SEA también sienta las bases para desarrollar soluciones más generales y adaptables para mejorar sistemas multimodales.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
remarkable perceptual and reasoning abilities, typically comprising a Vision
Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as
the critical bridge between the visual and language components. However,
training adapters with image-level supervision often results in significant
misalignment, undermining the LLMs' capabilities and limiting the potential of
Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment
(SEA), a token-level alignment method that leverages vision-language
pre-trained models, such as CLIP, to align visual tokens with the LLM's
embedding space through contrastive learning. This approach ensures a more
coherent integration of visual and language representations, enhancing the
performance and interpretability of multimodal LLMs while preserving their
inherent capabilities. Extensive experiments show that SEA effectively improves
MLLMs, particularly for smaller models, without adding extra data or inference
computation. SEA also lays the groundwork for developing more general and
adaptable solutions to enhance multimodal systems.Summary
AI-Generated Summary