SEA: Alineación de Incrustaciones Supervisada para Integración Visual-Textual a Nivel de Token en MLLMs

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han demostrado recientemente notables habilidades perceptivas y de razonamiento, típicamente compuestos por un Codificador de Visión, un Adaptador y un Modelo de Lenguaje de Gran Escala (LLM). El adaptador sirve como puente crítico entre los componentes visual y de lenguaje. Sin embargo, entrenar adaptadores con supervisión a nivel de imagen a menudo resulta en un desalineamiento significativo, socavando las capacidades de los LLMs y limitando el potencial de los MLLMs. Para abordar esto, presentamos el Alineamiento de Incrustaciones Supervisado (SEA), un método de alineación a nivel de token que aprovecha modelos pre-entrenados de visión-lenguaje, como CLIP, para alinear tokens visuales con el espacio de incrustación del LLM a través de aprendizaje por contraste. Este enfoque garantiza una integración más coherente de las representaciones visual y de lenguaje, mejorando el rendimiento y la interpretabilidad de los MLLMs mientras se preservan sus capacidades inherentes. Experimentos extensos muestran que SEA mejora efectivamente los MLLMs, especialmente para modelos más pequeños, sin agregar datos adicionales o computación de inferencia. SEA también sienta las bases para desarrollar soluciones más generales y adaptables para mejorar sistemas multimodales.

English

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities, typically comprising a Vision Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as the critical bridge between the visual and language components. However, training adapters with image-level supervision often results in significant misalignment, undermining the LLMs' capabilities and limiting the potential of Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment (SEA), a token-level alignment method that leverages vision-language pre-trained models, such as CLIP, to align visual tokens with the LLM's embedding space through contrastive learning. This approach ensures a more coherent integration of visual and language representations, enhancing the performance and interpretability of multimodal LLMs while preserving their inherent capabilities. Extensive experiments show that SEA effectively improves MLLMs, particularly for smaller models, without adding extra data or inference computation. SEA also lays the groundwork for developing more general and adaptable solutions to enhance multimodal systems.

SEA: Alineación de Incrustaciones Supervisada para Integración Visual-Textual a Nivel de Token en MLLMs

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Resumen

Support