ChatPaper.aiChatPaper

Escalando el Aprendizaje de Representaciones Omnimodales Centrado en el Lenguaje

Scaling Language-Centric Omnimodal Representation Learning

October 13, 2025
Autores: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI

Resumen

Los enfoques recientes de incrustación multimodal que aprovechan los modelos de lenguaje multimodal de gran escala (MLLM) ajustados mediante aprendizaje contrastivo (CL) han mostrado resultados prometedores, aunque las razones subyacentes detrás de su superioridad siguen siendo poco exploradas. Este trabajo argumenta que una ventaja crucial de los enfoques basados en MLLM proviene de la alineación cruzada implícita lograda durante el preentrenamiento generativo, donde el decodificador de lenguaje aprende a explotar señales multimodales dentro de un espacio de representación compartido para generar salidas unimodales. A través del análisis de la anisotropía y la estructura de similitud del núcleo, confirmamos empíricamente que surge una alineación latente dentro de las representaciones de los MLLM, permitiendo que el CL sirva como una etapa de refinamiento ligera. Aprovechando esta idea, proponemos un marco de Incrustación Omnimodal Centrado en el Lenguaje, denominado LCO-Emb. Experimentos extensos en diversos modelos de referencia y benchmarks demuestran su efectividad, logrando un rendimiento de vanguardia en todas las modalidades. Además, identificamos una Ley de Escalado Generación-Representación (GRSL), mostrando que las capacidades representativas obtenidas a través del refinamiento contrastivo escalan positivamente con las capacidades generativas del MLLM. Esto sugiere que mejorar las habilidades generativas evoluciona como un paradigma efectivo para mejorar la calidad de la representación. Proporcionamos una explicación teórica de la GRSL, que vincula formalmente la calidad generativa del MLLM con el límite superior de su rendimiento representativo, y la validamos en una tarea desafiante de recuperación visual-documental con recursos limitados, mostrando que el preentrenamiento generativo continuo antes del CL puede potenciar aún más las capacidades de incrustación del modelo. Los códigos, modelos y recursos están disponibles en https://github.com/LCO-Embedding/LCO-Embedding.
English
Recent multimodal embedding approaches leveraging multimodal large language models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising results, yet the underlying reasons behind their superiority remain underexplored. This work argues that a crucial advantage of MLLM-based approaches stems from implicit cross-modal alignment achieved during generative pretraining, where the language decoder learns to exploit multimodal signals within a shared representation space for generating unimodal outputs. Through analysis of anisotropy and kernel similarity structure, we empirically confirm that latent alignment emerges within MLLM representations, allowing CL to serve as a lightweight refinement stage. Leveraging this insight, we propose a Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive experiments across diverse backbones and benchmarks demonstrate its effectiveness, achieving state-of-the-art performance across modalities. Furthermore, we identify a Generation-Representation Scaling Law (GRSL), showing that the representational capabilities gained through contrastive refinement scales positively with the MLLM's generative capabilities. This suggests that improving generative abilities evolves as an effective paradigm for enhancing representation quality. We provide a theoretical explanation of GRSL, which formally links the MLLM's generative quality to the upper bound on its representation performance, and validate it on a challenging, low-resource visual-document retrieval task, showing that continual generative pretraining before CL can further enhance the potential of a model's embedding capabilities. Codes, models, and resources are available at https://github.com/LCO-Embedding/LCO-Embedding.
PDF944October 15, 2025