NaViL: Repensando las propiedades de escalabilidad de los modelos lingüísticos multimodales nativos bajo restricciones de datos
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
October 9, 2025
Autores: Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai
cs.AI
Resumen
El entrenamiento composicional ha sido el paradigma de facto en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) existentes, donde los codificadores visuales preentrenados se conectan con los MLLMs preentrenados a través de un preentrenamiento multimodal continuo. Sin embargo, la propiedad de escalabilidad multimodal de este paradigma sigue siendo difícil de explorar debido al entrenamiento separado. En este artículo, nos centramos en el entrenamiento nativo de los MLLMs de manera integral y estudiamos sistemáticamente su espacio de diseño y propiedad de escalabilidad en un entorno práctico, es decir, bajo restricciones de datos. A través de un estudio cuidadoso de diversas opciones en los MLLMs, obtenemos la meta-arquitectura óptima que mejor equilibra el rendimiento y el costo de entrenamiento. Posteriormente, exploramos las propiedades de escalabilidad del MLLM nativo e indicamos la relación de escalabilidad positivamente correlacionada entre los codificadores visuales y los MLLMs. Con base en estos hallazgos, proponemos un MLLM nativo llamado NaViL, combinado con una receta simple y rentable. Los resultados experimentales en 14 benchmarks multimodales confirman el rendimiento competitivo de NaViL frente a los MLLMs existentes. Además, nuestros hallazgos y resultados proporcionan perspectivas profundas para el estudio futuro de los MLLMs nativos.
English
Compositional training has been the de-facto paradigm in existing Multimodal
Large Language Models (MLLMs), where pre-trained vision encoders are connected
with pre-trained LLMs through continuous multimodal pre-training. However, the
multimodal scaling property of this paradigm remains difficult to explore due
to the separated training. In this paper, we focus on the native training of
MLLMs in an end-to-end manner and systematically study its design space and
scaling property under a practical setting, i.e., data constraint. Through
careful study of various choices in MLLM, we obtain the optimal
meta-architecture that best balances performance and training cost. After that,
we further explore the scaling properties of the native MLLM and indicate the
positively correlated scaling relationship between visual encoders and LLMs.
Based on these findings, we propose a native MLLM called NaViL, combined with a
simple and cost-effective recipe. Experimental results on 14 multimodal
benchmarks confirm the competitive performance of NaViL against existing MLLMs.
Besides that, our findings and results provide in-depth insights for the future
study of native MLLMs.