InternVL3: Exploración de técnicas avanzadas de entrenamiento y estrategias en tiempo de prueba para modelos multimodales de código abierto
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
April 14, 2025
Autores: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
cs.AI
Resumen
Presentamos InternVL3, un avance significativo en la serie InternVL que incorpora un paradigma nativo de preentrenamiento multimodal. En lugar de adaptar un modelo de lenguaje grande (LLM) exclusivo de texto a un modelo de lenguaje grande multimodal (MLLM) que admita entradas visuales, InternVL3 adquiere conjuntamente capacidades multimodales y lingüísticas a partir de datos multimodales diversos y corpus de texto puro durante una única etapa de preentrenamiento. Este paradigma unificado de entrenamiento aborda eficazmente las complejidades y los desafíos de alineación comúnmente encontrados en los enfoques convencionales de entrenamiento post-hoc para MLLMs. Para mejorar aún más el rendimiento y la escalabilidad, InternVL3 incorpora codificación de posición visual variable (V2PE) para soportar contextos multimodales extendidos, emplea técnicas avanzadas de post-entrenamiento como ajuste fino supervisado (SFT) y optimización de preferencias mixtas (MPO), y adopta estrategias de escalado en tiempo de prueba junto con una infraestructura de entrenamiento optimizada. Evaluaciones empíricas exhaustivas demuestran que InternVL3 ofrece un rendimiento superior en una amplia gama de tareas multimodales. En particular, InternVL3-78B alcanza una puntuación de 72.2 en el benchmark MMMU, estableciendo un nuevo estado del arte entre los MLLMs de código abierto. Sus capacidades se mantienen altamente competitivas con los principales modelos propietarios, incluyendo ChatGPT-4o, Claude 3.5 Sonnet y Gemini 2.5 Pro, al mismo tiempo que conserva una fuerte competencia en tareas de lenguaje puro. En línea con los principios de ciencia abierta, publicaremos tanto los datos de entrenamiento como los pesos del modelo para fomentar la investigación y el desarrollo en la próxima generación de MLLMs.
English
We introduce InternVL3, a significant advancement in the InternVL series
featuring a native multimodal pre-training paradigm. Rather than adapting a
text-only large language model (LLM) into a multimodal large language model
(MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and
linguistic capabilities from both diverse multimodal data and pure-text corpora
during a single pre-training stage. This unified training paradigm effectively
addresses the complexities and alignment challenges commonly encountered in
conventional post-hoc training pipelines for MLLMs. To further improve
performance and scalability, InternVL3 incorporates variable visual position
encoding (V2PE) to support extended multimodal contexts, employs advanced
post-training techniques such as supervised fine-tuning (SFT) and mixed
preference optimization (MPO), and adopts test-time scaling strategies
alongside an optimized training infrastructure. Extensive empirical evaluations
demonstrate that InternVL3 delivers superior performance across a wide range of
multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the
MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its
capabilities remain highly competitive with leading proprietary models,
including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also
maintaining strong pure-language proficiency. In pursuit of open-science
principles, we will publicly release both the training data and model weights
to foster further research and development in next-generation MLLMs.Summary
AI-Generated Summary