InternVL3: Exploración de técnicas avanzadas de entrenamiento y estrategias en tiempo de prueba para modelos multimodales de código abiertoInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
Presentamos InternVL3, un avance significativo en la serie InternVL que incorpora un paradigma nativo de preentrenamiento multimodal. En lugar de adaptar un modelo de lenguaje grande (LLM) exclusivo de texto a un modelo de lenguaje grande multimodal (MLLM) que admita entradas visuales, InternVL3 adquiere conjuntamente capacidades multimodales y lingüísticas a partir de datos multimodales diversos y corpus de texto puro durante una única etapa de preentrenamiento. Este paradigma unificado de entrenamiento aborda eficazmente las complejidades y los desafíos de alineación comúnmente encontrados en los enfoques convencionales de entrenamiento post-hoc para MLLMs. Para mejorar aún más el rendimiento y la escalabilidad, InternVL3 incorpora codificación de posición visual variable (V2PE) para soportar contextos multimodales extendidos, emplea técnicas avanzadas de post-entrenamiento como ajuste fino supervisado (SFT) y optimización de preferencias mixtas (MPO), y adopta estrategias de escalado en tiempo de prueba junto con una infraestructura de entrenamiento optimizada. Evaluaciones empíricas exhaustivas demuestran que InternVL3 ofrece un rendimiento superior en una amplia gama de tareas multimodales. En particular, InternVL3-78B alcanza una puntuación de 72.2 en el benchmark MMMU, estableciendo un nuevo estado del arte entre los MLLMs de código abierto. Sus capacidades se mantienen altamente competitivas con los principales modelos propietarios, incluyendo ChatGPT-4o, Claude 3.5 Sonnet y Gemini 2.5 Pro, al mismo tiempo que conserva una fuerte competencia en tareas de lenguaje puro. En línea con los principios de ciencia abierta, publicaremos tanto los datos de entrenamiento como los pesos del modelo para fomentar la investigación y el desarrollo en la próxima generación de MLLMs.