InternVL3: Explorando Técnicas Avançadas de Treinamento e Procedimentos em Tempo de Teste para Modelos Multimodais de Código AbertoInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
Apresentamos o InternVL3, um avanço significativo na série InternVL que apresenta um paradigma nativo de pré-treinamento multimodal. Em vez de adaptar um modelo de linguagem grande (LLM) exclusivamente textual para um modelo de linguagem grande multimodal (MLLM) que suporta entradas visuais, o InternVL3 adquire conjuntamente capacidades multimodais e linguísticas a partir de dados multimodais diversos e corpora de texto puro durante uma única etapa de pré-treinamento. Esse paradigma unificado de treinamento aborda efetivamente as complexidades e desafios de alinhamento comumente encontrados nos pipelines convencionais de treinamento pós-hoc para MLLMs. Para melhorar ainda mais o desempenho e a escalabilidade, o InternVL3 incorpora codificação de posição visual variável (V2PE) para suportar contextos multimodais estendidos, emprega técnicas avançadas de pós-treinamento, como ajuste fino supervisionado (SFT) e otimização de preferências mistas (MPO), e adota estratégias de escalonamento em tempo de teste juntamente com uma infraestrutura de treinamento otimizada. Avaliações empíricas extensivas demonstram que o InternVL3 oferece desempenho superior em uma ampla gama de tarefas multimodais. Em particular, o InternVL3-78B alcança uma pontuação de 72,2 no benchmark MMMU, estabelecendo um novo estado da arte entre os MLLMs de código aberto. Suas capacidades permanecem altamente competitivas com os principais modelos proprietários, incluindo ChatGPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, ao mesmo tempo em que mantém uma forte proficiência em linguagem pura. Em busca dos princípios da ciência aberta, disponibilizaremos publicamente tanto os dados de treinamento quanto os pesos do modelo para promover pesquisas e desenvolvimentos futuros em MLLMs de próxima geração.