Innovador-VL: Um Modelo de Linguagem Multimodal de Grande Porte para Descoberta Científica

Resumo

Apresentamos o Innovator-VL, um modelo multimodal de linguagem de grande escala projetado para avançar a compreensão e o raciocínio em diversas áreas científicas, mantendo um desempenho excelente em tarefas visuais gerais. Contrariando a tendência de depender de pré-treinamento massivo específico de domínio e pipelines opacos, nosso trabalho demonstra que um desenho de treinamento fundamentado e uma metodologia transparente podem produzir uma forte inteligência científica com requisitos de dados substancialmente reduzidos. (i) Primeiro, fornecemos um pipeline de treinamento totalmente transparente e reproduzível de ponta a ponta, abrangendo coleta, limpeza e pré-processamento de dados, ajuste fino supervisionado, aprendizado por reforço e avaliação, juntamente com receitas detalhadas de otimização. Isso facilita a extensão sistemática pela comunidade. (ii) Segundo, o Innovator-VL exibe uma notável eficiência de dados, alcançando desempenho competitivo em várias tarefas científicas usando menos de cinco milhões de amostras curadas, sem pré-treinamento em larga escala. Esses resultados destacam que um raciocínio eficaz pode ser alcançado por meio de uma seleção de dados fundamentada, em vez de um escalonamento indiscriminado. (iii) Terceiro, o Innovator-VL demonstra uma forte generalização, atingindo desempenho competitivo em benchmarks de visão geral, raciocínio multimodal e científicos. Isso indica que o alinhamento científico pode ser integrado a um modelo unificado sem comprometer as capacidades de propósito geral. Nossas práticas sugerem que modelos multimodais científicos eficientes, reproduzíveis e de alto desempenho podem ser construídos mesmo sem dados em larga escala, fornecendo uma base prática para pesquisas futuras.

English

We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.

Innovador-VL: Um Modelo de Linguagem Multimodal de Grande Porte para Descoberta Científica

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Resumo

Support