Innovator-VL: un modello linguistico multimodale di grandi dimensioni per la scoperta scientifica

Abstract

Presentiamo Innovator-VL, un modello linguistico multimodale di grandi dimensioni progettato per favorire la comprensione e il ragionamento in diversi ambiti scientifici, mantenendo al contempo prestazioni eccellenti su compiti visivi generali. Contrariamente alla tendenza di affidarsi a pre-addestramenti massicci specifici per dominio e pipeline opache, il nostro lavoro dimostra che una progettazione di addestramento basata su principi e una metodologia trasparente possono produrre una solida intelligenza scientifica con requisiti di dati notevolmente ridotti. (i) In primo luogo, forniamo una pipeline di addestramento completamente trasparente e riproducibile end-to-end, che copre la raccolta, la pulizia, la pre-elaborazione dei dati, la messa a punto supervisionata, l'apprendimento per rinforzo e la valutazione, insieme a ricette di ottimizzazione dettagliate. Ciò facilita l'estensione sistematica da parte della comunità. (ii) In secondo luogo, Innovator-VL mostra una notevole efficienza dei dati, raggiungendo prestazioni competitive su vari compiti scientifici utilizzando meno di cinque milioni di campioni curati, senza un pre-addestramento su larga scala. Questi risultati evidenziano che un ragionamento efficace può essere ottenuto attraverso una selezione dei dati basata su principi piuttosto che attraverso un ridimensionamento indiscriminato. (iii) In terzo luogo, Innovator-VL dimostra una forte capacità di generalizzazione, ottenendo prestazioni competitive su benchmark di visione generale, di ragionamento multimodale e scientifici. Ciò indica che l'allineamento scientifico può essere integrato in un modello unificato senza compromettere le capacità di utilizzo generico. Le nostre pratiche suggeriscono che è possibile costruire modelli multimodali scientifici efficienti, riproducibili e ad alte prestazioni anche senza dati su larga scala, fornendo una base pratica per la ricerca futura.

English

We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.

Innovator-VL: un modello linguistico multimodale di grandi dimensioni per la scoperta scientifica

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Abstract

Support