Innovator-VL: 과학적 발견을 위한 멀티모달 대규모 언어 모델
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery
January 27, 2026
저자: Zichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang
cs.AI
초록
우리는 다양한 과학 분야에서의 이해와 추론 능력을 향상시키면서도 일반 비전 과제에서도 탁월한 성능을 유지하는 과학 멀티모달 대규모 언어 모델인 Innovator-VL을 소개한다. 방대한 도메인 특화 사전 학습과 불투명한 파이프라인에 의존하는 최근 경향과 달리, 본 연구는 체계적인 학습 설계와 투명한 방법론이 데이터 요구량을 대폭 줄이면서도 강력한 과학적 지능을 구현할 수 있음을 입증한다. (i) 첫째, 데이터 수집, 정제, 전처리, 지도 미세 조정, 강화 학습, 평가에 이르는 완전히 투명하고 종단 간 재현 가능한 학습 파이프라인과 상세한 최적화 방법을 제공하여 커뮤니티의 체계적인 확장을 용이하게 한다. (ii) 둘째, Innovator-VL은 대규모 사전 학습 없이 5백만 개 미만의 정제된 샘플만으로 다양한 과학 과제에서 경쟁력 있는 성능을 달성하는 놀라운 데이터 효율성을 보여준다. 이러한 결과는 무분별한 규모 확장보다는 체계적인 데이터 선택을 통해 효과적인 추론이 가능함을 강조한다. (iii) 셋째, Innovator-VL은 일반 비전, 멀티모달 추론, 과학 벤치마크에서 모두 경쟁력 있는 성능을 발휘하는 강력한 일반화 능력을 입증한다. 이는 과학적 정렬이 일반 목적 능력을 저해하지 않으면서 통합 모델에 통합될 수 있음을 시사한다. 우리의 실천은 대규모 데이터 없이도 효율적이고 재현 가능하며 고성능의 과학 멀티모달 모델 구축이 가능함을 보여주며, 향후 연구를 위한 실용적인 기반을 제공한다.
English
We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.