Innovator-VL: 科学的発見のためのマルチモーダル大規模言語モデル
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery
January 27, 2026
著者: Zichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang
cs.AI
要旨
我々は、多様な科学分野における理解と推論を促進しつつ、一般的な視覚タスクでも優れた性能を維持する科学マルチモーダル大規模言語モデル「Innovator-VL」を提案する。大規模なドメイン特化型事前学習や不透明なパイプラインに依存する傾向に対し、本研究は原理に基づいた学習設計と透明性の高い方法論が、データ要件を大幅に削減しながら強力な科学的知能を実現できることを実証する。(i) 第一に、データ収集、クリーニング、前処理、教師ありファインチューニング、強化学習、評価を含む完全に透明なエンドツーエンド再現可能な学習パイプラインと詳細な最適化レシピを提供し、コミュニティによる体系的な拡張を可能にする。(ii) 第二に、Innovator-VLは顕著なデータ効率を示し、大規模な事前学習なしに500万件未満の精選されたサンプルで様々な科学タスクにおいて競争力のある性能を達成する。これは、無差別なスケーリングではなく原理に基づいたデータ選択を通じて効果的な推論が実現可能であることを強調する。(iii) 第三に、Innovator-VLは強力な汎化性能を発揮し、一般的な視覚、マルチモーダル推論、科学ベンチマークで競争力のある性能を達成する。これは科学的アライメントが汎用能力を損なうことなく統一モデルに統合可能であることを示唆する。我々の実践は、大規模データがなくとも効率的で再現性が高く高性能な科学マルチモーダルモデルが構築可能であることを示し、将来の研究に実用的な基盤を提供する。
English
We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.