Intern-S1-Pro : Modèle Fondamental Multimodal Scientifique à l'Échelle du Billion

Résumé

Nous présentons Intern-S1-Pro, le premier modèle fondateur multimodal scientifique d'un billion de paramètres. En atteignant cette échelle sans précédent, le modèle offre une amélioration complète tant dans les domaines généraux que scientifiques. Au-delà de capacités de raisonnement et de compréhension image-texte renforcées, son intelligence est augmentée par des fonctionnalités avancées d'agent. Simultanément, son expertise scientifique a été considérablement élargie pour maîtriser plus de 100 tâches spécialisées couvrant des domaines scientifiques critiques, notamment la chimie, les matériaux, les sciences de la vie et les sciences de la Terre. La réalisation de cette échelle massive est rendue possible par l'infrastructure robuste de XTuner et LMDeploy, qui facilite un apprentissage par renforcement hautement efficace au niveau du billion de paramètres tout en garantissant une stricte cohérence de précision entre l'entraînement et l'inférence. En intégrant harmonieusement ces avancées, Intern-S1-Pro consolide davantage la fusion de l'intelligence générale et spécialisée, fonctionnant comme un Généraliste Specialisable, démontrant sa position parmi les meilleurs modèles open-source pour les capacités générales, tout en surpassant les modèles propriétaires dans la profondeur des tâches scientifiques spécialisées.

English

We introduce Intern-S1-Pro, the first one-trillion-parameter scientific multimodal foundation model. Scaling to this unprecedented size, the model delivers a comprehensive enhancement across both general and scientific domains. Beyond stronger reasoning and image-text understanding capabilities, its intelligence is augmented with advanced agent capabilities. Simultaneously, its scientific expertise has been vastly expanded to master over 100 specialized tasks across critical science fields, including chemistry, materials, life sciences, and earth sciences. Achieving this massive scale is made possible by the robust infrastructure support of XTuner and LMDeploy, which facilitates highly efficient Reinforcement Learning (RL) training at the 1-trillion parameter level while ensuring strict precision consistency between training and inference. By seamlessly integrating these advancements, Intern-S1-Pro further fortifies the fusion of general and specialized intelligence, working as a Specializable Generalist, demonstrating its position in the top tier of open-source models for general capabilities, while outperforming proprietary models in the depth of specialized scientific tasks.

Intern-S1-Pro : Modèle Fondamental Multimodal Scientifique à l'Échelle du Billion

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Résumé

Support