Intern-S1 : Un modèle de fondation multimodal scientifique

papers.abstract

Ces dernières années, une pléthore de modèles de base open source ont émergé, réalisant des progrès remarquables dans certains domaines largement suivis, avec des performances très proches de celles des modèles propriétaires. Cependant, dans des domaines scientifiques professionnels à haute valeur mais plus exigeants, soit ces domaines continuent de s'appuyer sur des modèles experts, soit les progrès des modèles de base généraux accusent un retard significatif par rapport à ceux des domaines populaires, loin d'être suffisants pour transformer la recherche scientifique et laissant un écart substantiel entre les modèles open source et les modèles propriétaires dans ces domaines scientifiques. Pour combler cet écart et explorer une étape supplémentaire vers l'Intelligence Artificielle Générale (IAG), nous présentons Intern-S1, un généraliste spécialisé doté de capacités de compréhension et de raisonnement générales ainsi que d'une expertise pour analyser des données multimodales scientifiques. Intern-S1 est un modèle multimodal de type Mixture-of-Experts (MoE) avec 28 milliards de paramètres activés et 241 milliards de paramètres au total, pré-entraîné en continu sur 5 000 milliards de tokens, dont plus de 2 500 milliards de tokens provenant de domaines scientifiques. Lors de l'étape de post-entraînement, Intern-S1 subit un apprentissage par renforcement (RL) hors ligne puis en ligne dans InternBootCamp, où nous proposons une Mixture-of-Rewards (MoR) pour synchroniser l'entraînement RL sur plus de 1000 tâches simultanément. Grâce à des innovations intégrées dans les algorithmes, les données et les systèmes d'entraînement, Intern-S1 a atteint des performances de premier plan lors de l'entraînement RL en ligne. Sur des benchmarks d'évaluation complets, Intern-S1 démontre des performances compétitives sur les tâches de raisonnement général parmi les modèles open source et surpasse significativement les modèles open source dans les domaines scientifiques, dépassant même les modèles propriétaires de pointe dans des tâches professionnelles telles que la planification de synthèse moléculaire, la prédiction des conditions de réaction, et la prédiction des stabilités thermodynamiques des cristaux. Nos modèles sont disponibles à l'adresse https://huggingface.co/internlm/Intern-S1.

English

In recent years, a plethora of open-source foundation models have emerged, achieving remarkable progress in some widely attended fields, with performance being quite close to that of closed-source models. However, in high-value but more challenging scientific professional fields, either the fields still rely on expert models, or the progress of general foundation models lags significantly compared to those in popular areas, far from sufficient for transforming scientific research and leaving substantial gap between open-source models and closed-source models in these scientific domains. To mitigate this gap and explore a step further toward Artificial General Intelligence (AGI), we introduce Intern-S1, a specialized generalist equipped with general understanding and reasoning capabilities with expertise to analyze multiple science modal data. Intern-S1 is a multimodal Mixture-of-Experts (MoE) model with 28 billion activated parameters and 241 billion total parameters, continually pre-trained on 5T tokens, including over 2.5T tokens from scientific domains. In the post-training stage, Intern-S1 undergoes offline and then online reinforcement learning (RL) in InternBootCamp, where we propose Mixture-of-Rewards (MoR) to synergize the RL training on more than 1000 tasks simultaneously. Through integrated innovations in algorithms, data, and training systems, Intern-S1 achieved top-tier performance in online RL training.On comprehensive evaluation benchmarks, Intern-S1 demonstrates competitive performance on general reasoning tasks among open-source models and significantly outperforms open-source models in scientific domains, surpassing closed-source state-of-the-art models in professional tasks, such as molecular synthesis planning, reaction condition prediction, predicting thermodynamic stabilities for crystals. Our models are available at https://huggingface.co/internlm/Intern-S1.

Intern-S1 : Un modèle de fondation multimodal scientifique

Intern-S1: A Scientific Multimodal Foundation Model

papers.abstract

Support