Instella: Modelos de Lenguaje Completamente Abiertos con Rendimiento Estelar
Instella: Fully Open Language Models with Stellar Performance
November 13, 2025
Autores: Jiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum
cs.AI
Resumen
Los grandes modelos de lenguaje (LLM) han demostrado un rendimiento notable en una amplia gama de tareas; sin embargo, la mayoría de los modelos de alto rendimiento siguen siendo de código cerrado o parcialmente abiertos, lo que limita la transparencia y la reproducibilidad. En este trabajo, presentamos Instella, una familia de modelos de lenguaje completamente abiertos de tres mil millones de parámetros, entrenados íntegramente con datos y bases de código de acceso público. Impulsado por las GPU AMD Instinct MI300X, Instella se ha desarrollado mediante preentrenamiento a gran escala, ajuste instruccional de propósito general y alineación con las preferencias humanas. A pesar de utilizar sustancialmente menos *tokens* de preentrenamiento que muchos de sus contemporáneos, Instella logra resultados de vanguardia entre los modelos completamente abiertos y es competitivo con los principales modelos de pesos abiertos de tamaño comparable. Además, publicamos dos variantes especializadas: Instella-Long, capaz de manejar contextos de hasta 128 mil tokens, e Instella-Math, un modelo centrado en el razonamiento mejorado mediante ajuste fino supervisado y aprendizaje por refuerzo en tareas matemáticas. En conjunto, estas contribuciones establecen a Instella como una alternativa transparente, eficaz y versátil para la comunidad, avanzando hacia el objetivo de una investigación en modelado del lenguaje abierta y reproducible.
English
Large language models (LLMs) have demonstrated remarkable performance across a wide range of tasks, yet the majority of high-performing models remain closed-source or partially open, limiting transparency and reproducibility. In this work, we introduce Instella, a family of fully open three billion parameter language models trained entirely on openly available data and codebase. Powered by AMD Instinct MI300X GPUs, Instella is developed through large-scale pre-training, general-purpose instruction tuning, and alignment with human preferences. Despite using substantially fewer pre-training tokens than many contemporaries, Instella achieves state-of-the-art results among fully open models and is competitive with leading open-weight models of comparable size. We further release two specialized variants: Instella-Long, capable of handling context lengths up to 128K tokens, and Instella-Math, a reasoning-focused model enhanced through supervised fine-tuning and reinforcement learning on mathematical tasks. Together, these contributions establish Instella as a transparent, performant, and versatile alternative for the community, advancing the goal of open and reproducible language modeling research.