ChatPaper.aiChatPaper

Instella: Modelli Linguistici Completamente Aperti con Prestazioni Stellari

Instella: Fully Open Language Models with Stellar Performance

November 13, 2025
Autori: Jiang Liu, Jialian Wu, Xiaodong Yu, Yusheng Su, Prakamya Mishra, Gowtham Ramesh, Sudhanshu Ranjan, Chaitanya Manem, Ximeng Sun, Ze Wang, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli in un'ampia gamma di compiti, eppure la maggior parte dei modelli ad alte prestazioni rimane a sorgente chiuso o parzialmente aperto, limitando la trasparenza e la riproducibilità. In questo lavoro, presentiamo Instella, una famiglia di modelli linguistici da tre miliardi di parametri completamente aperti, addestrati interamente su dati e codebase pubblicamente disponibili. Sviluppato grazie alla potenza delle GPU AMD Instinct MI300X, Instella è stato creato attraverso un pre-addestramento su larga scala, un tuning per istruzioni di carattere generale e un allineamento con le preferenze umane. Nonostante l'utilizzo di un numero di token per il pre-addestramento sostanzialmente inferiore rispetto a molti modelli contemporanei, Instella ottiene risultati all'avanguardia tra i modelli completamente aperti ed è competitivo con i principali modelli a pesi aperti di dimensioni comparabili. Rilasciamo inoltre due varianti specializzate: Instella-Long, in grado di gestire contesti fino a 128.000 token, e Instella-Math, un modello focalizzato sul ragionamento potenziato attraverso fine-tuning supervisionato e apprendimento per rinforzo su compiti matematici. Nel loro insieme, questi contributi stabiliscono Instella come un'alternativa trasparente, performante e versatile per la comunità, avanzando l'obiettivo di una ricerca sui modelli linguistici aperta e riproducibile.
English
Large language models (LLMs) have demonstrated remarkable performance across a wide range of tasks, yet the majority of high-performing models remain closed-source or partially open, limiting transparency and reproducibility. In this work, we introduce Instella, a family of fully open three billion parameter language models trained entirely on openly available data and codebase. Powered by AMD Instinct MI300X GPUs, Instella is developed through large-scale pre-training, general-purpose instruction tuning, and alignment with human preferences. Despite using substantially fewer pre-training tokens than many contemporaries, Instella achieves state-of-the-art results among fully open models and is competitive with leading open-weight models of comparable size. We further release two specialized variants: Instella-Long, capable of handling context lengths up to 128K tokens, and Instella-Math, a reasoning-focused model enhanced through supervised fine-tuning and reinforcement learning on mathematical tasks. Together, these contributions establish Instella as a transparent, performant, and versatile alternative for the community, advancing the goal of open and reproducible language modeling research.
PDF42December 1, 2025