ChatPaper.aiChatPaper

Miglioramento dei modelli linguistici di grandi dimensioni tramite fine-tuning consapevole dei concetti

Improving large language models with concept-aware fine-tuning

June 9, 2025
Autori: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI

Abstract

I grandi modelli linguistici (LLM) sono diventati la pietra angolare dell'IA moderna. Tuttavia, il paradigma esistente della previsione del token successivo limita fondamentalmente la loro capacità di formare concetti coerenti e di alto livello, rappresentando una barriera critica per una comprensione e un ragionamento simili a quelli umani. Prendiamo come esempio la frase "acido ribonucleico": un LLM la scomporrà prima in token, ovvero frammenti di testo artificiali ("rib", "on", ...), per poi apprendere ciascun token in sequenza, anziché cogliere la frase come un'entità semantica unificata e coerente. Questa rappresentazione frammentata ostacola una comprensione concettuale più profonda e, in ultima analisi, lo sviluppo di sistemi veramente intelligenti. In risposta, introduciamo il Concept-Aware Fine-Tuning (CAFT), un innovativo metodo di addestramento multi-token che ridefinisce il modo in cui gli LLM vengono ottimizzati. Consentendo l'apprendimento di sequenze che abbracciano più token, questo metodo favorisce un apprendimento più consapevole dei concetti. I nostri esperimenti dimostrano miglioramenti significativi rispetto ai tradizionali metodi di ottimizzazione basati sulla previsione del token successivo, in una vasta gamma di compiti, tra cui applicazioni tradizionali come il riassunto del testo e altre specifiche di dominio come la progettazione de novo di proteine. La previsione multi-token era in precedenza possibile solo nella fase di pre-addestramento, proibitivamente costosa; CAFT, a nostra conoscenza, è il primo a portare l'impostazione multi-token alla fase post-addestramento, democratizzando così efficacemente i suoi benefici per la più ampia comunità di professionisti e ricercatori. Infine, l'efficacia inaspettata del metodo proposto suggerisce implicazioni più ampie per la comunità di ricerca nel campo dell'apprendimento automatico. Tutti i codici e i dati sono disponibili all'indirizzo https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase "ribonucleic acid" as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments ("rib", "on", ...), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm
PDF32June 10, 2025