ChatPaper.aiChatPaper

Amélioration des grands modèles de langage par un ajustement fin conceptuel

Improving large language models with concept-aware fine-tuning

June 9, 2025
Auteurs: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI

Résumé

Les grands modèles de langage (LLM) sont devenus la pierre angulaire de l'IA moderne. Cependant, le paradigme actuel de prédiction de token suivant limite fondamentalement leur capacité à former des concepts cohérents et de haut niveau, constituant ainsi un obstacle critique à une compréhension et un raisonnement proches de l'humain. Prenons l'exemple de l'expression "acide ribonucléique" : un LLM la décomposera d'abord en tokens, c'est-à-dire en fragments de texte artificiels ("rib", "on", ...), puis apprendra chaque token séquentiellement, plutôt que de saisir l'expression comme une entité sémantique unifiée et cohérente. Cette représentation fragmentée entrave une compréhension conceptuelle plus profonde et, en fin de compte, le développement de systèmes véritablement intelligents. En réponse, nous introduisons le Concept-Aware Fine-Tuning (CAFT), une nouvelle méthode d'entraînement multi-token qui redéfinit la manière dont les LLM sont affinés. En permettant l'apprentissage de séquences couvrant plusieurs tokens, cette méthode favorise un apprentissage plus conscient des concepts. Nos expériences démontrent des améliorations significatives par rapport aux méthodes conventionnelles d'affinage par prédiction de token suivant, sur diverses tâches, incluant des applications traditionnelles comme le résumé de texte et des applications spécifiques à un domaine comme la conception de novo de protéines. La prédiction multi-token n'était auparavant possible que lors de la phase de pré-entraînement, extrêmement coûteuse ; CAFT, à notre connaissance, est la première méthode à introduire le cadre multi-token dans la phase post-entraînement, démocratisant ainsi efficacement ses avantages pour la communauté plus large des praticiens et chercheurs. Enfin, l'efficacité inattendue de notre méthode suggère des implications plus larges pour la communauté de recherche en apprentissage automatique. Tous les codes et données sont disponibles à l'adresse https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase "ribonucleic acid" as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments ("rib", "on", ...), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm
PDF32June 10, 2025