ChatPaper.aiChatPaper

Het verbeteren van grote taalmodelen met conceptbewuste fine-tuning

Improving large language models with concept-aware fine-tuning

June 9, 2025
Auteurs: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI

Samenvatting

Grote taalmodellen (LLMs) zijn de hoeksteen geworden van moderne AI. Het bestaande paradigma van volgende-token-voorspelling beperkt echter fundamenteel hun vermogen om samenhangende, hoogwaardige concepten te vormen, wat een kritieke barrière vormt voor mensachtig begrip en redeneren. Neem de uitdrukking "ribonucleïnezuur" als voorbeeld: een LLM zal deze eerst opsplitsen in tokens, d.w.z. kunstmatige tekstfragmenten ("rib", "on", ...), en vervolgens elk token sequentieel leren, in plaats van de uitdrukking te begrijpen als een verenigde, samenhangende semantische entiteit. Deze gefragmenteerde representatie belemmert een dieper conceptueel begrip en, uiteindelijk, de ontwikkeling van echt intelligente systemen. Als reactie hierop introduceren wij Concept-Aware Fine-Tuning (CAFT), een nieuwe multi-token trainingsmethode die herdefinieert hoe LLMs worden gefinetuned. Door het leren van sequenties die meerdere tokens omvatten mogelijk te maken, bevordert deze methode een sterker conceptbewust leren. Onze experimenten tonen aanzienlijke verbeteringen aan in vergelijking met conventionele volgende-token finetuning-methoden voor diverse taken, waaronder traditionele toepassingen zoals tekstsamenvatting en domeinspecifieke toepassingen zoals de novo eiwitontwerp. Multi-token-voorspelling was voorheen alleen mogelijk in de extreem dure pretrainingsfase; CAFT is, voor zover wij weten, de eerste die de multi-token-instelling naar de post-trainingsfase brengt, waardoor de voordelen ervan effectief worden gedemocratiseerd voor de bredere gemeenschap van praktijkmensen en onderzoekers. Tot slot suggereert de onverwachte effectiviteit van onze voorgestelde methode bredere implicaties voor de machine learning-onderzoeksgemeenschap. Alle code en gegevens zijn beschikbaar op https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase "ribonucleic acid" as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments ("rib", "on", ...), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm
PDF32June 10, 2025