Het verbeteren van grote taalmodelen met conceptbewuste fine-tuning
Improving large language models with concept-aware fine-tuning
June 9, 2025
Auteurs: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI
Samenvatting
Grote taalmodellen (LLMs) zijn de hoeksteen geworden van moderne AI.
Het bestaande paradigma van volgende-token-voorspelling beperkt echter fundamenteel
hun vermogen om samenhangende, hoogwaardige concepten te vormen, wat een kritieke
barrière vormt voor mensachtig begrip en redeneren. Neem de uitdrukking "ribonucleïnezuur"
als voorbeeld: een LLM zal deze eerst opsplitsen in tokens, d.w.z.
kunstmatige tekstfragmenten ("rib", "on", ...), en vervolgens elk token
sequentieel leren, in plaats van de uitdrukking te begrijpen als een verenigde, samenhangende semantische
entiteit. Deze gefragmenteerde representatie belemmert een dieper conceptueel begrip
en, uiteindelijk, de ontwikkeling van echt intelligente systemen. Als reactie hierop introduceren wij
Concept-Aware Fine-Tuning (CAFT), een nieuwe multi-token trainingsmethode
die herdefinieert hoe LLMs worden gefinetuned. Door het leren van sequenties
die meerdere tokens omvatten mogelijk te maken, bevordert deze methode een sterker conceptbewust leren.
Onze experimenten tonen aanzienlijke verbeteringen aan in vergelijking met conventionele
volgende-token finetuning-methoden voor diverse taken, waaronder traditionele
toepassingen zoals tekstsamenvatting en domeinspecifieke toepassingen zoals de novo
eiwitontwerp. Multi-token-voorspelling was voorheen alleen mogelijk in de
extreem dure pretrainingsfase; CAFT is, voor zover wij weten, de eerste
die de multi-token-instelling naar de post-trainingsfase brengt, waardoor de voordelen ervan
effectief worden gedemocratiseerd voor de bredere gemeenschap van praktijkmensen en
onderzoekers. Tot slot suggereert de onverwachte effectiviteit van onze voorgestelde methode
bredere implicaties voor de machine learning-onderzoeksgemeenschap. Alle
code en gegevens zijn beschikbaar op https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI.
However, the existing paradigm of next-token prediction fundamentally limits
their ability to form coherent, high-level concepts, making it a critical
barrier to human-like understanding and reasoning. Take the phrase "ribonucleic
acid" as an example: an LLM will first decompose it into tokens, i.e.,
artificial text fragments ("rib", "on", ...), then learn each token
sequentially, rather than grasping the phrase as a unified, coherent semantic
entity. This fragmented representation hinders deeper conceptual understanding
and, ultimately, the development of truly intelligent systems. In response, we
introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method
that redefines how LLMs are fine-tuned. By enabling the learning of sequences
that span multiple tokens, this method fosters stronger concept-aware learning.
Our experiments demonstrate significant improvements compared to conventional
next-token finetuning methods across diverse tasks, including traditional
applications like text summarization and domain-specific ones like de novo
protein design. Multi-token prediction was previously only possible in the
prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first
to bring the multi-token setting to the post-training phase, thus effectively
democratizing its benefits for the broader community of practitioners and
researchers. Finally, the unexpected effectiveness of our proposed method
suggests wider implications for the machine learning research community. All
code and data are available at https://github.com/michaelchen-lab/caft-llm