Verbesserung großer Sprachmodelle durch konzeptbewusstes Feinabstimmen
Improving large language models with concept-aware fine-tuning
June 9, 2025
Autoren: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind zum Eckpfeiler der modernen KI geworden.
Das bestehende Paradigma der nächsten Token-Vorhersage begrenzt jedoch grundlegend
ihre Fähigkeit, kohärente, hochrangige Konzepte zu bilden, was eine kritische
Barriere für menschenähnliches Verständnis und logisches Denken darstellt. Nehmen
wir den Begriff "Ribonukleinsäure" als Beispiel: Ein LLM wird ihn zunächst in
Token, also künstliche Textfragmente ("rib", "on", ...), zerlegen und dann jeden
Token sequenziell lernen, anstatt den Begriff als eine einheitliche, kohärente
semantische Entität zu erfassen. Diese fragmentierte Darstellung behindert ein
tieferes konzeptionelles Verständnis und letztendlich die Entwicklung wirklich
intelligenter Systeme. Als Antwort darauf führen wir Concept-Aware Fine-Tuning
(CAFT) ein, eine neuartige Multi-Token-Trainingsmethode, die neu definiert, wie
LLMs feinabgestimmt werden. Indem sie das Lernen von Sequenzen ermöglicht, die
mehrere Token umfassen, fördert diese Methode ein stärkeres konzeptbewusstes
Lernen. Unsere Experimente zeigen signifikante Verbesserungen im Vergleich zu
konventionellen Next-Token-Fine-Tuning-Methoden über verschiedene Aufgaben hinweg,
einschließlich traditioneller Anwendungen wie Textzusammenfassung und
domänenspezifischer Anwendungen wie de novo Proteindesign. Die Vorhersage mehrerer
Token war bisher nur in der prohibitiven teuren Vor-Trainingsphase möglich; CAFT
ist, unseres Wissens nach, die erste Methode, die die Multi-Token-Einstellung in
die Post-Trainingsphase bringt und somit ihre Vorteile effektiv für die breitere
Gemeinschaft von Praktikern und Forschern demokratisiert. Schließlich deutet die
unerwartete Effektivität unserer vorgeschlagenen Methode auf weitere Implikationen
für die Machine-Learning-Forschungsgemeinschaft hin. Der gesamte Code und die
Daten sind unter https://github.com/michaelchen-lab/caft-llm verfügbar.
English
Large language models (LLMs) have become the cornerstone of modern AI.
However, the existing paradigm of next-token prediction fundamentally limits
their ability to form coherent, high-level concepts, making it a critical
barrier to human-like understanding and reasoning. Take the phrase "ribonucleic
acid" as an example: an LLM will first decompose it into tokens, i.e.,
artificial text fragments ("rib", "on", ...), then learn each token
sequentially, rather than grasping the phrase as a unified, coherent semantic
entity. This fragmented representation hinders deeper conceptual understanding
and, ultimately, the development of truly intelligent systems. In response, we
introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method
that redefines how LLMs are fine-tuned. By enabling the learning of sequences
that span multiple tokens, this method fosters stronger concept-aware learning.
Our experiments demonstrate significant improvements compared to conventional
next-token finetuning methods across diverse tasks, including traditional
applications like text summarization and domain-specific ones like de novo
protein design. Multi-token prediction was previously only possible in the
prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first
to bring the multi-token setting to the post-training phase, thus effectively
democratizing its benefits for the broader community of practitioners and
researchers. Finally, the unexpected effectiveness of our proposed method
suggests wider implications for the machine learning research community. All
code and data are available at https://github.com/michaelchen-lab/caft-llm