Улучшение крупных языковых моделей с помощью тонкой настройки с учетом концепций
Improving large language models with concept-aware fine-tuning
June 9, 2025
Авторы: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI
Аннотация
Крупные языковые модели (LLM) стали краеугольным камнем современного искусственного интеллекта. Однако существующая парадигма предсказания следующего токена фундаментально ограничивает их способность формировать связные, высокоуровневые концепции, что представляет собой критический барьер для достижения человеческого уровня понимания и рассуждений. Возьмем, к примеру, фразу "рибонуклеиновая кислота": LLM сначала разложит её на токены, то есть искусственные фрагменты текста ("риб", "он", ...), а затем будет изучать каждый токен последовательно, вместо того чтобы воспринимать фразу как единое, связное семантическое целое. Такое фрагментированное представление препятствует более глубокому концептуальному пониманию и, в конечном итоге, развитию по-настоящему интеллектуальных систем. В ответ на это мы представляем Concept-Aware Fine-Tuning (CAFT) — новый метод обучения на множестве токенов, который переопределяет подход к тонкой настройке LLM. Благодаря возможности изучения последовательностей, охватывающих несколько токенов, этот метод способствует более сильному концептуальному обучению. Наши эксперименты демонстрируют значительные улучшения по сравнению с традиционными методами тонкой настройки на основе предсказания следующего токена в различных задачах, включая традиционные приложения, такие как суммаризация текста, и узкоспециализированные, такие как дизайн белков de novo. Предсказание на множестве токенов ранее было возможно только на чрезвычайно дорогостоящем этапе предварительного обучения; CAFT, насколько нам известно, впервые переносит этот подход на этап пост-обучения, тем самым эффективно демократизируя его преимущества для широкого круга практиков и исследователей. Наконец, неожиданная эффективность предложенного метода указывает на более широкие последствия для сообщества исследователей машинного обучения. Весь код и данные доступны по адресу https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI.
However, the existing paradigm of next-token prediction fundamentally limits
their ability to form coherent, high-level concepts, making it a critical
barrier to human-like understanding and reasoning. Take the phrase "ribonucleic
acid" as an example: an LLM will first decompose it into tokens, i.e.,
artificial text fragments ("rib", "on", ...), then learn each token
sequentially, rather than grasping the phrase as a unified, coherent semantic
entity. This fragmented representation hinders deeper conceptual understanding
and, ultimately, the development of truly intelligent systems. In response, we
introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method
that redefines how LLMs are fine-tuned. By enabling the learning of sequences
that span multiple tokens, this method fosters stronger concept-aware learning.
Our experiments demonstrate significant improvements compared to conventional
next-token finetuning methods across diverse tasks, including traditional
applications like text summarization and domain-specific ones like de novo
protein design. Multi-token prediction was previously only possible in the
prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first
to bring the multi-token setting to the post-training phase, thus effectively
democratizing its benefits for the broader community of practitioners and
researchers. Finally, the unexpected effectiveness of our proposed method
suggests wider implications for the machine learning research community. All
code and data are available at https://github.com/michaelchen-lab/caft-llm