概念認識ファインチューニングによる大規模言語モデルの改善
Improving large language models with concept-aware fine-tuning
June 9, 2025
著者: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI
要旨
大規模言語モデル(LLMs)は、現代のAIの基盤となっている。しかし、既存の次トークン予測のパラダイムは、一貫した高レベルの概念を形成する能力を根本的に制限しており、人間のような理解と推論への重要な障壁となっている。例えば、「リボ核酸」というフレーズを考えると、LLMはまずそれをトークン、すなわち人工的なテキスト断片(「rib」、「on」など)に分解し、各トークンを順次学習するが、フレーズを統一された一貫した意味的実体として把握することはない。この断片的な表現は、より深い概念的理解を妨げ、最終的には真に知的なシステムの開発を阻害する。これに対応して、我々はConcept-Aware Fine-Tuning(CAFT)を導入する。これは、LLMのファインチューニング方法を再定義する新しいマルチトークン訓練法である。複数のトークンにまたがるシーケンスの学習を可能にすることで、この方法はより強力な概念認識学習を促進する。我々の実験では、テキスト要約などの伝統的なアプリケーションから、デノボタンパク質設計などのドメイン固有のアプリケーションに至るまで、従来の次トークンファインチューニング法と比較して大幅な改善が示された。マルチトークン予測は以前、非常に高価な事前訓練フェーズでのみ可能であったが、CAFTは、我々の知る限り、訓練後フェーズにマルチトークン設定を持ち込んだ初めてのものであり、その利点を広範な実践者や研究者コミュニティに効果的に民主化するものである。最後に、提案手法の予期せぬ有効性は、機械学習研究コミュニティにとってより広範な示唆を持つことを示唆している。すべてのコードとデータはhttps://github.com/michaelchen-lab/caft-llmで利用可能である。
English
Large language models (LLMs) have become the cornerstone of modern AI.
However, the existing paradigm of next-token prediction fundamentally limits
their ability to form coherent, high-level concepts, making it a critical
barrier to human-like understanding and reasoning. Take the phrase "ribonucleic
acid" as an example: an LLM will first decompose it into tokens, i.e.,
artificial text fragments ("rib", "on", ...), then learn each token
sequentially, rather than grasping the phrase as a unified, coherent semantic
entity. This fragmented representation hinders deeper conceptual understanding
and, ultimately, the development of truly intelligent systems. In response, we
introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method
that redefines how LLMs are fine-tuned. By enabling the learning of sequences
that span multiple tokens, this method fosters stronger concept-aware learning.
Our experiments demonstrate significant improvements compared to conventional
next-token finetuning methods across diverse tasks, including traditional
applications like text summarization and domain-specific ones like de novo
protein design. Multi-token prediction was previously only possible in the
prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first
to bring the multi-token setting to the post-training phase, thus effectively
democratizing its benefits for the broader community of practitioners and
researchers. Finally, the unexpected effectiveness of our proposed method
suggests wider implications for the machine learning research community. All
code and data are available at https://github.com/michaelchen-lab/caft-llm