ChatPaper.aiChatPaper

Melhorando modelos de linguagem de grande escala com ajuste fino consciente de conceitos

Improving large language models with concept-aware fine-tuning

June 9, 2025
Autores: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs, na sigla em inglês) tornaram-se a pedra angular da IA moderna. No entanto, o paradigma existente de previsão do próximo token limita fundamentalmente sua capacidade de formar conceitos coerentes e de alto nível, representando uma barreira crítica para a compreensão e o raciocínio semelhantes aos humanos. Tomemos a frase "ácido ribonucleico" como exemplo: um LLM primeiro a decompõe em tokens, ou seja, fragmentos de texto artificiais ("rib", "on", ...), e então aprende cada token sequencialmente, em vez de compreender a frase como uma entidade semântica unificada e coerente. Essa representação fragmentada dificulta a compreensão conceitual mais profunda e, em última análise, o desenvolvimento de sistemas verdadeiramente inteligentes. Em resposta, introduzimos o Ajuste Fino Consciente de Conceitos (CAFT, na sigla em inglês), um novo método de treinamento multitoken que redefine como os LLMs são ajustados. Ao permitir o aprendizado de sequências que abrangem múltiplos tokens, esse método promove um aprendizado mais consciente dos conceitos. Nossos experimentos demonstram melhorias significativas em comparação com os métodos convencionais de ajuste fino baseados na previsão do próximo token em diversas tarefas, incluindo aplicações tradicionais, como resumo de texto, e específicas de domínio, como o design de proteínas de novo. A previsão multitoken anteriormente só era possível na fase de pré-treinamento, que é proibitivamente cara; o CAFT, até onde sabemos, é o primeiro a trazer o cenário multitoken para a fase pós-treinamento, democratizando efetivamente seus benefícios para a comunidade mais ampla de profissionais e pesquisadores. Por fim, a eficácia inesperada do método proposto sugere implicações mais amplas para a comunidade de pesquisa em aprendizado de máquina. Todo o código e dados estão disponíveis em https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI. However, the existing paradigm of next-token prediction fundamentally limits their ability to form coherent, high-level concepts, making it a critical barrier to human-like understanding and reasoning. Take the phrase "ribonucleic acid" as an example: an LLM will first decompose it into tokens, i.e., artificial text fragments ("rib", "on", ...), then learn each token sequentially, rather than grasping the phrase as a unified, coherent semantic entity. This fragmented representation hinders deeper conceptual understanding and, ultimately, the development of truly intelligent systems. In response, we introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method that redefines how LLMs are fine-tuned. By enabling the learning of sequences that span multiple tokens, this method fosters stronger concept-aware learning. Our experiments demonstrate significant improvements compared to conventional next-token finetuning methods across diverse tasks, including traditional applications like text summarization and domain-specific ones like de novo protein design. Multi-token prediction was previously only possible in the prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first to bring the multi-token setting to the post-training phase, thus effectively democratizing its benefits for the broader community of practitioners and researchers. Finally, the unexpected effectiveness of our proposed method suggests wider implications for the machine learning research community. All code and data are available at https://github.com/michaelchen-lab/caft-llm
PDF32June 10, 2025