Mejora de modelos de lenguaje extenso mediante ajuste fino consciente de conceptos
Improving large language models with concept-aware fine-tuning
June 9, 2025
Autores: Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en la piedra angular de la inteligencia artificial moderna. Sin embargo, el paradigma existente de predicción del siguiente token limita fundamentalmente su capacidad para formar conceptos coherentes y de alto nivel, lo que representa una barrera crítica para la comprensión y el razonamiento similares a los humanos. Tomemos como ejemplo la frase "ácido ribonucleico": un LLM primero la descompondrá en tokens, es decir, fragmentos de texto artificiales ("rib", "on", ...), y luego aprenderá cada token de manera secuencial, en lugar de captar la frase como una entidad semántica unificada y coherente. Esta representación fragmentada obstaculiza una comprensión conceptual más profunda y, en última instancia, el desarrollo de sistemas verdaderamente inteligentes. En respuesta, presentamos el Ajuste Fino Consciente de Conceptos (CAFT, por sus siglas en inglés), un novedoso método de entrenamiento multi-token que redefine cómo se ajustan los LLMs. Al permitir el aprendizaje de secuencias que abarcan múltiples tokens, este método fomenta un aprendizaje más consciente de los conceptos. Nuestros experimentos demuestran mejoras significativas en comparación con los métodos convencionales de ajuste fino basados en la predicción del siguiente token, en diversas tareas, incluidas aplicaciones tradicionales como la resumen de texto y otras específicas de dominio como el diseño de novo de proteínas. La predicción multi-token anteriormente solo era posible en la fase de preentrenamiento, que resulta prohibitivamente costosa; CAFT, hasta donde sabemos, es el primer método en llevar el entorno multi-token a la fase posterior al entrenamiento, democratizando así efectivamente sus beneficios para la comunidad más amplia de profesionales e investigadores. Finalmente, la efectividad inesperada de nuestro método propuesto sugiere implicaciones más amplias para la comunidad de investigación en aprendizaje automático. Todo el código y los datos están disponibles en https://github.com/michaelchen-lab/caft-llm.
English
Large language models (LLMs) have become the cornerstone of modern AI.
However, the existing paradigm of next-token prediction fundamentally limits
their ability to form coherent, high-level concepts, making it a critical
barrier to human-like understanding and reasoning. Take the phrase "ribonucleic
acid" as an example: an LLM will first decompose it into tokens, i.e.,
artificial text fragments ("rib", "on", ...), then learn each token
sequentially, rather than grasping the phrase as a unified, coherent semantic
entity. This fragmented representation hinders deeper conceptual understanding
and, ultimately, the development of truly intelligent systems. In response, we
introduce Concept-Aware Fine-Tuning (CAFT), a novel multi-token training method
that redefines how LLMs are fine-tuned. By enabling the learning of sequences
that span multiple tokens, this method fosters stronger concept-aware learning.
Our experiments demonstrate significant improvements compared to conventional
next-token finetuning methods across diverse tasks, including traditional
applications like text summarization and domain-specific ones like de novo
protein design. Multi-token prediction was previously only possible in the
prohibitively expensive pretraining phase; CAFT, to our knowledge, is the first
to bring the multi-token setting to the post-training phase, thus effectively
democratizing its benefits for the broader community of practitioners and
researchers. Finally, the unexpected effectiveness of our proposed method
suggests wider implications for the machine learning research community. All
code and data are available at https://github.com/michaelchen-lab/caft-llm