Transformer Copilot : Apprentissage à partir du journal d'erreurs dans le réglage fin des LLM

papers.abstract

Les grands modèles de langage sont généralement adaptés à des tâches spécifiques par un ajustement supervisé sur des données de domaine. Alors que l'ajustement standard se concentre sur la minimisation de la perte de génération pour optimiser les paramètres du modèle, nous allons plus loin en conservant et en exploitant les signaux d'apprentissage propres au modèle, de manière analogue à la façon dont les apprenants humains réfléchissent à leurs erreurs passées pour améliorer leurs performances futures. Nous introduisons d'abord le concept de Journal des Erreurs pour suivre systématiquement le comportement d'apprentissage du modèle et les erreurs récurrentes tout au long de l'ajustement. En traitant le modèle transformeur d'origine comme le Pilote, nous concevons en parallèle un modèle Copilote pour affiner les performances d'inférence du Pilote via une rectification des logits. Nous nommons ce cadre global Pilote-Copilote le Transformer Copilote, qui introduit (i) une nouvelle conception du modèle Copilote, (ii) un paradigme d'entraînement conjoint où le Copilote apprend continuellement à partir du Journal des Erreurs en évolution parallèlement au Pilote, et (iii) un paradigme d'inférence fusionnée où le Copilote rectifie les logits du Pilote pour une génération améliorée. Nous fournissons des analyses théoriques et empiriques de notre nouveau cadre d'apprentissage. Les expériences sur 12 benchmarks couvrant des tâches de bon sens, d'arithmétique et de recommandation démontrent que le Transformer Copilote améliore constamment les performances jusqu'à 34,5%, tout en introduisant une surcharge computationnelle marginale pour les modèles Pilote et en montrant une forte scalabilité et transférabilité.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot : Apprentissage à partir du journal d'erreurs dans le réglage fin des LLM

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

papers.abstract

Support