Transformer Copilot: Aprendiendo del Registro de Errores en el Ajuste Fino de Modelos de Lenguaje de Gran Escala
Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning
May 22, 2025
Autores: Jiaru Zou, Yikun Ban, Zihao Li, Yunzhe Qi, Ruizhong Qiu, Ling Yang, Jingrui He
cs.AI
Resumen
Los modelos de lenguaje de gran escala suelen adaptarse a tareas específicas mediante ajuste fino supervisado con datos del dominio correspondiente. Mientras que el ajuste fino estándar se centra en minimizar la pérdida de generación para optimizar los parámetros del modelo, nosotros damos un paso más allá al retener y aprovechar las señales de aprendizaje propias del modelo, de manera análoga a cómo los aprendices humanos reflexionan sobre errores pasados para mejorar su desempeño futuro. Primero, introducimos el concepto de Registro de Errores para rastrear sistemáticamente el comportamiento de aprendizaje y los errores recurrentes del modelo durante el ajuste fino. Tratando el modelo basado en transformadores original como el Piloto, diseñamos correspondientemente un modelo Copiloto para refinar el rendimiento de inferencia del Piloto mediante la rectificación de logits. Denominamos al marco general Piloto-Copiloto como Transformer Copilot, el cual introduce (i) un diseño novedoso del modelo Copiloto, (ii) un paradigma de entrenamiento conjunto donde el Copiloto aprende continuamente del Registro de Errores en evolución junto con el Piloto, y (iii) un paradigma de inferencia fusionada donde el Copiloto rectifica los logits del Piloto para mejorar la generación. Proporcionamos análisis tanto teóricos como empíricos de nuestro nuevo marco de aprendizaje. Los experimentos en 12 benchmarks que abarcan tareas de sentido común, aritmética y recomendación demuestran que Transformer Copilot mejora consistentemente el rendimiento hasta en un 34.5%, mientras introduce un sobrecosto computacional marginal en los modelos Piloto y exhibe una fuerte escalabilidad y transferibilidad.
English
Large language models are typically adapted to downstream tasks through
supervised fine-tuning on domain-specific data. While standard fine-tuning
focuses on minimizing generation loss to optimize model parameters, we take a
deeper step by retaining and leveraging the model's own learning signals,
analogous to how human learners reflect on past mistakes to improve future
performance. We first introduce the concept of Mistake Log to systematically
track the model's learning behavior and recurring errors throughout
fine-tuning. Treating the original transformer-based model as the Pilot, we
correspondingly design a Copilot model to refine the Pilot's inference
performance via logits rectification. We name the overall Pilot-Copilot
framework the Transformer Copilot, which introduces (i) a novel Copilot model
design, (ii) a joint training paradigm where the Copilot continuously learns
from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference
paradigm where the Copilot rectifies the Pilot's logits for enhanced
generation. We provide both theoretical and empirical analyses on our new
learning framework. Experiments on 12 benchmarks spanning commonsense,
arithmetic, and recommendation tasks demonstrate that Transformer Copilot
consistently improves performance by up to 34.5%, while introducing marginal
computational overhead to Pilot models and exhibiting strong scalability and
transferability.Summary
AI-Generated Summary