Transformer Copilot: Aprendiendo del Registro de Errores en el Ajuste Fino de Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje de gran escala suelen adaptarse a tareas específicas mediante ajuste fino supervisado con datos del dominio correspondiente. Mientras que el ajuste fino estándar se centra en minimizar la pérdida de generación para optimizar los parámetros del modelo, nosotros damos un paso más allá al retener y aprovechar las señales de aprendizaje propias del modelo, de manera análoga a cómo los aprendices humanos reflexionan sobre errores pasados para mejorar su desempeño futuro. Primero, introducimos el concepto de Registro de Errores para rastrear sistemáticamente el comportamiento de aprendizaje y los errores recurrentes del modelo durante el ajuste fino. Tratando el modelo basado en transformadores original como el Piloto, diseñamos correspondientemente un modelo Copiloto para refinar el rendimiento de inferencia del Piloto mediante la rectificación de logits. Denominamos al marco general Piloto-Copiloto como Transformer Copilot, el cual introduce (i) un diseño novedoso del modelo Copiloto, (ii) un paradigma de entrenamiento conjunto donde el Copiloto aprende continuamente del Registro de Errores en evolución junto con el Piloto, y (iii) un paradigma de inferencia fusionada donde el Copiloto rectifica los logits del Piloto para mejorar la generación. Proporcionamos análisis tanto teóricos como empíricos de nuestro nuevo marco de aprendizaje. Los experimentos en 12 benchmarks que abarcan tareas de sentido común, aritmética y recomendación demuestran que Transformer Copilot mejora consistentemente el rendimiento hasta en un 34.5%, mientras introduce un sobrecosto computacional marginal en los modelos Piloto y exhibe una fuerte escalabilidad y transferibilidad.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot: Aprendiendo del Registro de Errores en el Ajuste Fino de Modelos de Lenguaje de Gran Escala

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

Resumen

Support