Transformer Copilot: Aprendendo com o Registro de Erros no Ajuste Fino de LLMs

Resumo

Modelos de linguagem de grande escala são tipicamente adaptados para tarefas subsequentes por meio de ajuste fino supervisionado em dados específicos de domínio. Embora o ajuste fino padrão se concentre em minimizar a perda de geração para otimizar os parâmetros do modelo, damos um passo mais profundo ao reter e aproveitar os sinais de aprendizado do próprio modelo, de forma análoga a como aprendizes humanos refletem sobre erros passados para melhorar o desempenho futuro. Primeiro, introduzimos o conceito de Registro de Erros (Mistake Log) para rastrear sistematicamente o comportamento de aprendizado do modelo e os erros recorrentes durante o ajuste fino. Tratando o modelo original baseado em transformadores como o Piloto, projetamos correspondentemente um modelo Copiloto para refinar o desempenho de inferência do Piloto por meio da retificação de logits. Nomeamos o framework geral de Piloto-Copiloto como Transformer Copilot, que introduz (i) um novo design de modelo Copiloto, (ii) um paradigma de treinamento conjunto onde o Copiloto aprende continuamente com o Registro de Erros em evolução ao lado do Piloto, e (iii) um paradigma de inferência fundida onde o Copiloto retifica os logits do Piloto para uma geração aprimorada. Fornecemos análises teóricas e empíricas sobre nosso novo framework de aprendizado. Experimentos em 12 benchmarks abrangendo tarefas de senso comum, aritmética e recomendação demonstram que o Transformer Copilot melhora consistentemente o desempenho em até 34,5%, enquanto introduz uma sobrecarga computacional marginal aos modelos Piloto e exibe forte escalabilidade e transferibilidade.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot: Aprendendo com o Registro de Erros no Ajuste Fino de LLMs

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

Resumo

Support