Transformer Copilot: Apprendere dai Log degli Errori nel Fine-Tuning dei Modelli Linguistici di Grande Dimensione

Abstract

I grandi modelli linguistici vengono tipicamente adattati a compiti specifici attraverso il fine-tuning supervisionato su dati di dominio. Mentre il fine-tuning standard si concentra sulla minimizzazione della perdita di generazione per ottimizzare i parametri del modello, noi facciamo un passo ulteriore conservando e sfruttando i segnali di apprendimento del modello stesso, analogamente a come gli esseri umani riflettono sugli errori passati per migliorare le prestazioni future. Introduciamo innanzitutto il concetto di Registro degli Errori per monitorare sistematicamente il comportamento di apprendimento del modello e gli errori ricorrenti durante il fine-tuning. Trattando il modello originale basato su transformer come il Pilota, progettiamo di conseguenza un modello Copilota per affinare le prestazioni inferenziali del Pilota attraverso la rettifica dei logit. Denominiamo l'intero framework Pilota-Copilota come Transformer Copilot, che introduce (i) un nuovo design del modello Copilota, (ii) un paradigma di addestramento congiunto in cui il Copilota apprende continuamente dal Registro degli Errori in evoluzione insieme al Pilota, e (iii) un paradigma di inferenza fusa in cui il Copilota rettifica i logit del Pilota per una generazione migliorata. Forniamo sia analisi teoriche che empiriche sul nostro nuovo framework di apprendimento. Esperimenti su 12 benchmark che coprono compiti di buonsenso, aritmetica e raccomandazione dimostrano che Transformer Copilot migliora costantemente le prestazioni fino al 34,5%, introducendo un sovraccarico computazionale marginale per i modelli Pilota e mostrando una forte scalabilità e trasferibilità.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot: Apprendere dai Log degli Errori nel Fine-Tuning dei Modelli Linguistici di Grande Dimensione

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

Abstract

Support