Transformer Copilot: Leren van de Foutenlog in Fine-tuning van LLM's

Samenvatting

Grote taalmodellen worden doorgaans aangepast aan downstream taken door middel van supervised fine-tuning op domeinspecifieke data. Terwijl standaard fine-tuning zich richt op het minimaliseren van generatieverlies om modelparameters te optimaliseren, nemen wij een diepere stap door de eigen leer signalen van het model te behouden en te benutten, analoog aan hoe menselijke leerlingen reflecteren op eerdere fouten om toekomstige prestaties te verbeteren. We introduceren eerst het concept van een Foutenlogboek om het leer gedrag en terugkerende fouten van het model systematisch te volgen gedurende het fine-tuning proces. Door het oorspronkelijke transformer-gebaseerde model te behandelen als de Piloot, ontwerpen we een Copilot-model om de inferentieprestaties van de Piloot te verfijnen via logits-rectificatie. We noemen het algehele Piloot-Copilot raamwerk de Transformer Copilot, dat (i) een nieuw Copilot-model ontwerp introduceert, (ii) een gezamenlijk trainingsparadigma waarbij de Copilot continu leert van het evoluerende Foutenlogboek naast de Piloot, en (iii) een gefuseerd inferentieparadigma waarbij de Copilot de logits van de Piloot rectificeert voor verbeterde generatie. We bieden zowel theoretische als empirische analyses van ons nieuwe leerraamwerk. Experimenten op 12 benchmarks die common sense, rekenkundige en aanbevelingstaken omvatten, tonen aan dat Transformer Copilot de prestaties consistent verbetert met tot wel 34,5%, terwijl het slechts een marginale rekenkundige overhead introduceert voor Piloot-modellen en sterke schaalbaarheid en overdraagbaarheid vertoont.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot: Leren van de Foutenlog in Fine-tuning van LLM's

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

Samenvatting

Support