Transformer Copilot: Обучение на основе журнала ошибок при тонкой настройке больших языковых моделей

Аннотация

Крупные языковые модели обычно адаптируются к конкретным задачам через контролируемую тонкую настройку на данных из целевой области. В то время как стандартная тонкая настройка сосредоточена на минимизации потерь при генерации для оптимизации параметров модели, мы делаем шаг дальше, сохраняя и используя собственные сигналы обучения модели, аналогично тому, как человек анализирует прошлые ошибки для улучшения будущих результатов. Сначала мы вводим концепцию "Журнала ошибок" для систематического отслеживания поведения модели и повторяющихся ошибок в процессе тонкой настройки. Рассматривая исходную трансформерную модель как "Пилота", мы разрабатываем соответствующую модель "Копилот" для улучшения качества вывода "Пилота" через коррекцию логитов. Мы называем общую структуру "Пилот-Копилот" "Трансформерный Копилот", которая включает: (i) новую архитектуру модели "Копилот", (ii) совместную парадигму обучения, где "Копилот" непрерывно обучается на основе развивающегося "Журнала ошибок" вместе с "Пилотом", и (iii) объединенную парадигму вывода, где "Копилот" корректирует логиты "Пилота" для улучшения генерации. Мы предоставляем как теоретический, так и эмпирический анализ нашей новой обучающей структуры. Эксперименты на 12 тестовых наборах, охватывающих задачи здравого смысла, арифметики и рекомендаций, демонстрируют, что "Трансформерный Копилот" стабильно улучшает производительность до 34,5%, при этом внося минимальные вычислительные накладные расходы для моделей "Пилот" и демонстрируя высокую масштабируемость и переносимость.

English

Large language models are typically adapted to downstream tasks through supervised fine-tuning on domain-specific data. While standard fine-tuning focuses on minimizing generation loss to optimize model parameters, we take a deeper step by retaining and leveraging the model's own learning signals, analogous to how human learners reflect on past mistakes to improve future performance. We first introduce the concept of Mistake Log to systematically track the model's learning behavior and recurring errors throughout fine-tuning. Treating the original transformer-based model as the Pilot, we correspondingly design a Copilot model to refine the Pilot's inference performance via logits rectification. We name the overall Pilot-Copilot framework the Transformer Copilot, which introduces (i) a novel Copilot model design, (ii) a joint training paradigm where the Copilot continuously learns from the evolving Mistake Log alongside the Pilot, and (iii) a fused inference paradigm where the Copilot rectifies the Pilot's logits for enhanced generation. We provide both theoretical and empirical analyses on our new learning framework. Experiments on 12 benchmarks spanning commonsense, arithmetic, and recommendation tasks demonstrate that Transformer Copilot consistently improves performance by up to 34.5%, while introducing marginal computational overhead to Pilot models and exhibiting strong scalability and transferability.

Transformer Copilot: Обучение на основе журнала ошибок при тонкой настройке больших языковых моделей

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

Аннотация

Support