AMFT: Согласование языковых моделей через метаобучение оптимального баланса между имитацией и исследованием
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
Авторы: Lixuan He, Jie Feng, Yong Li
cs.AI
Аннотация
Крупные языковые модели (LLM) обычно дообучаются для задач логического рассуждения с помощью двухэтапного процесса, включающего контролируемое дообучение (SFT) с последующим обучением с подкреплением (RL). Этот процесс сопряжен с проблемами катастрофического забывания и субоптимального баланса между имитацией и исследованием. Недавние одноэтапные методы пытаются объединить SFT и RL с использованием эвристик, но им не хватает принципиального механизма для динамического балансирования этих двух подходов. В данной статье мы переосмысливаем эту задачу через теоретическую призму неявных наград, рассматривая SFT и RL не как отдельные методы, а как взаимодополняющие сигналы награды. Мы представляем Adaptive Meta Fine-Tuning (AMFT) — новый одноэтапный алгоритм, который изучает оптимальный баланс между неявной наградой на уровне пути в SFT и явной наградой на основе результата в RL. Основой AMFT является мета-градиентный адаптивный контроллер весов, который рассматривает баланс SFT-RL как обучаемый параметр, динамически оптимизируя его для максимизации долгосрочной производительности задачи. Этот перспективный подход, стабилизированный регуляризацией энтропии политики, автономно обнаруживает эффективный учебный план. Мы проводим всестороннюю оценку на сложных тестах, охватывающих математическое рассуждение, абстрактное визуальное рассуждение (General Points) и навигацию на основе визуально-языковых данных (V-IRL). AMFT последовательно устанавливает новый уровень state-of-the-art и демонстрирует превосходную обобщаемость на задачах вне распределения (OOD). Абляционные исследования и анализ динамики обучения подтверждают, что мета-обучаемый контроллер играет ключевую роль в стабильности, эффективности использования данных и производительности AMFT, предлагая более принципиальный и эффективный подход для согласования LLM. Наш код доступен по ссылке: https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.