AMFT: Ausrichtung von LLM-Reasonern durch Meta-Lernen des optimalen Imitations-Explorations-Gleichgewichts
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
papers.authors: Lixuan He, Jie Feng, Yong Li
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden typischerweise für Aufgaben des logischen Denkens durch eine zweistufige Pipeline feinabgestimmt, die aus Supervised Fine-Tuning (SFT) gefolgt von Reinforcement Learning (RL) besteht. Dieser Prozess ist jedoch mit katastrophalem Vergessen und suboptimalen Kompromissen zwischen Imitation und Exploration behaftet. Neuere einstufige Methoden versuchen, SFT und RL mithilfe von Heuristiken zu vereinheitlichen, aber es fehlt ihnen ein prinzipieller Mechanismus, um die beiden Paradigmen dynamisch auszubalancieren. In diesem Papier betrachten wir diese Herausforderung durch die theoretische Linse impliziter Belohnungen und sehen SFT und RL nicht als getrennte Methoden, sondern als komplementäre Belohnungssignale. Wir stellen Adaptive Meta Fine-Tuning (AMFT) vor, einen neuartigen einstufigen Algorithmus, der das optimale Gleichgewicht zwischen der impliziten, pfadbasierten Belohnung von SFT und der expliziten, ergebnisbasierten Belohnung von RL lernt. Das Kernstück von AMFT ist ein Meta-Gradienten-adaptiver Gewichtsregler, der das SFT-RL-Gleichgewicht als lernbaren Parameter behandelt und ihn dynamisch optimiert, um die langfristige Aufgabenleistung zu maximieren. Dieser vorausschauende Ansatz, der durch die Entropie der Politik für Stabilität regularisiert wird, entdeckt autonom einen effektiven Trainingsplan. Wir führen eine umfassende Bewertung auf anspruchsvollen Benchmarks durch, die mathematisches Denken, abstraktes visuelles Denken (General Points) und visuell-sprachliche Navigation (V-IRL) umfassen. AMFT etabliert durchweg einen neuen Stand der Technik und zeigt eine überlegene Generalisierung bei Out-of-Distribution (OOD)-Aufgaben. Ablationsstudien und Analysen der Trainingsdynamik bestätigen, dass der Meta-Lernregler entscheidend für die Stabilität, Proben effizienz und Leistung von AMFT ist und ein prinzipielleres und effektiveres Paradigma für die Ausrichtung von LLMs bietet. Unsere Codes sind unter https://github.com/hlxtsyj/AMFT quelloffen verfügbar.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.