ChatPaper.aiChatPaper

AMFT: Ausrichtung von LLM-Reasonern durch Meta-Lernen des optimalen Imitations-Explorations-Gleichgewichts

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

August 9, 2025
papers.authors: Lixuan He, Jie Feng, Yong Li
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) werden typischerweise für Aufgaben des logischen Denkens durch eine zweistufige Pipeline feinabgestimmt, die aus Supervised Fine-Tuning (SFT) gefolgt von Reinforcement Learning (RL) besteht. Dieser Prozess ist jedoch mit katastrophalem Vergessen und suboptimalen Kompromissen zwischen Imitation und Exploration behaftet. Neuere einstufige Methoden versuchen, SFT und RL mithilfe von Heuristiken zu vereinheitlichen, aber es fehlt ihnen ein prinzipieller Mechanismus, um die beiden Paradigmen dynamisch auszubalancieren. In diesem Papier betrachten wir diese Herausforderung durch die theoretische Linse impliziter Belohnungen und sehen SFT und RL nicht als getrennte Methoden, sondern als komplementäre Belohnungssignale. Wir stellen Adaptive Meta Fine-Tuning (AMFT) vor, einen neuartigen einstufigen Algorithmus, der das optimale Gleichgewicht zwischen der impliziten, pfadbasierten Belohnung von SFT und der expliziten, ergebnisbasierten Belohnung von RL lernt. Das Kernstück von AMFT ist ein Meta-Gradienten-adaptiver Gewichtsregler, der das SFT-RL-Gleichgewicht als lernbaren Parameter behandelt und ihn dynamisch optimiert, um die langfristige Aufgabenleistung zu maximieren. Dieser vorausschauende Ansatz, der durch die Entropie der Politik für Stabilität regularisiert wird, entdeckt autonom einen effektiven Trainingsplan. Wir führen eine umfassende Bewertung auf anspruchsvollen Benchmarks durch, die mathematisches Denken, abstraktes visuelles Denken (General Points) und visuell-sprachliche Navigation (V-IRL) umfassen. AMFT etabliert durchweg einen neuen Stand der Technik und zeigt eine überlegene Generalisierung bei Out-of-Distribution (OOD)-Aufgaben. Ablationsstudien und Analysen der Trainingsdynamik bestätigen, dass der Meta-Lernregler entscheidend für die Stabilität, Proben effizienz und Leistung von AMFT ist und ein prinzipielleres und effektiveres Paradigma für die Ausrichtung von LLMs bietet. Unsere Codes sind unter https://github.com/hlxtsyj/AMFT quelloffen verfügbar.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical lens of implicit rewards, viewing SFT and RL not as distinct methods but as complementary reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel single-stage algorithm that learns the optimal balance between SFT's implicit, path-level reward and RL's explicit, outcome-based reward. The core of AMFT is a meta-gradient adaptive weight controller that treats the SFT-RL balance as a learnable parameter, dynamically optimizing it to maximize long-term task performance. This forward-looking approach, regularized by policy entropy for stability, autonomously discovers an effective training curriculum. We conduct a comprehensive evaluation on challenging benchmarks spanning mathematical reasoning, abstract visual reasoning (General Points), and vision-language navigation (V-IRL). AMFT consistently establishes a new state-of-the-art and demonstrats superior generalization on out-of-distribution (OOD) tasks. Ablation studies and training dynamic analysis confirm that the meta-learning controller is crucial for AMFT's stability, sample efficiency, and performance, offering a more principled and effective paradigm for LLM alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.
PDF12August 14, 2025