AMFT: Het Afstemmen van LLM-Redeneerders door Meta-Leren van de Optimale Balans tussen Imitatie en Exploratie
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
Auteurs: Lixuan He, Jie Feng, Yong Li
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) worden doorgaans afgestemd voor redeneertaken via een tweestappenpijplijn van Supervised Fine-Tuning (SFT) gevolgd door Reinforcement Learning (RL), een proces dat gepaard gaat met catastrofaal vergeten en suboptimale afwegingen tussen imitatie en exploratie. Recente methoden in één fase proberen SFT en RL te verenigen met behulp van heuristieken, maar missen een principieel mechanisme om de twee paradigma's dynamisch in balans te brengen. In dit artikel herformuleren we deze uitdaging door de theoretische lens van impliciete beloningen, waarbij we SFT en RL niet zien als afzonderlijke methoden maar als complementaire beloningssignalen. We introduceren Adaptive Meta Fine-Tuning (AMFT), een nieuw algoritme in één fase dat de optimale balans leert tussen de impliciete, padgebaseerde beloning van SFT en de expliciete, uitkomstgebaseerde beloning van RL. De kern van AMFT is een meta-gradient adaptieve gewichtscontroller die de SFT-RL-balans behandelt als een leerbare parameter, deze dynamisch optimaliseert om de langetermijnprestaties van de taak te maximaliseren. Deze vooruitziende aanpak, gereguleerd door beleidsentropie voor stabiliteit, ontdekt autonoom een effectief trainingscurriculum. We voeren een uitgebreide evaluatie uit op uitdagende benchmarks die wiskundig redeneren, abstract visueel redeneren (General Points) en visie-taalnavigatie (V-IRL) omvatten. AMFT vestigt consequent een nieuwe state-of-the-art en toont superieure generalisatie op taken buiten de distributie (OOD). Ablatiestudies en analyse van trainingsdynamieken bevestigen dat de meta-learning controller cruciaal is voor de stabiliteit, steekproefefficiëntie en prestaties van AMFT, wat een meer principieel en effectief paradigma biedt voor de afstemming van LLM. Onze codes zijn openbaar gemaakt via https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.