AMFT: Allineamento dei ragionatori LLM attraverso l'apprendimento meta del bilanciamento ottimale tra imitazione ed esplorazione
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
Autori: Lixuan He, Jie Feng, Yong Li
cs.AI
Abstract
I Large Language Model (LLM) vengono tipicamente affinati per compiti di ragionamento attraverso una pipeline in due fasi che prevede prima un Fine-Tuning Supervisionato (SFT) seguito da un Apprendimento per Rinforzo (RL), un processo spesso afflitto da dimenticanza catastrofica e compromessi subottimali tra imitazione ed esplorazione. Recenti metodi a stadio unico cercano di unificare SFT e RL utilizzando euristiche, ma mancano di un meccanismo principiato per bilanciare dinamicamente i due paradigmi. In questo articolo, riformuliamo questa sfida attraverso la lente teorica delle ricompense implicite, considerando SFT e RL non come metodi distinti ma come segnali di ricompensa complementari. Introduciamo l'Adaptive Meta Fine-Tuning (AMFT), un nuovo algoritmo a stadio unico che apprende il bilanciamento ottimale tra la ricompensa implicita a livello di percorso di SFT e la ricompensa esplicita basata sui risultati di RL. Il cuore di AMFT è un controllore adattivo a meta-gradiente che tratta il bilanciamento SFT-RL come un parametro apprendibile, ottimizzandolo dinamicamente per massimizzare le prestazioni a lungo termine del compito. Questo approccio lungimirante, regolarizzato dall'entropia della politica per garantire stabilità, scopre autonomamente un curriculum di formazione efficace. Effettuiamo una valutazione completa su benchmark impegnativi che spaziano dal ragionamento matematico, al ragionamento visivo astratto (General Points), fino alla navigazione visivo-linguistica (V-IRL). AMFT stabilisce costantemente un nuovo stato dell'arte e dimostra una generalizzazione superiore su compiti fuori distribuzione (OOD). Studi di ablazione e analisi delle dinamiche di formazione confermano che il controllore di meta-apprendimento è cruciale per la stabilità, l'efficienza campionaria e le prestazioni di AMFT, offrendo un paradigma più principiato ed efficace per l'allineamento degli LLM. I nostri codici sono open-source su https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.