ChatPaper.aiChatPaper

AMFT : Alignement des raisonneurs LLM par méta-apprentissage de l'équilibre optimal entre imitation et exploration

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

August 9, 2025
papers.authors: Lixuan He, Jie Feng, Yong Li
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) sont généralement affinés pour des tâches de raisonnement à travers un pipeline en deux étapes : un affinage supervisé (SFT) suivi d'un apprentissage par renforcement (RL), un processus souvent marqué par l'oubli catastrophique et des compromis sous-optimaux entre imitation et exploration. Les méthodes récentes en une seule étape tentent d'unifier SFT et RL en utilisant des heuristiques, mais manquent d'un mécanisme rigoureux pour équilibrer dynamiquement ces deux paradigmes. Dans cet article, nous reformulons ce défi à travers la lentille théorique des récompenses implicites, considérant SFT et RL non pas comme des méthodes distinctes mais comme des signaux de récompense complémentaires. Nous introduisons l'Affinage Méta Adaptatif (AMFT), un nouvel algorithme en une seule étape qui apprend l'équilibre optimal entre la récompense implicite au niveau du chemin de SFT et la récompense explicite basée sur les résultats de RL. Le cœur d'AMFT est un contrôleur de poids adaptatif à méta-gradient qui traite l'équilibre SFT-RL comme un paramètre apprenable, l'optimisant dynamiquement pour maximiser la performance à long terme des tâches. Cette approche prospective, régularisée par l'entropie de la politique pour la stabilité, découvre de manière autonome un curriculum d'entraînement efficace. Nous menons une évaluation exhaustive sur des benchmarks exigeants couvrant le raisonnement mathématique, le raisonnement visuel abstrait (General Points) et la navigation visio-linguistique (V-IRL). AMFT établit systématiquement un nouvel état de l'art et démontre une généralisation supérieure sur des tâches hors distribution (OOD). Les études d'ablation et l'analyse des dynamiques d'entraînement confirment que le contrôleur de méta-apprentissage est crucial pour la stabilité, l'efficacité en échantillons et la performance d'AMFT, offrant un paradigme plus rigoureux et efficace pour l'alignement des LLMs. Nos codes sont open-source via https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical lens of implicit rewards, viewing SFT and RL not as distinct methods but as complementary reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel single-stage algorithm that learns the optimal balance between SFT's implicit, path-level reward and RL's explicit, outcome-based reward. The core of AMFT is a meta-gradient adaptive weight controller that treats the SFT-RL balance as a learnable parameter, dynamically optimizing it to maximize long-term task performance. This forward-looking approach, regularized by policy entropy for stability, autonomously discovers an effective training curriculum. We conduct a comprehensive evaluation on challenging benchmarks spanning mathematical reasoning, abstract visual reasoning (General Points), and vision-language navigation (V-IRL). AMFT consistently establishes a new state-of-the-art and demonstrats superior generalization on out-of-distribution (OOD) tasks. Ablation studies and training dynamic analysis confirm that the meta-learning controller is crucial for AMFT's stability, sample efficiency, and performance, offering a more principled and effective paradigm for LLM alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.
PDF12August 14, 2025