AMFT: Alineamiento de razonadores de LLM mediante meta-aprendizaje del equilibrio óptimo entre imitación y exploración
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
Autores: Lixuan He, Jie Feng, Yong Li
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) suelen ajustarse para tareas de razonamiento mediante un proceso de dos etapas que incluye Ajuste Fino Supervisado (SFT) seguido de Aprendizaje por Refuerzo (RL), un proceso propenso al olvido catastrófico y a compromisos subóptimos entre imitación y exploración. Métodos recientes de una sola etapa intentan unificar SFT y RL utilizando heurísticas, pero carecen de un mecanismo fundamentado para equilibrar dinámicamente ambos paradigmas. En este artículo, replanteamos este desafío a través de la lente teórica de recompensas implícitas, viendo SFT y RL no como métodos distintos sino como señales de recompensa complementarias. Introducimos Ajuste Fino Meta Adaptativo (AMFT), un novedoso algoritmo de una sola etapa que aprende el equilibrio óptimo entre la recompensa implícita a nivel de trayectoria de SFT y la recompensa explícita basada en resultados de RL. El núcleo de AMFT es un controlador de pesos adaptativo basado en meta-gradientes que trata el equilibrio SFT-RL como un parámetro aprendible, optimizándolo dinámicamente para maximizar el rendimiento a largo plazo en la tarea. Este enfoque prospectivo, regularizado por la entropía de la política para estabilidad, descubre autónomamente un currículo de entrenamiento efectivo. Realizamos una evaluación exhaustiva en benchmarks desafiantes que abarcan razonamiento matemático, razonamiento visual abstracto (General Points) y navegación visión-lenguaje (V-IRL). AMFT establece consistentemente un nuevo estado del arte y demuestra una generalización superior en tareas fuera de distribución (OOD). Estudios de ablación y análisis de dinámicas de entrenamiento confirman que el controlador de meta-aprendizaje es crucial para la estabilidad, eficiencia de muestreo y rendimiento de AMFT, ofreciendo un paradigma más fundamentado y efectivo para la alineación de LLMs. Nuestros códigos están disponibles en https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.