AMFT: Alineamiento de razonadores de LLM mediante meta-aprendizaje del equilibrio óptimo entre imitación y exploración

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) suelen ajustarse para tareas de razonamiento mediante un proceso de dos etapas que incluye Ajuste Fino Supervisado (SFT) seguido de Aprendizaje por Refuerzo (RL), un proceso propenso al olvido catastrófico y a compromisos subóptimos entre imitación y exploración. Métodos recientes de una sola etapa intentan unificar SFT y RL utilizando heurísticas, pero carecen de un mecanismo fundamentado para equilibrar dinámicamente ambos paradigmas. En este artículo, replanteamos este desafío a través de la lente teórica de recompensas implícitas, viendo SFT y RL no como métodos distintos sino como señales de recompensa complementarias. Introducimos Ajuste Fino Meta Adaptativo (AMFT), un novedoso algoritmo de una sola etapa que aprende el equilibrio óptimo entre la recompensa implícita a nivel de trayectoria de SFT y la recompensa explícita basada en resultados de RL. El núcleo de AMFT es un controlador de pesos adaptativo basado en meta-gradientes que trata el equilibrio SFT-RL como un parámetro aprendible, optimizándolo dinámicamente para maximizar el rendimiento a largo plazo en la tarea. Este enfoque prospectivo, regularizado por la entropía de la política para estabilidad, descubre autónomamente un currículo de entrenamiento efectivo. Realizamos una evaluación exhaustiva en benchmarks desafiantes que abarcan razonamiento matemático, razonamiento visual abstracto (General Points) y navegación visión-lenguaje (V-IRL). AMFT establece consistentemente un nuevo estado del arte y demuestra una generalización superior en tareas fuera de distribución (OOD). Estudios de ablación y análisis de dinámicas de entrenamiento confirman que el controlador de meta-aprendizaje es crucial para la estabilidad, eficiencia de muestreo y rendimiento de AMFT, ofreciendo un paradigma más fundamentado y efectivo para la alineación de LLMs. Nuestros códigos están disponibles en https://github.com/hlxtsyj/AMFT.

English

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical lens of implicit rewards, viewing SFT and RL not as distinct methods but as complementary reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel single-stage algorithm that learns the optimal balance between SFT's implicit, path-level reward and RL's explicit, outcome-based reward. The core of AMFT is a meta-gradient adaptive weight controller that treats the SFT-RL balance as a learnable parameter, dynamically optimizing it to maximize long-term task performance. This forward-looking approach, regularized by policy entropy for stability, autonomously discovers an effective training curriculum. We conduct a comprehensive evaluation on challenging benchmarks spanning mathematical reasoning, abstract visual reasoning (General Points), and vision-language navigation (V-IRL). AMFT consistently establishes a new state-of-the-art and demonstrats superior generalization on out-of-distribution (OOD) tasks. Ablation studies and training dynamic analysis confirm that the meta-learning controller is crucial for AMFT's stability, sample efficiency, and performance, offering a more principled and effective paradigm for LLM alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.

AMFT: Alineamiento de razonadores de LLM mediante meta-aprendizaje del equilibrio óptimo entre imitación y exploración

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

Resumen

Support