AMFT: Alinhamento de Raciocinadores de LLM por Meta-Aprendizado do Equilíbrio Ótimo entre Imitação e Exploração
AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance
August 9, 2025
Autores: Lixuan He, Jie Feng, Yong Li
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) são tipicamente ajustados para tarefas de raciocínio por meio de um pipeline de duas etapas: Ajuste Fino Supervisionado (SFT) seguido por Aprendizado por Reforço (RL), um processo repleto de esquecimento catastrófico e compensações subótimas entre imitação e exploração. Métodos recentes de estágio único tentam unificar SFT e RL usando heurísticas, mas carecem de um mecanismo fundamentado para equilibrar dinamicamente os dois paradigmas. Neste artigo, reformulamos esse desafio através da lente teórica de recompensas implícitas, vendo SFT e RL não como métodos distintos, mas como sinais de recompensa complementares. Introduzimos o Ajuste Fino Meta Adaptativo (AMFT), um algoritmo inovador de estágio único que aprende o equilíbrio ideal entre a recompensa implícita no nível do caminho do SFT e a recompensa explícita baseada no resultado do RL. O núcleo do AMFT é um controlador de peso adaptativo de meta-gradiente que trata o equilíbrio SFT-RL como um parâmetro aprendível, otimizando-o dinamicamente para maximizar o desempenho em tarefas de longo prazo. Essa abordagem prospectiva, regularizada pela entropia da política para estabilidade, descobre autonomamente um currículo de treinamento eficaz. Realizamos uma avaliação abrangente em benchmarks desafiadores que abrangem raciocínio matemático, raciocínio visual abstrato (General Points) e navegação visão-linguagem (V-IRL). O AMFT consistentemente estabelece um novo estado da arte e demonstra generalização superior em tarefas fora da distribuição (OOD). Estudos de ablação e análise da dinâmica de treinamento confirmam que o controlador de meta-aprendizado é crucial para a estabilidade, eficiência amostral e desempenho do AMFT, oferecendo um paradigma mais fundamentado e eficaz para o alinhamento de LLMs. Nossos códigos são de código aberto em https://github.com/hlxtsyj/AMFT.
English
Large Language Models (LLMs) are typically fine-tuned for reasoning tasks
through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by
Reinforcement Learning (RL), a process fraught with catastrophic forgetting and
suboptimal trade-offs between imitation and exploration. Recent single-stage
methods attempt to unify SFT and RL using heuristics, but lack a principled
mechanism for dynamically balancing the two paradigms. In this paper, we
reframe this challenge through the theoretical lens of implicit
rewards, viewing SFT and RL not as distinct methods but as complementary
reward signals. We introduce Adaptive Meta Fine-Tuning (AMFT), a novel
single-stage algorithm that learns the optimal balance between SFT's implicit,
path-level reward and RL's explicit, outcome-based reward. The core of AMFT is
a meta-gradient adaptive weight controller that treats the SFT-RL
balance as a learnable parameter, dynamically optimizing it to maximize
long-term task performance. This forward-looking approach, regularized by
policy entropy for stability, autonomously discovers an effective training
curriculum. We conduct a comprehensive evaluation on challenging benchmarks
spanning mathematical reasoning, abstract visual reasoning (General Points),
and vision-language navigation (V-IRL). AMFT consistently establishes a new
state-of-the-art and demonstrats superior generalization on out-of-distribution
(OOD) tasks. Ablation studies and training dynamic analysis confirm that the
meta-learning controller is crucial for AMFT's stability, sample efficiency,
and performance, offering a more principled and effective paradigm for LLM
alignment.Our codes are open-sourced via https://github.com/hlxtsyj/AMFT.