Aprendendo Política Agentiva a partir de Orientação de Ação

Resumo

Aprendizado por reforço (RL) agentivo para Modelos de Linguagem de Grande Escala (LLMs) depende criticamente da capacidade de exploração da política base, já que os sinais de treinamento emergem apenas dentro de sua região de capacidade. Para tarefas em que a política base não consegue alcançar estados de recompensa, treinamento adicional ou orientação externa são necessários para recuperar sinais de aprendizado eficazes. Em vez de depender de custoso e iterativo ajuste fino supervisionado (SFT), exploramos os abundantes dados de ação gerados em interações humanas cotidianas. Propomos o ActGuide-RL, que injeta dados de ação como orientação de referência no estilo de plano, permitindo que a política agentiva supere barreiras de alcançabilidade para estados de recompensa. Rollouts guiados e não guiados são então otimizados conjuntamente via treinamento de política mista, internalizando os ganhos de exploração de volta na política não guiada. Motivados por uma análise teórica e empírica do trade-off entre benefício e risco, adotamos um princípio de intervenção mínima que invoca a orientação apenas como um fallback adaptativo, ajustando-se à dificuldade da tarefa enquanto minimiza o risco fora da política. Em benchmarks de agentes de busca, o ActGuide-RL melhora substancialmente em relação a zero RL (+10,7 pp no GAIA e +19 pp no XBench com Qwen3-4B) e desempenha-se de forma equivalente ao pipeline SFT+RL sem qualquer inicialização a frio. Isso sugere um novo paradigma para RL agentivo que reduz a dependência de dados pesados de SFT ao usar orientação de ação escalável em vez disso.

English

Agentic reinforcement learning (RL) for Large Language Models (LLMs) critically depends on the exploration capability of the base policy, as training signals emerge only within its in-capability region. For tasks where the base policy cannot reach reward states, additional training or external guidance is needed to recover effective learning signals. Rather than relying on costly iterative supervised fine tuning (SFT), we exploit the abundant action data generated in everyday human interactions. We propose ActGuide-RL, which injects action data as plan-style reference guidance, enabling the agentic policy to overcome reachability barriers to reward states. Guided and unguided rollouts are then jointly optimized via mixed-policy training, internalizing the exploration gains back into the unguided policy. Motivated by a theoretical and empirical analysis of the benefit-risk trade-off, we adopt a minimal intervention principle that invokes guidance only as an adaptive fallback, matching task difficulty while minimizing off-policy risk. On search-agent benchmarks, ActGuide-RL substantially improves over zero RL (+10.7 pp on GAIA and +19 pp on XBench with Qwen3-4B), and performs on par with the SFT+RL pipeline without any cold start. This suggests a new paradigm for agentic RL that reduces the reliance on heavy SFT data by using scalable action guidance instead.