Expandindo o Espaço de Ação de LLMs para Raciocinar Além da Linguagem

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são poderosos raciocinadores em linguagem natural, mas suas ações são tipicamente limitadas à geração de tokens de vocabulário. Como resultado, interações com ambientes externos — como operadores simbólicos ou simuladores — precisam ser expressas por meio de texto em formatos predefinidos, analisadas e direcionadas para interfaces externas. Isso sobrecarrega a linguagem do modelo com tarefas de raciocínio e controle, exigindo um analisador manualmente criado, externo ao LLM. Para resolver isso, desacoplamos as interações com o ambiente da linguagem, internalizando-as em um Espaço de Ação Expandido (ExpA), além do vocabulário. O modelo começa raciocinando no ambiente de linguagem padrão, mas pode acionar ações de roteamento e alternar para um ambiente externo a qualquer momento. A partir daí, o modelo só pode invocar ações específicas do ambiente, receber feedback do ambiente e potencialmente retornar à linguagem como resultado. Para promover uma exploração eficaz do espaço de ação expandido e de novos ambientes, introduzimos o Aprendizado por Reforço em ExpA (EARL) com otimização de política contrafactual. Em tarefas que exigem interações de múltiplos turnos e planejamento contingente, o EARL supera fortes baselines com ações restritas ao vocabulário. Ele se desempenha de forma robusta em aprendizado multitarefa baseado em calculadora e, no problema de ordenação parcialmente observado, alcança precisão perfeita no Sort-4 enquanto descobre de forma autônoma um algoritmo eficiente competitivo com designs clássicos.

English

Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.

Expandindo o Espaço de Ação de LLMs para Raciocinar Além da Linguagem

Expanding the Action Space of LLMs to Reason Beyond Language

Resumo

Support