Ampliación del Espacio de Acción de los LLM para Razonar más Allá del Lenguaje

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son razonadores potentes en lenguaje natural, pero sus acciones suelen limitarse a la generación de tokens de vocabulario. Como resultado, las interacciones con entornos externos —como operadores simbólicos o simuladores— deben expresarse mediante texto en formatos predefinidos, analizarse y dirigirse a interfaces externas. Esto sobrecarga el lenguaje del modelo con tareas tanto de razonamiento como de control, y requiere un analizador manual, externo al LLM. Para abordar este problema, desacoplamos las interacciones con el entorno del lenguaje al internalizarlas en un Espacio de Acción Expandido (ExpA), más allá del vocabulario. El modelo comienza razonando en el entorno de lenguaje predeterminado, pero puede activar acciones de enrutamiento y cambiar a un entorno externo en cualquier momento. A partir de ahí, el modelo solo puede invocar acciones específicas del entorno, recibir retroalimentación del mismo y, potencialmente, volver a enrutarse al lenguaje como resultado. Para fomentar una exploración efectiva del espacio de acción expandido y de nuevos entornos, introducimos el Aprendizaje por Refuerzo en el Espacio de Acción Expandido (EARL, por sus siglas en inglés) con optimización de políticas contrafactuales. En tareas que requieren interacciones multiturno y planificación contingente, EARL supera a líneas de base sólidas con acciones restringidas al vocabulario. Demuestra un rendimiento robusto en el aprendizaje multitarea basado en calculadoras y, en el problema de ordenamiento parcialmente observado, logra una precisión perfecta en Sort-4 mientras descubre de manera autónoma un algoritmo eficiente competitivo con diseños clásicos.

English

Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.

Ampliación del Espacio de Acción de los LLM para Razonar más Allá del Lenguaje

Expanding the Action Space of LLMs to Reason Beyond Language

Resumen

Support