Ampliación del Espacio de Acción de los LLM para Razonar más Allá del Lenguaje
Expanding the Action Space of LLMs to Reason Beyond Language
October 8, 2025
Autores: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son razonadores potentes en lenguaje natural, pero sus acciones suelen limitarse a la generación de tokens de vocabulario. Como resultado, las interacciones con entornos externos —como operadores simbólicos o simuladores— deben expresarse mediante texto en formatos predefinidos, analizarse y dirigirse a interfaces externas. Esto sobrecarga el lenguaje del modelo con tareas tanto de razonamiento como de control, y requiere un analizador manual, externo al LLM. Para abordar este problema, desacoplamos las interacciones con el entorno del lenguaje al internalizarlas en un Espacio de Acción Expandido (ExpA), más allá del vocabulario. El modelo comienza razonando en el entorno de lenguaje predeterminado, pero puede activar acciones de enrutamiento y cambiar a un entorno externo en cualquier momento. A partir de ahí, el modelo solo puede invocar acciones específicas del entorno, recibir retroalimentación del mismo y, potencialmente, volver a enrutarse al lenguaje como resultado. Para fomentar una exploración efectiva del espacio de acción expandido y de nuevos entornos, introducimos el Aprendizaje por Refuerzo en el Espacio de Acción Expandido (EARL, por sus siglas en inglés) con optimización de políticas contrafactuales. En tareas que requieren interacciones multiturno y planificación contingente, EARL supera a líneas de base sólidas con acciones restringidas al vocabulario. Demuestra un rendimiento robusto en el aprendizaje multitarea basado en calculadoras y, en el problema de ordenamiento parcialmente observado, logra una precisión perfecta en Sort-4 mientras descubre de manera autónoma un algoritmo eficiente competitivo con diseños clásicos.
English
Large Language Models (LLMs) are powerful reasoners in natural language, but
their actions are typically confined to outputting vocabulary tokens. As a
result, interactions with external environments -- such as symbolic operators
or simulators -- must be expressed through text in predefined formats, parsed,
and routed to external interfaces. This overloads the model's language with
both reasoning and control duties, and requires a hand-crafted parser, external
to the LLM. To address this, we decouple environment interactions from language
by internalizing them in an Expanded Action space (ExpA), beyond the
vocabulary. The model starts reasoning in the default language environment, but
may trigger routing actions and switch to an external environment at any time.
From there, the model can only invoke environment-specific actions, receive
feedback from the environment, and potentially route back to language as a
result. To promote effective exploration of the expanded action space and new
environments, we introduce ExpA Reinforcement Learning (EARL) with
counterfactual policy optimization. On tasks requiring multi-turn interactions
and contingent planning, EARL outperforms strong baselines with
vocabulary-constrained actions. It performs robustly across calculator-based
multi-task learning and, in the partially observed sorting problem, achieves
perfect Sort-4 accuracy while self-discovering an efficient algorithm
competitive with classical designs.