ChatPaper.aiChatPaper

Élargir l'espace d'action des LLM pour raisonner au-delà du langage

Expanding the Action Space of LLMs to Reason Beyond Language

October 8, 2025
papers.authors: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) sont des raisonneurs puissants en langage naturel, mais leurs actions sont généralement limitées à la production de tokens de vocabulaire. Par conséquent, les interactions avec des environnements externes — tels que des opérateurs symboliques ou des simulateurs — doivent être exprimées sous forme de texte dans des formats prédéfinis, analysées et acheminées vers des interfaces externes. Cela surcharge le langage du modèle avec des tâches de raisonnement et de contrôle, et nécessite un analyseur personnalisé, externe au LLM. Pour résoudre ce problème, nous découplons les interactions avec l'environnement du langage en les internalisant dans un espace d'actions étendu (ExpA), au-delà du vocabulaire. Le modèle commence à raisonner dans l'environnement linguistique par défaut, mais peut déclencher des actions de routage et basculer vers un environnement externe à tout moment. À partir de là, le modèle ne peut invoquer que des actions spécifiques à l'environnement, recevoir des retours de celui-ci, et potentiellement revenir au langage en conséquence. Pour favoriser une exploration efficace de l'espace d'actions étendu et des nouveaux environnements, nous introduisons l'apprentissage par renforcement ExpA (EARL) avec une optimisation de politique contrefactuelle. Sur des tâches nécessitant des interactions multi-tours et une planification contingente, EARL surpasse des bases de référence solides avec des actions contraintes par le vocabulaire. Il se montre robuste dans l'apprentissage multi-tâches basé sur des calculatrices et, dans le problème de tri partiellement observé, atteint une précision parfaite pour Sort-4 tout en découvrant de manière autonome un algorithme efficace compétitif avec les conceptions classiques.
English
Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.
PDF32October 22, 2025