ChatPaper.aiChatPaper

LLMのアクション空間を拡張し、言語を超えた推論を可能にする

Expanding the Action Space of LLMs to Reason Beyond Language

October 8, 2025
著者: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI

要旨

大規模言語モデル(LLM)は自然言語における強力な推論能力を有していますが、その動作は通常、語彙トークンを出力することに限定されています。その結果、記号演算子やシミュレーターなどの外部環境との相互作用は、事前に定義された形式のテキストで表現され、解析され、外部インターフェースにルーティングされる必要があります。これにより、モデルの言語は推論と制御の両方の役割を担うことになり、LLM外部に手作りのパーサーが必要となります。この問題に対処するため、我々は環境との相互作用を言語から分離し、語彙を超えた拡張行動空間(ExpA)に内部化します。モデルはデフォルトの言語環境で推論を開始しますが、任意の時点でルーティングアクションをトリガーし、外部環境に切り替えることができます。そこから、モデルは環境固有のアクションを呼び出し、環境からのフィードバックを受け取り、結果として言語に戻る可能性があります。拡張行動空間と新しい環境の効果的な探索を促進するため、反事実的政策最適化を伴うExpA強化学習(EARL)を導入します。多段階の相互作用と条件付き計画を必要とするタスクにおいて、EARLは語彙制約付きアクションを持つ強力なベースラインを上回ります。計算機ベースのマルチタスク学習において堅牢な性能を発揮し、部分的に観測されるソート問題では、古典的な設計と競合する効率的なアルゴリズムを自己発見しながら、Sort-4の完全な精度を達成します。
English
Large Language Models (LLMs) are powerful reasoners in natural language, but their actions are typically confined to outputting vocabulary tokens. As a result, interactions with external environments -- such as symbolic operators or simulators -- must be expressed through text in predefined formats, parsed, and routed to external interfaces. This overloads the model's language with both reasoning and control duties, and requires a hand-crafted parser, external to the LLM. To address this, we decouple environment interactions from language by internalizing them in an Expanded Action space (ExpA), beyond the vocabulary. The model starts reasoning in the default language environment, but may trigger routing actions and switch to an external environment at any time. From there, the model can only invoke environment-specific actions, receive feedback from the environment, and potentially route back to language as a result. To promote effective exploration of the expanded action space and new environments, we introduce ExpA Reinforcement Learning (EARL) with counterfactual policy optimization. On tasks requiring multi-turn interactions and contingent planning, EARL outperforms strong baselines with vocabulary-constrained actions. It performs robustly across calculator-based multi-task learning and, in the partially observed sorting problem, achieves perfect Sort-4 accuracy while self-discovering an efficient algorithm competitive with classical designs.
PDF32October 22, 2025