DynaAct: 動的アクション空間を用いた大規模言語モデルの推論
DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
November 11, 2025
著者: Xueliang Zhao, Wei Wu, Jian Guan, Qintong Li, Lingpeng Kong
cs.AI
要旨
現代の逐次的意思決定システムにおいて、最適な候補行動空間の構築は効率的な推論において極めて重要である。しかし、既存の手法は、スケーラビリティに欠ける手動定義の行動空間に依存するか、網羅的探索を計算的に非現実的なものとする非構造化空間を利用している。本論文では、複雑な問題解決シナリオにおける逐次推論を強化するためのコンパクトな行動空間を自動構築するDynaActという新規フレームワークを提案する。我々の手法はまず、大規模言語モデルを用いて多様な複雑推論問題を網羅するコーパスから観測された一般的な骨子を抽出し、完全な行動空間の代理推定を行う。次に、現在の状態に対する有用性と多様性に基づいて候補行動を共同評価する劣モジュラ関数を定式化し、貪欲アルゴリズムを用いて最適な候補集合を選択する。6つの多様な標準ベンチマークによる大規模な実験により、本手法が実質的な遅延を導入することなく効率的な推論を維持しつつ、全体の性能を大幅に向上させることを実証する。実装はhttps://github.com/zhaoxlpku/DynaAct で公開されている。
English
In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.