DynaAct: 동적 액션 공간을 활용한 대규모 언어 모델 추론
DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
November 11, 2025
저자: Xueliang Zhao, Wei Wu, Jian Guan, Qintong Li, Lingpeng Kong
cs.AI
초록
현대 순차적 의사결정 시스템에서 최적의 후보 행동 공간 구축은 효율적인 추론에 있어 핵심적입니다. 그러나 기존 접근법은 확장성이 부족한 수동 정의 행동 공간에 의존하거나, 포괄적 탐색을 계산적으로 불가능하게 만드는 비정형 공간을 활용하는 한계가 있습니다. 본 논문에서는 복잡한 문제 해결 시나리오에서 순차적 추론을 향상시키기 위해 간결한 행동 공간을 자동으로 구축하는 DynaAct라는 새로운 프레임워크를 제안합니다. 우리의 방법은 먼저 대규모 언어 모델을 사용하여 다양한 복잡 추론 문제를 아우르는 코퍼스에서 관찰된 일반적인 개요를 추출하여 완전한 행동 공간에 대한 근사치를 추정합니다. 이후 현재 상태에 대한 유용성과 다양성을 함께 고려하여 후보 행동을 평가하는 부분모듈러 함수를 정식화하고, 탐욕 알고리즘을 통해 최적의 후보 집합을 선택합니다. 다양한 6가지 표준 벤치마크에서 진행한 폭넓은 실험 결과, 우리의 접근법이 상당한 지연 시간을 도입하지 않으면서 효율적인 추론을 유지하며 전반적인 성능을 크게 향상시킴을 입증했습니다. 구현 코드는 https://github.com/zhaoxlpku/DynaAct에서 확인할 수 있습니다.
English
In modern sequential decision-making systems, the construction of an optimal candidate action space is critical to efficient inference. However, existing approaches either rely on manually defined action spaces that lack scalability or utilize unstructured spaces that render exhaustive search computationally prohibitive. In this paper, we propose a novel framework named DynaAct for automatically constructing a compact action space to enhance sequential reasoning in complex problem-solving scenarios. Our method first estimates a proxy for the complete action space by extracting general sketches observed in a corpus covering diverse complex reasoning problems using large language models. We then formulate a submodular function that jointly evaluates candidate actions based on their utility to the current state and their diversity, and employ a greedy algorithm to select an optimal candidate set. Extensive experiments on six diverse standard benchmarks demonstrate that our approach significantly improves overall performance, while maintaining efficient inference without introducing substantial latency. The implementation is available at https://github.com/zhaoxlpku/DynaAct.