LLM의 행동 공간을 확장하여 언어를 넘어 사고하도록 하기
Expanding the Action Space of LLMs to Reason Beyond Language
October 8, 2025
저자: Zhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson
cs.AI
초록
대규모 언어 모델(LLMs)은 자연어에서 강력한 추론 능력을 갖추고 있지만, 그 행동은 일반적으로 어휘 토큰을 출력하는 데 국한됩니다. 이로 인해 기호 연산자나 시뮬레이터와 같은 외부 환경과의 상호작용은 미리 정의된 형식의 텍스트로 표현되고, 파싱된 후 외부 인터페이스로 전달되어야 합니다. 이는 모델의 언어에 추론과 제어의 두 가지 역할을 과도하게 부여하며, LLM 외부에서 수작업으로 제작된 파서를 필요로 합니다. 이를 해결하기 위해, 우리는 환경 상호작용을 언어와 분리하여 어휘를 넘어선 확장된 행동 공간(Expanded Action space, ExpA) 내부로 내재화했습니다. 모델은 기본 언어 환경에서 추론을 시작하지만, 언제든지 라우팅 행동을 트리거하고 외부 환경으로 전환할 수 있습니다. 그곳에서 모델은 환경 특정 행동만을 호출하고, 환경으로부터 피드백을 받으며, 결과적으로 언어로 다시 라우팅될 수 있습니다. 확장된 행동 공간과 새로운 환경의 효과적인 탐색을 촉진하기 위해, 우리는 반사실적 정책 최적화를 포함한 ExpA 강화 학습(ExpA Reinforcement Learning, EARL)을 도입했습니다. 다중 턴 상호작용과 조건적 계획이 필요한 작업에서 EARL은 어휘 제약 행동을 사용하는 강력한 베이스라인을 능가합니다. 계산기 기반의 다중 작업 학습에서 견고한 성능을 보이며, 부분적으로 관찰된 정렬 문제에서는 고전적인 설계와 경쟁력 있는 효율적인 알고리즘을 자체적으로 발견하면서 Sort-4 정확도에서 완벽한 성과를 달성했습니다.
English
Large Language Models (LLMs) are powerful reasoners in natural language, but
their actions are typically confined to outputting vocabulary tokens. As a
result, interactions with external environments -- such as symbolic operators
or simulators -- must be expressed through text in predefined formats, parsed,
and routed to external interfaces. This overloads the model's language with
both reasoning and control duties, and requires a hand-crafted parser, external
to the LLM. To address this, we decouple environment interactions from language
by internalizing them in an Expanded Action space (ExpA), beyond the
vocabulary. The model starts reasoning in the default language environment, but
may trigger routing actions and switch to an external environment at any time.
From there, the model can only invoke environment-specific actions, receive
feedback from the environment, and potentially route back to language as a
result. To promote effective exploration of the expanded action space and new
environments, we introduce ExpA Reinforcement Learning (EARL) with
counterfactual policy optimization. On tasks requiring multi-turn interactions
and contingent planning, EARL outperforms strong baselines with
vocabulary-constrained actions. It performs robustly across calculator-based
multi-task learning and, in the partially observed sorting problem, achieves
perfect Sort-4 accuracy while self-discovering an efficient algorithm
competitive with classical designs.