진화하는 환경에서의 실시간 추론 에이전트
Real-Time Reasoning Agents in Evolving Environments
November 7, 2025
저자: Yule Wen, Yixin Ye, Yanzhe Zhang, Diyi Yang, Hao Zhu
cs.AI
초록
실제 환경에서 에이전트는 논리적 판단뿐만 아니라 시의적절한 판단도 수행해야 합니다. 이는 변화하는 환경에 대한 지속적인 인식을 요구합니다: 위험 요소가 발생하고, 기회가 생기며, 다른 에이전트가 행동하는 동안에도 해당 에이전트의 추론 과정은 여전히 진행 중입니다. 언어 모델 추론 기술이 발전했음에도 불구하고, 기존 접근법은 이러한 역동적인 특성을 고려하지 못하고 있습니다. 본 연구는 변화하는 환경에서 작동하는 에이전트를 위한 새로운 문제 구성으로 실시간 추론(real-time reasoning)을 소개하고, 이를 입증하기 위해 Real-Time Reasoning Gym을 구축합니다. 우리는 에이전트에 언어 모델을 적용하는 두 가지 패러다임을 연구합니다: (1) 신속한 대응을 위해 제한된 추론 계산을 사용하는 언어 모델을 활용하는 반응형 에이전트(reactive agents)와 (2) 복잡한 문제에 대해 확장된 추론 계산을 허용하는 계획형 에이전트(planning agents). 실험 결과, 최첨단 모델들조차 두 패러다임 어느 쪽에서도 논리적이고 시의적절한 판단을 내리는 데 어려움을 겪는 것으로 나타났습니다. 이러한 한계를 해결하기 위해 우리는 두 가지 추론 패러다임을 동시에 활용하는 AgileThinker를 제안합니다. AgileThinker는 작업 난이도와 시간 압박이 증가함에 따라 단일 추론 패러다임만 사용하는 에이전트들을 꾸준히 능가하며, 추론 깊이와 응답 지연 시간을 효과적으로 균형 잡습니다. 우리의 연구는 실시간 추론을 실용적인 에이전트 개발을 위한 중요한 테스트베드로 확립하고, 시간 제약이 있는 AI 시스템 연구를 위한 기반을 마련함으로써 실시간 능력을 갖춘 에이전트로 나아가는 길을 제시합니다.
English
Agents in the real world must make not only logical but also timely
judgments. This requires continuous awareness of the dynamic environment:
hazards emerge, opportunities arise, and other agents act, while the agent's
reasoning is still unfolding. Despite advances in language model reasoning,
existing approaches fail to account for this dynamic nature. We introduce
real-time reasoning as a new problem formulation for agents in evolving
environments and build Real-Time Reasoning Gym to demonstrate it. We study two
paradigms for deploying language models in agents: (1) reactive agents, which
employ language models with bounded reasoning computation for rapid responses,
and (2) planning agents, which allow extended reasoning computation for complex
problems. Our experiments show that even state-of-the-art models struggle with
making logical and timely judgments in either paradigm. To address this
limitation, we propose AgileThinker, which simultaneously engages both
reasoning paradigms. AgileThinker consistently outperforms agents engaging only
one reasoning paradigm as the task difficulty and time pressure rise,
effectively balancing reasoning depth and response latency. Our work
establishes real-time reasoning as a critical testbed for developing practical
agents and provides a foundation for research in temporally constrained AI
systems, highlighting a path toward real-time capable agents.