AdaSR: 계층적 상대 정책 최적화 기반 적응적 스트리밍 추론
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
June 12, 2026
저자: Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen
cs.AI
초록
대규모 추론 모델은 일반적으로 읽기-생각하기 패러다임을 따릅니다. 즉, 완전한 입력을 관찰하고 정적 맥락에서 추론한 후 답을 생성합니다. 그러나 오디오 및 비디오 스트림과 같은 많은 실제 시나리오는 본질적으로 동적이며, 정보가 연속적인 흐름으로 도착하고 모델이 부분적인 관찰 하에서 추론, 업데이트 및 응답해야 합니다. 최근 스트리밍 추론 방법은 모델이 읽으면서 생각할 수 있게 하지만, 사전 구축된 궤적에 대한 지도 모방에 크게 의존하여 유연성이 제한됩니다. 본 논문에서는 입력 스트리밍 중에 추론하고 스트림이 완료되면 최종 숙고를 수행하며, 언제 생각할지와 각 단계에 얼마나 많은 계산을 할당할지를 학습하는 적응형 스트리밍 추론 프레임워크인 AdaSR을 제안합니다. 이 계층적 추론 과정을 최적화하기 위해 HRPO(계층적 상대 정책 최적화)를 도입합니다. 이는 정책 최적화를 스트리밍 추론 단계와 심층 추론 단계로 분해하여, 단일 시퀀스 수준의 이점을 모든 토큰에 균일하게 분배하는 대신 더 세분화된 이점 할당을 제공합니다. HRPO는 형식, 정확성 및 적응형 사고 보상을 통합하여 유효한 추론 프로토콜을 강제하고, 최종 작업 성능을 유지하며, 지연 시간을 고려한 계산 할당을 장려합니다. 실험 결과, AdaSR이 지도 미세 조정 기준선과 비교하여 추론 정확도, 계산 효율성 및 스트리밍 지연 시간 사이에서 더 나은 균형을 달성함을 보여줍니다. 코드는 https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR에서 공개합니다.
English
Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and models must reason, update, and respond under partial observations. Recent streaming reasoning methods allow models to think while reading, but they largely rely on supervised imitation of pre-constructed trajectories, which limits their flexibility. In this paper, we propose AdaSR, an adaptive streaming reasoning framework that enables models to reason during input streaming and perform final deliberation once the stream is complete, learning when to think, and how much computation to allocate across different stages. To optimize this hierarchical reasoning process, we introduce Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming reasoning and deep reasoning phases, providing more fine-grained advantage assignment instead of uniformly distributing a single sequence-level advantage over all tokens. HRPO integrates format, accuracy, and adaptive thinking rewards to enforce valid reasoning protocols, preserve final task performance, and encourage latency-aware computation allocation. Experiments show that AdaSR achieves a better balance among reasoning accuracy, computational efficiency, and streaming latency compared with supervised fine-tuning baseline. We release our code at https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.