AdaSR: Raciocínio de Streaming Adaptativo com Otimização Hierárquica de Política Relativa

Resumo

Modelos de raciocínio de grande porte geralmente seguem um paradigma de ler-depois-pensar: eles observam a entrada completa, raciocinam sobre um contexto estático e então produzem a resposta. No entanto, muitos cenários do mundo real são inerentemente dinâmicos, como fluxos de áudio e vídeo, em que as informações chegam como um fluxo contínuo e os modelos devem raciocinar, atualizar e responder sob observações parciais. Métodos recentes de raciocínio em fluxo permitem que os modelos pensem enquanto leem, mas dependem amplamente de imitação supervisionada de trajetórias pré-construídas, o que limita sua flexibilidade. Neste artigo, propomos AdaSR, uma estrutura adaptativa de raciocínio em fluxo que permite que os modelos raciocinem durante o fluxo de entrada e realizem uma deliberação final quando o fluxo estiver completo, aprendendo quando pensar e quanta computação alocar em diferentes estágios. Para otimizar esse processo de raciocínio hierárquico, introduzimos a Otimização Hierárquica Relativa de Políticas (HRPO), que decompõe a otimização de políticas em fases de raciocínio em fluxo e raciocínio profundo, fornecendo uma atribuição de vantagem mais granular, em vez de distribuir uniformemente uma única vantagem no nível da sequência sobre todos os tokens. A HRPO integra recompensas de formato, precisão e pensamento adaptativo para impor protocolos de raciocínio válidos, preservar o desempenho final da tarefa e incentivar a alocação de computação ciente da latência. Experimentos mostram que o AdaSR alcança um melhor equilíbrio entre precisão do raciocínio, eficiência computacional e latência de fluxo em comparação com a linha de base de ajuste fino supervisionado. Disponibilizamos nosso código em https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.

English

Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and models must reason, update, and respond under partial observations. Recent streaming reasoning methods allow models to think while reading, but they largely rely on supervised imitation of pre-constructed trajectories, which limits their flexibility. In this paper, we propose AdaSR, an adaptive streaming reasoning framework that enables models to reason during input streaming and perform final deliberation once the stream is complete, learning when to think, and how much computation to allocate across different stages. To optimize this hierarchical reasoning process, we introduce Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming reasoning and deep reasoning phases, providing more fine-grained advantage assignment instead of uniformly distributing a single sequence-level advantage over all tokens. HRPO integrates format, accuracy, and adaptive thinking rewards to enforce valid reasoning protocols, preserve final task performance, and encourage latency-aware computation allocation. Experiments show that AdaSR achieves a better balance among reasoning accuracy, computational efficiency, and streaming latency compared with supervised fine-tuning baseline. We release our code at https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.