AdaSR: Adaptives Streaming-Reasoning mit hierarchischer relativer Policy-Optimierung

Zusammenfassung

Große Reasoning-Modelle folgen typischerweise einem Paradigma des Lesens und anschließenden Denkens: Sie beobachten die vollständige Eingabe, führen Reasoning über einen statischen Kontext durch und erzeugen dann die Antwort. Viele reale Szenarien sind jedoch von Natur aus dynamisch, wie etwa Audio- und Videoströme, bei denen Informationen als kontinuierlicher Strom eintreffen und Modelle Reasoning durchführen, aktualisieren und unter teilweiser Beobachtung antworten müssen. Aktuelle Streaming-Reasoning-Methoden erlauben es Modellen, während des Lesens zu denken, basieren jedoch weitgehend auf überwachter Nachahmung vorab konstruierter Trajektorien, was ihre Flexibilität einschränkt. In diesem Papier schlagen wir AdaSR vor, ein adaptives Streaming-Reasoning-Framework, das es Modellen ermöglicht, während des Eingabestreamings Reasoning durchzuführen und nach Abschluss des Streams eine abschließende Überlegung anzustellen, wobei sie lernen, wann sie denken und wie viel Rechenleistung sie auf verschiedene Phasen verteilen sollen. Zur Optimierung dieses hierarchischen Reasoning-Prozesses führen wir die Hierarchische Relative Policy-Optimierung (HRPO) ein, die die Policy-Optimierung in Streaming-Reasoning- und Deep-Reasoning-Phasen zerlegt und eine fein granularere Vorteilszuweisung ermöglicht, anstatt einen einzelnen sequenzweiten Vorteil gleichmäßig über alle Token zu verteilen. HRPO integriert Belohnungen für Format, Genauigkeit und adaptives Denken, um gültige Reasoning-Protokolle durchzusetzen, die endgültige Aufgabenleistung zu erhalten und eine latenzeitbewusste Berechnungszuweisung zu fördern. Experimente zeigen, dass AdaSR im Vergleich zur überwachten Feinabstimmungs-Baseline eine bessere Balance zwischen Reasoning-Genauigkeit, Recheneffizienz und Streaming-Latenz erreicht. Wir veröffentlichen unseren Code unter https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.

English

Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and models must reason, update, and respond under partial observations. Recent streaming reasoning methods allow models to think while reading, but they largely rely on supervised imitation of pre-constructed trajectories, which limits their flexibility. In this paper, we propose AdaSR, an adaptive streaming reasoning framework that enables models to reason during input streaming and perform final deliberation once the stream is complete, learning when to think, and how much computation to allocate across different stages. To optimize this hierarchical reasoning process, we introduce Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming reasoning and deep reasoning phases, providing more fine-grained advantage assignment instead of uniformly distributing a single sequence-level advantage over all tokens. HRPO integrates format, accuracy, and adaptive thinking rewards to enforce valid reasoning protocols, preserve final task performance, and encourage latency-aware computation allocation. Experiments show that AdaSR achieves a better balance among reasoning accuracy, computational efficiency, and streaming latency compared with supervised fine-tuning baseline. We release our code at https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.