Stream-R1: Zuverlässigkeits-Perplexitäts-bewusste Belohnungsdistillation für Streaming-Videogenerierung
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
May 5, 2026
Autoren: Bin Wu, Mengqi Huang, Shaojin Wu, Weinan Jia, Yuxin Wang, Zhendong Mao, Yongdong Zhang
cs.AI
Zusammenfassung
Distillationsbasierte Beschleunigung hat sich als grundlegend erwiesen, um autoregressive Streaming-Videodiffusionsmodelle praktikabel zu machen, wobei Distribution Matching Distillation (DMD) die De-facto-Wahl ist. Bestehende Methoden trainieren den Student jedoch undifferenziert darauf, die Ausgabe des Teachers nachzubilden, indem sie jede Rollout-Sequenz, jeden Frame und jedes Pixel als gleichwertige Supervision behandeln. Wir argumentieren, dass dies die distillierte Qualität begrenzt, da zwei komplementäre Varianzachsen in der DMD-Supervision übersehen werden: *Inter-Reliability* zwischen Student-Rollouts, deren Supervision in ihrer Zuverlässigkeit variiert, und *Intra-Perplexity* zwischen räumlichen Regionen und zeitlichen Frames, die ungleich dazu beitragen, wo Qualität noch verbessert werden kann. Das Ziel konflatiert somit zwei Fragen unter einer einheitlichen Gewichtung: ob von jedem Rollout gelernt werden soll und wo innerhalb dessen die Optimierung konzentriert werden soll. Um dies zu adressieren, schlagen wir Stream-R1 vor, ein Reliability-Perplexity Aware Reward Distillation Framework, das den Distillationszielwert adaptiv auf sowohl Rollout- als auch spatio-temporal-Element-Ebene durch einen einzigen, gemeinsamen belohnungsgeleiteten Mechanismus neu gewichtet. Auf der *Inter-Reliability*-Ebene skaliert Stream-R1 den Loss jedes Rollouts exponentiell mit einem vortrainierten Video-Reward-Score, sodass Rollouts mit zuverlässiger Supervision die Optimierung dominieren. Auf der *Intra-Perplexity*-Ebene backpropagiert es dasselbe Reward-Modell, um eine gradientenbasierte Salienz pro Pixel zu extrahieren, die in räumliche und zeitliche Gewichte einfließt, die den Optimierungsdruck auf Regionen und Frames konzentrieren, in denen Verfeinerung den größten erwarteten Gewinn bringt. Ein adaptiver Balanciermechanismus verhindert, dass eine einzelne Qualitätsachse – visuelle Qualität, Bewegungsqualität und Textalignment – dominiert. Stream-R1 erzielt konsistente Verbesserungen in allen drei Dimensionen gegenüber Distillations-Baselines auf standardisierten Streaming-Video-Generations-Benchmarks, ohne architektonische Modifikation oder zusätzliche Inferenzkosten.
English
Distillation-based acceleration has become foundational for making autoregressive streaming video diffusion models practical, with distribution matching distillation (DMD) as the de facto choice. Existing methods, however, train the student to match the teacher's output indiscriminately, treating every rollout, frame, and pixel as equally reliable supervision. We argue that this caps distilled quality, since it overlooks two complementary axes of variance in DMD supervision: Inter-Reliability across student rollouts whose supervision varies in reliability, and Intra-Perplexity across spatial regions and temporal frames that contribute unequally to where quality can still be improved. The objective thus conflates two questions under a uniform weight: whether to learn from each rollout, and where to concentrate optimization within it. To address this, we propose Stream-R1, a Reliability-Perplexity Aware Reward Distillation framework that adaptively reweights the distillation objective at both rollout and spatiotemporal-element levels through a single shared reward-guided mechanism. At the Inter-Reliability level, Stream-R1 rescales each rollout's loss by an exponential of a pretrained video reward score, so that rollouts with reliable supervision dominate optimization. At the Intra-Perplexity level, it back-propagates the same reward model to extract per-pixel gradient saliency, which is factored into spatial and temporal weights that concentrate optimization pressure on regions and frames where refinement yields the largest expected gain. An adaptive balancing mechanism prevents any single quality axis from dominating across visual quality, motion quality, and text alignment. Stream-R1 attains consistent improvements on all three dimensions over distillation baselines on standard streaming video generation benchmarks, without architectural modification or additional inference cost.