Darstellungen vor Pixeln: Semantikgestützte hierarchische Videovorhersage

Zusammenfassung

Präzise zukünftige Videovorhersage erfordert sowohl hohe visuelle Qualität als auch konsistente Szenensemantik, insbesondere in komplexen dynamischen Umgebungen wie dem autonomen Fahren. Wir stellen Re2Pix vor, ein hierarchisches Videovorhersage-Framework, das die Prognose in zwei Stufen zerlegt: Vorhersage semantischer Repräsentationen und repräsentationsgesteuerte visuelle Synthese. Anstatt zukünftige RGB-Bilder direkt vorherzusagen, sagt unser Ansatz zunächst die zukünftige Szenenstruktur im Merkmalraum eines eingefrorenen Vision-Foundation-Models voraus und konditioniert anschließend ein latentes Diffusionsmodell auf diese vorhergesagten Repräsentationen, um fotorealistische Bilder zu erzeugen. Diese Zerlegung ermöglicht es dem Modell, sich zunächst auf die Dynamik der Szene und dann auf die Erzeugung des Erscheinungsbildes zu konzentrieren. Eine zentrale Herausforderung ergibt sich aus der Trainings-Test-Diskrepanz zwischen den während des Trainings verfügbaren Ground-Truth-Repräsentationen und den bei der Inferenz verwendeten vorhergesagten Repräsentationen. Um dies zu adressieren, führen wir zwei Konditionierungsstrategien ein, verschachteltes Dropout und gemischte Überwachung, die die Robustheit gegenüber unvollkommenen autoregressiven Vorhersagen verbessern. Experimente auf anspruchsvollen Fahr-Benchmarks zeigen, dass der vorgeschlagene Semantik-zuerst-Entwurf im Vergleich zu starken Diffusions-Baselines die zeitliche semantische Konsistenz, die perzeptuelle Qualität und die Trainingseffizienz signifikant verbessert. Den Implementierungscode stellen wir unter https://github.com/Sta8is/Re2Pix bereit.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Darstellungen vor Pixeln: Semantikgestützte hierarchische Videovorhersage

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Zusammenfassung

Support