Représentations avant les pixels : prédiction vidéo hiérarchique guidée par la sémantique

Résumé

La prédiction vidéo future précise nécessite à la fois une haute fidélité visuelle et une sémantique de scène cohérente, particulièrement dans des environnements dynamiques complexes comme la conduite autonome. Nous présentons Re2Pix, un cadre de prédiction vidéo hiérarchique qui décompose la prévision en deux étapes : la prédiction de représentation sémantique et la synthèse visuelle guidée par ces représentations. Au lieu de prédire directement les futures images RVB, notre approche prédit d'abord la structure future de la scène dans l'espace de caractéristiques d'un modèle de vision fondationnel figé, puis conditionne un modèle de diffusion latent sur ces représentations prédites pour générer des images photoréalistes. Cette décomposition permet au modèle de se concentrer d'abord sur la dynamique de la scène, puis sur la génération de l'apparence. Un défi majeur provient de la divergence entraînement-inférence entre les représentations de vérité terrain disponibles pendant l'entraînement et celles prédites utilisées lors de l'inférence. Pour y remédier, nous introduisons deux stratégies de conditionnement, l'abandon hiérarchique et la supervision mixte, qui améliorent la robustesse aux prédictions autorégressives imparfaites. Les expériences sur des benchmarks exigeants de conduite démontrent que la conception priorisant la sémantique améliore significativement la cohérence sémantique temporelle, la qualité perceptuelle et l'efficacité de l'entraînement par rapport à des modèles de référence par diffusion solides. Nous fournissons le code d'implémentation à l'adresse https://github.com/Sta8is/Re2Pix.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Représentations avant les pixels : prédiction vidéo hiérarchique guidée par la sémantique

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Résumé

Support