Representaciones Antes de los Píxeles: Predicción de Video Jerárquica Guiada por Semántica

Resumen

La predicción precisa de videos futuros requiere tanto alta fidelidad visual como coherencia semántica de la escena, particularmente en entornos dinámicos complejos como la conducción autónoma. Presentamos Re2Pix, un marco de predicción de video jerárquico que descompone la previsión en dos etapas: predicción de representación semántica y síntesis visual guiada por representaciones. En lugar de predecir directamente los fotogramas RGB futuros, nuestro enfoque primero pronostica la estructura futura de la escena en el espacio de características de un modelo de visión base congelado, y luego condiciona un modelo de difusión latente en estas representaciones pronosticadas para renderizar fotogramas fotorrealistas. Esta descomposición permite que el modelo se centre primero en la dinámica de la escena y luego en la generación de apariencia. Un desafío clave surge del desajuste entre entrenamiento y prueba debido a las representaciones de referencia disponibles durante el entrenamiento y las predicciones utilizadas en la inferencia. Para abordarlo, introducimos dos estrategias de condicionamiento, *nested dropout* y supervisión mixta, que mejoran la robustez frente a predicciones autorregresivas imperfectas. Los experimentos en benchmarks desafiantes de conducción demuestran que el diseño propuesto, priorizando la semántica, mejora significativamente la consistencia semántica temporal, la calidad perceptual y la eficiencia del entrenamiento en comparación con sólidas líneas base de difusión. Proporcionamos el código de implementación en https://github.com/Sta8is/Re2Pix.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Representaciones Antes de los Píxeles: Predicción de Video Jerárquica Guiada por Semántica

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Resumen

Support