Representações Antes dos Pixels: Predição Hierárquica de Vídeo Guiada por Semântica

Resumo

A previsão precisa de vídeos futuros exige alta fidelidade visual e consistência na semântica da cena, particularmente em ambientes dinâmicos complexos, como a condução autónoma. Apresentamos o Re2Pix, uma estrutura hierárquica de previsão de vídeo que decompõe a previsão em duas etapas: previsão da representação semântica e síntese visual guiada por representação. Em vez de prever diretamente os quadros RGB futuros, a nossa abordagem prevê primeiro a estrutura futura da cena no espaço de características de um modelo de base de visão congelado e, em seguida, condiciona um modelo de difusão latente nessas representações previstas para renderizar quadros fotorrealistas. Esta decomposição permite que o modelo se concentre primeiro na dinâmica da cena e depois na geração da aparência. Um desafio fundamental surge do desajuste treino-inferência entre as representações de referência disponíveis durante o treino e as representações previstas usadas na inferência. Para resolver isto, introduzimos duas estratégias de condicionamento, *nested dropout* e supervisão mista, que melhoram a robustez a previsões autorregressivas imperfeitas. Experiências em benchmarks desafiadores de condução demonstram que o design proposto, com prioridade à semântica, melhora significativamente a consistência semântica temporal, a qualidade perceptual e a eficiência do treino em comparação com fortes linhas de base baseadas em difusão. Disponibilizamos o código de implementação em https://github.com/Sta8is/Re2Pix.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Representações Antes dos Pixels: Predição Hierárquica de Vídeo Guiada por Semântica

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Resumo

Support