Rappresentazioni Prima dei Pixel: Predizione Video Gerarchica Guidata dalla Semantica

Abstract

La previsione accurata di video futuri richiede sia un'elevata fedeltà visiva che una semantica di scena coerente, specialmente in ambienti dinamici complessi come la guida autonoma. Presentiamo Re2Pix, un framework gerarchico per la previsione video che scompone la previsione in due fasi: previsione della rappresentazione semantica e sintesi visiva guidata dalla rappresentazione. Invece di prevedere direttamente i fotogrammi RGB futuri, il nostro approccio prevede prima la struttura futura della scena nello spazio delle caratteristiche di un modello visivo foundation congelato, per poi condizionare un modello di diffusione latente su queste rappresentazioni previste per generare fotogrammi fotorealistici. Questa scomposizione consente al modello di concentrarsi prima sulla dinamica della scena e poi sulla generazione dell'aspetto. Una sfida cruciale sorge dalla discrepanza tra addestramento e test, tra le rappresentazioni ground-truth disponibili durante l'addestramento e quelle previste utilizzate in inferenza. Per affrontare questo problema, introduciamo due strategie di condizionamento, il nested dropout e la mixed supervision, che migliorano la robustezza rispetto a previsioni autoregressive imperfette. Esperimenti su benchmark impegnativi per la guida autonoma dimostrano che la proposta progettuale semantics-first migliora significativamente la coerenza semantica temporale, la qualità percettiva e l'efficienza di addestramento rispetto a solidi baseline basati sulla diffusione. Forniamo il codice di implementazione all'indirizzo https://github.com/Sta8is/Re2Pix.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Rappresentazioni Prima dei Pixel: Predizione Video Gerarchica Guidata dalla Semantica

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Abstract

Support