Представления до пикселей: семантически направленное иерархическое прогнозирование видео

Аннотация

Точное прогнозирование будущих видео требует как высокой визуальной достоверности, так и согласованной семантики сцены, особенно в сложных динамических средах, таких как автономное вождение. Мы представляем Re2Pix — иерархическую структуру для прогнозирования видео, которая разлагает предсказание на два этапа: прогнозирование семантического представления и синтез изображения, управляемый этим представлением. Вместо прямого предсказания будущих RGB-кадров наш подход сначала прогнозирует будущую структуру сцены в пространстве признаков замороженной базовой модели компьютерного зрения, а затем использует латентную диффузионную модель, обусловленную этими прогнозируемыми представлениями, для рендеринга фотореалистичных кадров. Такое разложение позволяет модели сначала сосредоточиться на динамике сцены, а затем на генерации внешнего вида. Ключевая проблема возникает из-за несоответствия между обучением и тестированием: на этапе обучения доступны истинные (ground-truth) представления, а на этапе вывода используются прогнозируемые. Для решения этой проблемы мы вводим две стратегии обусловливания — вложенное отсевание (nested dropout) и смешанное обучение (mixed supervision), — которые повышают устойчивость к неидеальным авторегрессионным прогнозам. Эксперименты на сложных бенчмарках для вождения демонстрируют, что предложенная семантико-ориентированная архитектура значительно улучшает временную семантическую согласованность, перцептивное качество и эффективность обучения по сравнению с сильными диффузионными базовыми методами. Код реализации доступен по адресу https://github.com/Sta8is/Re2Pix.

English

Accurate future video prediction requires both high visual fidelity and consistent scene semantics, particularly in complex dynamic environments such as autonomous driving. We present Re2Pix, a hierarchical video prediction framework that decomposes forecasting into two stages: semantic representation prediction and representation-guided visual synthesis. Instead of directly predicting future RGB frames, our approach first forecasts future scene structure in the feature space of a frozen vision foundation model, and then conditions a latent diffusion model on these predicted representations to render photorealistic frames. This decomposition enables the model to focus first on scene dynamics and then on appearance generation. A key challenge arises from the train-test mismatch between ground-truth representations available during training and predicted ones used at inference. To address this, we introduce two conditioning strategies, nested dropout and mixed supervision, that improve robustness to imperfect autoregressive predictions. Experiments on challenging driving benchmarks demonstrate that the proposed semantics-first design significantly improves temporal semantic consistency, perceptual quality, and training efficiency compared to strong diffusion baselines. We provide the implementation code at https://github.com/Sta8is/Re2Pix

Представления до пикселей: семантически направленное иерархическое прогнозирование видео

Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction

Аннотация

Support