ChatPaper.aiChatPaper

Генерация пленоптических видеопоследовательностей

Plenoptic Video Generation

January 8, 2026
Авторы: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI

Аннотация

Методы генеративного перерендеринга видео с управлением камерой, такие как ReCamMaster, достигли значительного прогресса. Однако, несмотря на успехи в условиях одного ракурса, эти подходы часто испытывают трудности с поддержанием согласованности в многовидовых сценариях. Обеспечение пространственно-временной согласованности в сгенерированных областях остается сложной задачей из-за присущей генеративным моделям стохастичности. Для решения этой проблемы мы представляем PlenopticDreamer — фреймворк, который синхронизирует генеративные галлюцинации для поддержания пространственно-временной памяти. Ключевая идея заключается в авторегрессионном обучении модели «многие-входы-один-выход» с видео-условием, чему способствует стратегия поиска видео с управлением камерой, адаптивно выбирающая значимые видео из предыдущих генераций в качестве условных входов. Кроме того, наше обучение включает прогрессивное масштабирование контекста для улучшения сходимости, самокондиционирование для повышения устойчивости к долгосрочной визуальной деградации, вызванной накоплением ошибок, и механизм кондиционирования на длинные видео для поддержки расширенной генерации видео. Многочисленные эксперименты на базовых бенчмарках и Agibot демонстрируют, что PlenopticDreamer достигает передовых результатов в перерендеринге видео, обеспечивая превосходную синхронизацию ракурсов, визуализацию высокой четкости, точное управление камерой и разнообразные преобразования видов (например, от третьего лица к третьему лицу и от вида от первого лица к виду захвата в роботизированных манипуляциях). Страница проекта: https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/
PDF60January 10, 2026