**Stereo World Model: Генерация стереоскопического видео с управлением от камеры**

Аннотация

Мы представляем StereoWorld — стереоскопическую мировую модель с условием от камеры, которая совместно изучает изображение и бинокулярную геометрию для сквозной генерации стереовидео. В отличие от монокулярных RGB или RGBD подходов, StereoWorld работает исключительно в RGB-модальности, одновременно выводя геометрию напрямую из диспаратности. Для эффективного достижения согласованной стереогенерации наш подход вводит две ключевые разработки: (1) унифицированный RoPE в системе координат камеры, который обогащает латентные токены ротационным позиционным кодированием, учитывающим параметры камеры, обеспечивая относительное, видовое и временное согласованное кондиционирование при сохранении априорных знаний предобученных видео-моделей через стабильную инициализацию механизма внимания; и (2) декомпозицию механизма внимания с учётом стерео, которая разлагает полное 4D-внимание на 3D-внутривидовое внимание плюс горизонтальное построчное внимание, используя эпиполярный prior для захвата соответствий, выровненных по диспаратности, при существенно меньших вычислительных затратах. В тестах StereoWorld превосходит мощные конвейеры типа «монокулярное-затем-преобразование» по стереосогласованности, точности диспаратности и достоверности движения камеры, обеспечивая более чем в 3 раза ускорение генерации с дополнительным 5% улучшением согласованности точек обзора. Помимо бенчмарков, StereoWorld позволяет осуществлять сквозной бинокулярный рендеринг для VR без оценки глубины или заливки, улучшает обучение воплощённых стратегий за счёт метрического обоснования глубины и совместим с дистилляцией длинных видео для расширенного интерактивного стереосинтеза.

English

We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.

Stereo World Model: Генерация стереоскопического видео с управлением от камеры

Stereo World Model: Camera-Guided Stereo Video Generation

Аннотация

Support