WorldPlay: Обеспечение долгосрочной геометрической согласованности для интерактивного моделирования мира в реальном времени

Аннотация

В данной статье представлена модель потоковой диффузии видео WorldPlay, которая обеспечивает интерактивное моделирование мира в реальном времени с долгосрочной геометрической согласованностью, разрешая компромисс между скоростью и памятью, ограничивающий современные методы. Мощность WorldPlay основывается на трех ключевых инновациях. 1) Мы используем Двойное Представление Действий для обеспечения надежного управления действиями в ответ на ввод пользователя с клавиатуры и мыши. 2) Для обеспечения долгосрочной согласованности наша Реконструируемая Память Контекста динамически восстанавливает контекст из прошлых кадров и использует временное перефразирование, чтобы сохранять доступ к геометрически важным, но давно прошедшим кадрам, эффективно смягчая затухание памяти. 3) Мы также предлагаем Принуждение Контекста — новый метод дистилляции, разработанный для моделей с учетом памяти. Согласование контекста памяти между учителем и учеником сохраняет способность ученика использовать информацию из большого временного диапазона, что позволяет достичь скорости в реальном времени, предотвращая накопление ошибок. В совокупности WorldPlay генерирует длительные потоковые видео в разрешении 720p со скоростью 24 кадра в секунду с превосходной согласованностью, выгодно отличаясь от существующих техник и демонстрируя сильную обобщающую способность для разнообразных сцен. Страница проекта и онлайн-демо доступны по адресам: https://3d-models.hunyuan.tencent.com/world/ и https://3d.hunyuan.tencent.com/sceneTo3D.

English

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

WorldPlay: Обеспечение долгосрочной геометрической согласованности для интерактивного моделирования мира в реальном времени

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Аннотация

Support