WorldFlow3D: Прохождение через 3D-распределения для неограниченного генерирования миров

Аннотация

Генерация неограниченных 3D-миров становится фундаментальной задачей для моделирования сцен в компьютерном зрении, графике и робототехнике. В данной работе мы представляем WorldFlow3D — новый метод, способный генерировать неограниченные 3D-миры. Опираясь на ключевое свойство согласования потоков, а именно определение пути переноса между двумя распределениями данных, мы моделируем 3D-генерацию в более общем виде как задачу течения через распределения 3D-данных, не ограничиваясь условным шумоподавлением. Мы обнаружили, что наш подход, свободный от латентных переменных, генерирует причинно-обусловленную и точную 3D-структуру и может использовать её в качестве промежуточного распределения для управления генерацией более сложной структуры и высококачественной текстуры — и всё это при более быстрой сходимости по сравнению с существующими методами. Мы обеспечиваем управляемость генерируемыми сценами с помощью векторных условий компоновки сцены для контроля геометрической структуры и визуального контроля текстур через атрибуты сцены. Мы подтверждаем эффективность WorldFlow3D на реальных сценах вождения на открытой местности и синтетических indoor-сценах, демонстрируя кросс-доменную обобщающую способность и высокое качество генерации на реальных распределениях данных. Наш метод превосходит по точности генерации сцен другие подходы во всех протестированных условиях для неограниченной генерации сцен. Подробнее см. https://light.princeton.edu/worldflow3d.

English

Unbounded 3D world generation is emerging as a foundational task for scene modeling in computer vision, graphics, and robotics. In this work, we present WorldFlow3D, a novel method capable of generating unbounded 3D worlds. Building upon a foundational property of flow matching - namely, defining a path of transport between two data distributions - we model 3D generation more generally as a problem of flowing through 3D data distributions, not limited to conditional denoising. We find that our latent-free flow approach generates causal and accurate 3D structure, and can use this as an intermediate distribution to guide the generation of more complex structure and high-quality texture - all while converging more rapidly than existing methods. We enable controllability over generated scenes with vectorized scene layout conditions for geometric structure control and visual texture control through scene attributes. We confirm the effectiveness of WorldFlow3D on both real outdoor driving scenes and synthetic indoor scenes, validating cross-domain generalizability and high-quality generation on real data distributions. We confirm favorable scene generation fidelity over approaches in all tested settings for unbounded scene generation. For more, see https://light.princeton.edu/worldflow3d.

WorldFlow3D: Прохождение через 3D-распределения для неограниченного генерирования миров

WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Аннотация

Support