ChatPaper.aiChatPaper

Визионер: Носитель мировой модели, построенный на платформе гауссовского сплайнинга с поддержкой WebGPU

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

December 9, 2025
Авторы: Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
cs.AI

Аннотация

Нейральный рендеринг, в частности метод трёхмерного гауссова размытия (3DGS), быстро развивается и становится ключевым компонентом для построения мировых моделей. Однако существующие решения для просмотра остаются фрагментированными, громоздкими или ограниченными устаревшими конвейерами, что приводит к высоким затратам на развёртывание и ограниченной поддержке динамического контента и генеративных моделей. В данной работе мы представляем Visionary — открытую, веб-ориентированную платформу для рендеринга различных вариантов гауссова размытия и полигональных сеток в реальном времени. Построенная на эффективном рендерере WebGPU с покадровым выводом ONNX, платформа позволяет осуществлять динамическую нейронную обработку, сохраняя при этом лёгкий, запускаемый одним щелчком мыши интерфейс в браузере. Она вводит стандартизированный контракт Gaussian Generator, который не только поддерживает стандартный рендеринг 3DGS, но и позволяет подключаемым алгоритмам генерировать или обновлять гауссовы распределения каждый кадр. Такая архитектура вывода также позволяет применять прямую генеративную постобработку. Платформа дополнительно предлагает плагин-библиотеку для three.js с лаконичным TypeScript API для бесшовной интеграции в существующие веб-приложения. Эксперименты показывают, что при работе с идентичными ресурсами 3DGS Visionary демонстрирует превосходную эффективность рендеринга по сравнению с текущими веб-вьюерами благодаря GPU-ускоренной сортировке примитивов. Платформа уже поддерживает множество вариантов, включая 3DGS на основе MLP, 4DGS, нейральные аватары, а также сети для стилевой трансформации и улучшения. Объединяя вывод и рендеринг непосредственно в браузере, Visionary существенно снижает барьер для воспроизведения, сравнения и развёртывания методов семейства 3DGS, выступая в качестве универсального носителя мировой модели как для реконструктивных, так и для генеративных парадигм.
English
Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.
PDF643December 11, 2025