ChatPaper.aiChatPaper

Visionnaire : Le Porteur de Modèles Mondiaux Bâti sur une Plateforme de Splatting Gaussien Alimentée par WebGPU

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

December 9, 2025
papers.authors: Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
cs.AI

papers.abstract

Le rendu neuronal, en particulier la méthode du « Gaussian Splatting » 3D (3DGS), a évolué rapidement et est devenu un composant clé pour la construction de modèles du monde. Cependant, les solutions de visualisation existantes restent fragmentées, lourdes ou contraintes par des pipelines hérités, ce qui entraîne une friction de déploiement élevée et un support limité pour le contenu dynamique et les modèles génératifs. Dans ce travail, nous présentons Visionary, une plateforme ouverte et native du web pour le rendu en temps réel de scènes Gaussian Splatting variées et de maillages. Construit sur un moteur de rendu WebGPU efficace avec inférence ONNX par frame, Visionary permet un traitement neuronal dynamique tout en maintenant une expérience navigateur légère de type « cliquer-pour-exécuter ». Il introduit un contrat standardisé « Gaussian Generator », qui non seulement prend en charge le rendu 3DGS standard, mais permet également à des algorithmes plug-and-play de générer ou de mettre à jour les Gaussiennes à chaque frame. Cette inférence nous permet également d'appliquer un post-traitement génératif de type feedforward. La plateforme propose en outre une bibliothèque d'extension pour three.js avec une API TypeScript concise pour une intégration transparente dans les applications web existantes. Les expériences montrent que, sur des assets 3DGS identiques, Visionary atteint une efficacité de rendu supérieure aux visualiseurs Web actuels grâce à un tri des primitives basé sur le GPU. Elle prend déjà en charge de multiples variantes, incluant le 3DGS basé sur MLP, le 4DGS, les avatars neuronaux, et les réseaux de transformation ou d'amélioration de style. En unifiant l'inférence et le rendu directement dans le navigateur, Visionary abaisse significativement la barrière pour la reproduction, la comparaison et le déploiement des méthodes de la famille 3DGS, servant de « World Model Carrier » unifié pour les paradigmes reconstructifs et génératifs.
English
Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.
PDF643December 11, 2025