Visionary: Der Weltmodellträger auf einer WebGPU-basierten Gauß'schen Splatting-Plattform
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
December 9, 2025
papers.authors: Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
cs.AI
papers.abstract
Neuronales Rendering, insbesondere 3D Gaussian Splatting (3DGS), hat sich rasant entwickelt und ist zu einer Schlüsselkomponente für den Aufbau von Weltmodellen geworden. Allerdings bleiben bestehende Viewer-Lösungen fragmentiert, aufwendig oder durch veraltete Pipelines eingeschränkt, was zu hohen Implementierungshürden und begrenzter Unterstützung für dynamische Inhalte und generative Modelle führt. In dieser Arbeit präsentieren wir Visionary, eine offene, web-native Plattform für Echtzeit-Rendering verschiedener Gaussian Splatting-Daten und Meshes. Basierend auf einem effizienten WebGPU-Renderer mit ONNX-Inferenz pro Frame ermöglicht Visionary dynamische neuronale Verarbeitung bei gleichzeitig leichtgewichtiger "Klick-und-Los"-Browser-Nutzung. Es führt einen standardisierten Gaussian-Generator-Vertrag ein, der nicht nur standardmäßiges 3DGS-Rendering unterstützt, sondern auch Plug-and-Play-Algorithmen ermöglicht, um Gaussians pro Frame zu generieren oder zu aktualisieren. Diese Inferenz ermöglicht es uns zudem, generative Vorwärtsverarbeitung zur Nachbearbeitung anzuwenden. Die Plattform bietet weiterhin ein Plugin für die three.js-Bibliothek mit einer prägnanten TypeScript-API für nahtlose Integration in bestehende Webanwendungen. Experimente zeigen, dass Visionary bei identischen 3DGS-Assets aufgrund GPU-basierter Primitive-Sortierung eine überlegene Rendering-Effizienz gegenüber aktuellen Web-Viewern erreicht. Es unterstützt bereits mehrere Varianten, darunter MLP-basiertes 3DGS, 4DGS, neuronale Avatare sowie Stiltransformations- oder Verbesserungsnetzwerke. Durch die Vereinheitlichung von Inferenz und Rendering direkt im Browser senkt Visionary die Hürden für Reproduktion, Vergleich und Einsatz von 3DGS-Methoden erheblich und dient als einheitlicher Weltmodell-Träger für rekonstruktive und generative Paradigmen.
English
Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.