Visionary: Il Vettore Modello Mondiale Basato sulla Piattaforma di Gaussian Splatting Alimentata da WebGPU

Abstract

Il rendering neurale, in particolare il 3D Gaussian Splatting (3DGS), si è evoluto rapidamente diventando un componente chiave per la costruzione di modelli del mondo. Tuttavia, le soluzioni di visualizzazione esistenti rimangono frammentate, pesanti o vincolate da pipeline legacy, risultando in un'elevata frizione di deployment e un supporto limitato per contenuti dinamici e modelli generativi. In questo lavoro, presentiamo Visionary, una piattaforma web-native e aperta per il rendering in tempo reale di vari Gaussian Splatting e mesh. Basata su un efficiente renderer WebGPU con inferenza ONNX per fotogramma, Visionary abilita l'elaborazione neurale dinamica mantenendo un'esperienza browser leggera e "click-to-run". Introduce un contratto standardizzato di Gaussian Generator, che non solo supporta il rendering 3DGS standard, ma permette anche ad algoritmi plug-and-play di generare o aggiornare i Gaussian a ogni fotogramma. Tale inferenza ci consente inoltre di applicare post-elaborazione generativa feedforward. La piattaforma offre inoltre un plug-in per la libreria three.js con una concisa API TypeScript per un'integrazione senza soluzione di continuità nelle applicazioni web esistenti. Gli esperimenti dimostrano che, a parità di asset 3DGS, Visionary raggiunge un'efficienza di rendering superiore rispetto ai visualizzatori Web attuali grazie all'ordinamento primitivo basato su GPU. Supporta già multiple varianti, inclusi 3DGS basati su MLP, 4DGS, avatar neurali e reti di trasformazione stilistica o enhancement. Unificando inferenza e rendering direttamente nel browser, Visionary riduce significativamente la barriera per la riproduzione, il confronto e il deployment di metodi della famiglia 3DGS, servendo come World Model Carrier unificato sia per paradigmi ricostruttivi che generativi.

English

Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.