Visionary: O Transportador de Modelo Mundial Construído na Plataforma de Splatting Gaussiano Alimentada por WebGPU

Resumo

A renderização neural, particularmente o 3D Gaussian Splatting (3DGS), evoluiu rapidamente e tornou-se um componente fundamental para a construção de modelos de mundo. No entanto, as soluções de visualização existentes permanecem fragmentadas, pesadas ou limitadas por pipelines legados, resultando em alta dificuldade de implantação e suporte limitado para conteúdo dinâmico e modelos generativos. Neste trabalho, apresentamos o Visionary, uma plataforma web-nativa e aberta para renderização em tempo real de vários Gaussian Splatting e malhas. Construído sobre um renderizador WebGPU eficiente com inferência ONNX por quadro, o Visionary permite processamento neural dinâmico mantendo uma experiência de navegador leve e "clique-e-execute". Ele introduz um contrato padronizado de Gaussian Generator, que não apenas suporta a renderização 3DGS padrão, mas também permite que algoritmos *plug-and-play* gerem ou atualizem Gaussianas a cada quadro. Tal inferência também nos permite aplicar pós-processamento generativo *feedforward*. A plataforma ainda oferece um *plugin* para a biblioteca three.js com uma API TypeScript concisa para integração perfeita em aplicações web existentes. Experimentos mostram que, sob ativos 3DGS idênticos, o Visionary alcança eficiência de renderização superior em comparação com os visualizadores Web atuais, graças à ordenação de primitivas baseada em GPU. Ele já suporta várias variantes, incluindo 3DGS baseado em MLP, 4DGS, avatares neurais e redes de transformação ou aprimoramento de estilo. Ao unificar inferência e renderização diretamente no navegador, o Visionary reduz significativamente a barreira para reprodução, comparação e implantação de métodos da família 3DGS, servindo como um Transportador de Modelo de Mundo unificado para paradigmas reconstrutivos e generativos.

English

Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.