Visionary: El Portador de Modelos Mundiales Construido sobre la Plataforma de Gaussian Splatting con WebGPU

Resumen

El renderizado neuronal, particularmente el Splatting Gaussiano 3D (3DGS), ha evolucionado rápidamente y se ha convertido en un componente clave para construir modelos del mundo. Sin embargo, las soluciones de visualización existentes siguen estando fragmentadas, son pesadas o están limitadas por pipelines heredados, lo que resulta en una alta fricción de despliegue y un soporte limitado para contenido dinámico y modelos generativos. En este trabajo, presentamos Visionary, una plataforma abierta y nativa de la web para el renderizado en tiempo real de diversos modelos de Splatting Gaussiano y mallas. Construida sobre un renderizador WebGPU eficiente con inferencia ONNX por fotograma, Visionary permite el procesamiento neuronal dinámico manteniendo una experiencia de navegador ligera y de "un clic para ejecutar". Introduce un contrato estandarizado de Generador Gaussiano, que no solo admite el renderizado estándar de 3DGS, sino que también permite que algoritmos plug-and-play generen o actualicen los Gaussianos en cada fotograma. Dicha inferencia también nos permite aplicar postprocesamiento generativo de tipo feedforward. La plataforma ofrece además un plugin para la biblioteca three.js con una API concisa en TypeScript para una integración perfecta en aplicaciones web existentes. Los experimentos muestran que, con activos de 3DGS idénticos, Visionary logra una eficiencia de renderizado superior en comparación con los visualizadores web actuales, gracias a la ordenación de primitivas basada en GPU. Ya admite múltiples variantes, incluyendo 3DGS basado en MLP, 4DGS, avatares neuronales, y redes de transformación de estilo o mejora. Al unificar la inferencia y el renderizado directamente en el navegador, Visionary reduce significativamente la barrera para la reproducción, comparación y despliegue de métodos de la familia 3DGS, sirviendo como un Portador de Modelos del Mundo unificado para paradigmas tanto reconstructivos como generativos.

English

Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.