ChatPaper.aiChatPaper

ビジョナリー:WebGPU駆動のガウシアンスプラッティングプラットフォームを基盤に構築された世界モデルキャリア

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

December 9, 2025
著者: Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
cs.AI

要旨

ニューラルレンダリング、特に3Dガウシアンスプラッティング(3DGS)は急速に進化し、世界モデル構築の重要な構成要素となっている。しかし、既存のビューアーソリューションは断片的で重く、あるいはレガシーパイプラインに制約されており、導入障壁が高く、動的コンテンツや生成的モデルへの対応が限られている。本研究では、Visionaryを提案する。これは様々なガウシアンスプラッティングとメッシュのリアルタイムレンダリングのためのオープンでWebネイティブなプラットフォームである。効率的なWebGPUレンダラーとフレーム単位のONNX推論を基盤として構築され、Visionaryは軽量な「クリック実行」型のブラウザ体験を維持しながら動的なニューラル処理を実現する。標準化されたGaussian Generator契約を導入し、標準的な3DGSレンダリングをサポートするだけでなく、プラグアンドプレイ方式でアルゴリズムがフレームごとにガウシアンを生成または更新できる。この推論機能により、フィードフォワード型の生成的後処理の適用も可能となる。さらに本プラットフォームは、既存のWebアプリケーションへのシームレスな統合を可能にする簡潔なTypeScript APIを備えたthree.jsライブラリプラグインを提供する。実験では、同一の3DGSアセット条件下において、VisionaryがGPUベースのプリミティブソートにより既存のWebビューアーよりも優れたレンダリング効率を達成することを示す。すでにMLPベースの3DGS、4DGS、ニューラルアバター、スタイル変換や拡張ネットワークを含む複数のバリアントをサポートしている。ブラウザ上で推論とレンダリングを直接統合することにより、Visionaryは3DGS系手法の再現、比較、導入の障壁を大幅に低減し、再構成型と生成型の両パラダイムに対する統一的な世界モデルキャリアとして機能する。
English
Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.
PDF643December 11, 2025