ChatPaper.aiChatPaper

Voxify3D: ピクセルアートとボリュメトリックレンダリングの融合

Voxify3D: Pixel Art Meets Volumetric Rendering

December 8, 2025
著者: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu
cs.AI

要旨

ボクセルアートはゲームやデジタルメディアで広く用いられる特徴的なスタイル表現であるが、3Dメッシュからの自動生成は、幾何学的抽象化、意味的保存、離散色の一貫性という相反する要件から依然として困難な課題である。既存手法は幾何学的に過度に単純化するか、ボクセルアート特有のピクセル精度でパレット制約のある美的表現を達成できていない。本論文では、3Dメッシュ最適化と2Dピクセルアートの監督信号を橋渡しする微分可能な二段階フレームワーク「Voxify3D」を提案する。中核となる革新は、以下の3要素の協調的統合にある:(1)透視歪みを排除しボクセル-ピクセル対応を精密化する正射投影ピクセルアート監督、(2)離散化レベル間で意味的一貫性を保持するパッチベースCLIP整合、(3)制御可能なパレット戦略による離散色空間の微分可能最適化を実現するパレット制約付きGンベル-ソフトマックス量子化。この統合により、極端な離散化下での意味保存、体積レンダリングによるピクセルアートの美観、エンドツーエンドの離散最適化という根本的課題を解決する。実験では、多様なキャラクターと制御可能な抽象化(2-8色、20x-50x解像度)において優れた性能(CLIP-IQA 37.12、ユーザ嗜好率77.90%)を実証した。プロジェクトページ:https://yichuanh.github.io/Voxify-3D/
English
Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/
PDF302December 10, 2025