ChatPaper.aiChatPaper

Voxify3D: Pixel Art trifft auf volumetrisches Rendering

Voxify3D: Pixel Art Meets Volumetric Rendering

December 8, 2025
papers.authors: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu
cs.AI

papers.abstract

Voxel-Kunst ist eine charakteristische Stilisierung, die häufig in Spielen und digitalen Medien verwendet wird. Dennoch stellt die automatisierte Generierung aus 3D-Meshes eine Herausforderung dar, da die Anforderungen an geometrische Abstraktion, semantische Erhaltung und diskrete Farbkohärenz miteinander in Konflikt stehen. Bestehende Methoden vereinfachen die Geometrie entweder übermäßig oder erreichen nicht die pixelgenaue, palettenbeschränkte Ästhetik der Voxel-Kunst. Wir stellen Voxify3D vor, ein differenzierbares Zwei-Stufen-Framework, das 3D-Mesh-Optimierung mit 2D-Pixel-Art-Aufsicht verbindet. Unsere zentrale Innovation liegt in der synergetischen Integration von drei Komponenten: (1) orthografische Pixel-Art-Aufsicht, die perspektivische Verzerrung für präzise Voxel-Pixel-Ausrichtung eliminiert; (2) patch-basierte CLIP-Abgleichung, die die Semantik über Diskretsierungsstufen hinweg bewahrt; (3) palettenbeschränkte Gumbel-Softmax-Quantisierung, die differenzierbare Optimierung über diskrete Farbräume mit steuerbaren Palettenstrategien ermöglicht. Diese Integration adressiert grundlegende Herausforderungen: semantische Erhaltung unter extremer Diskretsierung, Pixel-Art-Ästhetik durch volumetrisches Rendering und end-to-end diskrete Optimierung. Experimente zeigen überlegene Leistung (37,12 CLIP-IQA, 77,90\% Nutzerpräferenz) über diverse Charaktere und steuerbare Abstraktion hinweg (2-8 Farben, 20x-50x Auflösungen). Projektseite: https://yichuanh.github.io/Voxify-3D/
English
Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/
PDF302December 10, 2025