Voxify3D: Cuando el Pixel Art se Encuentra con el Renderizado Volumétrico
Voxify3D: Pixel Art Meets Volumetric Rendering
December 8, 2025
Autores: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu
cs.AI
Resumen
El arte voxel es una estilización distintiva ampliamente utilizada en videojuegos y medios digitales, sin embargo, la generación automatizada a partir de mallas 3D sigue siendo un desafío debido a los requisitos conflictivos de abstracción geométrica, preservación semántica y coherencia de color discreta. Los métodos existentes o bien simplifican en exceso la geometría o no logran alcanzar la estética pixelada, con restricciones de paleta y precisión al píxel, propia del arte voxel. Presentamos Voxify3D, un marco diferenciable de dos etapas que conecta la optimización de mallas 3D con la supervisión de arte pixelado en 2D. Nuestra innovación principal reside en la integración sinérgica de tres componentes: (1) supervisión de arte pixelado ortográfico que elimina la distorsión perspectiva para una alineación precisa vóxel-píxel; (2) alineación basada en parches con CLIP que preserva la semántica a través de los niveles de discretización; (3) cuantización Gumbel-Softmax con restricción de paleta que permite la optimización diferenciable sobre espacios de color discretos con estrategias de paleta controlables. Esta integración aborda desafíos fundamentales: la preservación semántica bajo una discretización extrema, la estética de arte pixelado mediante renderizado volumétrico y la optimización discreta de extremo a extremo. Los experimentos muestran un rendimiento superior (37.12 CLIP-IQA, 77.90\% de preferencia de usuario) en diversos personajes y con abstracción controlable (2-8 colores, resoluciones 20x-50x). Página del proyecto: https://yichuanh.github.io/Voxify-3D/
English
Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/