Voxify3D: 픽셀 아트와 볼류메트릭 렌더링의 만남
Voxify3D: Pixel Art Meets Volumetric Rendering
December 8, 2025
저자: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu
cs.AI
초록
복셀 아트는 게임과 디지털 미디어에서 널리 사용되는 독특한 스타일라이제이션 기법이지만, 3D 메쉬로부터의 자동 생성은 기하학적 추상화, 의미 보존, 이산 색상 일관성이라는 상충되는 요구사항으로 인해 여전히 어려운 과제입니다. 기존 방법들은 기하학을 지나치게 단순화하거나 복셀 아트의 픽셀 단위 정밀도와 팔레트 제약 미학을 달성하지 못합니다. 본 연구에서는 3D 메쉬 최적화와 2D 픽셀 아트 지도를 연결하는 미분 가능한 2단계 프레임워크인 Voxify3D를 소개합니다. 우리의 핵심 혁신은 다음 세 가지 구성 요소의 시너지적 통합에 있습니다: (1) 원근 왜곡을 제거하여 복셀-픽셀 정렬을 정밀하게 하는 직교 픽셀 아트 지도, (2) 이산화 수준에 관계없이 의미를 보존하는 패치 기반 CLIP 정렬, (3) 제어 가능한 팔레트 전략으로 이산 색상 공간에서 미분 가능 최적화를 가능하게 하는 팔레트 제약 Gumbel-Softmax 양자화. 이러한 통합은 극단적 이산화에서의 의미 보존, 체적 렌더링을 통한 픽셀 아트 미학, 종단간 이산 최적화라는 근본적인 문제들을 해결합니다. 실험 결과, 다양한 캐릭터와 제어 가능한 추상화(2-8색, 20x-50x 해상도)에서 우수한 성능(37.12 CLIP-IQA, 77.90% 사용자 선호도)을 보여줍니다. 프로젝트 페이지: https://yichuanh.github.io/Voxify-3D/
English
Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/