ChatPaper.aiChatPaper

Voxify3D: Пиксель-арт встречает объемный рендеринг

Voxify3D: Pixel Art Meets Volumetric Rendering

December 8, 2025
Авторы: Yi-Chuan Huang, Jiewen Chan, Hao-Jen Chien, Yu-Lun Liu
cs.AI

Аннотация

Воксельная графика — это самобытный стиль, широко используемый в играх и цифровых медиа, однако автоматизированная генерация из 3D-сеток остаётся сложной задачей из-за противоречивых требований геометрической абстракции, сохранения семантики и дискретной цветовой согласованности. Существующие методы либо чрезмерно упрощают геометрию, либо не достигают пиксельной точности и ограниченной палитрой эстетики воксельного искусства. Мы представляем Voxify3D — дифференцируемую двухэтапную систему, связывающую оптимизацию 3D-сетки с контролем на основе 2D-пиксельной графики. Ключевая инновация заключается в синергетической интеграции трёх компонентов: (1) ортографический контроль пиксельной графики, устраняющий перспективные искажения для точного соответствия вокселей и пикселей; (2) патч-ориентированное выравнивание CLIP, сохраняющее семантику на уровнях дискретизации; (3) палитрно-ограниченная квантизация Гамбела-Софтмакса, обеспечивающая дифференцируемую оптимизацию в дискретных цветовых пространствах с управляемыми стратегиями палитр. Данная интеграция решает фундаментальные проблемы: сохранение семантики при экстремальной дискретизации, достижение эстетики пиксельной графики через объёмный рендеринг и сквозная дискретная оптимизация. Эксперименты демонстрируют превосходные результаты (37.12 CLIP-IQA, 77.90% предпочтений пользователей) для разнообразных персонажей и управляемой абстракции (2-8 цветов, разрешения 20x-50x). Страница проекта: https://yichuanh.github.io/Voxify-3D/
English
Voxel art is a distinctive stylization widely used in games and digital media, yet automated generation from 3D meshes remains challenging due to conflicting requirements of geometric abstraction, semantic preservation, and discrete color coherence. Existing methods either over-simplify geometry or fail to achieve the pixel-precise, palette-constrained aesthetics of voxel art. We introduce Voxify3D, a differentiable two-stage framework bridging 3D mesh optimization with 2D pixel art supervision. Our core innovation lies in the synergistic integration of three components: (1) orthographic pixel art supervision that eliminates perspective distortion for precise voxel-pixel alignment; (2) patch-based CLIP alignment that preserves semantics across discretization levels; (3) palette-constrained Gumbel-Softmax quantization enabling differentiable optimization over discrete color spaces with controllable palette strategies. This integration addresses fundamental challenges: semantic preservation under extreme discretization, pixel-art aesthetics through volumetric rendering, and end-to-end discrete optimization. Experiments show superior performance (37.12 CLIP-IQA, 77.90\% user preference) across diverse characters and controllable abstraction (2-8 colors, 20x-50x resolutions). Project page: https://yichuanh.github.io/Voxify-3D/
PDF302December 10, 2025