JanusMesh: Geração Rápida e Zero-Shot de Ilusões Visuais 3D via Desruído entre Espaços

Resumo

Criar ilusões visuais 3D – uma única malha 3D que revela semânticas completamente diferentes a partir de vários ângulos de visualização – é um desafio fascinante, porém difícil. Métodos existentes baseados em otimização são lentos e podem produzir cores supersaturadas. Em contraste, abordagens ingênuas de costura falham em gerar objetos geometricamente coerentes, resultando em emendas visíveis não naturais e vazamentos semânticos. Neste artigo, apresentamos um framework rápido e livre de treinamento para gerar ilusões visuais 3D orientadas por texto. Nossa abordagem desacopla a geração em duas etapas. Primeiro, propomos um processo de remoção de ruído de ramo duplo entre espaços. Esse processo decodifica dinamicamente latentes 3D em espaço de voxels para alinhamento de orientação guiado por CLIP e mesclagem de Campo de Distância com Sinal (SDF), garantindo fusão geométrica sem emendas. Segundo, introduzimos um módulo de síntese de textura condicionada à visão que projeta e agrega priors de difusão 2D específicos da visão na geometria fundida. Experimentos extensivos demonstram que nosso método gera ilusões 3D duplo-semânticas altamente realistas em apenas 3 a 5 minutos. Ele supera significativamente os métodos existentes em integridade geométrica, reconhecibilidade semântica e eficiência. Página do projeto: https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/