JanusMesh: Generación Rápida y Zero-Shot de Ilusiones Visuales 3D mediante Denoising en el Espacio Cruzado

Resumen

Crear ilusiones visuales 3D, una única malla 3D que revela semánticas completamente diferentes desde varios ángulos de visión, es un desafío fascinante pero difícil. Los métodos existentes basados en optimización son lentos y pueden producir colores sobresaturados. En contraste, los enfoques ingenuos de costura no logran producir objetos geométricamente coherentes. Esto da lugar a costuras antinaturales visibles y fugas semánticas. En este artículo, presentamos un marco rápido y sin necesidad de entrenamiento para generar ilusiones visuales 3D impulsadas por texto. Nuestro enfoque desacopla la generación en dos etapas. Primero, proponemos un proceso de eliminación de ruido de doble rama en espacio cruzado. Este proceso decodifica dinámicamente latentes 3D en el espacio de vóxeles para la alineación de orientación guiada por CLIP y la combinación de campos de distancia con signo (SDF), lo que garantiza una fusión geométrica sin costuras. Segundo, introducimos un módulo de síntesis de textura condicionado por la vista que proyecta y agrega priors de difusión 2D específicos de cada vista sobre la geometría fusionada. Experimentos exhaustivos demuestran que nuestro método genera ilusiones 3D dual-semánticas altamente realistas en solo 3-5 minutos. Supera significativamente a los métodos existentes en integridad geométrica, reconocibilidad semántica y eficiencia. Página del proyecto: https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/