JanusMesh: Snelle en zero-shot generatie van 3D-visuele illusies via cross-space denoising

Samenvatting

Het creëren van 3D-visuele illusies, een enkel 3D-mesh dat vanuit verschillende kijkhoeken totaal verschillende semantiek onthult, is een fascinerende maar lastige uitdaging. Bestaande optimalisatiegebaseerde methoden zijn traag en kunnen oververzadigde kleuren produceren. Daarentegen leiden naïeve aan elkaar gestikte benaderingen tot geometrisch incoherente objecten. Dit resulteert in zichtbare onnatuurlijke naden en semantische lekkage. In dit artikel presenteren we een snel en trainingsvrij raamwerk voor het genereren van tekstgestuurde 3D-visuele illusies. Onze aanpak ontkoppelt de generatie in twee fasen. Ten eerste stellen we een cross-space dual-branch denoisingproces voor. Dit proces decodeert dynamisch 3D-latenten naar voxelruimte voor CLIP-gestuurde oriëntatie-uitlijning en Signed Distance Field (SDF)-blending, wat zorgt voor naadloze geometrische fusie. Ten tweede introduceren we een view-geconditioneerde textuursynthesemodule die viewspecifieke 2D-diffusiepriors projecteert en aggregeert op de gefuseerde geometrie. Uitgebreide experimenten tonen aan dat onze methode in slechts 3-5 minuten zeer realistische, dual-semantische 3D-illusies genereert. Het presteert aanzienlijk beter dan bestaande methoden op het gebied van geometrische integriteit, semantische herkenbaarheid en efficiëntie. Projectpagina: https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/