JanusMesh: Schnelle und Zero-Shot-Erzeugung 3D-visueller Illusionen mittels Cross-Space-Denoising

Zusammenfassung

Die Erzeugung von 3D-Visualisierungsillusionen – ein einzelnes 3D-Modell, das aus verschiedenen Blickwinkeln völlig unterschiedliche Semantiken offenbart – ist eine faszinierende, aber anspruchsvolle Herausforderung. Bestehende optimierungsbasierte Methoden sind langsam und können übersättigte Farben erzeugen. Im Gegensatz dazu führen naive Zusammenfügungsansätze zu geometrisch inkohärenten Objekten, was sichtbare unnatürliche Nähte und semantische Lecks zur Folge hat. In dieser Arbeit stellen wir ein schnelles, trainingsfreies Framework zur textgesteuerten Erzeugung von 3D-Visualisierungsillusionen vor. Unser Ansatz entkoppelt die Generierung in zwei Phasen. Zunächst schlagen wir einen Cross-Space-Dual-Branch-Denoising-Prozess vor. Dieser Prozess dekodiert dynamisch 3D-Latents in den Voxelraum für eine CLIP-gesteuerte Orientierungsausrichtung und eine SDF-Blending-Integration (Signed Distance Field), die eine nahtlose geometrische Fusion gewährleistet. Zweitens führen wir ein sichtbedingtes Textursynthese-Modul ein, das blickwinkelspezifische 2D-Diffusions-Priors auf die fusionierte Geometrie projiziert und aggregiert. Umfangreiche Experimente zeigen, dass unsere Methode hochrealistische, dual-semantische 3D-Illusionen in nur 3–5 Minuten erzeugt. Sie übertrifft bestehende Methoden in geometrischer Integrität, semantischer Erkennbarkeit und Effizienz deutlich. Projektseite: https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/