JanusMesh : génération rapide et zero-shot d'illusions visuelles 3D via le débruitage inter-espaces

Résumé

Créer des illusions visuelles 3D, c’est-à-dire un maillage 3D unique qui révèle des sémantiques totalement différentes selon l’angle de vue, est un défi fascinant mais difficile. Les méthodes existantes basées sur l’optimisation sont lentes et peuvent produire des couleurs sursaturées. En revanche, les approches d’assemblage naïf ne parviennent pas à générer des objets géométriquement cohérents, ce qui entraîne des coutures non naturelles visibles et des fuites sémantiques. Dans cet article, nous présentons un cadre rapide et sans entraînement pour générer des illusions visuelles 3D pilotées par du texte. Notre approche découple la génération en deux étapes. Premièrement, nous proposons un processus de débruitage à deux branches et à espaces croisés. Ce processus décode dynamiquement les latents 3D dans l’espace voxel pour un alignement d’orientation guidé par CLIP et une fusion de champs de distance signée (SDF), garantissant une fusion géométrique sans couture. Deuxièmement, nous introduisons un module de synthèse de texture conditionné par la vue qui projette et agrège les a priori de diffusion 2D spécifiques à chaque vue sur la géométrie fusionnée. Des expériences approfondies montrent que notre méthode génère des illusions 3D hautement réalistes et à double sémantique en seulement 3 à 5 minutes. Elle surpasse significativement les méthodes existantes en termes d’intégrité géométrique, de reconnaissabilité sémantique et d’efficacité. Page du projet : https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/