JanusMesh: Быстрая и Zero-Shot генерация 3D визуальных иллюзий посредством кросс-пространственного шумоподавления

Аннотация

Создание трехмерных визуальных иллюзий — одного 3D-меша, который с разных углов обзора раскрывает совершенно разную семантику — является увлекательной, но сложной задачей. Существующие методы, основанные на оптимизации, медленны и могут приводить к перенасыщенным цветам. Наивные подходы сшивания, напротив, не позволяют получать геометрически согласованные объекты, что приводит к видимым неестественным швам и утечкам семантики. В данной статье мы представляем быструю и не требующую обучения структуру для генерации текстово-управляемых 3D-иллюзий. Наш подход разделяет генерацию на два этапа. Сначала мы предлагаем процесс шумоподавления с двумя ветвями в кросс-пространственном представлении. Этот процесс динамически декодирует 3D-латентные представления в воксельное пространство для выравнивания ориентации под управлением CLIP и смешивания полей расстояний со знаком (SDF), что обеспечивает бесшовное геометрическое слияние. Затем мы вводим модуль синтеза текстур с учетом вида, который проецирует и агрегирует специфичные для каждого ракурса 2D-диффузионные априорные данные на объединенную геометрию. Обширные эксперименты показывают, что наш метод создает высокореалистичные двойные семантические 3D-иллюзии всего за 3–5 минут. Он значительно превосходит существующие методы по геометрической целостности, семантической распознаваемости и эффективности. Страница проекта: https://siang1105.github.io/JanusMesh.github.io/

English

Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/