ChatPaper.aiChatPaper

Além dos Pixels: Transferência de Metáfora Visual via Raciocínio Agente Orientado por Esquemas

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

February 1, 2026
Autores: Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang
cs.AI

Resumo

Uma metáfora visual constitui uma forma de alta ordem da criatividade humana, empregando fusão semântica interdomínios para transformar conceitos abstratos em retórica visual impactante. Apesar dos notáveis avanços da IA generativa, os modelos existentes permanecem amplamente confinados ao alinhamento de instruções em nível de pixel e à preservação de aparência superficial, falhando em capturar a lógica abstrata subjacente necessária para uma geração metafórica genuína. Para preencher essa lacuna, introduzimos a tarefa de Transferência de Metáfora Visual (VMT), que desafia os modelos a desacoplar autonomamente a "essência criativa" de uma imagem de referência e rematerializar essa lógica abstrata em um assunto-alvo especificado pelo usuário. Propomos uma estrutura multiagente de inspiração cognitiva que operacionaliza a Teoria da Integração Conceptual (CBT) por meio de uma nova Gramática de Esquema ("G"). Esta representação estruturada desacopla invariantes relacionais de entidades visuais específicas, fornecendo uma base rigorosa para a reinstanciação de lógica interdomínios. Nossa pipeline executa a VMT por meio de um sistema colaborativo de agentes especializados: um agente de percepção que destila a referência em um esquema, um agente de transferência que mantém a invariância do espaço genérico para descobrir portadores aptos, um agente de geração para síntese de alta fidelidade e um agente de diagnóstico hierárquico que imita um crítico profissional, realizando retrocesso em circuito fechado para identificar e retificar erros em lógica abstrata, seleção de componentes e codificação de instruções. Experimentos extensivos e avaliações humanas demonstram que nosso método supera significativamente as linhas de base do estado da arte em consistência metafórica, adequação da analogia e criatividade visual, abrindo caminho para aplicações criativas automatizadas de alto impacto em publicidade e mídia. O código-fonte será disponibilizado publicamente.
English
A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.
PDF162March 12, 2026