Oltre i Pixel: Trasferimento di Metafore Visive tramite Ragionamento Agente Guidato da Schemi
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
February 1, 2026
Autori: Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang
cs.AI
Abstract
Una metafora visiva costituisce una forma avanzata di creatività umana, che impiega una fusione semantica trans-dominio per trasformare concetti astratti in un'impatante retorica visiva. Nonostante i notevoli progressi dell'IA generativa, i modelli esistenti rimangono prevalentemente confinati all'allineamento a livello di pixel e alla preservazione dell'aspetto superficiale, fallendo nel cogliere la logica astratta sottostante necessaria per un'autentica generazione metaforica. Per colmare questa lacuna, introduciamo il compito del Trasferimento di Metafora Visiva (VMT), che sfida i modelli a disaccoppiare autonomamente l'"essenza creativa" da un'immagine di riferimento e a re-materializzare quella logica astratta su un soggetto target specificato dall'utente. Proponiamo un framework multi-agente di ispirazione cognitiva che opera la Teoria del Blending Concettuale (CBT) attraverso una nuova Grammatica degli Schemi ("G"). Questa rappresentazione strutturata disaccoppia gli invarianti relazionali da entità visive specifiche, fornendo una base rigorosa per la re-istanziazione di logica trans-dominio. La nostra pipeline esegue il VMT attraverso un sistema collaborativo di agenti specializzati: un agente di percezione che estrae lo schema dal riferimento, un agente di trasferimento che mantiene l'invarianza dello spazio generico per individuare vettori appropriati, un agente di generazione per la sintesi ad alta fedeltà e un agente diagnostico gerarchico che imita un critico professionista, eseguendo un backtracking a ciclo chiuso per identificare e correggere errori nella logica astratta, nella selezione dei componenti e nella codifica dei prompt. Esperimenti estensivi e valutazioni umane dimostrano che il nostro metodo supera significativamente i baseline state-of-the-art in coerenza metaforica, appropriatezza analogica e creatività visiva, aprendo la strada a applicazioni creative automatizzate ad alto impatto nella pubblicità e nei media. Il codice sorgente sarà reso pubblicamente disponibile.
English
A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.