Voorbij Pixels: Overdracht van Visuele Metaforen via Schema-Gestuurd Agentisch Redeneren
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
February 1, 2026
Auteurs: Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang
cs.AI
Samenvatting
Een visuele metafoor vormt een hoogwaardige vorm van menselijke creativiteit, waarbij cross-domein semantische fusie wordt ingezet om abstracte concepten om te zetten in impactvolle visuele retoriek. Ondanks de opmerkelijke vooruitgang van generatieve AI blijven bestaande modellen grotendeels beperkt tot pixel-level instructie-afstemming en oppervlakkige uiterlijk-behoud, zonder de onderliggende abstracte logica te vangen die nodig is voor authentieke metaforische generatie. Om deze kloof te overbruggen, introduceren we de taak van Visuele Metafoor Transfer (VMT), die modellen uitdaagt om autonoom de "creatieve essentie" van een referentiebeeld te ontkoppelen en die abstracte logica opnieuw te materialiseren op een door de gebruiker gespecificeerd doelsubject. Wij stellen een cognitief-geïnspireerd, multi-agent raamwerk voor dat Conceptual Blending Theory (CBT) operationaliseert via een nieuwe Schema Grammatica ("G"). Deze gestructureerde representatie ontkoppelt relationele invarianten van specifieke visuele entiteiten, en biedt zo een rigoureuze basis voor cross-domein logische her-instantiëring. Onze pijplijn voert VMT uit via een collaboratief systeem van gespecialiseerde agents: een perceptie-agent die de referentie destilleert tot een schema, een transfer-agent die generieke ruimte-invariantie handhaaft om geschikte dragers te ontdekken, een generatie-agent voor hoogwaardige synthese en een hiërarchische diagnostische agent die een professionele criticus nabootst door middel van gesloten-lus backtracking om fouten te identificeren en te rectificeren op het gebied van abstracte logica, componentselectie en promptcodering. Uitgebreide experimenten en humane evaluaties tonen aan dat onze methode SOTA-baselines significant overtreft op het gebied van metaforische consistentie, analogie-geschiktheid en visuele creativiteit, waardoor de weg wordt geplaveid voor geautomatiseerde hoogimpact creatieve toepassingen in reclame en media. De broncode zal openbaar beschikbaar worden gesteld.
English
A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.