픽셀을 넘어서: 스키마 기반 에이전트 추론을 통한 시각적 은유 전이
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
February 1, 2026
저자: Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang
cs.AI
초록
시각적 메타포는 추상적 개념을 효과적인 시각적 수사로 전환하기 위해 도메인 간 의미 융합을 활용하는 고차원적 인간 창의성의 한 형태입니다. 생성형 AI의 눈부신 발전에도 불구하고, 기존 모델들은 여전히 픽셀 수준의 지시어 정합과 표면적 외관 보존에 국한되어 있으며, 진정한 메타포 생성에 필요한 내재적 추상 논리를 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 시각적 메타포 전이(VMT) 과제를 제안합니다. 이는 모델이 참조 이미지로부터 "창의적 본질"을 자율적으로 분리하고 해당 추상 논리를 사용자가 지정한 대상 주제에 재구현하도록 요구합니다. 우리는 개념 혼성 이론(CBT)을 새로운 스키마 문법("G")을 통해 운영화하는 인지 과학 기반 다중 에이전트 프레임워크를 제안합니다. 이 구조화된 표현은 관계적 불변량을 구체적 시각 개체로부터 분리하여 도메인 간 논리 재구현을 위한 엄밀한 기반을 제공합니다. 우리의 파이프라인은 전문 에이전트들의 협력 시스템을 통해 VMT를 실행합니다: 참조를 스키마로 정제하는 인지 에이전트, 일반 공간 불변성을 유지하며 적절한 전달체를 발견하는 전이 에이전트, 고품질 합성을 위한 생성 에이전트, 그리고 전문 비평가를 모방하여 추상 논리, 구성 요소 선택, 프롬프트 인코딩 전반의 오류를 식별 및 수정하기 위한 계층적 진단 및 폐쇄형 역추적을 수행하는 진단 에이전트로 구성됩니다. 폭넓은 실험과 인간 평가를 통해 우리의 방법이 메타포 일관성, 유사성 적절성, 시각적 창의성 측면에서 SOTA 기준선을 크게 능가함을 입증하여, 광고 및 미디어 분야에서 고부가가치 창의적 응용 자동화의 길을 열었습니다. 소스 코드는 공개될 예정입니다.
English
A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.