ChatPaper.aiChatPaper

ピクセルを超えて:スキーマ駆動型エージェント推論による視覚的メタファーの転移

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

February 1, 2026
著者: Yu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang
cs.AI

要旨

視覚的メタファーは、抽象的概念を印象的な視覚的レトリックへと変換するために、領域横断的な意味融合を活用する、高度な人間の創造性の一形態である。生成AIの目覚ましい進展にもかかわらず、既存モデルは主にピクセルレベルの指示適合と表面的な外観の維持に留まっており、真のメタファー生成に必要な根底にある抽象的な論理を捉えることに未だ成功していない。この隔たりを埋めるため、我々は視覚的メタファー転移(VMT)という新たな課題を提唱する。これは、モデルが参照画像から「創造的本質」を自律的に分離し、その抽象的な論理をユーザー指定の対象主体へと再具現化する能力を問うものである。我々は、概念融合理論(CBT)を新規のスキーマ文法("G")によって操作化する、認知科学に着想を得たマルチエージェントフレームワークを提案する。この構造化表現は、関係性の不変量を特定の視覚的実体から切り離し、領域横断的な論理の再インスタンス化に対する厳密な基盤を提供する。我々のパイプラインは、専門化されたエージェント群による協調システムを通じてVMTを実行する。すなわち、参照をスキーマへと蒸留する知覚エージェント、一般的空間の不変性を維持して適切なキャリアを発見する転移エージェント、高精細な合成を行う生成エージェント、そして専門的な批評家を模倣し、抽象論理、構成要素選択、プロンプト符号化における誤りを特定・修正するための閉ループ的なバックトラッキングを実行する階層的診断エージェントからなる。大規模な実験と人間による評価により、本手法がメタファー一貫性、類推の適切さ、視覚的創造性においてSOTAベースラインを大きく上回ることを実証し、広告やメディアにおける自動化された高度な創造的応用への道を開く。ソースコードは公開予定である。
English
A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.
PDF152February 7, 2026