ChatPaper.aiChatPaper

Re-Align: インコンテキスト画像生成・編集のための構造化推論ガイドによるアラインメント

Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

January 8, 2026
著者: Runze He, Yiji Cheng, Tiankai Hang, Zhimin Li, Yu Xu, Zijin Yin, Shiyi Zhang, Wenxun Dai, Penghui Du, Ao Ma, Chunyu Wang, Qinglin Lu, Jizhong Han, Jiao Dai
cs.AI

要旨

インコンテキスト画像生成・編集(ICGE)は、画像とテキストを交互に配置したプロンプトを通じて視覚的概念を指定することを可能にし、ユーザーの意図を正確に理解し忠実に反映することを要求する。近年の統合マルチモーダルモデルは有望な理解能力を示すが、こうした強みは画像生成に効果的に転移しないことが多い。本論文では、構造化推論に導かれたアラインメントを通じて理解と生成の間の隔たりを埋める統一フレームワーク「Re-Align」を提案する。その中核には、In-Context Chain-of-Thought(IC-CoT)という構造化推論パラダイムがあり、意味的ガイダンスと参照画像の関連付けを分離することで、明確なテキスト目標を提供し、参照画像間の混同を軽減する。さらにRe-Alignは、構造化推論テキストと生成画像の整合性を測定する代理報酬を活用する効果的な強化学習トレーニング手法を導入し、ICGEタスクにおけるモデルの総合的な性能向上を図る。大規模な実験により、Re-Alignが同等のモデル規模とリソースを持つ競合手法を、インコンテキスト画像生成と編集の両タスクで上回ることを実証する。
English
In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.
PDF32January 10, 2026