ChatPaper.aiChatPaper

Re-Align: Strukturierte, reasoning-gesteuerte Ausrichtung für In-Context-Bildgenerierung und -Bearbeitung

Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

January 8, 2026
papers.authors: Runze He, Yiji Cheng, Tiankai Hang, Zhimin Li, Yu Xu, Zijin Yin, Shiyi Zhang, Wenxun Dai, Penghui Du, Ao Ma, Chunyu Wang, Qinglin Lu, Jizhong Han, Jiao Dai
cs.AI

papers.abstract

Kontextbezogene Bildgenerierung und -bearbeitung (ICGE) ermöglicht es Nutzern, visuelle Konzepte durch verschachtelte Bild-Text-Eingaben zu spezifizieren, was ein präzises Verständnis und eine treue Ausführung der Nutzerabsicht erfordert. Obwohl neuere vereinheitlichte multimodale Modelle vielversprechende Verständnisfähigkeiten zeigen, übertragen sich diese Stärken oft nicht effektiv auf die Bildgenerierung. Wir stellen Re-Align vor, einen vereinheitlichten Rahmen, der die Lücke zwischen Verständnis und Generierung durch strukturierte, reasoning-gesteuerte Ausrichtung überbrückt. Sein Kernstück ist das In-Context Chain-of-Thought (IC-CoT), ein strukturiertes Reasoning-Paradigma, das semantische Führung und Referenzassoziation entkoppelt, um ein klares textuelles Ziel bereitzustellen und Verwirrung zwischen Referenzbildern zu vermindern. Darüber hinaus führt Re-Align ein effektives RL-Trainingsschema ein, das einen Surrogate-Reward nutzt, um die Übereinstimmung zwischen strukturiertem Reasoning-Text und dem generierten Bild zu messen und so die Gesamtleistung des Modells bei ICGE-Aufgaben zu verbessern. Umfangreiche Experimente bestätigen, dass Re-Align konkurrenzfähige Methoden mit vergleichbarer Modellgröße und Ressourcen sowohl bei kontextbezogenen Bildgenerierungs- als auch bei Bearbeitungsaufgaben übertrifft.
English
In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.
PDF32January 10, 2026