ChatPaper.aiChatPaper

EditThinker:あらゆる画像編集ツールのための反復的推論の解放

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

December 5, 2025
著者: Hongyu Li, Manyuan Zhang, Dian Zheng, Ziyu Guo, Yimeng Jia, Kaituo Feng, Hao Yu, Yexin Liu, Yan Feng, Peng Pei, Xunliang Cai, Linjiang Huang, Hongsheng Li, Si Liu
cs.AI

要旨

指示に基づく画像編集は、画像生成基盤モデルの恩恵を受け、高い審美性を実現した主要な研究分野として台頭しており、指示追従能力が主要な課題となっています。既存の手法は教師あり学習や強化学習を通じて指示への忠実性を向上させてきましたが、内在的な確率性と熟慮の不足により、単一ターンでの成功率は限られています。本研究では、編集しながら「思考」する熟慮的編集フレームワークを提案します。これは、Think-while-Editサイクル(結果の批評、指示の洗練、満足のいく結果が得られるまで生成を繰り返す)を反復実行することで、人間の認知ループを模倣します。具体的には、単一のMLLMであるEditThinkerを訓練し、このフレームワークの推論エンジンとして機能させ、批評スコア、推論プロセス、洗練された指示を統合的に生成します。EditThinkerの思考と編集を整合させるため強化学習を採用し、より焦点化された指示改善を実現します。4つのベンチマークにおける大規模な実験により、本手法が任意の画像編集モデルの指示追従能力を大幅に改善することを実証します。データ構築フレームワーク、データセット、モデルをコミュニティに公開し、研究発展に貢献します。
English
Instruction-based image editing has emerged as a prominent research area, which, benefiting from image generation foundation models, have achieved high aesthetic quality, making instruction-following capability the primary challenge. Existing approaches improve instruction adherence via supervised or reinforcement learning, yet single-turn success rates remain limited due to inherent stochasticity and a lack of deliberation. In this work, we propose a deliberative editing framework to 'think' while they edit, which simulates the human cognitive loop by iteratively executing a Think-while-Edit cycle: Critiquing results and Refining instructions , followed by Repeating the generation until satisfactory. Specifically, we train a single MLLM, EditThinker, to act as the reasoning engine of this framework, which jointly produce the critique score, reasoning process, and refined instructions. We employ reinforcement learning to align the EditThinker's thinking with its editing, thereby generating more targeted instruction improvements. Extensive experiments on four benchmarks demonstrate that our approach significantly improves the instruction-following capability of any image editing model by a large margin. We will release our data construction framework, datasets, and models to benefit the community.
PDF333December 9, 2025