ChatPaper.aiChatPaper

Além de Edições Simples: X-Planner para Edição de Imagens Baseada em Instruções Complexas

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

July 7, 2025
Autores: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI

Resumo

Métodos recentes de edição de imagens baseados em difusão avançaram significativamente em tarefas guiadas por texto, mas frequentemente lutam para interpretar instruções complexas e indiretas. Além disso, os modelos atuais frequentemente sofrem com a má preservação de identidade, edições não intencionais ou dependem fortemente de máscaras manuais. Para enfrentar esses desafios, apresentamos o X-Planner, um sistema de planejamento baseado em Modelos de Linguagem Multimodais de Grande Escala (MLLM) que efetivamente conecta a intenção do usuário com as capacidades do modelo de edição. O X-Planner emprega raciocínio em cadeia de pensamento para decompor sistematicamente instruções complexas em sub-instruções mais simples e claras. Para cada sub-instrução, o X-Planner gera automaticamente tipos de edição precisos e máscaras de segmentação, eliminando a intervenção manual e garantindo edições localizadas que preservam a identidade. Adicionalmente, propomos um novo pipeline automatizado para gerar dados em larga escala para treinar o X-Planner, que alcança resultados de ponta tanto em benchmarks existentes quanto em nosso novo benchmark de edição complexa.
English
Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.
PDF51July 8, 2025