ChatPaper.aiChatPaper

За пределами простых правок: X-Planner для сложного редактирования изображений на основе инструкций

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

July 7, 2025
Авторы: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI

Аннотация

Современные методы редактирования изображений на основе диффузии значительно продвинулись в выполнении задач, управляемых текстом, но часто испытывают трудности с интерпретацией сложных и косвенных инструкций. Кроме того, текущие модели нередко страдают от плохого сохранения идентичности, нежелательных изменений или сильной зависимости от ручных масок. Для решения этих проблем мы представляем X-Planner — систему планирования на основе мультимодальной крупной языковой модели (MLLM), которая эффективно связывает намерения пользователя с возможностями модели редактирования. X-Planner использует цепочку рассуждений для систематического разложения сложных инструкций на более простые и понятные подзадачи. Для каждой подзадачи X-Planner автоматически генерирует точные типы изменений и маски сегментации, исключая необходимость ручного вмешательства и обеспечивая локализованные правки с сохранением идентичности. Дополнительно мы предлагаем новый автоматизированный конвейер для генерации масштабных данных для обучения X-Planner, который демонстрирует передовые результаты как на существующих бенчмарках, так и на нашем новом сложном бенчмарке редактирования.
English
Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.
PDF31July 8, 2025