Über einfache Bearbeitungen hinaus: X-Planner für komplexe, anweisungsbasierte Bildbearbeitung
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
Autoren: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
Zusammenfassung
Aktuelle diffusionsbasierte Bildbearbeitungsmethoden haben textgesteuerte Aufgaben erheblich vorangetrieben, haben jedoch oft Schwierigkeiten, komplexe, indirekte Anweisungen zu interpretieren. Darüber hinaus leiden aktuelle Modelle häufig unter mangelnder Identitätserhaltung, unbeabsichtigten Bearbeitungen oder sind stark auf manuelle Masken angewiesen. Um diese Herausforderungen zu bewältigen, stellen wir X-Planner vor, ein auf Multimodalen Großen Sprachmodellen (MLLM) basierendes Planungssystem, das die Benutzerabsicht effektiv mit den Fähigkeiten des Bearbeitungsmodells verbindet. X-Planner nutzt Ketten von Gedanken (Chain-of-Thought), um komplexe Anweisungen systematisch in einfachere, klare Teilanweisungen zu zerlegen. Für jede Teilanweisung generiert X-Planner automatisch präzise Bearbeitungstypen und Segmentierungsmasken, wodurch manuelle Eingriffe entfallen und lokalisierte, identitätserhaltende Bearbeitungen sichergestellt werden. Zusätzlich schlagen wir eine neuartige automatisierte Pipeline zur Erzeugung groß angelegter Daten vor, um X-Planner zu trainieren, der sowohl auf bestehenden Benchmarks als auch auf unserem neu eingeführten komplexen Bearbeitungsbenchmark state-of-the-art Ergebnisse erzielt.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.