Über einfache Bearbeitungen hinaus: X-Planner für komplexe, anweisungsbasierte Bildbearbeitung

papers.abstract

Aktuelle diffusionsbasierte Bildbearbeitungsmethoden haben textgesteuerte Aufgaben erheblich vorangetrieben, haben jedoch oft Schwierigkeiten, komplexe, indirekte Anweisungen zu interpretieren. Darüber hinaus leiden aktuelle Modelle häufig unter mangelnder Identitätserhaltung, unbeabsichtigten Bearbeitungen oder sind stark auf manuelle Masken angewiesen. Um diese Herausforderungen zu bewältigen, stellen wir X-Planner vor, ein auf Multimodalen Großen Sprachmodellen (MLLM) basierendes Planungssystem, das die Benutzerabsicht effektiv mit den Fähigkeiten des Bearbeitungsmodells verbindet. X-Planner nutzt Ketten von Gedanken (Chain-of-Thought), um komplexe Anweisungen systematisch in einfachere, klare Teilanweisungen zu zerlegen. Für jede Teilanweisung generiert X-Planner automatisch präzise Bearbeitungstypen und Segmentierungsmasken, wodurch manuelle Eingriffe entfallen und lokalisierte, identitätserhaltende Bearbeitungen sichergestellt werden. Zusätzlich schlagen wir eine neuartige automatisierte Pipeline zur Erzeugung groß angelegter Daten vor, um X-Planner zu trainieren, der sowohl auf bestehenden Benchmarks als auch auf unserem neu eingeführten komplexen Bearbeitungsbenchmark state-of-the-art Ergebnisse erzielt.

English

Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.

Über einfache Bearbeitungen hinaus: X-Planner für komplexe, anweisungsbasierte Bildbearbeitung

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

papers.abstract

Support