Text-Vision-ko-instruierte Bildbearbeitung

Zusammenfassung

Bestehende Bildbearbeitungsmethoden lassen sich grob in textuelle anweisungsbasierte und visuelle promptbasierte Ansätze unterteilen. Textuelle Anweisungen sind semantisch ausdrucksstark, jedoch durch die grobe Granularität der räumlichen Steuerung der Bearbeitungsergebnisse eingeschränkt. Im Gegensatz dazu bieten visuelle Prompts wie Ziehen und Punkte präzise räumliche Anleitung, sind jedoch durch die inhärente Ambiguität der semantischen Absicht begrenzt. Um die Stärken von textuellen und visuellen Prompts zu vereinen, stellen wir Text-Vision Co-Instructed Image Editing vor, das textuelle Anweisungen als semantische Absicht und spärliche visuelle Anweisungen als räumliche Führung gemeinsam modelliert, um eine präzise und intent-treue Bildmanipulation zu erreichen. Zu diesem Zweck erstellen wir zunächst einen Datensatz mit gepaarten textuell-visuellen Anweisungen, der mehr als 23.000 aus dynamischen Videos abgeleitete Stichproben umfasst und so eine abgestimmte Überwachung für die modalitätsübergreifende Anweisung ermöglicht. Anschließend schlagen wir TV-Edit vor, ein Framework zur Vereinheitlichung von textuell-visuellen Anweisungen, das zieh- oder punktbasierte visuelle Anweisungen mit Bild-Text-Semantiken kontextualisiert und diese in semantisch bewusste Kontrolldarstellungen für vortrainierte Bearbeitungs-Backbones überführt. Durch die Integration von semantischer Absicht und räumlichen Einschränkungen führt TV-Edit zu präziserer räumlicher Kontrolle, geringerer Anweisungsambiguität und stärkerer struktureller Konsistenz als rein text- oder dragbasierte Alternativen. Schließlich etablieren wir TV-Edit-Bench, einen speziell konzipierten Benchmark zur Bewertung von semantischer Treue, räumlicher Ausrichtung und visueller Konsistenz mit Ground-Truth-Referenzen sowie kontrollierten textuell-visuellen Variationen für eine zuverlässige Beurteilung. Unsere Experimente mit mehreren Bearbeitungs-Backbones zeigen, dass TV-Edit konsistent präzisere und intent-treuere Bearbeitungen liefert und die hochmodernen anweisungsbasierten und dragbasierten Baselines deutlich übertrifft.

English

Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.