Édition d'images co-instruite par texte et vision

Résumé

Les méthodes existantes de retouche d'image peuvent être généralement classées en deux catégories : celles basées sur des instructions textuelles et celles basées sur des indices visuels. Les instructions textuelles sont expressives sur le plan sémantique, mais sont limitées par la granularité grossière du contrôle spatial des résultats de retouche. En revanche, les indices visuels tels que le glissement et le pointage fournissent un guidage spatial précis, mais sont limités par l'ambiguïté inhérente de l'intention sémantique. Pour unifier les forces des instructions textuelles et des indices visuels, nous présentons l'édition d'image co-instruite par texte et vision (Text-Vision Co-Instructed Image Editing), qui modélise conjointement les instructions textuelles comme intention sémantique et les instructions visuelles éparses comme guidage spatial, visant à obtenir une manipulation d'image précise et fidèle à l'intention. À cette fin, nous construisons d'abord un ensemble de données appariées d'instructions textuelles et visuelles avec plus de 23 000 échantillons provenant de vidéos dynamiques, permettant une supervision alignée pour les instructions inter-modales. Nous proposons ensuite TV-Edit, un cadre d'édition unifié d'instructions textuelles et visuelles (Textual-Visual instruction unified Editing framework) pour contextualiser les instructions visuelles basées sur le glissement ou le pointage avec la sémantique image-texte et les transformer en représentations de contrôle conscientes de la sémantique pour les architectures de retouche pré-entraînées. En intégrant l'intention sémantique et les contraintes spatiales, TV-Edit conduit à un contrôle spatial plus précis, moins d'ambiguïté d'instruction et une meilleure cohérence structurelle que les alternatives basées uniquement sur le texte ou le glissement. Enfin, nous établissons TV-Edit-Bench, un benchmark délibérément conçu pour évaluer la fidélité sémantique, l'alignement spatial et la cohérence visuelle avec des références de vérité terrain et des variations textuelles-visuelles contrôlées pour une évaluation fiable. Nos expériences sur plusieurs architectures de retouche démontrent que TV-Edit produit systématiquement des retouches plus précises et fidèles à l'intention, surpassant significativement les références de pointe basées sur des instructions ou sur le glissement.

English

Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.