Edición de imágenes co-instruida por texto-visión

Resumen

Los métodos existentes de edición de imágenes pueden categorizarse generalmente en aquellos basados en instrucciones textuales y aquellos basados en indicaciones visuales. Las instrucciones textuales son semánticamente expresivas, pero están limitadas por la granularidad gruesa del control espacial de los resultados de edición. En contraste, las indicaciones visuales, como arrastrar y señalar, pueden proporcionar una guía espacial precisa, pero se ven limitadas por la ambigüedad inherente en la intención semántica. Para unificar las fortalezas de las indicaciones textuales y visuales, presentamos la Edición de Imágenes Co-instruida Texto-Visión, que modela conjuntamente las instrucciones textuales como intención semántica y las instrucciones visuales dispersas como guía espacial, con el objetivo de lograr una manipulación de imágenes precisa y fiel a la intención. Con este fin, primero construimos un conjunto de datos emparejado de instrucciones textuales-visuales con más de 23.000 muestras derivadas de videos dinámicos, lo que permite una supervisión alineada para la instrucción multimodal. Luego proponemos TV-Edit, un marco de edición unificado de instrucciones textuales-visuales para contextualizar las indicaciones visuales basadas en arrastre o punto con la semántica de la imagen-texto y elevarlas a representaciones de control conscientes de la semántica para modelos base de edición preentrenados. Al integrar la intención semántica y las restricciones espaciales, TV-Edit conduce a un control espacial más preciso, menor ambigüedad en las instrucciones y una consistencia estructural más sólida que las alternativas basadas solo en texto o solo en arrastre. Finalmente, establecemos TV-Edit-Bench, un punto de referencia diseñado deliberadamente para evaluar la fidelidad semántica, la alineación espacial y la consistencia visual con referencias de verdad fundamental y variaciones textuales-visuales controladas para una evaluación fiable. Nuestros experimentos en múltiples modelos base de edición demuestran que TV-Edit produce de manera consistente ediciones más precisas y fieles a la intención, superando significativamente a las líneas base de última generación basadas en instrucciones y en arrastre.

English

Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.