Edição de Imagem Co-instruída por Texto e Visão

Resumo

Os métodos existentes de edição de imagens podem ser geralmente categorizados em abordagens baseadas em instruções textuais e baseadas em prompts visuais. As instruções textuais são semanticamente expressivas, mas limitadas pela granularidade grossa do controle espacial dos resultados da edição. Em contraste, prompts visuais, como arrastar e apontar, podem fornecer orientação espacial precisa, mas são limitados pela ambiguidade inerente na intenção semântica. Para unificar os pontos fortes dos prompts textuais e visuais, apresentamos a Edição de Imagens Co-Instruída por Texto e Visão, que modela conjuntamente instruções textuais como intenção semântica e instruções visuais esparsas como orientação espacial, visando alcançar uma manipulação de imagem precisa e fiel à intenção. Para este fim, primeiro construímos um conjunto de dados pareado de instruções textuais-visuais com mais de 23 mil amostras derivadas de vídeos dinâmicos, possibilitando supervisão alinhada para instrução cross-modal. Em seguida, propomos o TV-Edit, uma estrutura de edição unificada por instruções textuais-visuais para contextualizar instruções visuais baseadas em arrastar ou apontar com a semântica de texto-imagem e elevá-las a representações de controle sensíveis ao contexto semântico para backbones de edição pré-treinados. Ao integrar intenção semântica e restrições espaciais, o TV-Edit leva a um controle espacial mais preciso, menos ambiguidade de instrução e maior consistência estrutural do que alternativas baseadas apenas em texto ou arrastar. Finalmente, estabelecemos o TV-Edit-Bench, um benchmark deliberadamente projetado para avaliar fidelidade semântica, alinhamento espacial e consistência visual com referências de ground-truth e variações textuais-visuais controladas para avaliação confiável. Nossos experimentos em múltiplos backbones de edição demonstram que o TV-Edit produz consistentemente edições mais precisas e fiéis à intenção, superando significativamente as linhas de base estado da arte baseadas em instrução e arrastar.

English

Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.