Редактирование изображений на основе совместных текстовых и визуальных инструкций

Аннотация

Существующие методы редактирования изображений можно в целом разделить на основанные на текстовых инструкциях и основанные на визуальных подсказках. Текстовые инструкции обладают семантической выразительностью, но ограничены грубой гранулярностью пространственного контроля результатов редактирования. В отличие от них, визуальные подсказки, такие как перетаскивание и указание, обеспечивают точное пространственное управление, но страдают от присущей им неоднозначности семантического намерения. Чтобы объединить сильные стороны текстовых и визуальных подсказок, мы представляем метод редактирования изображений с совместными текстово-визуальными инструкциями, который совместно моделирует текстовые инструкции как семантическое намерение, а разреженные визуальные инструкции — как пространственное управление, нацеленный на достижение точного и соответствующего намерению манипулирования изображением. Для этого мы сначала создаем парный набор данных текстово-визуальных инструкций, содержащий более 23 тысяч образцов, полученных из динамических видео, что обеспечивает согласованное обучение для кросс-модальных инструкций. Затем мы предлагаем TV-Edit — единую структуру редактирования на основе текстовых и визуальных инструкций, которая контекстуализирует визуальные инструкции на основе перетаскивания или указания с семантикой изображения и текста и преобразует их в семантически осознанные управляющие представления для предварительно обученных основ редактирования. Интегрируя семантическое намерение и пространственные ограничения, TV-Edit обеспечивает более точный пространственный контроль, меньшую неоднозначность инструкций и более сильную структурную согласованность по сравнению с альтернативами на основе только текста или только перетаскивания. Наконец, мы создаем TV-Edit-Bench — тщательно разработанный бенчмарк для оценки семантического соответствия, пространственного выравнивания и визуальной согласованности с эталонными данными и контролируемыми текстово-визуальными вариациями для надежного оценивания. Наши эксперименты на нескольких основах редактирования показывают, что TV-Edit последовательно обеспечивает более точные и соответствующие намерению правки, значительно превосходя современные базовые методы на основе инструкций и перетаскивания.

English

Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.