InstantDrag: Улучшение интерактивности в редактировании изображений на основе перетаскиванияInstantDrag: Improving Interactivity in Drag-based Image Editing
Редактирование изображений на основе перетаскивания недавно стало популярным из-за его интерактивности и точности. Однако, несмотря на способность моделей текст-в-изображение генерировать образцы за секунду, редактирование путем перетаскивания все еще отстает из-за сложности точного отражения взаимодействия пользователя при сохранении содержимого изображения. Некоторые существующие подходы полагаются на вычислительно интенсивную оптимизацию для каждого изображения или замысловатые методы на основе руководства, требующие дополнительных входных данных, таких как маски для подвижных областей и текстовые подсказки, что, таким образом, снижает интерактивность процесса редактирования. Мы представляем InstantDrag, пайплайн без оптимизации, который повышает интерактивность и скорость, требуя в качестве входных данных только изображение и инструкцию по перетаскиванию. InstantDrag состоит из двух тщательно разработанных сетей: генератора оптического потока, зависящего от перетаскивания (FlowGen), и модели диффузии, зависящей от оптического потока (FlowDiffusion). InstantDrag изучает динамику движения для редактирования изображений на основе перетаскивания в видеороликах реального мира путем декомпозиции задачи на генерацию движения и генерацию изображения, зависящего от движения. Мы демонстрируем способность InstantDrag выполнять быстрые, фотореалистичные правки без масок или текстовых подсказок через эксперименты на наборах данных видеороликов лиц и общих сцен. Эти результаты подчеркивают эффективность нашего подхода в обработке редактирования изображений на основе перетаскивания, делая его многообещающим решением для интерактивных приложений в реальном времени.