Ежедневно отобранные исследовательские статьи по ИИ с переводами
Редактирование изображений на основе перетаскивания недавно стало популярным из-за его интерактивности и точности. Однако, несмотря на способность моделей текст-в-изображение генерировать образцы за секунду, редактирование путем перетаскивания все еще отстает из-за сложности точного отражения взаимодействия пользователя при сохранении содержимого изображения. Некоторые существующие подходы полагаются на вычислительно интенсивную оптимизацию для каждого изображения или замысловатые методы на основе руководства, требующие дополнительных входных данных, таких как маски для подвижных областей и текстовые подсказки, что, таким образом, снижает интерактивность процесса редактирования. Мы представляем InstantDrag, пайплайн без оптимизации, который повышает интерактивность и скорость, требуя в качестве входных данных только изображение и инструкцию по перетаскиванию. InstantDrag состоит из двух тщательно разработанных сетей: генератора оптического потока, зависящего от перетаскивания (FlowGen), и модели диффузии, зависящей от оптического потока (FlowDiffusion). InstantDrag изучает динамику движения для редактирования изображений на основе перетаскивания в видеороликах реального мира путем декомпозиции задачи на генерацию движения и генерацию изображения, зависящего от движения. Мы демонстрируем способность InstantDrag выполнять быстрые, фотореалистичные правки без масок или текстовых подсказок через эксперименты на наборах данных видеороликов лиц и общих сцен. Эти результаты подчеркивают эффективность нашего подхода в обработке редактирования изображений на основе перетаскивания, делая его многообещающим решением для интерактивных приложений в реальном времени.
Анимация различных персонажей – увлекательная задача создания визуального контента. При наличии одного рисунка персонажа существующие методы анимации ограничены плоскими движениями в 2D и, следовательно, лишены трехмерных эффектов. Альтернативным решением является восстановление трехмерной модели из рисунка персонажа в качестве прокси, а затем перенаправление трехмерных данных движения на нее. Однако существующие методы преобразования изображения в 3D неэффективны для любительских персонажных рисунков с точки зрения внешнего вида и геометрии. Мы отмечаем, что контурные линии, обычно присутствующие в персонажных рисунках, могут внести значительную неоднозначность в синтез текстуры из-за их зависимости от обзора. Кроме того, узкие области, представленные одиночными контурами, сложно восстановить (например, тонкие конечности палочного человечка) из-за их хрупкой структуры. Для решения этих проблем мы предлагаем новую систему, DrawingSpinUp, для создания правдоподобной 3D анимации и оживления персонажных рисунков, позволяя им свободно вращаться, прыгать и даже исполнять хип-хоп танец. Для улучшения внешнего вида мы применяем стратегию удаления-затем-восстановления для начального удаления зависимых от обзора контурных линий, а затем их повторного отображения после перенаправления восстановленного персонажа. Для улучшения геометрии мы разрабатываем алгоритм деформации на основе скелета для утончения тонких структур, представленных одиночными контурами. Экспериментальные оценки и восприятие пользователей показывают, что наш предложенный метод превосходит существующие методы анимации в 2D и 3D и генерирует качественные 3D анимации из одного персонажного рисунка. Пожалуйста, обратитесь к нашей странице проекта (https://lordliang.github.io/DrawingSpinUp) для доступа к коду и созданным анимациям.
Детекция с открытым словарем (Open-vocabulary detection, OVD) направлена на обнаружение объектов вне заранее определенного набора категорий. Как первоначальная модель, интегрирующая серию YOLO в OVD, YOLO-World хорошо подходит для сценариев, где важны скорость и эффективность. Однако его производительность ограничена механизмом объединения признаков в шее, который вызывает квадратичную сложность и ограниченные управляемые рецептивные поля. Для преодоления этих ограничений мы представляем Mamba-YOLO-World, новую модель OVD на основе YOLO, использующую предложенную сеть агрегации путей MambaFusion (MambaFusion-PAN) в качестве своей архитектуры шеи. Конкретно, мы вводим инновационный механизм объединения признаков на основе модели пространства состояний, состоящий из алгоритма параллельного управляемого выборочного сканирования и алгоритма последовательного управляемого выборочного сканирования с линейной сложностью и глобально управляемыми рецептивными полями. Он использует многомодальные последовательности ввода и скрытые состояния mamba для управления процессом выборочного сканирования. Эксперименты показывают, что наша модель превосходит оригинальный YOLO-World на бенчмарках COCO и LVIS как в настройках нулевого обучения, так и в настройках дообучения, сохраняя при этом сравнимое количество параметров и операций с плавающей запятой (FLOPs). Кроме того, она превосходит существующие передовые методы OVD с меньшим количеством параметров и FLOPs.
Переосвещение радиационных полей является серьезной проблемой для многозрительных данных из-за недостаточной информации, особенно в случае снимков, полученных в единственных условиях освещения; это особенно сложно для полных сцен, содержащих несколько объектов. Мы представляем метод создания переосвещаемых радиационных полей с использованием таких данных с единственным источником освещения путем использования априорных знаний, извлеченных из моделей диффузии 2D изображений. Сначала мы настраиваем модель диффузии 2D на наборе данных с множеством источников освещения, условием является направление света, что позволяет нам расширить снимок с единственным источником освещения до реалистичного - но возможно несогласованного - набора данных с множеством источников света, определенных непосредственно. Мы используем этот расширенный набор данных для создания переосвещаемого радиационного поля, представленного трехмерными гауссовыми каплями. Для прямого контроля направления света для низкочастотного освещения мы представляем внешний вид с помощью многослойного персептрона, параметризованного по направлению света. Для обеспечения согласованности многозрительных данных и преодоления неточностей мы оптимизируем вектор вспомогательных признаков для каждого изображения. Мы демонстрируем результаты на синтетических и реальных многозрительных данных с единственным источником освещения, показывая, что наш метод успешно использует априорные знания модели диффузии 2D для реалистичного трехмерного переосвещения для полных сцен. Сайт проекта: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
Объемное видео представляет собой трансформационное достижение в визуальных медиа, позволяющее пользователям свободно перемещаться в иммерсивных виртуальных пространствах и сокращая разрыв между цифровым и реальным мирами. Однако необходимость обширного ручного вмешательства для стабилизации последовательностей сеток и создание излишне крупных активов в существующих рабочих процессах затрудняет более широкое принятие. В данной статье мы представляем новый подход на основе гауссовских функций, названный DualGS, для воспроизведения сложных человеческих выступлений в реальном времени с отличными коэффициентами сжатия и высокой степенью достоверности. Основная идея в DualGS заключается в отдельном представлении движения и внешнего вида с использованием соответствующих кожных и суставных гауссовских функций. Такое явное разделение может значительно сократить избыточность движения и улучшить временную согласованность. Мы начинаем с инициализации DualGS и привязки кожных гауссов к суставным гауссовым функциям на первом кадре. Далее мы используем стратегию грубой настройки для поэтапного моделирования человеческого выступления кадр за кадром. Она включает фазу грубой выравнивания для общего прогнозирования движения, а также тонкую оптимизацию для надежного отслеживания и высококачественного визуализирования. Для интеграции объемного видео без нарывов в среды виртуальной реальности мы эффективно сжимаем движение с использованием кодирования энтропии и внешний вид с помощью кодирования кодека в сочетании с постоянным кодовым книгой. Наш подход достигает коэффициента сжатия до 120 раз, требуя всего примерно 350 КБ хранилища на кадр. Мы демонстрируем эффективность нашего представления через фотореалистичные, свободные просмотры на VR-очках, позволяя пользователям погружаться в просмотр выступлений музыкантов и чувствовать ритм нот на кончиках пальцев исполнителей.
Восстановление аудио стало все более значимым в современном обществе, не только из-за спроса на качественные звуковые впечатления, обеспечиваемые передовыми устройствами воспроизведения, но также потому, что растущие возможности генеративных аудиомоделей требуют высококачественного звука. Обычно восстановление аудио определяется как задача предсказания недеформированного звука по поврежденному входу, зачастую обучаемая с использованием GAN-структуры для балансировки восприятия и деформации. Поскольку деградация аудио в основном сосредоточена в средних и высоких частотных диапазонах, особенно из-за кодеков, ключевая проблема заключается в создании генератора, способного сохранять информацию о низких частотах, обеспечивая точную реконструкцию высококачественного содержания средних и высоких частот. Вдохновленные недавними достижениями в разделении музыки с высокой частотой дискретизации, улучшении речи и моделях аудиокодеков, мы предлагаем Apollo, генеративную модель, разработанную для восстановления аудио с высокой частотой дискретизации. Apollo использует явный модуль разделения частотных полос для моделирования взаимосвязей между различными частотными полосами, что позволяет получить более последовательное и высококачественное восстановленное аудио. Оцененный на наборах данных MUSDB18-HQ и MoisesDB, Apollo последовательно превосходит существующие модели SR-GAN при различных битрейтах и музыкальных жанрах, особенно выделяясь в сложных сценариях с смешанными звуками нескольких инструментов и вокала. Apollo значительно улучшает качество восстановления музыки, сохраняя вычислительную эффективность. Исходный код Apollo доступен публично по адресу https://github.com/JusperLee/Apollo.
Недавние достижения в области генеративных моделей революционизировали генерацию и редактирование изображений, делая эти задачи доступными для неспециалистов. В данной статье рассматривается локальное редактирование изображений, в частности задача добавления нового контента в нечетко определенную область. Существующие методы часто требуют точной маски или подробного описания местоположения, что может быть неудобным и приводить к ошибкам. Мы предлагаем Click2Mask, новый подход, который упрощает процесс локального редактирования, требуя только одной точки отсчета (помимо описания контента). Маска динамически расширяется вокруг этой точки во время процесса Blended Latent Diffusion (BLD), управляемого маскированным семантическим потерей на основе CLIP. Click2Mask превосходит ограничения методов, основанных на сегментации, и методов, зависящих от донастройки, предлагая более удобное для пользователя и контекстуально точное решение. Наши эксперименты показывают, что Click2Mask не только минимизирует усилия пользователя, но также обеспечивает конкурентоспособные или превосходящие результаты локального редактирования изображений по сравнению с методами SoTA, как по мнению людей, так и по автоматическим метрикам. Ключевые вклады включают упрощение пользовательского ввода, возможность свободного добавления объектов без ограничений существующими сегментами, а также потенциал интеграции нашего динамического подхода к маскированию в другие методы редактирования.