Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сверточные нейронные сети (CNN) и Vision Transformers (ViT) являются двумя наиболее популярными базовыми моделями для обучения визуальных представлений. В то время как CNN демонстрируют замечательную масштабируемость с линейной сложностью относительно разрешения изображения, ViT превосходят их в способности к аппроксимации, несмотря на квадратичную сложность. Более детальное изучение показывает, что ViT достигают превосходной производительности в визуальном моделировании благодаря включению глобальных рецептивных полей и динамических весов. Это наблюдение мотивирует нас предложить новую архитектуру, которая наследует эти компоненты, одновременно повышая вычислительную эффективность. Вдохновляясь недавно представленной моделью пространства состояний, мы предлагаем Visual State Space Model (VMamba), которая достигает линейной сложности без ущерба для глобальных рецептивных полей. Для решения проблемы чувствительности к направлению мы вводим Cross-Scan Module (CSM), который обходит пространственную область и преобразует любое некаузальное визуальное изображение в упорядоченные последовательности патчей. Обширные экспериментальные результаты подтверждают, что VMamba не только демонстрирует перспективные возможности в различных задачах визуального восприятия, но и проявляет более выраженные преимущества по сравнению с установленными эталонами по мере увеличения разрешения изображения. Исходный код доступен по адресу https://github.com/MzeroMiko/VMamba.
Диффузионные модели открыли новые горизонты в области генерации изображений, что привело к распространению высококачественных моделей на открытых платформах. Однако ключевая проблема современных систем текстового преобразования в изображения заключается в их неспособности обрабатывать разнообразные входные данные или ограничиваться результатами одной модели. Существующие унифицированные подходы часто сводятся к двум ортогональным аспектам: i) анализу разнообразных запросов на этапе ввода; ii) активации экспертной модели для вывода. Чтобы объединить лучшие черты обоих подходов, мы предлагаем DiffusionGPT, который использует большие языковые модели (LLM) для создания унифицированной системы генерации, способной бесшовно адаптироваться к различным типам запросов и интегрировать экспертные модели. DiffusionGPT строит доменно-специфичные деревья для различных генеративных моделей на основе априорных знаний. При получении входных данных LLM анализирует запрос и использует "Деревья мыслей" для выбора подходящей модели, тем самым смягчая ограничения на входные данные и обеспечивая выдающуюся производительность в различных областях. Кроме того, мы вводим базы данных преимуществ, где "Дерево мыслей" обогащается обратной связью от пользователей, что согласует процесс выбора модели с человеческими предпочтениями. Благодаря обширным экспериментам и сравнениям мы демонстрируем эффективность DiffusionGPT, подчеркивая его потенциал для расширения границ синтеза изображений в различных областях.
Мы представляем SPARse Fine-grained Contrastive Alignment (SPARC) — простой метод предварительного обучения более детализированных мультимодальных представлений на основе пар изображение-текст. Учитывая, что несколько фрагментов изображения часто соответствуют отдельным словам, мы предлагаем изучать группировку фрагментов изображения для каждого токена в подписи. Для этого мы используем разреженную метрику сходства между фрагментами изображения и языковыми токенами и вычисляем для каждого токена языково-группированное визуальное представление как взвешенное среднее фрагментов. Затем токен и языково-группированное визуальное представление сравниваются с помощью детализированной поточечной функции потерь, которая зависит только от отдельных примеров и не требует других примеров из батча в качестве негативов. Это позволяет изучать более детальную информацию с минимальными вычислительными затратами. SPARC объединяет эту детализированную функцию потерь с контрастивной функцией потерь между глобальными представлениями изображения и текста, чтобы обучать представления, которые одновременно кодируют как глобальную, так и локальную информацию. Мы тщательно оцениваем предложенный метод и демонстрируем улучшенную производительность по сравнению с конкурирующими подходами как на задачах уровня изображения, зависящих от грубозернистой информации (например, классификация), так и на задачах уровня регионов, требующих детализированной информации (например, поиск, обнаружение объектов и сегментация). Более того, SPARC улучшает достоверность моделей и генерацию подписей в базовых моделях обработки визуально-языковых данных.
Как и во многих задачах машинного обучения, прогресс в методах генерации изображений зависит от наличия качественных метрик оценки. Одной из самых популярных является расстояние Фреше (Frechet Inception Distance, FID). FID оценивает расстояние между распределением признаков Inception-v3 для реальных изображений и изображений, сгенерированных алгоритмом. Мы выделяем важные недостатки FID: слабое представление Inception богатого и разнообразного контента, создаваемого современными моделями генерации изображений по тексту, некорректные предположения о нормальности и низкая эффективность по выборкам. Мы призываем пересмотреть использование FID в качестве основной метрики качества для сгенерированных изображений. Эмпирически мы демонстрируем, что FID противоречит оценкам людей, не отражает постепенного улучшения итеративных моделей генерации по тексту, не учитывает уровни искажений и дает противоречивые результаты при изменении размера выборки. Мы также предлагаем новую альтернативную метрику, CMMD, основанную на более богатых эмбеддингах CLIP и расстоянии максимального среднего расхождения (MMD) с гауссовым ядром RBF. Это несмещенная оценка, которая не делает предположений о вероятностном распределении эмбеддингов и эффективна по выборкам. В ходе обширных экспериментов и анализа мы показываем, что оценки текстово-изобразительных моделей на основе FID могут быть ненадежными, а CMMD предлагает более устойчивую и надежную оценку качества изображений.
Мы представляем SHINOBI, сквозную систему для восстановления формы, материала и освещения по изображениям объектов, снятым при различных условиях освещения, позах и фонах. Обратный рендеринг объекта на основе неограниченных коллекций изображений является давней задачей в компьютерном зрении и графике и требует совместной оптимизации формы, излучения и позы. Мы показываем, что неявное представление формы на основе многомасштабного хэш-кодирования позволяет быстрее и надежнее восстанавливать форму с одновременной оптимизацией выравнивания камеры, превосходя предыдущие работы. Кроме того, для обеспечения возможности редактирования освещения и отражательной способности объекта (т.е. материала) мы совместно оптимизируем BRDF и освещение вместе с формой объекта. Наш метод не зависит от класса объектов и работает с коллекциями изображений объектов, снятых в естественных условиях, создавая переосвещаемые 3D-активы для различных применений, таких как AR/VR, фильмы, игры и т.д. Страница проекта: https://shinobi.aengelhardt.com Видео: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
Цель данной работы — создание реалистичного аудио с использованием легковесного и быстрого диффузионного вокодера под названием FreGrad. Наша структура включает следующие три ключевых компонента: (1) Мы применяем дискретное вейвлет-преобразование, которое разлагает сложный сигнал на поддиапазонные вейвлеты, что позволяет FreGrad работать с простым и компактным пространством признаков; (2) Мы разрабатываем частотно-ориентированную расширенную свертку, которая повышает осведомленность о частотах, что приводит к генерации речи с точной частотной информацией; и (3) Мы внедряем набор приемов, которые улучшают качество генерации предложенной модели. В наших экспериментах FreGrad демонстрирует ускорение обучения в 3.7 раза и ускорение вывода в 2.2 раза по сравнению с базовой моделью, одновременно уменьшая размер модели в 0.6 раза (всего 1.78 млн параметров) без ущерба для качества выходного сигнала. Аудиообразцы доступны по ссылке: https://mm.kaist.ac.kr/projects/FreGrad.
Персонализированная генерация видео по текстовым описаниям направлена на создание высококачественных видеороликов, управляемых текстовыми подсказками и ссылками на объекты. Существующие подходы, разработанные для работы с одним объектом, сталкиваются с трудностями при обработке нескольких объектов, что представляет собой более сложный и практический сценарий. В данной работе мы стремимся продвинуть персонализацию генерации видео по текстовым описаниям с учетом нескольких объектов. Мы предлагаем CustomVideo — новый фреймворк, способный генерировать видео с сохранением идентичности объектов под управлением нескольких субъектов. В частности, во-первых, мы стимулируем совместное появление нескольких объектов, объединяя их в одном изображении. Далее, на основе базовой модели диффузии для генерации видео по тексту, мы разрабатываем простую, но эффективную стратегию управления вниманием для разделения различных объектов в латентном пространстве модели диффузии. Кроме того, чтобы помочь модели сосредоточиться на конкретной области объекта, мы сегментируем объект из предоставленных эталонных изображений и предоставляем соответствующую маску объекта для обучения внимания. Также мы собираем набор данных для генерации видео по текстовым описаниям с несколькими объектами в качестве комплексного эталона, включающего 69 отдельных объектов и 57 значимых пар. Результаты обширных качественных, количественных исследований и пользовательских тестов демонстрируют превосходство нашего метода по сравнению с предыдущими передовыми подходами.