Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем метод световой диффузии — новый подход к улучшению освещения на портретах, смягчающий резкие тени и блики при сохранении общей освещённости сцены. Вдохновлённый профессиональными фотографическими диффузорами и рассеивающими экранами, наш метод смягчает освещение, используя лишь одно портретное фото. Предыдущие подходы к изменению освещения на портретах сосредоточены на полной смене световой среды, удалении теней (игнорируя сильные блики) или полном устранении затенения. В отличие от них, мы предлагаем метод на основе машинного обучения, который позволяет контролировать степень световой диффузии и применять его к портретам, сделанным в естественных условиях. Кроме того, мы разработали способ синтетической генерации правдоподобных внешних теней с эффектами подповерхностного рассеяния, соответствующих форме лица объекта. Наконец, мы демонстрируем, как наш подход может повысить устойчивость более сложных задач компьютерного зрения, таких как оценка альбедо, оценка геометрии и семантическая сегментация.
Несмотря на стремительное развитие 3D-генеративных нейронных сетей, которое значительно улучшило генерацию трехмерных форм, для обычных пользователей по-прежнему остается неудобным создание 3D-объектов и управление локальной геометрией генерируемых форм. Для решения этих задач мы предлагаем диффузионную 3D-генерационную структуру — локально-внимательную диффузию SDF, которая моделирует правдоподобные 3D-формы на основе входных 2D-эскизов. Наш метод основан на двухэтапной диффузионной модели. Первый этап, называемый occupancy-diffusion, направлен на генерацию низкокачественного поля занятости для аппроксимации оболочки формы. Второй этап, SDF-diffusion, синтезирует высококачественное поле знаковых расстояний внутри вокселей, определенных на первом этапе, для извлечения детальной геометрии. Наша модель использует новый механизм локального внимания, учитывающий вид, для генерации форм на основе изображений. Этот механизм использует особенности 2D-фрагментов изображений для управления обучением 3D-воксельных признаков, что значительно улучшает локальную управляемость и обобщаемость модели. В ходе обширных экспериментов по генерации 3D-форм на основе эскизов и категорий мы подтверждаем и демонстрируем способность нашего метода создавать правдоподобные и разнообразные 3D-формы, а также его превосходную управляемость и обобщаемость по сравнению с существующими подходами. Наш код и обученные модели доступны по адресу: https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в обработке языка. GPT-4, основанная на продвинутых LLM, проявляет исключительные мультимодальные возможности, превосходя предыдущие визуально-языковые модели. Мы связываем это с использованием более совершенных LLM по сравнению с предыдущими мультимодальными моделями. К сожалению, архитектура модели и стратегии обучения GPT-4 остаются неизвестными. Чтобы наделить LLM мультимодальными возможностями, мы предлагаем X-LLM, которая преобразует мультимодальные данные (изображения, речь, видео) в "иностранные языки" с помощью интерфейсов X2L и передает их в крупную языковую модель (ChatGLM). Конкретно, X-LLM выравнивает несколько замороженных одномодальных кодировщиков и замороженную LLM с использованием интерфейсов X2L, где "X" обозначает мультимодальности, такие как изображения, речь и видео, а "L" обозначает языки. Обучение X-LLM состоит из трех этапов: (1) Преобразование мультимодальной информации: на первом этапе каждый интерфейс X2L обучается отдельно для выравнивания с соответствующим одномодальным кодировщиком, чтобы преобразовать мультимодальную информацию в языки. (2) Выравнивание представлений X2L с LLM: одномодальные кодировщики выравниваются с LLM через интерфейсы X2L независимо. (3) Интеграция множества модальностей: все одномодальные кодировщики выравниваются с LLM через интерфейсы X2L для интеграции мультимодальных возможностей в LLM. Наши эксперименты показывают, что X-LLM демонстрирует впечатляющие способности в мультимодальном общении, иногда проявляя поведение, схожее с мультимодальным GPT-4 на неизвестных изображениях/инструкциях, и достигает 84,5% относительного результата по сравнению с GPT-4 на синтетическом наборе данных для выполнения мультимодальных инструкций. Мы также проводим количественные тесты по использованию LLM для автоматического распознавания речи (ASR) и мультимодального ASR, надеясь способствовать наступлению эпохи распознавания речи на основе LLM.
Композиционное мышление является отличительной чертой человеческого визуального интеллекта; однако, несмотря на размер крупных моделей, работающих с визуальными и языковыми данными, они испытывают трудности с представлением простых композиций, сочетающих объекты с их атрибутами. Чтобы измерить этот недостаток композиционных способностей, мы разработали Cola — эталонный тест для поиска изображений по тексту, предназначенный для композиции объектов, локализованных с атрибутами. Используя Cola в качестве тестовой платформы, мы исследуем подходы к адаптации предобученных моделей, работающих с визуальными и языковыми данными, для композиционного рассуждения о множестве атрибутов, связанных с несколькими объектами. Мы исследуем 6 стратегий дообучения для двух ключевых моделей, работающих с визуальными и языковыми данными, используя 3 набора данных для дообучения и 2 тестовых эталона (Cola и CREPE). Удивительно, но наша оптимальная стратегия дообучения позволяет модели CLIP с 151 миллионом параметров, которая раздельно кодирует изображения и текст на этапе предобучения, достичь результатов, сопоставимых с моделью FLAVA, содержащей 241 миллион параметров и использующей мультимодальный трансформер для одновременного анализа визуальных и языковых данных на этапе предобучения. Эта оптимальная стратегия дообучения представляет собой легковесный мультимодальный адаптер, который совместно анализирует признаки изображений и текста, сгенерированные предобученной моделью. Мы показываем, что этот подход работает лучше, чем распространенные стратегии, такие как настройка промптов/дообучение или настройка сопоставимого количества одномодальных слоев.
Диффузионные модели стали ключевым элементом фундаментальных моделей в визуальных областях. Одним из их важных применений является универсальное решение различных обратных задач с использованием единого диффузионного априори без необходимости переобучения для каждой задачи. Большинство обратных задач можно сформулировать как вывод апостериорного распределения данных (например, полного изображения) при заданном измерении (например, замаскированном изображении). Однако это представляет сложность в диффузионных моделях, поскольку нелинейный и итеративный характер процесса диффузии делает апостериорное распределение невычислимым. Для преодоления этой проблемы мы предлагаем вариационный подход, который по своей сути стремится аппроксимировать истинное апостериорное распределение. Мы показываем, что наш подход естественным образом приводит к регуляризации с помощью процесса шумоподавления в диффузии (RED-Diff), где денойзеры на разных временных шагах одновременно накладывают различные структурные ограничения на изображение. Для оценки вклада денойзеров на разных временных шагах мы предлагаем механизм взвешивания, основанный на отношении сигнал-шум (SNR). Наш подход предоставляет новый вариационный взгляд на решение обратных задач с использованием диффузионных моделей, позволяя формулировать сэмплирование как стохастическую оптимизацию, где можно применять готовые решатели с легковесными итерациями. Наши эксперименты для задач восстановления изображений, таких как восстановление пропущенных областей и суперразрешение, демонстрируют преимущества нашего метода по сравнению с современными сэмплирующими диффузионными моделями.
Современные генераторы создают видеоролики с говорящими головами, достигая впечатляющего уровня фотореализма, что открывает новые возможности для пользователей, такие как видеоконференции при ограниченной пропускной способности сети. Однако для безопасного использования таких технологий необходим механизм проверки достоверности созданного видео. Например, в случае видеоконференций важно выявлять ситуации, когда синтетическое видео использует внешность человека без его согласия. Мы называем эту задачу "аватароскопией". Для её решения мы предлагаем использовать уникальные для каждого человека характеристики мимики. В частности, мы обучаем эмбеддинг, в котором характеристики мимики одного человека группируются вместе и отделяются от характеристик других людей, независимо от внешности в синтетическом видео. Алгоритмы аватароскопии станут критически важными по мере того, как генераторы говорящих голов будут становиться всё более распространёнными, однако для этой новой задачи пока не существует крупномасштабных наборов данных. Поэтому мы представляем обширный набор данных, включающий записи людей, произносящих короткие монологи по сценарию и импровизированно, а также синтетические видео, в которых внешность одного человека используется для создания видео другого. Страница проекта: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Веб-страницы представляют собой богатый и масштабируемый ресурс для задач, связанных с обработкой визуальной и текстовой информации, а также только текстовых задач. Однако сохраняются лишь отдельные элементы веб-страниц: пары изображение-подпись, длинные текстовые статьи или сырой HTML, но никогда все вместе. В результате задачи, связанные с веб-страницами, получают мало внимания, а структурированные данные изображений и текста остаются недостаточно используемыми. Для изучения мультимодального понимания веб-страниц мы представляем набор Wikipedia Webpage (WikiWeb2M), содержащий 2 миллиона страниц. Мы проверяем его полезность на трех генеративных задачах: генерация описания страницы, суммирование разделов и контекстное создание подписей к изображениям. Мы разрабатываем новый механизм внимания Prefix Global, который выбирает наиболее релевантные изображения и текстовые элементы в качестве глобальных токенов для учета контекста остальной части веб-страницы. Используя структуру страницы для разделения таких токенов, он работает лучше, чем полное внимание, при меньшей вычислительной сложности. Эксперименты показывают, что новые аннотации из WikiWeb2M улучшают производительность задач по сравнению с данными из предыдущих работ. Мы также проводим исследования влияния длины последовательности, входных признаков и размера модели.
Мы представляем метод глубокого обучения для составного и целеориентированного управления движением физически симулируемых персонажей. В отличие от существующих подходов, основанных на данных и использующих обучение с подкреплением для имитации движений всего тела, мы обучаем раздельные движения для конкретных частей тела одновременно и напрямую, используя несколько дискриминаторов в GAN-подобной архитектуре. В этом процессе не требуется ручной работы для создания составных эталонных движений для обучения. Вместо этого политика управления самостоятельно исследует, как составные движения могут быть автоматически объединены. Мы также учитываем несколько целевых вознаграждений и обучаем единую политику управления с несколькими целями. Для этого мы предлагаем новую структуру для многозадачного обучения, которая адаптивно балансирует обучение разнородным движениям из нескольких источников и нескольким целеориентированным задачам управления. Кроме того, поскольку составные движения обычно являются расширением более простых поведений, мы вводим метод, эффективный по выборкам, для обучения составных политик управления инкрементальным способом, где мы повторно используем предварительно обученную политику как метаполитику и обучаем кооперативную политику, которая адаптирует метаполитику для новых составных задач. Мы демонстрируем применимость нашего подхода на различных сложных многозадачных задачах, включающих как имитацию составных движений, так и несколько целеориентированных задач управления.