Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение моделей генерации изображений по тексту на основе масштабных наборов пар "изображение-текст" из интернета позволяет генерировать широкий спектр визуальных концепций по текстовым описаниям. Однако такие предварительно обученные модели часто сталкиваются с трудностями при создании изображений с высокой эстетической привлекательностью. Это создает необходимость в дополнительной настройке для достижения эстетического соответствия после предварительного обучения. В данной работе мы предлагаем метод "качественной настройки" (quality-tuning), который эффективно направляет предварительно обученную модель на генерацию исключительно визуально привлекательных изображений, сохраняя при этом обобщаемость для различных визуальных концепций. Наше ключевое наблюдение заключается в том, что контролируемая дообучение на наборе удивительно малого, но чрезвычайно визуально привлекательного контента может значительно улучшить качество генерации. Мы предварительно обучаем латентную диффузионную модель на 1,1 миллиарда пар "изображение-текст" и дообучаем её всего на нескольких тысячах тщательно отобранных высококачественных изображений. Полученная модель, Emu, демонстрирует показатель предпочтения в 82,9% по сравнению с её версией без дообучения. По сравнению с современной моделью SDXLv1.0, Emu предпочитается в 68,4% и 71,3% случаев по визуальной привлекательности на стандартном наборе PartiPrompts и на нашем бенчмарке Open User Input, основанном на реальном использовании моделей генерации изображений по тексту. Кроме того, мы показываем, что качественная настройка является универсальным подходом, который также эффективен для других архитектур, включая пиксельные диффузионные модели и маскированные генеративные трансформеры.
Мы предлагаем заменить векторное квантование (VQ) в латентном представлении VQ-VAE на простую схему, называемую конечным скалярным квантованием (FSQ), в которой мы проецируем представление VAE на несколько измерений (обычно менее 10). Каждое измерение квантуется на небольшой набор фиксированных значений, что приводит к (неявному) кодовому словарю, заданному произведением этих наборов. Путем соответствующего выбора количества измерений и значений, которые может принимать каждое измерение, мы получаем тот же размер кодового словаря, что и в VQ. На основе таких дискретных представлений мы можем обучать те же модели, которые обучались на представлениях VQ-VAE. Например, авторегрессивные и маскированные трансформеры для генерации изображений, мультимодальной генерации и задач компьютерного зрения, связанных с плотным предсказанием. Конкретно, мы применяем FSQ с MaskGIT для генерации изображений и с UViM для оценки глубины, раскрашивания и панорамной сегментации. Несмотря на гораздо более простую конструкцию FSQ, мы достигаем конкурентоспособной производительности во всех этих задачах. Мы подчеркиваем, что FSQ не страдает от коллапса кодового словаря и не требует сложных механизмов, используемых в VQ (потери привязки, повторное заполнение кодового словаря, разделение кодов, энтропийные штрафы и т.д.), для обучения выразительным дискретным представлениям.
Мы предлагаем систему нейронного языкового моделирования, основанную на низкоранговой адаптации (LoRA), для повторного ранжирования выходных данных распознавания речи. Хотя предобученные языковые модели (LM), такие как BERT, демонстрируют превосходную производительность при повторном ранжировании на втором этапе, высокая вычислительная стоимость масштабирования этапа предобучения и адаптации предобученных моделей к конкретным доменам ограничивают их практическое использование в повторном ранжировании. В данной работе представлен метод, основанный на низкоранговом разложении, для обучения модели BERT для повторного ранжирования и её адаптации к новым доменам с использованием лишь доли (0,08%) предобученных параметров. Эти вставленные матрицы оптимизируются с помощью дискриминативной функции обучения вместе с регуляризационной функцией потерь, основанной на корреляции. Предложенная архитектура низкоранговой адаптации Rescore-BERT (LoRB) оценивается на наборах данных LibriSpeech и внутренних данных с уменьшением времени обучения в 5,4–3,6 раза.
Значительные достижения были сделаны в области крупномасштабных предобученных моделей диффузии для генерации видео из текста (VDMs). Однако предыдущие методы либо полагаются исключительно на пиксельные VDMs, которые связаны с высокими вычислительными затратами, либо на латентные VDMs, которые часто испытывают трудности с точным соответствием текста и видео. В данной работе мы впервые предлагаем гибридную модель, названную Show-1, которая объединяет пиксельные и латентные VDMs для генерации видео из текста. Наша модель сначала использует пиксельные VDMs для создания видео низкого разрешения с сильной корреляцией между текстом и видео. После этого мы предлагаем новый метод экспертного преобразования, который использует латентные VDMs для дальнейшего повышения разрешения видео до высокого. По сравнению с латентными VDMs, Show-1 способна создавать высококачественные видео с точным соответствием текста и видео; по сравнению с пиксельными VDMs, Show-1 значительно более эффективна (использование памяти GPU во время вывода составляет 15 ГБ против 72 ГБ). Мы также проверяем нашу модель на стандартных бенчмарках для генерации видео. Наш код и веса модели доступны публично по адресу https://github.com/showlab/Show-1.
Мы представляем новый тип нейронных полей, использующих общие радиальные базисы для представления сигналов. Современные нейронные поля обычно полагаются на сеточные представления для хранения локальных нейронных признаков и N-мерные линейные ядра для интерполяции признаков в непрерывных точках запроса. Пространственные позиции их нейронных признаков фиксированы на узлах сетки и не могут эффективно адаптироваться к целевым сигналам. Наш метод, напротив, основывается на общих радиальных базисах с гибким положением и формой ядра, которые обладают более высокой пространственной адаптивностью и могут более точно соответствовать целевым сигналам. Для дальнейшего повышения емкости радиальных базисных функций по каналам мы предлагаем комбинировать их с многочастотными синусоидальными функциями. Этот метод расширяет радиальный базис до нескольких Фурье-радиальных базисов различных частотных диапазонов без необходимости в дополнительных параметрах, что способствует представлению деталей. Более того, объединяя адаптивные радиальные базисы с сетечными, наша гибридная комбинация наследует как адаптивность, так и плавность интерполяции. Мы тщательно разработали схемы взвешивания, чтобы радиальные базисы могли эффективно адаптироваться к различным типам сигналов. Наши эксперименты по представлению 2D-изображений и 3D-полей знаковых расстояний демонстрируют более высокую точность и компактность нашего метода по сравнению с предыдущими подходами. При применении к реконструкции нейронных полей излучения наш метод достигает наивысшего качества рендеринга при небольшом размере модели и сопоставимой скорости обучения.
В последние годы достижения в области масштабного предварительного обучения языковых моделей и моделей преобразования текста в изображения произвели революцию в области машинного обучения. Однако интеграция этих двух модальностей в единую, устойчивую модель, способную генерировать бесшовные мультимодальные выходные данные, остается значительной проблемой. Для решения этой задачи мы представляем фреймворк Joint Autoregressive Mixture (JAM) — модульный подход, который систематически объединяет существующие модели генерации текста и изображений. Мы также предлагаем специализированную стратегию инструктивного тонкого обучения, ориентированную на задачи смешанной модальной генерации и эффективную в использовании данных. Наша итоговая модель, прошедшая инструктивное тонкое обучение, демонстрирует непревзойденную производительность в генерации высококачественных мультимодальных выходных данных и является первой моделью, специально разработанной для этой цели.
Понимание того, как люди используют физический контакт для взаимодействия с миром, является ключевым для создания ориентированного на человека искусственного интеллекта. Хотя вывод трехмерного контакта крайне важен для моделирования реалистичных и физически правдоподобных взаимодействий человека с объектами, существующие методы либо сосредоточены на двумерных данных, рассматривают суставы тела вместо поверхности, используют грубые трехмерные области тела или не обобщаются на изображения из реального мира. В отличие от них, мы сосредоточены на выводе плотного трехмерного контакта между всей поверхностью тела и объектами на произвольных изображениях. Для достижения этой цели мы сначала собираем DAMON — новый набор данных, содержащий плотные аннотации контакта на уровне вершин, сопоставленные с RGB-изображениями, включающими сложные взаимодействия человека с объектами и сценой. Во-вторых, мы обучаем DECO — новый детектор трехмерного контакта, который использует внимание, управляемое частями тела и контекстом сцены, для оценки контакта на уровне вершин модели SMPL. DECO основывается на идее, что человеческие наблюдатели распознают контакт, анализируя контактирующие части тела, их близость к объектам сцены и окружающий контекст. Мы проводим обширные оценки нашего детектора на DAMON, а также на наборах данных RICH и BEHAVE. Мы значительно превосходим существующие методы SOTA на всех тестах. Мы также качественно показываем, что DECO хорошо обобщается на разнообразные и сложные взаимодействия людей в реальных изображениях. Код, данные и модели доступны по адресу https://deco.is.tue.mpg.de.
В последнее время появилось множество исследований, утверждающих о возникновении когнитивных способностей у крупных языковых моделей (LLM). Однако большинство из них опираются на единичные примеры, игнорируют возможное загрязнение обучающих наборов данных или не проводят систематической оценки, включающей несколько задач, контрольные условия, многократные итерации и статистические тесты на устойчивость. В данной работе мы делаем два основных вклада. Во-первых, мы предлагаем CogEval — протокол, вдохновленный когнитивной наукой, для систематической оценки когнитивных способностей крупных языковых моделей. Протокол CogEval может быть использован для оценки различных способностей. Во-вторых, мы применяем CogEval для систематической оценки когнитивных карт и способности к планированию у восьми LLM (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B и Alpaca-7B). Наши задания основаны на экспериментах с участием людей, которые обеспечивают установленную конструктивную валидность для оценки планирования и отсутствуют в обучающих наборах данных LLM. Мы обнаружили, что, хотя LLM демонстрируют видимую компетентность в некоторых задачах планирования с более простой структурой, систематическая оценка выявляет серьезные недостатки в задачах планирования, включая галлюцинации недопустимых траекторий и зацикливание. Эти результаты не подтверждают идею о возникновении готовой способности к планированию у LLM. Это может быть связано с тем, что LLM не понимают скрытые реляционные структуры, лежащие в основе задач планирования, известные как когнитивные карты, и не могут строить целевые траектории на основе этих структур. Обсуждаются приложения и возможные направления для будущих исследований.
Настройка текстовых подсказок (textual prompt tuning) продемонстрировала значительное улучшение производительности при адаптации моделей обработки естественного языка к различным задачам за счет использования ручных подсказок в качестве обучаемых параметров. Вдохновленные успехом текстовых подсказок, несколько исследований изучили эффективность настройки визуальных подсказок. В данной работе мы представляем Visual Prompt Adaptation (VPA) — первую структуру, которая обобщает визуальные подсказки с адаптацией во время тестирования. VPA вводит небольшое количество обучаемых токенов, что позволяет осуществлять полностью адаптацию во время тестирования с высокой эффективностью хранения данных без необходимости информации из исходного домена. Мы исследуем нашу структуру VPA в различных условиях адаптации, включая адаптацию для одного изображения, пакетной обработки изображений и адаптацию с использованием псевдометок. Мы оцениваем VPA на множестве задач, включая обобщение на данных вне распределения (out-of-distribution, OOD), устойчивость к искажениям и адаптацию к домену. Экспериментальные результаты показывают, что VPA эффективно улучшает обобщение OOD на 3,3% для различных моделей, превосходя предыдущие подходы, применяемые во время тестирования. Кроме того, мы показываем, что VPA повышает устойчивость к искажениям на 6,5% по сравнению с сильными базовыми методами. Наконец, мы демонстрируем, что VPA также увеличивает производительность адаптации к домену на относительно 5,2%. Наша структура VPA также демонстрирует заметную эффективность в повышении устойчивости моделей распознавания с нулевым обучением для моделей, работающих с визуальными и текстовыми данными.