Ежедневно отобранные исследовательские статьи по ИИ с переводами
Водяные знаки на выходных данных генеративных моделей являются важной техникой для отслеживания авторских прав и предотвращения потенциального вреда от контента, созданного с помощью ИИ. В данной статье мы представляем новую методику под названием Tree-Ring Watermarking, которая надежно создает цифровые отпечатки на выходных данных диффузионных моделей. В отличие от существующих методов, которые вносят изменения в изображения после их генерации, Tree-Ring Watermarking тонко влияет на весь процесс выборки, создавая отпечаток модели, невидимый для человека. Водяной знак встраивает паттерн в начальный вектор шума, используемый для выборки. Эти паттерны структурированы в частотной области (пространстве Фурье), что делает их устойчивыми к сверткам, обрезкам, масштабированию, отражениям и поворотам. После генерации изображения сигнал водяного знака обнаруживается путем инвертирования процесса диффузии для извлечения вектора шума, который затем проверяется на наличие встроенного сигнала. Мы показываем, что эту технику можно легко применить к произвольным диффузионным моделям, включая текстово-обусловленную Stable Diffusion, в качестве плагина с незначительной потерей в метрике FID. Наш водяной знак семантически скрыт в пространстве изображений и значительно более устойчив, чем альтернативные методы водяных знаков, используемые в настоящее время. Код доступен по адресу github.com/YuxinWenRick/tree-ring-watermark.
Трансформеры — крупные языковые модели (LLM) — вызывают восхищение благодаря их выдающейся производительности в задачах, требующих сложного многошагового рассуждения. Однако эти модели одновременно демонстрируют ошибки в удивительно простых задачах. Это ставит вопрос: являются ли эти ошибки случайными или они указывают на более существенные ограничения? В попытке разобраться в природе трансформеров мы исследуем их пределы на трёх репрезентативных композиционных задачах: умножение многозначных чисел, логические головоломки и классическая задача динамического программирования. Эти задачи требуют разбиения проблемы на подзадачи и синтеза промежуточных шагов в точный ответ. Мы формулируем композиционные задачи в виде вычислительных графов, чтобы систематически оценить уровень сложности, и разбиваем шаги рассуждения на промежуточные подпроцедуры. Наши эмпирические результаты показывают, что трансформеры решают композиционные задачи, сводя многошаговое композиционное рассуждение к линейному сопоставлению подграфов, не обязательно развивая систематические навыки решения задач. В завершение нашего эмпирического исследования мы приводим теоретические аргументы на примере абстрактных многошаговых задач, которые показывают, как производительность трансформеров быстро ухудшается с увеличением сложности задачи.
Автоматический синтез 3D-моделей из текста достиг значительных успехов благодаря оптимизации 3D-моделей. Существующие методы обычно полагаются на предварительно обученные генеративные модели для преобразования текста в изображения, такие как диффузионные модели, которые предоставляют оценки для 2D-рендеров Neural Radiance Fields (NeRF) и используются для оптимизации NeRF. Однако эти методы часто сталкиваются с артефактами и несогласованностью между несколькими видами из-за их ограниченного понимания 3D-геометрии. Чтобы устранить эти ограничения, мы предлагаем переформулировать функцию потерь оптимизации с использованием диффузионного априори. Кроме того, мы представляем новый подход к обучению, который раскрывает потенциал диффузионного априори. Для улучшения представления 3D-геометрии мы применяем дополнительное управление по глубине для изображений, рендеренных с помощью NeRF, и регуляризуем поле плотности NeRF. Многочисленные эксперименты демонстрируют превосходство нашего метода над предыдущими работами, что приводит к повышенному фотореализму и улучшенной согласованности между несколькими видами.
Недавние достижения в области диффузионных моделей для работы с изображениями и текстом стимулировали интерес к исследованиям в области крупномасштабных 3D-генеративных моделей. Тем не менее, ограниченная доступность разнообразных 3D-ресурсов представляет значительные трудности для обучения. В данной статье мы представляем новый метод генерации высококачественных стилизованных 3D-аватаров, который использует предварительно обученные диффузионные модели для работы с изображениями и текстом для генерации данных и сеть на основе генеративно-состязательной сети (GAN) для 3D-генерации. Наш метод использует обширные априорные знания о внешнем виде и геометрии, предоставляемые диффузионными моделями, для генерации многовидовых изображений аватаров в различных стилях. В процессе генерации данных мы используем позы, извлеченные из существующих 3D-моделей, для управления созданием многовидовых изображений. Для устранения несоответствия между позами и изображениями в данных мы исследуем специфичные для вида подсказки и разрабатываем дискриминатор от грубого к точному для обучения GAN. Мы также углубляемся в подсказки, связанные с атрибутами, чтобы увеличить разнообразие генерируемых аватаров. Кроме того, мы разрабатываем латентную диффузионную модель в пространстве стилей StyleGAN, чтобы обеспечить генерацию аватаров на основе входных изображений. Наш подход демонстрирует превосходную производительность по сравнению с современными методами с точки зрения визуального качества и разнообразия создаваемых аватаров.
В данной статье представлен новый речевой набор данных под названием ``LibriTTS-R'', предназначенный для использования в задачах синтеза речи (Text-to-Speech, TTS). Он создан путем применения методов восстановления речи к корпусу LibriTTS, который содержит 585 часов речевых данных с частотой дискретизации 24 кГц от 2 456 дикторов и соответствующие тексты. Составные образцы LibriTTS-R идентичны таковым в LibriTTS, с улучшенным качеством звука. Экспериментальные результаты показывают, что эталонные образцы LibriTTS-R демонстрируют значительно более высокое качество звука по сравнению с образцами из LibriTTS. Кроме того, нейронные end-to-end модели TTS, обученные на LibriTTS-R, достигают уровня естественности речи, сопоставимого с эталонными образцами. Корпус доступен для свободного скачивания по адресу http://www.openslr.org/141/.
Последние достижения в области диффузионных моделей позволили генерировать высококачественные изображения с использованием текстовых запросов. Однако существует разрыв между сгенерированными изображениями и изображениями из реального мира, что создает сложности в создании высококачественных вариаций реальных изображений. Наше исследование показывает, что этот разрыв обусловлен различиями в распределении латентных переменных в различных процессах диффузии. Для решения этой проблемы мы предлагаем новый подход к генерации, названный Real-world Image Variation by ALignment (RIVAL), который использует диффузионные модели для создания вариаций изображений на основе одного образца. Наш подход улучшает качество генерации вариаций за счет согласования процесса генерации изображений с цепочкой инверсии исходного изображения. В частности, мы демонстрируем, что пошаговое согласование распределения латентных переменных является ключевым для создания высококачественных вариаций. Для достижения этого мы разработали механизм инъекции кросс-изображенийого self-attention для взаимодействия признаков и пошаговую нормализацию распределения для согласования латентных признаков. Включение этих процессов согласования в диффузионную модель позволяет RIVAL генерировать высококачественные вариации изображений без дополнительной оптимизации параметров. Результаты экспериментов показывают, что наш подход превосходит существующие методы по сходству с семантическими условиями и перцептивному качеству. Более того, этот обобщенный подход может быть легко применен к другим задачам генерации на основе диффузии, таким как генерация изображений на основе текста с условием изображения и восстановление изображений на основе примеров.
Крупные языковые модели (LLM) способны обучаться выполнению широкого спектра задач обработки естественного языка, используя всего несколько примеров в контексте. Однако для генерации строк на основе высокоструктурированных языков (например, семантического анализа в сложных предметно-ориентированных языках) LLM сложно обобщать на основе небольшого числа примеров. Мы исследуем подход грамматического подсказывания как простой способ, позволяющий LLM использовать внешние знания и предметно-ориентированные ограничения, выраженные через грамматику в форме Бэкуса — Наура (BNF), в процессе обучения в контексте. Грамматическое подсказывание дополняет каждый демонстрационный пример специализированной грамматикой, минимально достаточной для генерации конкретного выходного примера, где специализированная грамматика является подмножеством полной грамматики предметно-ориентированного языка. На этапе вывода LLM сначала предсказывает грамматику BNF для тестового входного данных, а затем генерирует выходные данные в соответствии с правилами этой грамматики. Эксперименты показывают, что грамматическое подсказывание позволяет LLM достигать конкурентоспособных результатов на разнообразных задачах генерации предметно-ориентированных языков, включая семантический анализ (SMCalFlow, Overnight, GeoQuery), планирование в PDDL и даже генерацию молекул (SMILES).
Мы представляем методику обучения и результаты масштабирования модели PaLI-X, мультиязычной модели для обработки изображений и текста, как в плане размера компонентов, так и в плане разнообразия смеси обучающих задач. Наша модель достигает новых уровней производительности на широком спектре разнообразных и сложных задач, включая создание описаний и ответы на вопросы на основе изображений, понимание документов на основе изображений и обучение с малым количеством примеров (в контексте), а также обнаружение объектов, ответы на вопросы по видео и создание описаний видео. PaLI-X устанавливает новый уровень на большинстве рассмотренных бенчмарков для задач обработки изображений и текста (более 25). Наконец, мы наблюдаем появление новых способностей, таких как сложный подсчет и мультиязычное обнаружение объектов, задач, которые явно не включены в обучающую смесь.
Крупные диффузионные модели достигли успеха в задачах синтеза аудио из текста (T2A), однако они часто сталкиваются с такими проблемами, как семантическое несоответствие и низкая временная согласованность, что обусловлено ограниченным пониманием естественного языка и недостатком данных. Кроме того, двумерные пространственные структуры, широко используемые в работах по T2A, приводят к неудовлетворительному качеству аудио при генерации образцов переменной длины, поскольку они недостаточно учитывают временную информацию. Для решения этих проблем мы предлагаем Make-an-Audio 2 — метод T2A на основе латентной диффузии, который развивает успех Make-an-Audio. Наш подход включает несколько техник для улучшения семантического соответствия и временной согласованности: во-первых, мы используем предобученные крупные языковые модели (LLM) для разбора текста в структурированные пары <событие & порядок>, что позволяет лучше учитывать временную информацию. Мы также вводим дополнительный структурированный текстовый кодировщик, который помогает изучать семантическое соответствие в процессе денойзинга диффузии. Для повышения производительности генерации переменной длины и улучшения извлечения временной информации мы разработали диффузионный денойзер на основе прямого трансформера. Наконец, мы используем LLM для расширения и преобразования большого количества данных с аудио-метками в аудио-текстовые наборы данных, чтобы смягчить проблему нехватки временных данных. Многочисленные эксперименты показывают, что наш метод превосходит базовые модели как по объективным, так и по субъективным метрикам, достигая значительных улучшений в понимании временной информации, семантической согласованности и качестве звука.
В данной статье представлен метод, позволяющий быстро адаптировать динамические 3D-аватары к произвольным текстовым описаниям новых стилей. Среди существующих подходов к стилизации аватаров методы прямой оптимизации могут давать превосходные результаты для произвольных стилей, но они крайне медленны. Кроме того, они требуют повторного выполнения процесса оптимизации с нуля для каждого нового входного запроса. Быстрые аппроксимационные методы, использующие прямые нейронные сети, обученные на большом наборе данных стилевых изображений, могут быстро генерировать результаты для новых запросов, но они плохо обобщаются на новые стили и уступают по качеству. Поэтому мы исследуем новый подход, AlteredAvatar, который объединяет эти два метода в рамках метаобучения. Во внутреннем цикле модель учится оптимизироваться для соответствия одному целевому стилю, а во внешнем цикле модель учится эффективно стилизовать аватары для множества стилей. После обучения AlteredAvatar осваивает начальную конфигурацию, которая может быстро адаптироваться за небольшое количество шагов обновления к новому стилю, заданному с помощью текста, эталонного изображения или их комбинации. Мы показываем, что AlteredAvatar достигает хорошего баланса между скоростью, гибкостью и качеством, сохраняя согласованность для широкого диапазона новых ракурсов и мимических выражений.
Мы предлагаем автоматизированный алгоритм для стресс-тестирования обученной визуальной модели путем генерации контрфактуальных тестовых изображений, управляемых языковыми инструкциями (LANCE). Наш метод использует последние достижения в области крупномасштабного языкового моделирования и редактирования изображений на основе текста для расширения независимо и одинаково распределенного (IID) тестового набора разнообразными, реалистичными и сложными тестовыми изображениями без изменения весов модели. Мы оцениваем производительность различных предобученных моделей на наших сгенерированных данных и наблюдаем значительное и устойчивое снижение их показателей. Дополнительно мы анализируем чувствительность моделей к различным типам изменений и демонстрируем применимость нашего подхода для выявления ранее неизвестных предубеждений на уровне классов в модели ImageNet.
Задачи, связанные с геометрическими данными, возникают в различных областях, включая компьютерное зрение, робототехнику, химию и физику. Такие данные могут принимать множество форм, таких как точки, направляющие векторы, плоскости или преобразования, но на сегодняшний день не существует единой архитектуры, которая могла бы быть применена к такому широкому разнообразию геометрических типов, учитывая их симметрии. В данной статье мы представляем Geometric Algebra Transformer (GATr) — универсальную архитектуру для работы с геометрическими данными. GATr представляет входные данные, выходные данные и скрытые состояния в проективной геометрической алгебре, которая предлагает эффективное 16-мерное векторное пространство для представления распространённых геометрических объектов, а также операторов, действующих на них. GATr является эквивариантным относительно группы симметрии E(3) трёхмерного евклидова пространства. Как трансформер, GATr масштабируем, выразителен и универсален. В экспериментах с моделированием n-тел и планированием в робототехнике GATr демонстрирует значительные улучшения по сравнению с негеометрическими базовыми подходами.
Диффузионные модели представляют собой современный подход к генерации изображений, синтезируя высококачественные изображения путем разложения процесса генерации на множество мелкозернистых шагов удаления шума. Несмотря на их высокую производительность, диффузионные модели требуют значительных вычислительных ресурсов, включая множество оценок нейронных функций (NFEs). В данной работе мы предлагаем метод на основе диффузии, который способен генерировать приемлемые изображения при остановке в произвольные моменты времени до завершения процесса. Используя предобученные диффузионные модели, мы демонстрируем, что схему генерации можно перестроить в виде двух вложенных диффузионных процессов, что позволяет быстро итеративно улучшать сгенерированное изображение. Мы применяем этот подход, называемый Вложенной Диффузией, чтобы заглянуть внутрь процесса генерации и обеспечить гибкое планирование на основе мгновенных предпочтений пользователя. В экспериментах на данных ImageNet и в задаче генерации изображений по тексту с использованием Stable Diffusion мы показываем как качественно, так и количественно, что промежуточное качество генерации нашего метода значительно превосходит исходную диффузионную модель, при этом итоговый результат медленной генерации остается сопоставимым.
Понимание рекламных изображений является важной задачей с широким спектром практических применений. Несмотря на высокую сложность, связанную с разнообразием нетипичных сцен, реальных объектов и необходимостью анализа текстов в изображениях, интерпретация рекламных изображений остается недостаточно изученной, особенно в эпоху базовых моделей обработки визуальной и текстовой информации (VLMs), которые демонстрируют впечатляющую обобщаемость и адаптивность. В данной работе мы проводим первое эмпирическое исследование понимания рекламных изображений с использованием предобученных VLMs. Мы оцениваем и выявляем практические трудности адаптации этих моделей к задаче понимания рекламных изображений. Мы предлагаем простую стратегию адаптации признаков для эффективного объединения мультимодальной информации в рекламных изображениях и дополнительно усиливаем её знаниями о реальных объектах. Мы надеемся, что наше исследование привлечет больше внимания к пониманию рекламных изображений, что имеет широкое значение для рекламной индустрии.