Ежедневно отобранные исследовательские статьи по ИИ с переводами
Архитектура Transformer состоит из двух основных компонентов, не связанных с эмбеддингами: механизма внимания (Attention) и полносвязной сети (Feed Forward Network, FFN). Механизм внимания улавливает взаимозависимости между словами независимо от их позиции, в то время как FFN нелинейно преобразует каждый входной токен независимо. В данной работе мы исследуем роль FFN и обнаруживаем, что, несмотря на значительную долю параметров модели, она обладает высокой избыточностью. Конкретно, мы можем существенно сократить количество параметров с лишь незначительным снижением точности, удалив FFN в слоях декодера и используя единую FFN для всех слоев энкодера. В завершение мы масштабируем эту архитектуру до исходного размера, увеличивая скрытую размерность общей FFN, что приводит к значительному улучшению как точности, так и задержки по сравнению с оригинальной моделью Transformer Big.
Предыдущие анимируемые 3D-осознанные GAN для генерации человека в основном сосредотачивались либо на голове, либо на полном теле. Однако видео, содержащие только голову, относительно редки в реальной жизни, а генерация полного тела обычно не включает контроль над мимикой и по-прежнему сталкивается с трудностями в создании высококачественных результатов. В направлении создания применимых видеоаватаров мы представляем анимируемую 3D-осознанную GAN, которая генерирует портретные изображения с управляемой мимикой, позой головы и движениями плеч. Это генеративная модель, обученная на неструктурированных коллекциях 2D-изображений без использования 3D или видео данных. Для новой задачи мы основываем наш метод на генеративном представлении излучающего многообразия и оснащаем его обучаемыми деформациями лица и головы-плеч. Предложена схема рендеринга с использованием двух камер и состязательного обучения для повышения качества генерируемых лиц, что критически важно для портретных изображений. Разработана сеть обработки деформаций позы для создания правдоподобных деформаций в сложных областях, таких как длинные волосы. Эксперименты показывают, что наш метод, обученный на неструктурированных 2D-изображениях, способен генерировать разнообразные и высококачественные 3D-портреты с желаемым контролем над различными свойствами.
Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности в понимании человеческих намерений, участии в рассуждениях и проектировании поведения, напоминающего планирование. Чтобы в полной мере раскрыть потенциал LLM для выполнения сложных задач, наблюдается растущая тенденция к созданию агентских фреймворков, которые наделяют LLM, такие как ChatGPT, способностью использовать инструменты для взаимодействия с многочисленными внешними API. В данной работе мы представляем ModelScope-Agent — универсальный и настраиваемый агентский фреймворк для реальных приложений, основанный на открытых LLM в качестве контроллеров. Он предоставляет удобную системную библиотеку с настраиваемым дизайном движка для поддержки обучения моделей на нескольких открытых LLM, а также обеспечивает бесшовную интеграцию как с модельными API, так и с общедоступными API в едином формате. Чтобы наделить LLM способностью использовать инструменты, предложен комплексный фреймворк, охватывающий сбор данных об использовании инструментов, их поиск, регистрацию, управление памятью, обучение настраиваемых моделей и оценку для практических применений в реальном мире. Наконец, мы демонстрируем ModelScopeGPT — интеллектуального помощника сообщества ModelScope, основанного на фреймворке ModelScope-Agent, который способен связывать открытые LLM с более чем 1000 публичными моделями ИИ и локальными знаниями сообщества в ModelScope. Библиотека ModelScope-Agent (https://github.com/modelscope/modelscope-agent) и онлайн-демонстрация (https://modelscope.cn/studios/damo/ModelScopeGPT/summary) теперь доступны для публичного использования.
Реконструкция материала по фотографии является ключевым компонентом демократизации создания 3D-контента. Мы предлагаем сформулировать эту некорректно поставленную задачу как задачу управляемого синтеза, используя последние достижения в области генеративных глубоких сетей. Мы представляем ControlMat — метод, который, получая на вход одну фотографию с неконтролируемым освещением, использует диффузионную модель для генерации правдоподобных, тайлируемых, высококачественных цифровых материалов на основе физических принципов. Мы тщательно анализируем поведение диффузионных моделей для многоканальных выходных данных, адаптируем процесс сэмплинга для слияния информации на разных масштабах и вводим метод "rolled diffusion" для обеспечения тайлируемости, а также "patched diffusion" для получения высококачественных результатов. Наш генеративный подход также позволяет исследовать разнообразие материалов, которые могут соответствовать входному изображению, смягчая влияние неизвестных условий освещения. Мы демонстрируем, что наш подход превосходит современные методы вывода и оптимизации в латентном пространстве, и тщательно проверяем наши проектные решения в рамках диффузионного процесса. Дополнительные материалы и подробности доступны по адресу: https://gvecchio.com/controlmat/.
Обучение с подкреплением с использованием человеческой обратной связи (RLHF) произвело революцию в моделировании языка, согласовывая модели с предпочтениями человека. Однако этап обучения с подкреплением, метод оптимизации проксимальной политики (PPO), требует более чем в 3 раза больше памяти, чем тонкая настройка с учителем (SFT), что делает его недоступным для большинства практиков. Для решения этой проблемы мы представляем всесторонний анализ использования памяти, производительности и времени обучения для методов экономии памяти в PPO. Мы представляем Hydra-RLHF, сначала интегрируя модели SFT и вознаграждения, а затем динамически отключая LoRA во время обучения. Наши эксперименты показывают: 1. Использование LoRA в PPO снижает использование памяти до уровня ниже, чем у SFT, одновременно улучшая согласованность на четырех публичных бенчмарках, и 2. Hydra-PPO снижает задержку на образец для LoRA-PPO до 65%, сохраняя при этом его производительность. Наши результаты демонстрируют, что Hydra-PPO является простым и перспективным решением для более широкого использования RLHF.
Речь передает больше информации, чем просто текст, так как одно и то же слово может быть произнесено разными голосами для передачи различной информации. По сравнению с традиционными методами преобразования текста в речь (TTS), которые полагаются на речевые подсказки (референсная речь) для вариативности голоса, использование текстовых подсказок (описаний) более удобно для пользователя, поскольку речевые подсказки могут быть труднодоступны или вовсе отсутствовать. TTS-подходы, основанные на текстовых подсказках, сталкиваются с двумя проблемами: 1) проблема "один ко многим", когда не все детали о вариативности голоса могут быть описаны в текстовой подсказке, и 2) ограниченная доступность наборов данных с текстовыми подсказками, где требуются поставщики и высокие затраты на разметку данных для создания текстовых подсказок для речи. В данной работе мы представляем PromptTTS 2, чтобы решить эти проблемы с помощью вариационной сети, которая предоставляет информацию о вариативности голоса, не охваченную текстовыми подсказками, и конвейера генерации подсказок, который использует большие языковые модели (LLM) для создания высококачественных текстовых подсказок. В частности, вариационная сеть предсказывает представление, извлеченное из референсной речи (которая содержит полную информацию о голосе), на основе представления текстовой подсказки. Что касается конвейера генерации подсказок, он создает текстовые подсказки для речи с помощью модели понимания речи для распознавания атрибутов голоса (например, пол, скорость) из речи и большой языковой модели для формулирования текстовой подсказки на основе результатов распознавания. Эксперименты на крупномасштабном наборе данных (44 тыс. часов) демонстрируют, что по сравнению с предыдущими работами PromptTTS 2 генерирует голоса, более соответствующие текстовым подсказкам, и поддерживает выборку разнообразной вариативности голоса, тем самым предоставляя пользователям больше возможностей для генерации голоса. Кроме того, конвейер генерации подсказок создает высококачественные подсказки, устраняя высокие затраты на разметку. Демонстрационная страница PromptTTS 2 доступна онлайн: https://speechresearch.github.io/prompttts2.
Видеоаутпейнтинг направлен на адекватное заполнение отсутствующих областей по краям видеокадров. По сравнению с аутпейнтингом изображений, он представляет дополнительную сложность, так как модель должна поддерживать временную согласованность заполненной области. В данной статье мы представляем маскированную 3D диффузионную модель для видеоаутпейнтинга. Мы используем технику маскированного моделирования для обучения 3D диффузионной модели. Это позволяет нам использовать несколько направляющих кадров для соединения результатов множественных выводов видеоклипов, обеспечивая тем самым временную согласованность и уменьшая дрожание между соседними кадрами. В то же время мы извлекаем глобальные кадры видео в качестве подсказок и направляем модель на получение информации, выходящей за пределы текущего видеоклипа, с помощью кросс-внимания. Мы также вводим гибридный процесс вывода от грубого к точному, чтобы смягчить проблему накопления артефактов. Существующий процесс от грубого к точному использует только стратегию заполнения, что приводит к ухудшению из-за слишком большого временного интервала между редкими кадрами. Наш процесс выигрывает от двунаправленного обучения маскированного моделирования и, таким образом, может применять гибридную стратегию заполнения и интерполяции при генерации редких кадров. Эксперименты показывают, что наш метод достигает передовых результатов в задачах видеоаутпейнтинга. Дополнительные результаты представлены на нашем сайте https://fanfanda.github.io/M3DDM/.
В данной статье представлен метод генерации стилизованных изображений без использования LoRA, который принимает текстовый запрос и эталонные изображения стиля в качестве входных данных и создает выходное изображение за один проход. В отличие от существующих методов, которые требуют обучения отдельного LoRA для каждого стиля, наш метод способен адаптироваться к различным стилям с помощью единой модели. Однако это создает две проблемы: 1) запрос теряет управляемость над генерируемым содержимым, и 2) выходное изображение наследует как семантические, так и стилевые особенности эталонного изображения, что снижает точность передачи содержания. Для решения этих проблем мы представляем StyleAdapter — модель, состоящую из двух компонентов: модуля двухпутевого кросс-внимания (TPCA) и трех стратегий разделения. Эти компоненты позволяют модели обрабатывать признаки запроса и эталонного стиля отдельно и уменьшают сильную связь между семантической и стилевой информацией в эталонных изображениях. StyleAdapter способен генерировать высококачественные изображения, которые соответствуют содержанию запросов и перенимают стиль эталонов (даже для ранее не встречавшихся стилей) за один проход, что делает метод более гибким и эффективным по сравнению с предыдущими подходами. Проведенные эксперименты демонстрируют превосходство нашего метода над существующими решениями.
Мы рассматриваем задачу визуального различения, которая заключается в определении, изображает ли пара визуально схожих изображений одну и ту же или различные 3D поверхности (например, одну и ту же или противоположные стороны симметричного здания). Иллюзорные совпадения изображений, где два изображения показывают различные, но визуально схожие 3D поверхности, могут быть сложными для различения даже для человека, а также могут приводить к ошибочным результатам в алгоритмах 3D-реконструкции. Мы предлагаем подход к визуальному различению на основе машинного обучения, формулируя его как задачу бинарной классификации для пар изображений. Для этого мы представляем новый набор данных для этой задачи, Doppelgangers, который включает пары изображений схожих структур с эталонными метками. Мы также разрабатываем архитектуру сети, которая принимает на вход пространственное распределение локальных ключевых точек и совпадений, что позволяет лучше учитывать как локальные, так и глобальные признаки. Наша оценка показывает, что наш метод способен различать иллюзорные совпадения в сложных случаях и может быть интегрирован в конвейеры SfM для получения корректных, разобранных 3D-реконструкций. Дополнительные сведения, включая код, наборы данных и результаты, доступны на странице проекта: http://doppelgangers-3d.github.io/.
Последние архитектурные разработки позволили рекуррентным нейронным сетям (RNN) достичь и даже превзойти производительность трансформеров в определенных задачах моделирования последовательностей. Эти современные RNN характеризуются заметным паттерном проектирования: линейные рекуррентные слои, соединенные через прямые пути с мультипликативным управлением. В данной работе мы показываем, как RNN, оснащенные этими двумя элементами проектирования, могут точно реализовать (линейное) самовнимание — основной строительный блок трансформеров. Обратно инженерно анализируя набор обученных RNN, мы обнаруживаем, что градиентный спуск на практике находит нашу конструкцию. В частности, мы исследуем RNN, обученные решать простые задачи обучения в контексте, в которых трансформеры известны своим превосходством, и обнаруживаем, что градиентный спуск внедряет в наши RNN тот же алгоритм обучения в контексте на основе внимания, который используется трансформерами. Наши результаты подчеркивают важность мультипликативных взаимодействий в нейронных сетях и предполагают, что определенные RNN могут неожиданно реализовывать механизмы внимания "под капотом".
Мы представляем Contrastive Feature Masking Vision Transformer (CFM-ViT) — метод предварительного обучения на основе изображений и текста, который обеспечивает одновременное изучение представлений на уровне изображений и регионов для задачи обнаружения объектов с открытым словарём (OVD). Наш подход объединяет цель маскированного автокодировщика (MAE) с целью контрастивного обучения для улучшения представлений, используемых в задачах локализации. В отличие от стандартного MAE, мы выполняем реконструкцию в совместном пространстве встраивания изображений и текста, а не в пространстве пикселей, как это принято в классическом методе MAE, что позволяет модели лучше изучать семантику на уровне регионов. Кроме того, мы вводим Positional Embedding Dropout (PED) для решения проблемы вариации масштаба между предварительным обучением на изображениях и текстах и тонкой настройкой для обнаружения, случайным образом исключая позиционные вложения во время предварительного обучения. PED улучшает производительность обнаружения и позволяет использовать замороженный ViT в качестве классификатора регионов, предотвращая забывание знаний с открытым словарём во время тонкой настройки для обнаружения. На бенчмарке LVIS для обнаружения с открытым словарём CFM-ViT достигает наилучшего результата в 33.9 APr, превосходя лучший подход на 7.6 пунктов и демонстрируя лучший перенос для нулевого обнаружения. Наконец, CFM-ViT демонстрирует сильное представление на уровне изображений, превосходя современные методы по 8 из 12 метрик на бенчмарках нулевого поиска изображений и текста.
В данной статье представлен подход к обучению решению задач непрерывного удовлетворения ограничений (CCSP) в роботизированных рассуждениях и планировании. Предыдущие методы в основном полагаются на ручное проектирование или обучение генераторов для конкретных типов ограничений с последующим отклонением назначений значений при нарушении других ограничений. В отличие от этого, наша модель, композиционный решатель непрерывных ограничений на основе диффузии (Diffusion-CCSP), выводит глобальные решения для CCSP, представляя их в виде факторных графов и комбинируя энергии моделей диффузии, обученных для выборки для отдельных типов ограничений. Diffusion-CCSP демонстрирует сильную обобщаемость для новых комбинаций известных ограничений и может быть интегрирован в планировщик задач и движений для разработки долгосрочных планов, включающих действия как с дискретными, так и с непрерывными параметрами. Сайт проекта: https://diffusion-ccsp.github.io/
В данной статье рассматривается проблема изменения визуального оформления видео с сохранением их движения. Предлагается новый подход под названием MagicProp, который разделяет процесс редактирования видео на два этапа: редактирование внешнего вида и распространение внешнего вида с учетом движения. На первом этапе MagicProp выбирает один кадр из входного видео и применяет методы редактирования изображений для изменения содержания и/или стиля кадра. Гибкость этих методов позволяет редактировать произвольные области в пределах кадра. На втором этапе MagicProp использует отредактированный кадр в качестве эталона внешнего вида и генерирует оставшиеся кадры с помощью авторегрессивного подхода к рендерингу. Для этого разработана диффузионная модель условной генерации PropDPM, которая синтезирует целевой кадр, учитывая эталонный внешний вид, целевое движение и предыдущий внешний вид. Авторегрессивный подход к редактированию обеспечивает временную согласованность в результирующих видео. В целом, MagicProp сочетает гибкость методов редактирования изображений с превосходной временной согласованностью авторегрессивного моделирования, позволяя гибко редактировать типы объектов и эстетические стили в произвольных областях входных видео при сохранении хорошей временной согласованности между кадрами. Многочисленные эксперименты в различных сценариях редактирования видео демонстрируют эффективность MagicProp.
Обратное проектирование относится к задаче оптимизации входных данных целевой функции для достижения целевого результата. Для многих реальных инженерных задач целевая функция принимает форму симулятора, который предсказывает, как состояние системы будет изменяться со временем, а задача проектирования заключается в оптимизации начальных условий, приводящих к целевому результату. Недавние разработки в области обученных симуляций показали, что графовые нейронные сети (GNN) могут использоваться для точной, эффективной и дифференцируемой оценки динамики симулятора, а также поддерживают высококачественную оптимизацию проектирования с использованием градиентных или сэмплинг-ориентированных процедур оптимизации. Однако оптимизация проектов с нуля требует множества дорогостоящих запросов к модели, и эти процедуры демонстрируют фундаментальные недостатки в случае невыпуклых или высокоразмерных задач. В данной работе мы показываем, как модели диффузии с шумоподавлением (DDM) могут быть использованы для эффективного решения задач обратного проектирования, и предлагаем алгоритм сэмплирования частиц для дальнейшего повышения их эффективности. Мы проводим эксперименты на ряде задач проектирования в области гидродинамики и обнаруживаем, что наш подход существенно сокращает количество вызовов симулятора по сравнению со стандартными методами.
Многие задачи манипуляции в реальном мире состоят из серии подзадач, которые значительно отличаются друг от друга. Такие долгосрочные и сложные задачи подчеркивают потенциал ловких манипуляторов, которые обладают адаптивностью и универсальностью, способны плавно переключаться между различными режимами функционирования без необходимости повторного захвата или использования внешних инструментов. Однако возникают сложности из-за высокоразмерного пространства действий ловкого манипулятора и сложной композиционной динамики долгосрочных задач. Мы представляем Sequential Dexterity — универсальную систему, основанную на обучении с подкреплением (RL), которая объединяет несколько политик для ловких манипуляций с целью достижения долгосрочных задач. Основой системы является функция оценки осуществимости переходов, которая постепенно дорабатывает подполитики для повышения успешности их объединения, а также обеспечивает автономное переключение политик для восстановления после сбоев и пропуска избыточных этапов. Несмотря на обучение только в симуляции с использованием ограниченного набора объектов, наша система демонстрирует способность к обобщению на новые формы объектов и может быть перенесена без дообучения на реального робота, оснащенного ловким манипулятором. Дополнительные подробности и видеорезультаты доступны по ссылке: https://sequential-dexterity.github.io.