Ежедневно отобранные исследовательские статьи по ИИ с переводами
Диффузионные модели в настоящее время доминируют в области синтеза изображений на основе данных благодаря их беспрецедентной масштабируемости на больших наборах данных. В данной статье мы выявляем и устраняем несколько причин неравномерного и неэффективного обучения в популярной архитектуре диффузионной модели ADM, не изменяя её высокоуровневую структуру. Наблюдая неконтролируемые изменения величин и дисбалансы как в активациях сети, так и в весах в процессе обучения, мы перепроектируем слои сети для сохранения ожидаемых величин активаций, весов и обновлений. Мы обнаруживаем, что систематическое применение этого подхода устраняет наблюдаемые сдвиги и дисбалансы, что приводит к значительно лучшим сетям при той же вычислительной сложности. Наши модификации улучшают предыдущий рекордный показатель FID, равный 2.41 для синтеза ImageNet-512, до 1.81, достигнутого с использованием быстрого детерминированного сэмплирования. В качестве независимого вклада мы представляем метод для установки параметров экспоненциального скользящего среднего (EMA) постфактум, то есть после завершения обучения. Это позволяет точно настраивать длину EMA без затрат на выполнение нескольких обучающих прогонов и выявляет его удивительные взаимодействия с архитектурой сети, временем обучения и управлением.
Мы представляем "ImageDream" — инновационную модель диффузии с использованием изображений в качестве подсказок для генерации многовидовых 3D-объектов. ImageDream выделяется своей способностью создавать 3D-модели более высокого качества по сравнению с современными методами, основанными на изображениях. Наш подход использует каноническую систему координат камеры для объектов на изображениях, что повышает точность визуальной геометрии. Модель разработана с различными уровнями контроля на каждом блоке внутри модели диффузии, основанными на входном изображении, где глобальный контроль формирует общую компоновку объекта, а локальный контроль тонко настраивает детали изображения. Эффективность ImageDemonстрируется через обширные оценки с использованием стандартного списка подсказок. Для получения дополнительной информации посетите страницу нашего проекта по адресу https://Image-Dream.github.io.
Точность переосвещения ограничена как геометрическими, так и визуальными представлениями. В случае геометрии, как сеточные, так и объемные подходы испытывают трудности с моделированием сложных структур, таких как трехмерная геометрия волос. Что касается визуализации, существующие модели переосвещения ограничены в точности и часто слишком медленны для рендеринга в реальном времени с высоким разрешением в непрерывных средах. В данной работе мы представляем метод "Переосвещаемые аватары на основе гауссовых кодеков", который позволяет создавать высокоточные переосвещаемые аватары головы, способные анимироваться для генерации новых выражений. Наша геометрическая модель, основанная на 3D-гауссовых функциях, способна захватывать трехмерно согласованные детали субмиллиметрового масштаба, такие как пряди волос и поры на динамических последовательностях лица. Для поддержки разнообразных материалов человеческой головы, таких как глаза, кожа и волосы, в единой манере, мы представляем новую модель переосвещаемого внешнего вида, основанную на обучаемом переносе излучения. В сочетании со сферическими гармониками, учитывающими глобальное освещение для диффузных компонентов, мы достигаем переосвещения в реальном времени с пространственно-частотными отражениями с использованием сферических гауссовых функций. Эта модель внешнего вида может эффективно переосвещаться как при точечном, так и при непрерывном освещении. Мы дополнительно повышаем точность отражений глаз и обеспечиваем явное управление взглядом, вводя переосвещаемые явные модели глаз. Наш метод превосходит существующие подходы без ущерба для производительности в реальном времени. Мы также демонстрируем переосвещение аватаров в реальном времени на потребительском VR-шлеме с кабельным подключением, что подчеркивает эффективность и точность наших аватаров.
Мы представляем X-Adapter — универсальный апгрейдер, который позволяет предварительно обученным модулям plug-and-play (например, ControlNet, LoRA) работать напрямую с обновленной моделью генерации изображений из текста (например, SDXL) без дополнительного переобучения. Мы достигаем этой цели, обучая дополнительную сеть для управления замороженной обновленной моделью с использованием новых пар текст-изображение. В частности, X-Adapter сохраняет замороженную копию старой модели, чтобы сохранить соединения различных плагинов. Кроме того, X-Adapter добавляет обучаемые слои отображения, которые связывают декодеры моделей разных версий для пересопоставления признаков. Пересопоставленные признаки будут использоваться в качестве руководства для обновленной модели. Для повышения способности X-Adapter к управлению мы применяем стратегию обучения с нулевым текстом для обновленной модели. После обучения мы также вводим двухэтапную стратегию шумоподавления для согласования начальных латентных переменных X-Adapter и обновленной модели. Благодаря нашим стратегиям, X-Adapter демонстрирует универсальную совместимость с различными плагинами, а также позволяет плагинам разных версий работать вместе, расширяя функциональность сообщества диффузионных моделей. Для проверки эффективности предложенного метода мы проводим обширные эксперименты, и результаты показывают, что X-Adapter может способствовать более широкому применению в обновленной базовой диффузионной модели.
Мультимодальные большие языковые модели (MLLM) привлекают значительное внимание благодаря их мощным возможностям в понимании мультимодальных данных. Однако существующие подходы в значительной степени зависят от специализированных кодировщиков для каждой модальности, которые обычно различаются по архитектуре и ограничены распространёнными модальностями. В данной статье мы представляем OneLLM — MLLM, которая объединяет восемь модальностей с языком с использованием единой архитектуры. Мы достигаем этого за счёт унифицированного мультимодального кодировщика и прогрессивного конвейера выравнивания модальностей. В частности, мы сначала обучаем модуль проекции изображений для связи визуального кодировщика с языковой моделью. Затем мы создаём универсальный модуль проекции (UPM), комбинируя несколько модулей проекции изображений и динамическую маршрутизацию. Наконец, мы постепенно выравниваем дополнительные модальности с языковой моделью с помощью UPM. Чтобы полностью раскрыть потенциал OneLLM в выполнении инструкций, мы также создали всеобъемлющий мультимодальный набор данных с инструкциями, включающий 2 миллиона элементов из изображений, аудио, видео, облаков точек, карт глубины/нормалей, данных IMU и активности мозга fMRI. OneLLM оценивается на 25 разнообразных бенчмарках, охватывающих задачи, такие как мультимодальное описание, ответы на вопросы и логические рассуждения, где она демонстрирует превосходную производительность. Код, данные, модель и онлайн-демонстрация доступны по адресу https://github.com/csuhan/OneLLM.
Диффузионные модели недавно произвели революцию в области синтеза изображений благодаря своей способности генерировать фотореалистичные изображения. Однако одним из основных недостатков диффузионных моделей является высокая стоимость процесса генерации изображений. Большая сеть для преобразования изображений должна применяться многократно для итеративного уточнения изображения из случайного шума. Хотя многие недавние работы предлагают методы для сокращения количества необходимых шагов, они обычно рассматривают базовую сеть для удаления шума как "черный ящик". В данной работе мы исследуем поведение слоев внутри сети и обнаруживаем, что 1) выходные данные слоев плавно изменяются со временем, 2) слои демонстрируют различные паттерны изменений и 3) изменения от шага к шагу часто очень малы. Мы предполагаем, что многие вычисления в слоях сети для удаления шума являются избыточными. Используя это, мы вводим метод блокового кэширования, в котором повторно используем выходные данные блоков слоев из предыдущих шагов для ускорения вывода. Кроме того, мы предлагаем метод автоматического определения расписаний кэширования на основе изменений каждого блока по временным шагам. В наших экспериментах мы показываем с помощью FID, оценки людьми и качественного анализа, что блоковое кэширование позволяет генерировать изображения с более высоким визуальным качеством при тех же вычислительных затратах. Мы демонстрируем это для различных современных моделей (LDM и EMU) и решателей (DDIM и DPM).
Мы представляем LooseControl — метод, позволяющий использовать обобщённое управление по глубине для генерации изображений на основе диффузионных моделей. ControlNet, современный метод генерации изображений с условием по глубине, демонстрирует впечатляющие результаты, но требует наличия детализированных карт глубины для управления. Создание таких точных карт глубины во многих сценариях является сложной задачей. В данной работе представлена обобщённая версия управления по глубине, которая открывает множество новых возможностей для создания контента. В частности, мы позволяем (C1) управлять границами сцены, задавая их лишь приблизительно, и (C2) управлять 3D-боксами для указания расположения целевых объектов, а не их точной формы и внешнего вида. Используя LooseControl вместе с текстовыми подсказками, пользователи могут создавать сложные среды (например, комнаты, уличные виды и т.д.), задавая только границы сцены и расположение основных объектов. Кроме того, мы предоставляем два механизма редактирования для уточнения результатов: (E1) редактирование 3D-боксов позволяет пользователю изменять, добавлять или удалять боксы, сохраняя стиль изображения. Это приводит к минимальным изменениям, за исключением тех, которые вызваны редактированием боксов. (E2) редактирование атрибутов предлагает возможные направления для изменения определённого аспекта сцены, например, общей плотности объектов или конкретного объекта. Многочисленные тесты и сравнения с базовыми методами демонстрируют универсальность нашего подхода. Мы считаем, что LooseControl может стать важным инструментом для простого создания сложных сред и быть расширен для работы с другими типами управляющих каналов. Код и дополнительная информация доступны по адресу https://shariqfarooq123.github.io/loose-control/.
Методы настройки моделей для генерации изображений по тексту открыли путь к широкому спектру ранее недоступных приложений, позволяя создавать конкретные концепции в разнообразных контекстах и стилях. Хотя существующие методы обеспечивают высокую точность настройки для отдельных концепций или ограниченного, заранее определённого набора, они не достигают масштабируемости, при которой одна модель может бесшовно воспроизводить бесчисленное множество концепций. В данной работе мы рассматриваем новую задачу, названную Модульной Настройкой, с целью эффективного объединения настроенных моделей, которые были независимо дообучены для отдельных концепций. Это позволяет объединённой модели совместно синтезировать концепции в одном изображении без потери точности или дополнительных вычислительных затрат. Для решения этой задачи мы представляем метод Ортогональной Адаптации, который способствует тому, чтобы настроенные модели, не имеющие доступа друг к другу в процессе дообучения, обладали ортогональными остаточными весами. Это гарантирует, что во время вывода настроенные модели могут быть суммированы с минимальными помехами. Наш метод прост и универсален, применим практически ко всем оптимизируемым весам в архитектуре модели. В ходе обширного набора количественных и качественных оценок наш метод неизменно превосходит соответствующие базовые подходы по эффективности и сохранению идентичности, демонстрируя значительный шаг к масштабируемой настройке диффузионных моделей.
Редактирование визуального контента в видео остается сложной задачей, связанной с двумя основными проблемами: 1) обеспечение прямого и удобного управления со стороны пользователя для получения 2) естественных результатов редактирования без видимых искажений и артефактов после изменения формы, выражения и компоновки. Вдохновленные DragGAN, недавней техникой редактирования изображений в стиле "перетаскивания", мы решаем указанные проблемы, предлагая DragVideo, где используется аналогичный стиль взаимодействия с пользователем для редактирования видеоконтента с сохранением временной согласованности. Благодаря использованию современных диффузионных моделей, как в DragDiffusion, DragVideo включает новый метод редактирования Drag-on-Video U-Net (DoVe), который оптимизирует латентные представления видео, сгенерированные видео U-Net, для достижения желаемого контроля. В частности, мы используем тонкую настройку LoRA для конкретных образцов и управление Mutual Self-Attention для обеспечения точного восстановления видео с помощью метода DoVe. Мы также представляем серию тестовых примеров для редактирования видео в стиле "перетаскивания" и проводим обширные эксперименты в широком спектре сложных задач редактирования, таких как редактирование движения, скелета и других, подчеркивая универсальность и общность DragVideo. Наши коды, включая веб-интерфейс пользователя DragVideo, будут опубликованы.
В эту эпоху успех крупных языковых моделей и моделей для генерации изображений из текста можно объяснить движущей силой масштабных наборов данных. Однако в области 3D-видения, несмотря на значительный прогресс, достигнутый с моделями, обученными на крупномасштабных синтетических и реально захваченных данных объектов, таких как Objaverse и MVImgNet, аналогичного уровня прогресса не наблюдается в задачах, ориентированных на человека, отчасти из-за отсутствия крупномасштабного набора данных о людях. Существующие наборы данных высококачественного 3D-захвата человека остаются среднего размера из-за значительных сложностей в получении крупномасштабных высококачественных 3D-данных о людях. Чтобы устранить этот пробел, мы представляем MVHumanNet — набор данных, включающий многовидовые последовательности действий 4,500 человеческих идентичностей. Основное внимание в нашей работе уделено сбору данных о людях, которые характеризуются большим количеством разнообразных идентичностей и повседневной одежды, с использованием системы многовидового захвата человека, что облегчает масштабируемый сбор данных. Наш набор данных содержит 9,000 повседневных нарядов, 60,000 последовательностей движений и 645 миллионов кадров с обширными аннотациями, включая маски человека, параметры камер, 2D и 3D ключевые точки, параметры SMPL/SMPLX и соответствующие текстовые описания. Чтобы изучить потенциал MVHumanNet в различных 2D и 3D визуальных задачах, мы провели пилотные исследования по распознаванию действий с согласованным видом, реконструкции человека с использованием NeRF, генерации изображений человека из текста без ограничений по виду, а также генерации 2D изображений человека и 3D аватаров без ограничений по виду. Многочисленные эксперименты демонстрируют улучшение производительности и эффективные приложения, обеспечиваемые масштабом MVHumanNet. Как самый крупный на сегодняшний день набор 3D-данных о людях, мы надеемся, что выпуск данных MVHumanNet с аннотациями будет способствовать дальнейшим инновациям в области масштабных задач, ориентированных на 3D-человека.
Агентное моделирование существует уже несколько десятилетий и широко применяется в социальных и естественных науках. Сфера применения этого метода исследования теперь готовится к значительному расширению благодаря новым возможностям, предоставляемым большими языковыми моделями (LLM). Генеративные агентные модели (GABM) — это не просто классические агентные модели (ABM), в которых агенты общаются друг с другом. Вместо этого GABM создаются с использованием LLM для применения здравого смысла в различных ситуациях, "разумного" поведения, воспроизведения общеизвестных семантических знаний, создания API-вызовов для управления цифровыми технологиями, такими как приложения, и коммуникации как внутри симуляции, так и с исследователями, наблюдающими за ней извне. Здесь мы представляем Concordia — библиотеку, предназначенную для упрощения создания и работы с GABM. Concordia позволяет легко создавать языково-опосредованные симуляции физических или цифровых сред. Поведение агентов Concordia формируется с помощью гибкой компонентной системы, которая связывает две фундаментальные операции: вызовы LLM и поиск в ассоциативной памяти. Специальный агент, называемый Мастером игры (GM), вдохновленный настольными ролевыми играми, отвечает за моделирование среды, в которой взаимодействуют агенты. Агенты совершают действия, описывая свои намерения на естественном языке. Затем GM переводит их действия в соответствующие реализации. В симулируемом физическом мире GM проверяет физическую правдоподобность действий агентов и описывает их последствия. В цифровых средах, моделирующих такие технологии, как приложения и сервисы, GM может обрабатывать API-вызовы для интеграции с внешними инструментами, такими как универсальные ИИ-ассистенты (например, Bard, ChatGPT) и цифровые приложения (например, Календарь, Электронная почта, Поиск и т.д.). Concordia была разработана для поддержки широкого спектра приложений как в научных исследованиях, так и для оценки производительности реальных цифровых сервисов путем моделирования пользователей и/или генерации синтетических данных.
Методы 3D-реконструкции, такие как Neural Radiance Fields (NeRF), превосходно справляются с созданием фотореалистичных изображений сложных сцен с новых ракурсов. Однако для восстановления высококачественной NeRF обычно требуется десятки или даже сотни исходных изображений, что делает процесс съемки трудоемким. Мы представляем ReconFusion — метод реконструкции реальных сцен с использованием всего нескольких фотографий. Наш подход использует диффузионный априор для синтеза новых видов, обученный на синтетических и многовидовых наборах данных, который регулирует процесс 3D-реконструкции на основе NeRF для новых положений камеры, выходящих за пределы тех, что были зафиксированы в исходных изображениях. Наш метод синтезирует реалистичную геометрию и текстуру в недостаточно ограниченных областях, сохраняя при этом внешний вид наблюдаемых участков. Мы проводим всестороннюю оценку на различных наборах данных реальных сцен, включая фронтальные и 360-градусные сцены, демонстрируя значительное улучшение производительности по сравнению с предыдущими подходами к реконструкции NeRF с ограниченным количеством видов.
Мы предлагаем метод управления материальными атрибутами объектов, такими как шероховатость, металличность, альбедо и прозрачность, в реальных изображениях. Наш метод использует генеративный потенциал моделей "текст-изображение", известных своей фотореалистичностью, применяя скалярное значение и инструкции для изменения низкоуровневых свойств материалов. Учитывая отсутствие наборов данных с контролируемыми материальными атрибутами, мы создали синтетический набор данных, ориентированный на объекты и использующий физически обоснованные материалы. Тонкая настройка модифицированной предварительно обученной модели "текст-изображение" на этом синтетическом наборе данных позволяет нам редактировать свойства материалов в изображениях реального мира, сохраняя все остальные атрибуты. Мы демонстрируем потенциальное применение нашей модели для редактирования материалов в NeRF.
В последнее время был достигнут значительный прогресс в генерации движений на основе текста, что позволяет создавать разнообразные и качественные движения человека, соответствующие текстовым описаниям. Однако генерация детализированных или стилизованных движений остается сложной задачей из-за отсутствия наборов данных, аннотированных подробными текстовыми описаниями. Используя стратегию "разделяй и властвуй", мы предлагаем новый подход под названием Fine-Grained Human Motion Diffusion Model (FG-MDM) для генерации движений человека. В частности, мы сначала преобразуем предыдущие расплывчатые текстовые аннотации в детализированные описания различных частей тела с помощью крупной языковой модели (GPT-3.5). Затем мы используем эти детализированные описания для управления трансформерной диффузионной моделью. FG-MDM способна генерировать детализированные и стилизованные движения даже за пределами распределения обучающих данных. Наши экспериментальные результаты демонстрируют превосходство FG-MDM над предыдущими методами, особенно в плане сильной способности к обобщению. Мы опубликуем наши детализированные текстовые аннотации для наборов данных HumanML3D и KIT.
Наше понимание визуального мира сосредоточено вокруг различных концептуальных осей, характеризующих разные аспекты визуальных объектов. Хотя различные концептуальные оси могут быть легко заданы с помощью языка, например, цвет, точные визуальные нюансы вдоль каждой оси часто выходят за пределы возможностей языкового выражения, например, определенный стиль живописи. В данной работе наша цель — изучить языково-информированное представление визуальных концепций, просто дистиллируя крупные предобученные модели, объединяющие зрение и язык. В частности, мы обучаем набор кодировщиков концепций для кодирования информации, относящейся к набору языково-информированных концептуальных осей, с целью воспроизведения входного изображения через предобученную модель "Текст-в-Изображение" (T2I). Чтобы способствовать лучшему разделению различных кодировщиков концепций, мы привязываем концептуальные эмбеддинги к набору текстовых эмбеддингов, полученных из предобученной модели "Визуальный Вопрос-Ответ" (VQA). На этапе вывода модель извлекает концептуальные эмбеддинги вдоль различных осей из новых тестовых изображений, которые могут быть перекомбинированы для генерации изображений с новыми композициями визуальных концепций. С помощью легковесной процедуры дообучения на этапе тестирования модель также может обобщать на новые концепции, не встречавшиеся во время обучения.
Взаимодействие с виртуальными помощниками обычно начинается с триггерной фразы, за которой следует команда. В данной работе мы исследуем возможность сделать эти взаимодействия более естественными, устранив необходимость в триггерной фразе. Наша цель — определить, обратился ли пользователь к виртуальному помощнику, на основе сигналов, полученных из потокового аудио, записанного микрофоном устройства. Мы решаем эту задачу, комбинируя 1-best гипотезы и сигналы декодера из системы автоматического распознавания речи с акустическими представлениями из аудиоэнкодера в качестве входных признаков для большой языковой модели (LLM). В частности, нас интересуют системы, эффективные с точки зрения данных и ресурсов, которые требуют лишь небольшого объема обучающих данных и могут работать в сценариях, где на устройстве доступна только одна замороженная LLM. По этой причине наша модель обучается на 80 тыс. или менее примерах мультимодальных данных с использованием комбинации низкоранговой адаптации и настройки префикса. Мы сравниваем предложенную систему с унимодальными базовыми подходами и показываем, что мультимодальный метод достигает более низких показателей равной вероятности ошибок (EER), используя лишь часть обучающих данных. Мы также демонстрируем, что низкоразмерные специализированные аудиопредставления приводят к более низким EER, чем высокоразмерные общие аудиопредставления.