Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии продемонстрировали выдающуюся эффективность в различных задачах изображения к изображению. В данном исследовании мы представляем Imagine yourself, передовую модель, разработанную для персонализированной генерации изображений. В отличие от обычных техник персонализации на основе настройки, Imagine yourself работает как модель без настройки, позволяя всем пользователям использовать общую структуру без индивидуальных настроек. Более того, предыдущие работы столкнулись с проблемами балансировки сохранения идентичности, выполнения сложных запросов и сохранения высокого качества изображения, что привело к моделям с сильным эффектом копирования и вставки изображений-эталонов. Таким образом, они едва могут генерировать изображения в соответствии с запросами, требующими значительных изменений исходного изображения, например, изменения выражения лица, позы головы и тела, и разнообразие сгенерированных изображений невелико. Для преодоления этих ограничений наш метод предлагает 1) новый механизм генерации синтетических парных данных для поощрения разнообразия изображений, 2) полностью параллельную архитектуру внимания с тремя текстовыми кодировщиками и полностью обучаемым видовым кодировщиком для улучшения точности текста, и 3) новую методологию многоэтапной донастройки от грубой к тонкой, которая постепенно повышает уровень качества изображения. Наше исследование демонстрирует, что Imagine yourself превосходит передовую модель персонализации, обладая превосходными возможностями в сохранении идентичности, качестве изображения и соответствии текста. Эта модель заложила прочный фундамент для различных приложений персонализации. Результаты человеческой оценки подтверждают превосходство модели SOTA во всех аспектах (сохранение идентичности, точность текста и визуальное воздействие) по сравнению с предыдущими моделями персонализации.
Понимание сатиры и юмора представляет собой сложную задачу даже для современных моделей видео-языка. В данной статье мы предлагаем выполнение сложных задач: обнаружение сатирических изображений (определение, является ли изображение сатирическим), понимание (генерация причины сатиричности изображения) и завершение (при наличии одной половины изображения выбор другой половины из 2 предложенных вариантов так, чтобы полученное изображение было сатирическим), а также представляем высококачественный набор данных YesBut, состоящий из 2547 изображений, 1084 сатирических и 1463 несатирических, содержащих различные художественные стили, для оценки этих задач. Каждое сатирическое изображение в наборе данных изображает обычную ситуацию вместе с противоречащей ситуацией, которая является забавной или ироничной. Несмотря на успех современных моделей видео-языка в мультимодальных задачах, таких как визуальный вопросно-ответный анализ и подписывание изображений, наши бенчмаркинговые эксперименты показывают, что такие модели плохо справляются с предложенными задачами на наборе данных YesBut в условиях нулевой настройки как по автоматической, так и по человеческой оценке. Кроме того, мы представляем набор данных из 119 реальных сатирических фотографий для дальнейших исследований. Набор данных и код доступны по ссылке https://github.com/abhi1nandy2/yesbut_dataset.
Под влиянием осознания того, что эмуляторы искусственного интеллекта могут конкурировать с производительностью традиционных численных моделей прогнозирования погоды, работающих на HPC-системах, сейчас появляется все больше крупных моделей искусственного интеллекта, которые решают такие задачи, как прогнозирование, довычисление или недавнее прогнозирование. В то время как параллельные разработки в литературе по искусственному интеллекту сосредотачиваются на фундаментальных моделях - моделях, которые могут быть эффективно настроены для решения нескольких различных задач, - разработки в области погоды и климата в основном сосредотачиваются на одноразовых случаях с особым акцентом на прогнозировании среднесрочных периодов. Мы устраняем этот разрыв, представляя Prithvi WxC, фундаментальную модель с 2,3 миллиарда параметров, разработанную с использованием 160 переменных из Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2). Prithvi WxC использует архитектуру на основе кодировщика-декодировщика, интегрируя концепции из различных недавних моделей трансформера для эффективного улавливания как региональных, так и глобальных зависимостей во входных данных. Модель разработана для обработки большого количества токенов для моделирования погодных явлений в различных топологиях с высоким разрешением. Более того, она обучается с использованием смешанной цели, объединяющей парадигмы маскированной реконструкции с прогнозированием. Мы тестируем модель на наборе сложных последующих задач, а именно: прогнозирование с использованием авторегрессии, довычисление, параметризация потока гравитационных волн и оценка экстремальных событий. Предобученная модель с 2,3 миллиарда параметров, вместе с соответствующими рабочими процессами донастройки, была общедоступно выпущена в качестве вклада в открытый исходный код через Hugging Face.
Большие языковые модели (LLM) продемонстрировали значительное улучшение производительности в различных когнитивных задачах. Одним из новых применений является использование LLM для улучшения возможностей поисково-дополненной генерации (RAG). Эти системы требуют, чтобы LLM понимали запросы пользователей, извлекали соответствующую информацию и синтезировали последовательные и точные ответы. Учитывая увеличение развертывания таких систем в реальном мире, становится критически важной всесторонняя оценка. В этой связи мы предлагаем FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) - набор оценочных данных высокого качества, разработанный для проверки способности LLM предоставлять фактические ответы, оценивать возможности поиска и оценивать логику, необходимую для генерации окончательных ответов. В то время как предыдущие работы предоставляли наборы данных и бенчмарки для оценки этих способностей изолированно, FRAMES предлагает унифицированную структуру, которая дает более ясное представление о производительности LLM в сценариях RAG end-to-end. Наш набор данных включает в себя сложные многошаговые вопросы, требующие интеграции информации из нескольких источников. Мы представляем базовые результаты, демонстрируя, что даже современные LLM испытывают трудности с этой задачей, достигая точности 0,40 без поиска. Точность значительно повышается с нашей предложенной много
Музыкальные кодеки являются важным аспектом исследований аудио кодеков, и сжатие с очень низким битрейтом имеет большое значение для передачи и генерации музыки. Из-за сложности музыкальных фонов и богатства вокала полагаться исключительно на моделирование семантической или акустической информации не способно эффективно воссоздать музыку с вокалом и фоном. Для решения этой проблемы мы предлагаем MuCodec, специально ориентированный на сжатие и восстановление музыки при очень низких битрейтах. MuCodec использует MuEncoder для извлечения как акустических, так и семантических признаков, дискретизирует их с помощью RVQ и получает признаки Mel-VAE через сопоставление потоков. Затем музыка восстанавливается с использованием предварительно обученного декодера MEL-VAE и HiFi-GAN. MuCodec способен восстанавливать музыку высокой точности при очень низком (0,35 кбит/с) или высоком битрейте (1,35 кбит/с), достигая лучших результатов на сегодняшний день как по субъективным, так и объективным метрикам. Код и демонстрация: https://xuyaoxun.github.io/MuCodec_demo/.
Мы представляем PortraitGen, мощный метод редактирования портретных видео, который обеспечивает последовательную и выразительную стилизацию с использованием мультимодальных подсказок. Традиционные методы редактирования портретных видео часто сталкиваются с проблемами 3D и временной согласованности, а также обычно уступают по качеству и эффективности визуализации. Для решения этих проблем мы преобразуем кадры портретных видео в единое динамическое 3D гауссово поле, которое обеспечивает структурную и временную согласованность между кадрами. Более того, мы разрабатываем новый механизм нейронной гауссовой текстуры, который не только позволяет осуществлять сложное редактирование стиля, но также обеспечивает скорость визуализации более 100 кадров в секунду. Наш подход включает мультимодальные входные данные, полученные из знаний, извлеченных из масштабных 2D генеративных моделей. Наша система также включает руководство по сходству выражений и модуль редактирования портретов, учитывающий лицо, что эффективно смягчает проблемы деградации, связанные с итеративными обновлениями набора данных. Обширные эксперименты демонстрируют временную согласованность, эффективность редактирования и превосходное качество визуализации нашего метода. Широкие возможности предложенного подхода демонстрируются через различные приложения, включая редактирование по тексту, редактирование по изображению и переосвещение, подчеркивая его большой потенциал для развития области видеоредактирования. Демонстрационные видео и выпущенный код предоставлены на нашей странице проекта: https://ustc3dv.github.io/PortraitGen/
Декомпозиция внутреннего изображения направлена на разделение поверхностной отражательной способности и эффектов от освещения на основе одного фотографии. Из-за сложности проблемы большинство предыдущих работ предполагают одноцветное освещение и мир Ламберта, что ограничивает их использование в приложениях редактирования изображений, учитывающих освещение. В данной работе мы разделяем входное изображение на его диффузную альбедо, разноцветное диффузное теневое освещение и спекулярные остаточные компоненты. Мы приходим к нашему результату, постепенно удаляя сначала одноцветное освещение, а затем предположения о мире Ламберта. Мы показываем, что, разделив проблему на более простые подзадачи, оценка разноцветного диффузного теневого освещения "на ходу" может быть достигнута несмотря на ограниченные наборы истинных данных. Наше расширенное внутреннее моделирование позволяет проводить анализ фотографий с учетом освещения и может использоваться для приложений редактирования изображений, таких как удаление бликов и балансировка белого пикселя.
Получение объемного видео высокой четкости так же легко, как 2D видео, давно является мечтой. Однако текущие методы динамической трехмерной графики, несмотря на высокое качество визуализации, сталкиваются с проблемами при потоковой передаче на мобильных устройствах из-за ограничений вычислительных мощностей и пропускной способности. В данной статье мы представляем V3 (Просмотр объемных видео), новый подход, позволяющий осуществлять высококачественную визуализацию на мобильных устройствах путем потоковой передачи динамических гауссов. Нашим ключевым новшеством является рассмотрение динамической трехмерной графики как 2D видео, что облегчает использование аппаратных видеокодеков. Кроме того, мы предлагаем двухэтапную стратегию обучения для снижения требований к хранилищу с быстрой скоростью обучения. Первый этап использует хэш-кодирование и неглубокие многослойные перцептроны для изучения движения, затем сокращает количество гауссов путем обрезки, чтобы соответствовать требованиям потоковой передачи, в то время как второй этап доводит другие атрибуты гауссов до совершенства, используя потерю остаточной энтропии и временную потерю для улучшения временной непрерывности. Эта стратегия, разделяющая движение и внешний вид, обеспечивает высокое качество визуализации при компактных требованиях к хранилищу. Тем временем, мы разработали многофункциональный плеер для декодирования и визуализации 2D гауссовских видео. Обширные эксперименты демонстрируют эффективность V3, превосходя другие методы, обеспечивая высококачественную визуализацию и потоковую передачу на обычных устройствах, что ранее не встречалось. Будучи первыми, кто осуществляет потоковую передачу динамических гауссов на мобильных устройствах, наш плеер предлагает пользователям непревзойденный опыт объемного видео, включая плавную прокрутку и мгновенное обмен. Наша страница проекта с исходным кодом доступна по адресу https://authoritywang.github.io/v3/.
LLM показали впечатляющую производительность в различных областях. Тем не менее, создание высококачественных подсказок для помощи им в работе представляет собой вызов для специалистов не из области искусственного интеллекта. Существующие исследования в области создания подсказок предлагают несколько разрозненных принципов оптимизации и эмпирически зависимые оптимизаторы подсказок. К сожалению, эти усилия лишены структурного дизайна, что приводит к высоким затратам на обучение и не способствует итеративному обновлению подсказок, особенно для специалистов не из области искусственного интеллекта. Вдохновленные структурированными многоразовыми языками программирования, мы предлагаем LangGPT, структурную концепцию дизайна подсказок. Кроме того, мы представляем Minstrel, мультигенеративную агентскую систему с отражением для автоматизации генерации структурных подсказок. Эксперименты и кейс-стади показывают, что структурные подсказки, созданные Minstrel или написанные вручную, значительно улучшают производительность LLM. Кроме того, мы анализируем удобство использования структурных подсказок с помощью опроса пользователей в нашем онлайн-сообществе.
Мы представляем V-AURA - первую авторегрессионную модель, достигающую высокой временной согласованности и релевантности в генерации видео к аудио. V-AURA использует извлекатель признаков высокой частоты кадров и стратегию слияния кросс-модальных аудио-визуальных признаков для захвата мелких визуальных движений и обеспечения точной временной согласованности. Кроме того, мы предлагаем VisualSound - набор данных для оценки с высокой аудио-визуальной релевантностью. VisualSound основан на VGGSound, видео-наборе данных, состоящем из образцов из реальной жизни, извлеченных из YouTube. В процессе курации мы удаляем образцы, где звуковые события не согласованы с визуальными. V-AURA превосходит текущие передовые модели по временной согласованности и семантической релевантности, сохраняя сопоставимое качество звука. Код, образцы, VisualSound и модели доступны по ссылке https://v-aura.notion.site
Большие языковые модели (LLM) показали выдающийся потенциал в различных областях, включая кибербезопасность. Использование коммерческих облачных LLM может быть нежелательным из-за проблем конфиденциальности, затрат и ограничений сетевого подключения. В данной статье мы представляем Hackphyr, локально настроенную LLM для использования в качестве агента красной команды в средах сетевой безопасности. Наша настроенная модель с 7 миллиардами параметров может работать на одной видеокарте GPU и достигает производительности, сравнимой с гораздо более крупными и мощными коммерческими моделями, такими как GPT-4. Hackphyr явно превосходит другие модели, включая GPT-3.5-turbo, и базовые модели, такие как агенты Q-обучения в сложных, ранее не встречавшихся сценариях. Для достижения этой производительности мы создали новый набор данных по кибербезопасности для улучшения возможностей базовой модели. Наконец, мы провели всесторонний анализ поведения агентов, который предоставляет понимание способностей к планированию и потенциальных недостатков таких агентов, способствуя более глубокому пониманию агентов на основе LLM в контекстах кибербезопасности.
Интеграция инструментов в агентов на основе LLM преодолела трудности автономных LLM и ограниченные возможности традиционных агентов. Однако сочетание этих технологий и предложенные улучшения в нескольких передовых работах привели к неединой архитектуре программного обеспечения, что привело к отсутствию модульности. Фактически, они в основном сосредоточились на функциональности и пренебрегли определением границ компонентов внутри агента. Это вызвало терминологические и архитектурные неоднозначности между исследователями, которые мы рассмотрели в данной статье, предложив унифицированную структуру, устанавливающую четкое основание для развития агентов на основе LLM с функциональной и программной архитектурной точек зрения. Наша структура, LLM-Agent-UMF (LLM-основанная структура унифицированного моделирования агента), четко различает различные компоненты агента, выделяя LLM и инструменты от вновь введенного элемента: ядра-агента, играющего роль центрального координатора агента, который включает пять модулей: планирование, память, профиль, действие и безопасность, последнее часто игнорировалось в предыдущих работах. Различия во внутренней структуре ядерных агентов привели нас к классификации их на пассивные и активные типы. На основе этого мы предложили различные архитектуры мультиядерных агентов, объединяющих уникальные характеристики различных индивидуальных агентов. Для целей оценки мы применили эту структуру к выборке передовых агентов, демонстрируя ее соответствие их функциональности и уточняя пренебрегаемые архитектурные аспекты. Более того, мы тщательно оценили четыре из наших предложенных архитектур, интегрируя различные агенты в гибридные системы активных/пассивных ядерных агентов. Этот анализ предоставил ясное представление о потенциальных улучшениях и выявил вызовы, связанные с комбинированием конкретных агентов.