Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Представьте себя: Генерация персонализированных изображений без настройки.
Imagine yourself: Tuning-Free Personalized Image Generation

Sep 20

ByZecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha

Модели диффузии продемонстрировали выдающуюся эффективность в различных задачах изображения к изображению. В данном исследовании мы представляем Imagine yourself, передовую модель, разработанную для персонализированной генерации изображений. В отличие от обычных техник персонализации на основе настройки, Imagine yourself работает как модель без настройки, позволяя всем пользователям использовать общую структуру без индивидуальных настроек. Более того, предыдущие работы столкнулись с проблемами балансировки сохранения идентичности, выполнения сложных запросов и сохранения высокого качества изображения, что привело к моделям с сильным эффектом копирования и вставки изображений-эталонов. Таким образом, они едва могут генерировать изображения в соответствии с запросами, требующими значительных изменений исходного изображения, например, изменения выражения лица, позы головы и тела, и разнообразие сгенерированных изображений невелико. Для преодоления этих ограничений наш метод предлагает 1) новый механизм генерации синтетических парных данных для поощрения разнообразия изображений, 2) полностью параллельную архитектуру внимания с тремя текстовыми кодировщиками и полностью обучаемым видовым кодировщиком для улучшения точности текста, и 3) новую методологию многоэтапной донастройки от грубой к тонкой, которая постепенно повышает уровень качества изображения. Наше исследование демонстрирует, что Imagine yourself превосходит передовую модель персонализации, обладая превосходными возможностями в сохранении идентичности, качестве изображения и соответствии текста. Эта модель заложила прочный фундамент для различных приложений персонализации. Результаты человеческой оценки подтверждают превосходство модели SOTA во всех аспектах (сохранение идентичности, точность текста и визуальное воздействие) по сравнению с предыдущими моделями персонализации.

YesBut: Высококачественный аннотированный мультимодальный набор данных для оценки способности моделей видео-языкового восприятия к пониманию сатиры.
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

Sep 20

ByAbhilash Nandy, Yash Agarwal, Ashish Patwa, Millon Madhur Das, Aman Bansal, Ankit Raj, Pawan Goyal, Niloy Ganguly

Понимание сатиры и юмора представляет собой сложную задачу даже для современных моделей видео-языка. В данной статье мы предлагаем выполнение сложных задач: обнаружение сатирических изображений (определение, является ли изображение сатирическим), понимание (генерация причины сатиричности изображения) и завершение (при наличии одной половины изображения выбор другой половины из 2 предложенных вариантов так, чтобы полученное изображение было сатирическим), а также представляем высококачественный набор данных YesBut, состоящий из 2547 изображений, 1084 сатирических и 1463 несатирических, содержащих различные художественные стили, для оценки этих задач. Каждое сатирическое изображение в наборе данных изображает обычную ситуацию вместе с противоречащей ситуацией, которая является забавной или ироничной. Несмотря на успех современных моделей видео-языка в мультимодальных задачах, таких как визуальный вопросно-ответный анализ и подписывание изображений, наши бенчмаркинговые эксперименты показывают, что такие модели плохо справляются с предложенными задачами на наборе данных YesBut в условиях нулевой настройки как по автоматической, так и по человеческой оценке. Кроме того, мы представляем набор данных из 119 реальных сатирических фотографий для дальнейших исследований. Набор данных и код доступны по ссылке https://github.com/abhi1nandy2/yesbut_dataset.

Prithvi WxC: базовая модель для погоды и климата
Prithvi WxC: Foundation Model for Weather and Climate

Sep 20

ByJohannes Schmude, Sujit Roy, Will Trojak, Johannes Jakubik, Daniel Salles Civitarese, Shraddha Singh, Julian Kuehnert, Kumar Ankur, Aman Gupta, Christopher E Phillips, Romeo Kienzler, Daniela Szwarcman, Vishal Gaur, Rajat Shinde, Rohit Lal, Arlindo Da Silva, Jorge Luis Guevara Diaz, Anne Jones, Simon Pfreundschuh, Amy Lin, Aditi Sheshadri, Udaysankar Nair, Valentine Anantharaj, Hendrik Hamann, Campbell Watson, Manil Maskey, Tsengdar J Lee, Juan Bernabe Moreno, Rahul Ramachandran

Под влиянием осознания того, что эмуляторы искусственного интеллекта могут конкурировать с производительностью традиционных численных моделей прогнозирования погоды, работающих на HPC-системах, сейчас появляется все больше крупных моделей искусственного интеллекта, которые решают такие задачи, как прогнозирование, довычисление или недавнее прогнозирование. В то время как параллельные разработки в литературе по искусственному интеллекту сосредотачиваются на фундаментальных моделях - моделях, которые могут быть эффективно настроены для решения нескольких различных задач, - разработки в области погоды и климата в основном сосредотачиваются на одноразовых случаях с особым акцентом на прогнозировании среднесрочных периодов. Мы устраняем этот разрыв, представляя Prithvi WxC, фундаментальную модель с 2,3 миллиарда параметров, разработанную с использованием 160 переменных из Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2). Prithvi WxC использует архитектуру на основе кодировщика-декодировщика, интегрируя концепции из различных недавних моделей трансформера для эффективного улавливания как региональных, так и глобальных зависимостей во входных данных. Модель разработана для обработки большого количества токенов для моделирования погодных явлений в различных топологиях с высоким разрешением. Более того, она обучается с использованием смешанной цели, объединяющей парадигмы маскированной реконструкции с прогнозированием. Мы тестируем модель на наборе сложных последующих задач, а именно: прогнозирование с использованием авторегрессии, довычисление, параметризация потока гравитационных волн и оценка экстремальных событий. Предобученная модель с 2,3 миллиарда параметров, вместе с соответствующими рабочими процессами донастройки, была общедоступно выпущена в качестве вклада в открытый исходный код через Hugging Face.

Факт, Извлечение и Рассуждение: Объединенная оценка Генерации с Использованием Поиска.
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

Sep 19

BySatyapriya Krishna, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, Manaal Faruqui

Большие языковые модели (LLM) продемонстрировали значительное улучшение производительности в различных когнитивных задачах. Одним из новых применений является использование LLM для улучшения возможностей поисково-дополненной генерации (RAG). Эти системы требуют, чтобы LLM понимали запросы пользователей, извлекали соответствующую информацию и синтезировали последовательные и точные ответы. Учитывая увеличение развертывания таких систем в реальном мире, становится критически важной всесторонняя оценка. В этой связи мы предлагаем FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) - набор оценочных данных высокого качества, разработанный для проверки способности LLM предоставлять фактические ответы, оценивать возможности поиска и оценивать логику, необходимую для генерации окончательных ответов. В то время как предыдущие работы предоставляли наборы данных и бенчмарки для оценки этих способностей изолированно, FRAMES предлагает унифицированную структуру, которая дает более ясное представление о производительности LLM в сценариях RAG end-to-end. Наш набор данных включает в себя сложные многошаговые вопросы, требующие интеграции информации из нескольких источников. Мы представляем базовые результаты, демонстрируя, что даже современные LLM испытывают трудности с этой задачей, достигая точности 0,40 без поиска. Точность значительно повышается с нашей предложенной много

MuCodec: музыкальный кодек с очень низким битрейтом
MuCodec: Ultra Low-Bitrate Music Codec

Sep 20

ByYaoxun Xu, Hangting Chen, Jianwei Yu, Wei Tan, Rongzhi Gu, Shun Lei, Zhiwei Lin, Zhiyong Wu

Музыкальные кодеки являются важным аспектом исследований аудио кодеков, и сжатие с очень низким битрейтом имеет большое значение для передачи и генерации музыки. Из-за сложности музыкальных фонов и богатства вокала полагаться исключительно на моделирование семантической или акустической информации не способно эффективно воссоздать музыку с вокалом и фоном. Для решения этой проблемы мы предлагаем MuCodec, специально ориентированный на сжатие и восстановление музыки при очень низких битрейтах. MuCodec использует MuEncoder для извлечения как акустических, так и семантических признаков, дискретизирует их с помощью RVQ и получает признаки Mel-VAE через сопоставление потоков. Затем музыка восстанавливается с использованием предварительно обученного декодера MEL-VAE и HiFi-GAN. MuCodec способен восстанавливать музыку высокой точности при очень низком (0,35 кбит/с) или высоком битрейте (1,35 кбит/с), достигая лучших результатов на сегодняшний день как по субъективным, так и объективным метрикам. Код и демонстрация: https://xuyaoxun.github.io/MuCodec_demo/.

Редактирование портретных видео с использованием мультимодальных генеративных априорных моделей.
Portrait Video Editing Empowered by Multimodal Generative Priors

Sep 20

ByXuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang

Мы представляем PortraitGen, мощный метод редактирования портретных видео, который обеспечивает последовательную и выразительную стилизацию с использованием мультимодальных подсказок. Традиционные методы редактирования портретных видео часто сталкиваются с проблемами 3D и временной согласованности, а также обычно уступают по качеству и эффективности визуализации. Для решения этих проблем мы преобразуем кадры портретных видео в единое динамическое 3D гауссово поле, которое обеспечивает структурную и временную согласованность между кадрами. Более того, мы разрабатываем новый механизм нейронной гауссовой текстуры, который не только позволяет осуществлять сложное редактирование стиля, но также обеспечивает скорость визуализации более 100 кадров в секунду. Наш подход включает мультимодальные входные данные, полученные из знаний, извлеченных из масштабных 2D генеративных моделей. Наша система также включает руководство по сходству выражений и модуль редактирования портретов, учитывающий лицо, что эффективно смягчает проблемы деградации, связанные с итеративными обновлениями набора данных. Обширные эксперименты демонстрируют временную согласованность, эффективность редактирования и превосходное качество визуализации нашего метода. Широкие возможности предложенного подхода демонстрируются через различные приложения, включая редактирование по тексту, редактирование по изображению и переосвещение, подчеркивая его большой потенциал для развития области видеоредактирования. Демонстрационные видео и выпущенный код предоставлены на нашей странице проекта: https://ustc3dv.github.io/PortraitGen/

Разноцветное диффузное внутреннее разложение изображения в естественных условиях
Colorful Diffuse Intrinsic Image Decomposition in the Wild

Sep 20

ByChris Careaga, Yağız Aksoy

Декомпозиция внутреннего изображения направлена на разделение поверхностной отражательной способности и эффектов от освещения на основе одного фотографии. Из-за сложности проблемы большинство предыдущих работ предполагают одноцветное освещение и мир Ламберта, что ограничивает их использование в приложениях редактирования изображений, учитывающих освещение. В данной работе мы разделяем входное изображение на его диффузную альбедо, разноцветное диффузное теневое освещение и спекулярные остаточные компоненты. Мы приходим к нашему результату, постепенно удаляя сначала одноцветное освещение, а затем предположения о мире Ламберта. Мы показываем, что, разделив проблему на более простые подзадачи, оценка разноцветного диффузного теневого освещения "на ходу" может быть достигнута несмотря на ограниченные наборы истинных данных. Наше расширенное внутреннее моделирование позволяет проводить анализ фотографий с учетом освещения и может использоваться для приложений редактирования изображений, таких как удаление бликов и балансировка белого пикселя.

V^3: Просмотр объемных видео на мобильных устройствах с помощью потоковых 2D динамических гауссовских функций
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

Sep 20

ByPenghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu

Получение объемного видео высокой четкости так же легко, как 2D видео, давно является мечтой. Однако текущие методы динамической трехмерной графики, несмотря на высокое качество визуализации, сталкиваются с проблемами при потоковой передаче на мобильных устройствах из-за ограничений вычислительных мощностей и пропускной способности. В данной статье мы представляем V3 (Просмотр объемных видео), новый подход, позволяющий осуществлять высококачественную визуализацию на мобильных устройствах путем потоковой передачи динамических гауссов. Нашим ключевым новшеством является рассмотрение динамической трехмерной графики как 2D видео, что облегчает использование аппаратных видеокодеков. Кроме того, мы предлагаем двухэтапную стратегию обучения для снижения требований к хранилищу с быстрой скоростью обучения. Первый этап использует хэш-кодирование и неглубокие многослойные перцептроны для изучения движения, затем сокращает количество гауссов путем обрезки, чтобы соответствовать требованиям потоковой передачи, в то время как второй этап доводит другие атрибуты гауссов до совершенства, используя потерю остаточной энтропии и временную потерю для улучшения временной непрерывности. Эта стратегия, разделяющая движение и внешний вид, обеспечивает высокое качество визуализации при компактных требованиях к хранилищу. Тем временем, мы разработали многофункциональный плеер для декодирования и визуализации 2D гауссовских видео. Обширные эксперименты демонстрируют эффективность V3, превосходя другие методы, обеспечивая высококачественную визуализацию и потоковую передачу на обычных устройствах, что ранее не встречалось. Будучи первыми, кто осуществляет потоковую передачу динамических гауссов на мобильных устройствах, наш плеер предлагает пользователям непревзойденный опыт объемного видео, включая плавную прокрутку и мгновенное обмен. Наша страница проекта с исходным кодом доступна по адресу https://authoritywang.github.io/v3/.

Минстрель: Генерация структурных подсказок с координацией мультиагентов для специалистов не по искусственному интеллекту
Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts

Sep 20

ByMing Wang, Yuanzhong Liu, Xiaoyu Liang, Yijie Huang, Daling Wang, Xiaocui Yang, Sijia Shen, Shi Feng, Xiaoming Zhang, Chaofeng Guan, Yifei Zhang

LLM показали впечатляющую производительность в различных областях. Тем не менее, создание высококачественных подсказок для помощи им в работе представляет собой вызов для специалистов не из области искусственного интеллекта. Существующие исследования в области создания подсказок предлагают несколько разрозненных принципов оптимизации и эмпирически зависимые оптимизаторы подсказок. К сожалению, эти усилия лишены структурного дизайна, что приводит к высоким затратам на обучение и не способствует итеративному обновлению подсказок, особенно для специалистов не из области искусственного интеллекта. Вдохновленные структурированными многоразовыми языками программирования, мы предлагаем LangGPT, структурную концепцию дизайна подсказок. Кроме того, мы представляем Minstrel, мультигенеративную агентскую систему с отражением для автоматизации генерации структурных подсказок. Эксперименты и кейс-стади показывают, что структурные подсказки, созданные Minstrel или написанные вручную, значительно улучшают производительность LLM. Кроме того, мы анализируем удобство использования структурных подсказок с помощью опроса пользователей в нашем онлайн-сообществе.

Hackphyr: Локальный настроенный агент LLM для сред сетевой безопасности
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

Sep 17

ByMaria Rigaki, Carlos Catania, Sebastian Garcia

Большие языковые модели (LLM) показали выдающийся потенциал в различных областях, включая кибербезопасность. Использование коммерческих облачных LLM может быть нежелательным из-за проблем конфиденциальности, затрат и ограничений сетевого подключения. В данной статье мы представляем Hackphyr, локально настроенную LLM для использования в качестве агента красной команды в средах сетевой безопасности. Наша настроенная модель с 7 миллиардами параметров может работать на одной видеокарте GPU и достигает производительности, сравнимой с гораздо более крупными и мощными коммерческими моделями, такими как GPT-4. Hackphyr явно превосходит другие модели, включая GPT-3.5-turbo, и базовые модели, такие как агенты Q-обучения в сложных, ранее не встречавшихся сценариях. Для достижения этой производительности мы создали новый набор данных по кибербезопасности для улучшения возможностей базовой модели. Наконец, мы провели всесторонний анализ поведения агентов, который предоставляет понимание способностей к планированию и потенциальных недостатков таких агентов, способствуя более глубокому пониманию агентов на основе LLM в контекстах кибербезопасности.

Временно выровненное аудио для видео с авторегрессией.
Temporally Aligned Audio for Video with Autoregression

Sep 20

ByIlpo Viertola, Vladimir Iashin, Esa Rahtu

Мы представляем V-AURA - первую авторегрессионную модель, достигающую высокой временной согласованности и релевантности в генерации видео к аудио. V-AURA использует извлекатель признаков высокой частоты кадров и стратегию слияния кросс-модальных аудио-визуальных признаков для захвата мелких визуальных движений и обеспечения точной временной согласованности. Кроме того, мы предлагаем VisualSound - набор данных для оценки с высокой аудио-визуальной релевантностью. VisualSound основан на VGGSound, видео-наборе данных, состоящем из образцов из реальной жизни, извлеченных из YouTube. В процессе курации мы удаляем образцы, где звуковые события не согласованы с визуальными. V-AURA превосходит текущие передовые модели по временной согласованности и семантической релевантности, сохраняя сопоставимое качество звука. Код, образцы, VisualSound и модели доступны по ссылке https://v-aura.notion.site

LLM-Agent-UMF: Фреймворк моделирования единого агента на основе LLM для бесшовной интеграции мультиактивных/пассивных ядерных агентов.
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents

Sep 17

ByAmine B. Hassouna, Hana Chaari, Ines Belhaj

Интеграция инструментов в агентов на основе LLM преодолела трудности автономных LLM и ограниченные возможности традиционных агентов. Однако сочетание этих технологий и предложенные улучшения в нескольких передовых работах привели к неединой архитектуре программного обеспечения, что привело к отсутствию модульности. Фактически, они в основном сосредоточились на функциональности и пренебрегли определением границ компонентов внутри агента. Это вызвало терминологические и архитектурные неоднозначности между исследователями, которые мы рассмотрели в данной статье, предложив унифицированную структуру, устанавливающую четкое основание для развития агентов на основе LLM с функциональной и программной архитектурной точек зрения. Наша структура, LLM-Agent-UMF (LLM-основанная структура унифицированного моделирования агента), четко различает различные компоненты агента, выделяя LLM и инструменты от вновь введенного элемента: ядра-агента, играющего роль центрального координатора агента, который включает пять модулей: планирование, память, профиль, действие и безопасность, последнее часто игнорировалось в предыдущих работах. Различия во внутренней структуре ядерных агентов привели нас к классификации их на пассивные и активные типы. На основе этого мы предложили различные архитектуры мультиядерных агентов, объединяющих уникальные характеристики различных индивидуальных агентов. Для целей оценки мы применили эту структуру к выборке передовых агентов, демонстрируя ее соответствие их функциональности и уточняя пренебрегаемые архитектурные аспекты. Более того, мы тщательно оценили четыре из наших предложенных архитектур, интегрируя различные агенты в гибридные системы активных/пассивных ядерных агентов. Этот анализ предоставил ясное представление о потенциальных улучшениях и выявил вызовы, связанные с комбинированием конкретных агентов.