Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Movie Gen - набор базовых моделей, способных генерировать видеоролики высокого качества разрешением 1080p с различными соотношениями сторон и синхронизированным аудио. Мы также демонстрируем дополнительные возможности, такие как точное редактирование видео на основе инструкций и создание персонализированных видеороликов на основе изображения пользователя. Наши модели устанавливают новый уровень качества в нескольких задачах: синтез видео по тексту, персонализация видео, редактирование видео, генерация аудио из видео и генерация аудио по тексту. Наша самая крупная модель для генерации видео имеет 30 миллиардов параметров трансформера, обученного с максимальной длиной контекста 73 тыс. видео-токенов, что соответствует созданию видео длительностью 16 секунд при частоте кадров 16 кадров в секунду. Мы представляем несколько технических инноваций и упрощений в архитектуре, латентных пространствах, целях обучения и рецептах, курировании данных, протоколах оценки, техниках параллелизации и оптимизации вывода, которые позволяют нам получить преимущества масштабирования предварительного обучения данных, размера модели и вычислительных ресурсов для обучения моделей генерации медиаконтента большого масштаба. Мы надеемся, что данная статья поможет научному сообществу ускорить прогресс и инновации в области моделей генерации медиаконтента. Все видеоролики из этой статьи доступны по ссылке https://go.fb.me/MovieGenResearchVideos.
Восприятие и генерация разнообразных модальностей являются ключевыми для моделей искусственного интеллекта для эффективного обучения на реальных сигналах и взаимодействия с ними, что требует надежной оценки для их развития. Мы выявляем две основные проблемы в текущих оценках: (1) несогласованные стандарты, формируемые различными сообществами с разными протоколами и уровнями зрелости; и (2) значительные искажения запросов, оценок и обобщений. Для решения этих проблем мы представляем MixEval-X, первый в мире бенчмарк для оценки реального мира, разработанный для оптимизации и стандартизации оценок по входным и выходным модальностям. Мы предлагаем мультимодальные смеси бенчмарков и конвейеры адаптации-коррекции для восстановления распределений задач реального мира, обеспечивая эффективное обобщение оценок на реальные сценарии использования. Обширные метаоценки показывают, что наш подход эффективно выравнивает образцы бенчмарков с распределениями задач реального мира, и ранжирование моделей коррелирует с рейтингами реальных оценок, полученных от широкой публики (до 0.98). Мы предоставляем подробные таблицы лидеров для переранжирования существующих моделей и организаций, а также предлагаем идеи для улучшения понимания мультимодальных оценок и информирования будущих исследований.
Судьи на основе LLM стали масштабируемой альтернативой оценке человеком и все чаще используются для оценки, сравнения и улучшения моделей. Однако надежность самих судей на основе LLM редко подвергается критическому анализу. По мере усовершенствования LLM их ответы становятся более сложными, требуя более сильных судей для оценки. Существующие бенчмарки в основном сосредотачиваются на соответствии с предпочтениями человека, но часто не учитывают более сложные задачи, где предпочтения, собранные от людей, являются плохим показателем фактической и логической правильности. Для решения этой проблемы мы предлагаем новую систему оценки для объективной оценки судей на основе LLM. На основе этой системы мы предлагаем JudgeBench, бенчмарк для оценки судей на основе LLM на сложных парах ответов, охватывающих знания, рассуждения, математику и кодирование. JudgeBench использует новый конвейер для преобразования существующих сложных наборов данных в сложные пары ответов с метками предпочтения, отражающими объективную правильность. Наше всестороннее исследование на коллекции вызванных судей, настроенных судей, мультиагентных судей и моделей вознаграждения показывает, что JudgeBench представляет собой значительно более сложное испытание, чем предыдущие бенчмарки, причем многие сильные модели (например, GPT-4o) проявляют лишь незначительное превосходство над случайным угадыванием. В целом, JudgeBench предлагает надежную платформу для оценки все более усовершенствованных судей на основе LLM. Данные и код доступны по ссылке https://github.com/ScalerLab/JudgeBench.
Масштабирование авторегрессионных моделей в области зрения не оказалось таким же выгодным, как в случае крупных языковых моделей. В данной работе мы исследуем эту проблему масштабирования в контексте генерации текста в изображения, сосредотачиваясь на двух критических факторах: используют ли модели дискретные или непрерывные токены, и генерируются ли токены в случайном или фиксированном растре с использованием трансформерных архитектур BERT или GPT-подобных. Наши эмпирические результаты показывают, что, хотя все модели эффективно масштабируются с точки зрения потерь на валидации, их оценочная производительность - измеряемая по FID, оценке GenEval и качеству изображения - следует различным тенденциям. Модели на основе непрерывных токенов достигают значительно лучшего качества изображения, чем те, которые используют дискретные токены. Более того, порядок генерации и механизмы внимания значительно влияют на оценку GenEval: модели со случайным порядком достигают заметно лучших оценок GenEval по сравнению с моделями в растре. Вдохновленные этими результатами, мы обучаем модель Fluid с порядком генерации в случайном порядке на непрерывных токенах. Модель Fluid 10.5B достигает нового рекорда нулевой оценки FID в 6.16 на MS-COCO 30K и общей оценки 0.69 на бенчмарке GenEval. Мы надеемся, что наши выводы и результаты будут стимулировать будущие усилия по преодолению разрыва в масштабировании между моделями зрения и языка.
В данной статье мы представляем Janus - авторегрессивную структуру, объединяющую мультимодальное понимание и генерацию. Предыдущие исследования часто полагались на один визуальный кодировщик для обеих задач, например, Chameleon. Однако из-за различного уровня детализации информации, необходимой для мультимодального понимания и генерации, такой подход может привести к субоптимальной производительности, особенно в мультимодальном понимании. Для решения этой проблемы мы разделяем визуальное кодирование на отдельные пути, сохраняя при этом единую трансформерную архитектуру для обработки. Разделение не только устраняет конфликт между ролями визуального кодировщика в понимании и генерации, но и повышает гибкость структуры. Например, компоненты мультимодального понимания и генерации могут независимо выбирать наиболее подходящие методы кодирования. Эксперименты показывают, что Janus превосходит предыдущую унифицированную модель и соответствует или превосходит производительность моделей, ориентированных на конкретные задачи. Простота, высокая гибкость и эффективность Janus делают его перспективным кандидатом для унифицированных мультимодальных моделей следующего поколения.
Успех крупных языковых моделей (KYM) побудил усилия по интеграции речевых и аудио данных с целью создания общих базовых моделей, способных обрабатывать как текстовые, так и нетекстовые входные данные. Недавние достижения, такие как GPT-4o, подчеркивают потенциал для конечных речевых KYM, сохраняющих несемантическую информацию и мировые знания для более глубокого понимания речи. Для направления развития речевых KYM мы предлагаем пятиуровневую дорожную карту, начиная от базового автоматического распознавания речи (ASR) до продвинутых сверхчеловеческих моделей, способных интегрировать несемантическую информацию с абстрактными акустическими знаниями для выполнения сложных задач. Более того, мы разрабатываем бенчмарк, SAGI Bechmark, который стандартизирует критические аспекты на разных уровнях в этих пяти уровнях, выявляя проблемы в использовании абстрактных акустических знаний и полноте возможностей. Наши результаты показывают пробелы в обработке паралингвистических подсказок и абстрактных акустических знаний, и мы предлагаем направления для будущих исследований. В данной статье изложена дорожная карта для продвижения речевых KYM, представлен бенчмарк для оценки и предоставлены ключевые идеи о их текущих ограничениях и потенциале.
Существующие мобильные ассистенты ограничены зависимостью от API системы или сталкиваются с сложными инструкциями пользователей и разнообразными интерфейсами из-за ограниченных способностей в понимании и принятии решений. Для решения этих проблем мы предлагаем MobA, новейшего агента для мобильного телефона, основанного на мультимодальных крупномасштабных языковых моделях, который улучшает способности в понимании и планировании благодаря сложной двухуровневой архитектуре агента. Высокоуровневый Глобальный Агент (ГА) отвечает за понимание команд пользователя, отслеживание истории и планирование задач. Низкоуровневый Локальный Агент (ЛА) предсказывает детальные действия в форме вызовов функций, руководствуясь подзадачами и памятью от ГА. Интеграция Рефлексивного Модуля позволяет эффективно завершать задачи и позволяет системе обрабатывать ранее не встречавшиеся сложные задачи. MobA продемонстрировал значительное улучшение эффективности выполнения задач и процентов завершения в реальных оценках, подчеркивая потенциал мобильных ассистентов, усиленных MLLM.
Модели языка для зрительного восприятия (VLM) часто испытывают трудности с культурно-специфическими знаниями, особенно в языках, отличных от английского, и в недостаточно представленных культурных контекстах. Для оценки их понимания таких знаний мы представляем WorldCuisines - масштабный бенчмарк для мультиязычного и мультикультурного понимания, основанного на визуальных данных. Этот бенчмарк включает набор данных для визуального вопросно-ответного моделирования (VQA) с парами текст-изображение на 30 языках и диалектах, охватывающих 9 языковых семей и содержащих более 1 миллиона данных, что делает его крупнейшим мультикультурным бенчмарком VQA на сегодняшний день. В нем предусмотрены задачи по идентификации названий блюд и их происхождения. Мы предоставляем наборы данных для оценки в двух размерах (12 тыс. и 60 тыс. примеров) наряду с обучающим набором данных (1 миллион примеров). Наши результаты показывают, что хотя VLM показывают лучшие результаты с правильным контекстом местоположения, они испытывают трудности с адверсальными контекстами, предсказанием конкретных региональных кухонь и языков. Для поддержки будущих исследований мы выпускаем базу знаний с аннотированными записями о еде и изображениями наряду с данными VQA.
Понимание визуальной информации с богатым текстовым контентом - способность обрабатывать среды, где плотный текст интегрирован с визуальными элементами - является ключевой для мультимодальных крупных языковых моделей (MLLMs) для эффективного взаимодействия со структурированными средами. Для улучшения этой возможности мы предлагаем синтез общих мультимодальных инструкций из пользовательских интерфейсов веб-страниц с использованием крупных языковых моделей на основе текста (LLMs). Несмотря на отсутствие прямого визуального ввода, LLMs на основе текста способны обрабатывать структурированные текстовые представления из деревьев доступности веб-страниц. Эти инструкции затем сопоставляются с скриншотами пользовательского интерфейса для обучения мультимодальных моделей. Мы представляем MultiUI, набор данных, содержащий 7,3 миллиона образцов с 1 миллиона веб-сайтов, охватывающий разнообразные мультимодальные задачи и макеты пользовательского интерфейса. Модели, обученные на MultiUI, не только превосходят в задачах веб-интерфейса - достигая до 48% улучшения на VisualWebBench и увеличения точности действий на 19,1% на наборе данных веб-агента Mind2Web, - но также удивительно хорошо обобщаются на задачи вне веб-интерфейса и даже на области без интерфейса, такие как понимание документов, OCR и интерпретация графиков. Эти результаты подчеркивают широкие возможности применения данных веб-интерфейса для продвижения понимания визуальной информации с богатым текстовым контентом в различных сценариях.
Недавние достижения в области индивидуализированной генерации видео позволили пользователям создавать видеоролики, адаптированные под конкретные объекты и траектории движения. Однако существующие методы часто требуют сложной настройки во время тестирования и испытывают затруднения с балансировкой обучения объектов и управления движением, что ограничивает их применение в реальном мире. В данной статье мы представляем DreamVideo-2, фреймворк для настройки видео без обучения на этапе тестирования, способный генерировать видеоролики с определенным объектом и траекторией движения, управляемый одним изображением и последовательностью ограничивающих рамок соответственно. В частности, мы вводим механизм внимания к эталону, который использует встроенные возможности модели для обучения объектов, и разрабатываем модуль управления движением по маске для достижения точного управления движением путем полного использования надежного сигнала движения масок, полученных из ограничивающих рамок. В то время как эти два компонента выполняют свои предназначенные функции, мы эмпирически наблюдаем, что управление движением часто доминирует над обучением объектов. Для решения этой проблемы мы предлагаем два ключевых решения: 1) маскированное внимание к эталону, которое интегрирует смешанную схему моделирования латентной маски во внимание к эталону для улучшения представлений объектов в желаемых позициях, и 2) перевзвешенную потерю диффузии, которая различает вклады областей внутри и снаружи ограничивающих рамок для обеспечения баланса между объектом и управлением движением. Обширные экспериментальные результаты на вновь составленном наборе данных показывают, что DreamVideo-2 превосходит существующие методы как в настройке объектов, так и в управлении движением. Набор данных, код и модели будут общедоступны.
Искусственный интеллект (ИИ) продемонстрировал значительный потенциал в области здравоохранения, особенно в диагностике заболеваний и планировании лечения. Недавние успехи в области Медицинских Больших Моделей Видео-Языка (Med-LVLMs) открыли новые возможности для интерактивных диагностических инструментов. Однако эти модели часто страдают от фактического галлюцинирования, что может привести к неправильным диагнозам. Как методы решения этих проблем выделяются настройка и генерация с увеличением поиска (RAG). Однако количество высококачественных данных и расхождения между обучающими данными и данными внедрения ограничивают применение методов настройки. Хотя RAG является легким и эффективным, существующие подходы на основе RAG недостаточно общие для различных медицинских областей и могут потенциально вызывать проблемы несоответствия как между модальностями, так и между моделью и истиной. В данной статье мы предлагаем универсальную мультимодальную систему RAG, MMed-RAG, разработанную для улучшения фактичности Med-LVLMs. Наш подход включает механизм извлечения, адаптивный метод выбора контекстов и стратегию настройки предпочтений на основе RAG с доказуемой эффективностью. Эти инновации делают процесс RAG достаточно общим и надежным, значительно улучшая соответствие при введении извлеченных контекстов. Экспериментальные результаты на пяти медицинских наборах данных (включая радиологию, офтальмологию, патологию) по медицинскому VQA и генерации отчетов показывают, что MMed-RAG может достичь среднего улучшения фактической точности Med-LVLMs на 43,8%. Наши данные и код доступны по ссылке https://github.com/richard-peng-xia/MMed-RAG.
В данной работе мы улучшаем механизм внимания с несколькими головами, являющийся основой модели Transformer, с целью повышения эффективности при сохранении или превосходстве предыдущего уровня точности. Мы показываем, что механизм внимания с несколькими головами можно выразить в форме суммирования. Основываясь на понимании того, что не все головы внимания имеют одинаковое значение, мы предлагаем механизм внимания Mixture-of-Head (MoH), новую архитектуру, которая рассматривает головы внимания как экспертов в механизме Mixture-of-Experts (MoE). MoH имеет два значительных преимущества: Во-первых, MoH позволяет каждому токену выбирать соответствующие головы внимания, улучшая эффективность вывода без ущерба точности или увеличения количества параметров. Во-вторых, MoH заменяет стандартное суммирование в механизме внимания с несколькими головами на взвешенное суммирование, вводя гибкость в механизм внимания и раскрывая дополнительный потенциал производительности. Обширные эксперименты на моделях ViT, DiT и LLMs показывают, что MoH превосходит механизм внимания с несколькими головами, используя всего 50%-90% голов внимания. Более того, мы демонстрируем, что предварительно обученные модели механизма внимания с несколькими головами, такие как LLaMA3-8B, могут быть дополнительно донастроены наши MoH модели. Заметно, что MoH-LLaMA3-8B достигает средней точности 64,0% по 14 показателям, превосходя LLaMA3-8B на 2,4% при использовании всего 75% голов внимания. Мы считаем, что предложенный MoH является многообещающей альтернативой механизму внимания с несколькими головами и обеспечивает прочное основание для разработки передовых и эффективных моделей на основе внимания.
Оценка больших языковых моделей (LLM) затратна: это требует генерации и изучения выводов LLM на крупномасштабном наборе задач. В данной статье исследуется, как эффективно сократить задачи, используемые для оценки LLM, не влияя на качество оценки. Наше исследование показывает, что переносимость и актуальность задач предоставляют критическую информацию для выявления наиболее репрезентативного подмножества задач путем оптимизации функции расположения объектов. Мы предлагаем практически эффективную метрику для оценки переносимости между двумя задачами с помощью обучения в контексте (ICL). Анализируя парную переносимость, мы можем сократить задачи в современном наборе задач LLM (например, MMLU или FLAN) до 5%, при этом вызывая лишь <4% разницу в оценке на исходном наборе задач. По сравнению с предыдущими работами, наш метод не требует обучения, градиентов и является высокоэффективным, требуя только ICL.
Выравнивание больших языковых моделей (LLM) включает в себя обучение моделей на парах предпочтений-контрастных выводов для корректировки их ответов в соответствии с человеческими предпочтениями. Для получения таких контрастных пар традиционные методы, такие как RLHF и RLAIF, полагаются на ограниченные контрастные шаблоны, такие как изменение вариантов модели или температур декодирования. Эта однообразность приводит к двум проблемам: (1) выравнивание не является всеохватывающим; и, следовательно, (2) модели подвержены атакам на разблокировку. Для решения этих проблем мы исследуем, как построить более всеохватывающие и разнообразные контрастные шаблоны для улучшения данных о предпочтениях (RQ1) и проверяем влияние диверсификации контрастных шаблонов на выравнивание модели (RQ2). Для RQ1 мы предлагаем PopAlign, фреймворк, который интегрирует разнообразные контрастные шаблоны на уровнях подсказки, модели и конвейера, вводя шесть стратегий контрастирования, не требующих дополнительных процедур разметки обратной связи. Что касается RQ2, мы проводим тщательные эксперименты, демонстрирующие, что PopAlign значительно превосходит существующие методы, приводя к более всеохватывающему выравниванию.
Повышение возможностей больших языковых моделей (LLM) для решения более широкого круга сложных задач (например, программирование, математика) привлекло большое внимание многих исследователей. По мере развития LLM увеличение только количества параметров модели приводит к уменьшению улучшений производительности и значительным вычислительным затратам. Недавно модель o1 от OpenAI показала, что стратегии вывода (т.е. методы вычисления во время тестирования) также значительно улучшают способности рассуждения LLM. Однако механизмы этих методов до сих пор остаются неизученными. В нашей работе для изучения образцов рассуждений o1 мы сравниваем o1 с существующими методами вычисления во время тестирования (BoN, пошаговый BoN, рабочий процесс агента и самосовершенствование), используя GPT-4o от OpenAI в качестве основы на общих бенчмарках рассуждений в трех областях (математика, программирование, здравый смысл). В частности, наши эксперименты показывают, что модель o1 достигла лучшей производительности на большинстве наборов данных. Что касается методов поиска разнообразных ответов (например, BoN), мы обнаружили, что способности моделей вознаграждения и пространство поиска оба ограничивают верхнюю границу этих методов. Что касается методов, разбивающих проблему на множество подпроблем, рабочий процесс агента показал лучшую производительность по сравнению с пошаговым BoN благодаря доменно-специфическому системному запросу для планирования лучших процессов рассуждения. Следует отметить, что мы суммировали шесть образцов рассуждений o1 и предоставили подробный анализ нескольких бенчмарков рассуждений.
Пост-тренировка стала ключевым парадигмой для адаптации крупномасштабных предварительно обученных моделей к различным задачам, чьи эффекты полностью отражаются дельта-параметрами (т.е. различием между параметрами после обучения и предварительного обучения). В то время как множество исследований исследовали свойства дельта-параметров через операции, такие как обрезка, квантизация, аппроксимация низкого ранга и экстраполяция, единая структура для систематического изучения этих характеристик отсутствовала. В данной статье мы предлагаем новую перспективу на основе аппроксимации суммы Римана функции потерь для прояснения операций редактирования дельта-параметров. Наш анализ классифицирует существующие методы на три класса на основе их производительности после редактирования: конкурентоспособные, уменьшенные и улучшенные, объясняя, как они выражаются термином аппроксимации суммы Римана и как они изменяют производительность модели. Обширные эксперименты как с визуальными, так и с языковыми моделями, включая ViT, LLaMA 3, Qwen 2 и Mistral, подтверждают наши теоретические выводы. Более того, мы представляем расширения существующих техник, таких как DARE и BitDelta, выделяя их ограничения в использовании свойств дельта-параметров и переорганизуя их в общие выражения для улучшения применимости и эффективности редактирования дельта-параметров в пост-тренировочных моделях.
В последнее время квантование широко используется для сжатия и ускорения больших языковых моделей~(LLM). Из-за выбросов в LLM крайне важно выравнивать веса и активации для минимизации ошибки квантования с равномерно распределенными точками квантования. Предыдущие исследования исследуют различные преобразования перед квантованием для подавления выбросов, такие как масштабирование по каналам и преобразование Хадамара. Однако мы замечаем, что преобразованные веса и активации все еще могут оставаться крутыми и распространенными. В данной статье мы предлагаем FlatQuant (Быстрое и Обучаемое Аффинное Преобразование), новый подход к посттренировочному квантованию для улучшения плоскости весов и активаций. Наш подход определяет оптимальные аффинные преобразования, настроенные для каждого линейного слоя, калибруемые за несколько часов с помощью легкой целевой функции. Для снижения накладных расходов времени выполнения мы применяем декомпозицию Кронекера к матрицам преобразования и объединяем все операции в FlatQuant в одно ядро. Обширные эксперименты показывают, что FlatQuant устанавливает новый стандартный показатель квантования. Например, он достигает менее 1% падения точности для квантования W4A4 на модели LLaMA-3-70B, превосходя SpinQuant на 7.5%. Для задержки вывода FlatQuant снижает замедление, вызванное преобразованием перед квантованием, с 0.26x у QuaRot до всего лишь 0.07x, обеспечивая ускорение до 2.3x для предварительной загрузки и до 1.7x для декодирования соответственно. Код доступен по ссылке: https://github.com/ruikangliu/FlatQuant.
Сшивка панорамного изображения обеспечивает объединенный широкоугольный вид сцены, выходящий за пределы поля зрения камеры. Сшивка кадров панорамного видео в панорамное фото — хорошо изученная проблема для неподвижных сцен, но когда объекты движутся, статическая панорама не может зафиксировать сцену. Мы представляем метод синтеза панорамного видео из случайно снятого панорамного видео, как если бы оригинальное видео было снято широкоугольной камерой. Мы формулируем синтез панорамы как проблему пространственно-временного восстановления, где наша цель — создать полное панорамное видео той же продолжительности, что и входное видео. Согласованное заполнение пространственно-временного объема требует мощного, реалистичного априорного знания о содержании видео и движении, для чего мы адаптируем генеративные модели видео. Однако существующие генеративные модели не могут немедленно расшириться на завершение панорамы, как мы показываем. Вместо этого мы применяем генерацию видео как компонент нашей системы синтеза панорамы и демонстрируем, как использовать преимущества моделей, минимизируя их ограничения. Наша система способна создавать видео-панорамы для различных сцен "в дикой природе", включая людей, транспортные средства, текущую воду, а также неподвижные фоновые объекты.
Хотя крупные языковые модели (LLM) демонстрируют впечатляющую профессиональную компетентность в различных задачах, они представляют потенциальные риски безопасности, такие как "побег из тюрьмы", когда злонамеренные входные данные могут заставить LLM генерировать вредный контент. Для решения этих проблем многие разработчики LLM внедрили различные меры безопасности для выравнивания этих моделей. Это выравнивание включает в себя несколько техник, включая фильтрацию данных во время предварительного обучения, надзорное дообучение, обучение с подкреплением на основе обратной связи от людей и упражнения по проверке на проникновение. Эти методы часто вводят намеренные и целенаправленные предвзятости, аналогичные политической корректности (PC), чтобы гарантировать этическое поведение LLM. В данной статье мы углубляемся в намеренные предвзятости, внедренные в LLM для целей безопасности, и рассматриваем методы обхода этих техник выравнивания безопасности. Особенно эти намеренные предвзятости приводят к успешной атаке на безопасность в моделях GPT-4o, отличие составляет 20% между не-бинарными и кисгендерными ключевыми словами и 16% между белыми и черными ключевыми словами, даже когда другие части запросов идентичны. Мы представляем концепцию PCJailbreak, выделяя встроенные риски, вызванные этими предвзятостями, обусловленными безопасностью. Кроме того, мы предлагаем эффективный метод защиты PCDefense, который предотвращает попытки побега из тюрьмы путем внедрения оборонительных запросов перед генерацией. PCDefense является привлекательной альтернативой для моделей-стражей, таких как Llama-Guard, которые требуют дополнительных затрат на вывод после генерации текста. Наши результаты подчеркивают настоятельную необходимость для разработчиков LLM принять более ответственный подход при разработке и внедрении мер безопасности.
Поскольку возможности Многомодельных Больших Языковых Моделей (МБЯМ) продолжают улучшаться, возрастает потребность в оценке способностей более высокого порядка МБЯМ. Однако существует недостаток работ, оценивающих МБЯМ на более высоком уровне восприятия и понимания китайского визуального контента. Для заполнения этого пробела мы представляем **К**итайский **И**зображение **И**мпликация понимания **Бенч**марк, **КИИ-Бенч**, который направлен на оценку способностей МБЯМ к более высокому уровню восприятия и понимания китайских изображений. КИИ-Бенч выделяется несколькими способами по сравнению с существующими бенчмарками. Во-первых, для обеспечения подлинности китайского контекста изображения в КИИ-Бенч берутся из китайского Интернета и проходят ручную проверку, а соответствующие ответы также создаются вручную. Кроме того, КИИ-Бенч включает изображения, представляющие китайскую традиционную культуру, такие как известные китайские традиционные картины, которые могут глубоко отражать понимание моделью китайской традиционной культуры. Проведя обширные эксперименты на КИИ-Бенч с участием нескольких МБЯМ, мы сделали значительные открытия. Во-первых, наблюдается существенный разрыв между производительностью МБЯМ и людей на КИИ-Бенч. Наивысшая точность МБЯМ достигает 64,4%, в то время как средняя точность у людей составляет 78,2%, достигая впечатляющих 81,0%. Затем МБЯМ показывают более низкую производительность на изображениях китайской традиционной культуры, указывая на ограничения в их способности понимать семантику высокого уровня и отсутствие глубоких знаний о китайской традиционной культуре. Наконец, отмечается, что большинство моделей демонстрируют улучшенную точность, когда в подсказки включаются подсказки об эмоциях на изображениях. Мы считаем, что КИИ-Бенч позволит МБЯМ лучше понять китайскую семантику и китайские специфические изображения, продвигаясь вперед по пути к экспертному искусственному общему интеллекту (AGI). Наш проект доступен публично по адресу https://cii-bench.github.io/.
Генеративная коррекция ошибок (GEC) стала мощным методом постобработки для улучшения производительности систем автоматического распознавания речи (ASR). Однако мы показываем, что модели GEC испытывают трудности с обобщением за пределы конкретных типов ошибок, с которыми они сталкиваются во время обучения, что ограничивает их способность исправлять новые, невидимые ошибки на этапе тестирования, особенно в сценариях вне области (OOD). Этот феномен усиливается с именованными сущностями (NE), где, помимо недостаточной контекстуальной информации или знаний о NE, появляются новые NE. Для решения этих проблем мы предлагаем DARAG (Data- and Retrieval-Augmented Generative Error Correction), новый подход, разработанный для улучшения GEC для ASR в сценариях как внутри области (ID), так и вне ее (OOD). Мы дополняем обучающий набор данных GEC синтетическими данными, сгенерированными путем подачи LLMs и моделей текст в речь, тем самым имитируя дополнительные ошибки, на которых модель может учиться. Для сценариев вне области мы аналогично и без участия учителя имитируем ошибки на этапе тестирования из новых областей. Кроме того, для более эффективной работы с именованными сущностями мы вводим коррекцию с учетом извлечения путем дополнения ввода сущностями, извлеченными из базы данных. Наш подход прост, масштабируем и не зависит от области и языка. Мы проводим эксперименты на нескольких наборах данных и настройках, показывая, что DARAG превосходит все наши базовые варианты, достигая улучшений относительно WER на уровне 8\% -- 30\% в сценариях ID и на уровне 10\% -- 33\% в сценариях OOD.
Многоходовое взаимодействие между большими языковыми моделями (LLM) и пользователями естественным образом включает неявные сигналы обратной связи. Если LLM отвечает неожиданным образом на инструкцию, пользователь, вероятно, даст об этом знать, перефразируя запрос, выражая фрустрацию или переключаясь на альтернативную задачу. Такие сигналы являются независимыми от задачи и занимают относительно ограниченное подпространство языка, что позволяет LLM идентифицировать их даже в случае неудачи на самой задаче. Это создает возможность непрерывного обучения на основе взаимодействий без дополнительных аннотаций. Мы представляем ReSpect, метод обучения на основе таких сигналов в прошлых взаимодействиях через ретроспекцию. Мы применяем ReSpect в новом сценарии мультимодального взаимодействия, где люди инструктируют LLM решать абстрактную задачу рассуждения с комбинаторным пространством решений. Через тысячи взаимодействий с людьми мы показываем, как ReSpect постепенно повышает процент завершения задачи с 31% до 82%, все это без каких-либо внешних аннотаций.
Разработка больших языковых моделей (LLM) значительно улучшила возможности мультимодальных LLM (MLLM) в качестве общих помощников. Однако отсутствие знаний, специфичных для пользователя, по-прежнему ограничивает их применение в повседневной жизни человека. В данной статье мы представляем фреймворк Retrieval Augmented Personalization (RAP) для персонализации MLLM. Начиная с общего MLLM, мы превращаем его в персонализированного помощника в три этапа. (a) Remember: Мы разрабатываем базу данных ключ-значение для хранения информации, связанной с пользователем, например, имя пользователя, аватар и другие атрибуты. (b) Retrieve: Когда пользователь начинает разговор, RAP извлечет соответствующую информацию из базы данных с помощью мультимодального извлекателя. (c) Generate: Входной запрос и информация, извлеченная из понятий, подаются в MLLM для генерации персонализированных, знанием насыщенных ответов. В отличие от предыдущих методов, RAP позволяет редактировать концепции в реальном времени путем обновления внешней базы данных. Для дальнейшего улучшения качества генерации и соответствия информации, специфичной для пользователя, мы разрабатываем конвейер для сбора данных и создаем специализированный набор данных для персонализированного обучения MLLM. На основе этого набора данных мы обучаем серию MLLM в качестве персонализированных мультимодальных помощников. Предварительное обучение на масштабном наборе данных позволяет RAP-MLLM обобщать бесконечные визуальные концепции без дополнительной донастройки. Наши модели демонстрируют выдающуюся гибкость и качество генерации в различных задачах, таких как персонализированное описание изображений, вопросно-ответные системы и визуальное распознавание. Код, данные и модели доступны по адресу https://github.com/Hoar012/RAP-MLLM.
Генерация музыки, соответствующей визуальному содержимому видео, является сложной задачей, поскольку требуется глубокое понимание визуальной семантики и включает в себя создание музыки, чей мелодия, ритм и динамика гармонично сочетаются с визуальными повествованиями. В данной статье представлена MuVi, новый фреймворк, который эффективно решает эти проблемы для улучшения связности и погружающего опыта аудиовизуального контента. MuVi анализирует видеоконтент с помощью специально разработанного визуального адаптера для извлечения контекстуально и временно значимых особенностей. Эти особенности используются для создания музыки, которая не только соответствует настроению и теме видео, но также его ритму и темпу. Мы также представляем контрастную схему предварительного обучения музыкально-визуального сопоставления для обеспечения синхронизации на основе периодичности музыкальных фраз. Кроме того, мы демонстрируем, что наш генератор музыки на основе сопоставления потоков обладает способностью к контекстному обучению, что позволяет нам контролировать стиль и жанр создаваемой музыки. Экспериментальные результаты показывают, что MuVi демонстрирует превосходную производительность как по качеству звука, так и по временной синхронизации. Сгенерированные образцы музыкальных видеороликов доступны по адресу https://muvi-v2m.github.io.
Языковые модели (LMs) продемонстрировали уровень эксперта в рассуждениях и способности к воспоминаниям в медицине. Однако вычислительные затраты и проблемы конфиденциальности становятся препятствиями для широкомасштабной реализации. Мы представляем экономичную адаптацию phi-3-mini, MedMobile, языковой модели с 3,8 миллиарда параметров, способной работать на мобильном устройстве, для медицинских приложений. Мы демонстрируем, что MedMobile набирает 75,7% в MedQA (USMLE), превосходя проходной балл для врачей (~60%) и приближаясь к результатам моделей в 100 раз большего размера. Затем мы проводим тщательный набор абляций и показываем, что цепочка мыслей, ансамблирование и тонкая настройка приводят к наибольшему увеличению производительности, в то время как неожиданно усиление генерации через извлечение не приводит к значительным улучшениям.
Несмотря на значительный прогресс в мультимодальных моделях больших языков (MLLM), их высокая вычислительная стоимость остается барьером для внедрения в реальный мир. Вдохновленные смешением глубин (MoDs) в обработке естественного языка, мы стремимся решить это ограничение с точки зрения "активированных токенов". Наш ключевой инсайт заключается в том, что если большинство токенов избыточны для вычисления слоя, их можно пропустить непосредственно через слой MoD. Однако прямое преобразование плотных слоев MLLM в слои MoD приводит к существенному снижению производительности. Для решения этой проблемы мы предлагаем инновационную стратегию адаптации MoD для существующих MLLM под названием gamma-MoD. В gamma-MoD предлагается новая метрика для направления развертывания MoD в MLLM, а именно ранг карт внимания (ARank). Через ARank мы можем эффективно определить, какой слой избыточен и должен быть заменен слоем MoD. Основываясь на ARank, мы далее предлагаем два новых дизайна для максимизации вычислительной разреженности MLLM, сохраняя при этом его производительность, а именно общий маршрутизатор видения-языка и обучение маскированной маршрутизации. С помощью этих дизайнов более 90% плотных слоев MLLM могут быть эффективно преобразованы в слои MoD. Для проверки нашего метода мы применяем его к трем популярным MLLM и проводим обширные эксперименты на 9 наборах данных для тестирования. Экспериментальные результаты не только подтверждают значительную выгоду в эффективности gamma-MoD для существующих MLLM, но также подтверждают его способность к обобщению на различные MLLM. Например, с незначительным снижением производительности, т.е. -1,5%, gamma-MoD может сократить время обучения и вывода LLaVA-HR на 31,0% и 53,2% соответственно.
Быстрый рост масштаба моделей требует значительных вычислительных ресурсов для тонкой настройки. Существующий подход, такой как Адаптация с Низким Рангом (LoRA), стремится решить проблему обработки большого количества обновленных параметров при полной тонкой настройке. Однако LoRA использует случайную инициализацию и оптимизацию матриц низкого ранга для приближения обновленных весов, что может привести к неоптимальной сходимости и разрыву в точности по сравнению с полной тонкой настройкой. Для решения этих проблем мы предлагаем LoLDU, подход к Тонкой Настройке с Эффективными Параметрами (PEFT), который значительно уменьшает количество обучаемых параметров в 2600 раз по сравнению с обычными методами PEFT, сохраняя при этом сопоставимую производительность. LoLDU использует Декомпозицию на Нижнюю-Диагональную-Верхнюю (LDU) для инициализации матриц низкого ранга для более быстрой сходимости и ортогональности. Мы сосредотачиваемся на оптимизации диагональной матрицы для масштабирующих преобразований. На наш взгляд, LoLDU имеет наименьшее количество параметров среди всех подходов PEFT. Мы провели обширные эксперименты на 4 наборах данных по следованию инструкциям, 6 наборах данных по пониманию естественного языка (NLU), 8 наборах данных по классификации изображений и наборах данных по генерации изображений с несколькими типами моделей (LLaMA2, RoBERTa, ViT и Stable Diffusion), предоставив всесторонний и детальный анализ. Наш исходный код с открытым исходным кодом доступен по адресу https://github.com/SKDDJ/LoLDU.
Способность открывать новые материалы с желаемыми свойствами критически важна для многих областей, начиная от помощи в смягчении изменения климата до прогресса в аппаратных средствах вычислительной техники следующего поколения. Искусственный интеллект имеет потенциал ускорить открытие и разработку материалов путем более эффективного исследования химического пространства по сравнению с другими вычислительными методами или методом проб и ошибок. Хотя был достигнут значительный прогресс в области использования искусственного интеллекта для данных, бенчмарков и моделей материалов, возникла проблема в виде отсутствия общедоступных обучающих данных и открытых предварительно обученных моделей. Для решения этой проблемы мы представляем мета-релиз Meta FAIR набора данных Open Materials 2024 (OMat24) крупного масштаба и сопутствующий набор предварительно обученных моделей. OMat24 содержит более 110 миллионов расчетов методом плотностного функционала (DFT), сосредоточенных на структурном и композиционном разнообразии. Наши модели EquiformerV2 достигают передовых результатов на доске лидеров Matbench Discovery и способны предсказывать устойчивость основного состояния и энергии образования с F1-оценкой выше 0,9 и точностью 20 мэВ/атом соответственно. Мы исследуем влияние размера модели, вспомогательных целей денойзинга и донастройки на результативность на различных наборах данных, включая OMat24, MPtraj и Alexandria. Открытый релиз набора данных OMat24 и моделей позволяет научному сообществу продолжить нашу работу и продвигать дальнейшие достижения в области искусственного интеллекта в материаловедении.
Мы предлагаем Long-LRM, обобщенную модель трехмерной гауссовой реконструкции, способную восстанавливать большую сцену из длинной последовательности входных изображений. Конкретно, наша модель может обрабатывать 32 исходных изображения разрешением 960x540 за всего лишь 1.3 секунды на одном графическом процессоре A100 80G. Наша архитектура включает в себя смесь недавних блоков Mamba2 и классических блоков трансформера, что позволило обрабатывать гораздо больше токенов, чем в предыдущих работах, улучшенных эффективным объединением токенов и этапами обрезки гауссова распределения, которые обеспечивают баланс между качеством и эффективностью. В отличие от предыдущих моделей прямого распространения, ограниченных обработкой 1-4 входных изображений и способных восстанавливать лишь небольшую часть большой сцены, Long-LRM восстанавливает всю сцену за один шаг прямого распространения. На крупных наборах данных сцен, таких как DL3DV-140 и Tanks and Temples, наш метод достигает производительности, сравнимой с подходами на основе оптимизации, при этом он эффективнее на два порядка. Страница проекта: https://arthurhero.github.io/projects/llrm
Поскольку большие языковые модели быстро развиваются для поддержки более длинного контекста, имеется заметное расхождение в их способности генерировать вывод большей длины. Недавнее исследование предполагает, что основная причина этого дисбаланса может возникать из-за недостатка данных с длинным выводом во время выравнивания обучения. С учетом этого наблюдения предпринимаются попытки повторного выравнивания базовых моделей с данными, которые заполняют этот пробел, что приводит к моделям способным генерировать длинный вывод по инструкции. В данной статье мы исследуем влияние качества данных на настройку модели для длинного вывода, а также возможность сделать это с точки зрения начальных точек моделей, выравненных с человеком (инструкциями или чатом). С тщательной кураторской работой с данными мы показываем, что возможно достичь аналогичного улучшения производительности в наших настроенных моделях, используя лишь небольшую часть обучающих данных и вычислений. Кроме того, мы оцениваем обобщаемость таких подходов, применяя наши методы настройки к нескольким моделям. Наши результаты подтверждают, что, хотя возможности генерации длинного вывода различаются у разных моделей изначально, наш подход к настройке их с использованием качественных данных с небольшими вычислениями последовательно приводит к значительному улучшению на всех моделях, на которых мы экспериментировали. Мы опубликовали нашу отобранную базу данных для настройки возможности длинного письма, реализации настройки и оценки модели, а также настроенные модели, к которым можно свободно получить доступ.
Метод руководства без классификатора (CFG) является критической техникой для улучшения качества выборки визуальных генеративных моделей. Однако в авторегрессивной (AR) мультимодальной генерации CFG вносит дизайнерские несоответствия между языком и визуальным контентом, противоречащие философии объединения различных модальностей для визуальной AR. Вдохновленные методами выравнивания моделей языка, мы предлагаем Метод условного контрастного выравнивания (CCA) для облегчения руководства-бесплатной AR визуальной генерации с высокой производительностью и анализируем его теоретическую связь с методами руководимой выборки. В отличие от методов руководства, изменяющих процесс выборки для достижения идеального распределения выборки, CCA напрямую донастраивает предварительно обученные модели для соответствия тому же целевому распределению. Экспериментальные результаты показывают, что CCA значительно улучшает производительность руководства-бесплатной всех протестированных моделей всего за одну эпоху донастройки (примерно 1\% от эпох предварительного обучения) на наборе данных предварительного обучения, наравне с методами руководимой выборки. Это в значительной степени устраняет необходимость в руководимой выборке в AR визуальной генерации и сокращает стоимость выборки практически вдвое. Более того, путем настройки параметров обучения CCA может достигать компромиссов между разнообразием выборки и достоверностью, аналогично CFG. Это экспериментально подтверждает сильную теоретическую связь между методами выравнивания, ориентированными на язык, и методами руководства, ориентированными на визуальное содержимое, объединяя две ранее независимые исследовательские области. Код и веса модели: https://github.com/thu-ml/CCA.
Всеобщее распространение собственных языковых моделей вызвало опасения по поводу конфиденциальности чувствительных данных пользователей, подчеркивая необходимость частного вывода (PI), при котором вывод выполняется непосредственно на зашифрованных входных данных. Однако текущие методы PI сталкиваются с чрезмерно высокими накладными расходами на коммуникацию и задержку, в основном из-за нелинейных операций. В данной статье мы представляем комплексный анализ для понимания роли нелинейностей в языковых моделях только декодера на основе трансформера. Мы представляем AERO, четырехэтапную архитектурную оптимизацию, которая улучшает существующую архитектуру LLM для эффективного PI путем систематического удаления нелинейностей, таких как LayerNorm и GELU, а также уменьшения количества операций с плавающей запятой. Впервые мы предлагаем архитектуру только с Softmax с значительно меньшим количеством операций с плавающей запятой, созданную для эффективного PI. Более того, мы разработали новую технику регуляризации энтропии для улучшения производительности моделей только с Softmax. AERO достигает снижения накладных расходов на коммуникацию до 4,23 раз и задержки до 1,94 раза. Мы подтверждаем эффективность AERO, сравнивая ее с передовыми методами.
Модели основанные на визуально-языковых основах (такие как CLIP) недавно продемонстрировали свою мощь в обучении передачи, благодаря предварительному обучению изображений и текста в большом масштабе. Однако данные целевой области в последующих задачах могут значительно отличаться от этапа предварительного обучения, что затрудняет обобщение такой единственной модели. В качестве альтернативы существует широкий спектр экспертных моделей, содержащих разнообразные знания о визуальном и/или языковом уровнях, предварительно обученные на различных модальностях, задачах, сетях и наборах данных. К сожалению, эти модели являются "изолированными агентами" с гетерогенными структурами, и как интегрировать их знания для обобщения моделей, подобных CLIP, пока не было полностью исследовано. Для преодоления этого разрыва мы предлагаем общую и лаконичную структуру TransAgent, которая передает знания изолированных агентов единым образом и эффективно направляет CLIP на обобщение с помощью дистилляции знаний из нескольких источников. С помощью такой отличной структуры мы гибко сотрудничаем с 11 гетерогенными агентами для усиления моделей основанных на визуально-языковых основах, без дополнительных затрат на фазе вывода. Наконец, наш TransAgent достигает передовой производительности на 11 наборах данных по визуальному распознаванию. При том же низком уровне обучения он превосходит популярный CoOp в среднем на 10%, и на 20% на наборе данных EuroSAT, который содержит большие изменения области.
Многие студенты испытывают трудности с математическими текстовыми задачами (МТЗ), часто находя сложности в выделении ключевой информации и выборе соответствующих математических операций. Инструкция на основе схемы (SBI) - это стратегия, подтвержденная доказательствами, которая помогает студентам категоризировать задачи на основе их структуры, улучшая точность решения проблем. На основе этого мы предлагаем фреймворк Инструкции на основе схемы с извлечением и дополнением (SBI-RAG), который включает в себя большую языковую модель (LLM). Наш подход акцентируется на пошаговом рассуждении, используя схемы для направления генерации решения. Мы оцениваем его производительность на наборе данных GSM8K, сравнивая его с GPT-4 и GPT-3.5 Turbo, и представляем метрику "оценки рассуждений" для оценки качества решения. Наши результаты показывают, что SBI-RAG улучшает ясность рассуждений и точность решения проблем, что потенциально приносит образовательные выгоды для студентов.