Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели, подобные GPT-4o, позволяют взаимодействовать в реальном времени с большими языковыми моделями (LLM) через речь, значительно улучшая опыт пользователя по сравнению с традиционным текстовым взаимодействием. Однако до сих пор существует недостаток исследований по вопросу о том, как создавать модели речевого взаимодействия на основе открытых LLM. Для решения этой проблемы мы предлагаем LLaMA-Omni, новую архитектуру модели, разработанную для низкой задержки и высококачественного речевого взаимодействия с LLM. LLaMA-Omni интегрирует предварительно обученный речевой энкодер, речевой адаптер, LLM и потоковый речевой декодер. Он устраняет необходимость в транскрипции речи и может одновременно генерировать текстовые и речевые ответы непосредственно из речевых инструкций с крайне низкой задержкой. Мы строим нашу модель на основе последней модели Llama-3.1-8B-Instruct. Для адаптации модели к сценариям речевого взаимодействия мы создаем набор данных под названием InstructS2S-200K, который включает 200 тыс. речевых инструкций и соответствующих речевых ответов. Экспериментальные результаты показывают, что по сравнению с предыдущими моделями речь-язык, LLaMA-Omni предоставляет лучшие ответы как по содержанию, так и по стилю, с задержкой ответа всего 226 мс. Кроме того, обучение LLaMA-Omni занимает менее 3 дней всего на 4 GPU, что укладывает путь для эффективной разработки моделей речь-язык в будущем.
Расширенная генерация с использованием поиска (RAG) стала общим подходом для использования больших языковых моделей (LLM) наряду с закрытыми и актуальными базами знаний. В данной работе мы рассматриваем проблемы использования LLM-как-Судьи при оценке обоснованных ответов, генерируемых системами RAG. Для оценки калибровки и дискриминационных возможностей моделей-судей мы выделяем 7 режимов сбоя генератора и представляем GroUSE (Grounded QA Unitary Scoring of Evaluators) - мета-оценочную базу из 144 модульных тестов. Эта база показывает, что существующие автоматизированные фреймворки оценки RAG часто не учитывают важные режимы сбоя, даже при использовании GPT-4 в качестве судьи. Для улучшения текущего дизайна автоматизированных фреймворков оценки RAG мы предлагаем новый конвейер и обнаруживаем, что хотя закрытые модели хорошо справляются с GroUSE, современные открытые судьи с открытым исходным кодом не обобщаются на наши критерии, несмотря на сильную корреляцию с оценками GPT-4. Наши результаты показывают, что корреляция с GPT-4 является неполным показателем практической производительности моделей-судей и должна дополняться оценками на модульных тестах для точного обнаружения режимов сбоя. Мы также показываем, что донастройка Llama-3 на следах рассуждений GPT-4 значительно улучшает его возможности оценки, улучшая как корреляцию с оценками GPT-4, так и калибровку на эталонных ситуациях.
Аффорданс означает потенциальные взаимодействия, присущие объектам. Восприятие аффорданса может позволить интеллектуальным агентам эффективно перемещаться и взаимодействовать с новыми окружениями. Слабо контролируемое закрепление аффорданса обучает агентов концепции аффорданса без затратных аннотаций на уровне пикселей, но с использованием экзоцентрических изображений. Хотя недавние достижения в слабо контролируемом закреплении аффорданса привели к многообещающим результатам, остаются вызовы, включая необходимость сопоставленного набора данных экзоцентрических и эгоцентрических изображений, а также сложность закрепления разнообразных аффордансов для одного объекта. Для их решения мы предлагаем метод INTRA (INTRA), основанный на осознании взаимодействия и слабо контролируемом закреплении аффорданса. В отличие от предыдущих работ, INTRA переформулирует эту проблему как обучение представлений для выявления уникальных особенностей взаимодействий через контрастное обучение только с использованием экзоцентрических изображений, исключая необходимость в сопоставленных наборах данных. Более того, мы используем вложения моделей видео-языка для гибкого выполнения закрепления аффорданса с любым текстом, разрабатывая генерацию карт аффорданса, зависящую от текста, чтобы отразить взаимосвязь взаимодействия для контрастного обучения и улучшения устойчивости с помощью нашего увеличения синонимов текста. Наш метод показал лучшие результаты по сравнению с предыдущими работами на различных наборах данных, таких как AGD20K, IIT-AFF, CAD и UMD. Кроме того, экспериментальные результаты показывают, что наш метод обладает замечательной масштабируемостью в области синтезированных изображений / иллюстраций и способен выполнять закрепление аффорданса для новых взаимодействий и объектов.
Музыка является неотъемлемой частью человеческой культуры, воплощая в себе человеческий интеллект и творчество, из которых песни составляют существенную часть. Хотя различные аспекты генерации песен были исследованы в предыдущих работах, таких как вокальное исполнение, вокальная композиция и инструментальное оформление и т. д., генерация песен с вокалом и аккомпанементом по заданным текстам остается значительным вызовом, затрудняя применение моделей генерации музыки в реальном мире. В этом контексте мы предлагаем SongCreator, систему генерации песен, разработанную для решения этой проблемы. Модель включает два новаторских решения: тщательно разработанную двухпоследовательную языковую модель (DSLM) для улавливания информации о вокале и аккомпанементе для генерации песен, а также дополнительную стратегию маскирования внимания для DSLM, позволяющую нашей модели понимать, генерировать и редактировать песни, что делает ее подходящей для различных задач, связанных с генерацией песен. Обширные эксперименты демонстрируют эффективность SongCreator, достигая передовых или конкурентоспособных результатов по всем восьми задачам. Особенно стоит отметить, что она превосходит предыдущие работы с большим отрывом в преобразовании текста в песню и текста в вокал. Кроме того, она способна независимо контролировать акустические условия вокала и аккомпанемента в созданной песне с помощью различных подсказок, демонстрируя свою потенциальную применимость. Наши образцы доступны по адресу https://songcreator.github.io/.
Фоли - термин, широко используемый в кинематографии, означающий добавление звуковых эффектов к немым фильмам или видео для улучшения звукового восприятия. Видео-в-Аудио (V2A), как особый тип автоматической задачи фоли, представляет собой встроенные вызовы, связанные с синхронизацией аудио и видео. Эти вызовы включают в себя поддержание согласованности контента между входным видео и сгенерированным аудио, а также выравнивание временных и громкостных характеристик внутри видео. Для решения этих проблем мы создаем управляемую модель синтеза видео-в-аудио, названную Draw an Audio, которая поддерживает несколько входных инструкций через нарисованные маски и сигналы громкости. Для обеспечения согласованности контента между синтезированным аудио и целевым видео мы вводим Модуль Внимания-Маски (MAM), который использует маскированные видеоинструкции, чтобы позволить модели сосредоточиться на интересующих областях. Кроме того, мы реализуем Модуль Времени-Громкости (TLM), который использует вспомогательный сигнал громкости для обеспечения синтеза звука, соответствующего видео как по громкости, так и по временным измерениям. Более того, мы расширили крупномасштабный набор данных V2A, названный VGGSound-Caption, добавив аннотации к подписям. Обширные эксперименты на сложных бенчмарках по двум крупномасштабным наборам данных V2A подтверждают, что Draw an Audio достигает передового уровня. Страница проекта: https://yannqi.github.io/Draw-an-Audio/.
В последние годы развитие моделей диффузии привело к значительному прогрессу в задачах генерации изображений и видео, с предварительно обученными моделями, такими как серия Stable Diffusion, играющими ключевую роль. Вдохновленные обрезкой моделей, которая уменьшает крупные предварительно обученные модели путем удаления неважных параметров, мы предлагаем новый метод настройки модели для полного использования этих неэффективных параметров и придания предварительно обученной модели новых специфических для задачи возможностей. В данной работе мы первоначально исследуем важность параметров в предварительно обученных моделях диффузии и обнаруживаем, что наименьшие 10% до 20% параметров по абсолютным значениям не вносят вклад в процесс генерации. Исходя из этого наблюдения, мы предлагаем метод под названием SaRA, который повторно использует эти временно неэффективные параметры, что эквивалентно оптимизации разреженной матрицы весов для изучения задаче-специфических знаний. Для смягчения переобучения мы предлагаем схему обучения с низкоранговой разреженностью на основе ядерной нормы для эффективной настройки. Кроме того, мы разрабатываем новую прогрессивную стратегию настройки параметров для полного использования повторно обученных/перенастроенных параметров. Наконец, мы предлагаем новую стратегию обратного распространения без структуры, которая значительно снижает затраты памяти во время настройки. Наш метод улучшает генеративные возможности предварительно обученных моделей в прикладных задачах и превосходит традиционные методы настройки, такие как LoRA, в поддержании обобщающей способности модели. Мы проверяем наш подход через эксперименты по настройке моделей SD, демонстрируя значительные улучшения. SaRA также предлагает практическое преимущество, требующее только одной строки изменения кода для эффективной реализации и без проблем совместим с существующими методами.
Нейронные поля радиантов (NeRF) революционизировали реконструкцию статических сцен и объектов в 3D, предлагая беспрецедентное качество. Однако расширение NeRF для моделирования динамических объектов или артикуляций объектов остается сложной задачей. Предыдущие работы решали эту проблему, сосредотачиваясь на реконструкции частей и оценке движения объектов, но они часто полагались на эвристику относительно количества движущихся частей или категорий объектов, что может ограничить их практическое использование. В данной работе мы представляем LEIA, новый подход к представлению динамических 3D объектов. Наш метод включает в себя наблюдение за объектом в различные моменты времени или "состояния" и условием гиперсети на текущее состояние, используя это для параметризации нашего NeRF. Этот подход позволяет нам изучить инвариантное к виду латентное представление для каждого состояния. Мы также демонстрируем, что, интерполируя между этими состояниями, мы можем генерировать новые конфигурации артикуляции в 3D пространстве, которые ранее не наблюдались. Наши экспериментальные результаты подчеркивают эффективность нашего метода в артикуляции объектов таким образом, который не зависит от угла обзора и конфигурации сочленений. Заметно, что наш подход превосходит предыдущие методы, полагающиеся на информацию о движении для регистрации артикуляции.