Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) часто выдают ответы, содержащие фактические ошибки, из-за их исключительной зависимости от параметрического знания, которое они инкапсулируют. Подход, называемый Retrieval-Augmented Generation (RAG), который дополняет языковые модели извлечением релевантных знаний, уменьшает такие проблемы. Однако без разбора извлечение и включение фиксированного числа найденных фрагментов, независимо от того, необходимо ли извлечение или релевантны ли фрагменты, снижает универсальность языковой модели или может привести к генерации бесполезных ответов. Мы представляем новую структуру под названием Self-Reflective Retrieval-Augmented Generation (Self-RAG), которая повышает качество и фактическую точность языковой модели за счет извлечения и саморефлексии. Наша структура обучает одну произвольную языковую модель, которая адаптивно извлекает фрагменты по запросу, а также генерирует и анализирует извлеченные фрагменты и свои собственные генерации с использованием специальных токенов, называемых токенами рефлексии. Генерация токенов рефлексии делает языковую модель управляемой на этапе вывода, позволяя ей адаптировать свое поведение к различным требованиям задач. Эксперименты показывают, что Self-RAG (с 7 и 13 миллиардами параметров) значительно превосходит современные крупные языковые модели и модели, дополненные извлечением, на разнообразных задачах. В частности, Self-RAG превосходит ChatGPT и Llama2-chat, дополненную извлечением, в задачах открытого домена QA, рассуждения и проверки фактов, а также демонстрирует значительные улучшения в повышении фактической точности и точности цитирования для длинных генераций по сравнению с этими моделями.
Обработка музыки с использованием искусственного интеллекта представляет собой разнообразную область, охватывающую десятки задач, начиная от задач генерации (например, синтез тембра) до задач анализа (например, классификация музыки). Для разработчиков и любителей крайне сложно охватить все эти задачи, чтобы удовлетворить свои потребности в обработке музыки, особенно учитывая значительные различия в представлении музыкальных данных и применимости моделей на различных платформах для различных задач. Следовательно, необходимо создать систему, которая организует и интегрирует эти задачи, помогая практикам автоматически анализировать свои запросы и вызывать подходящие инструменты для их выполнения. Вдохновленные недавними успехами больших языковых моделей (LLM) в автоматизации задач, мы разработали систему под названием MusicAgent, которая объединяет множество музыкальных инструментов и автономный рабочий процесс для удовлетворения запросов пользователей. Более конкретно, мы создали: 1) набор инструментов, который собирает инструменты из различных источников, включая Hugging Face, GitHub и веб-API, и 2) автономный рабочий процесс, управляемый LLM (например, ChatGPT), который организует эти инструменты и автоматически разбивает запросы пользователей на несколько подзадач, вызывая соответствующие музыкальные инструменты. Основная цель этой системы — освободить пользователей от сложностей работы с инструментами AI-музыки, позволяя им сосредоточиться на творческом аспекте. Предоставляя пользователям возможность легко комбинировать инструменты, система предлагает плавный и обогащающий музыкальный опыт.
Современные методы генерации 3D-контента на основе текста демонстрируют впечатляющие возможности создания трехмерных объектов благодаря прогрессу в моделях диффузии изображений и стратегиях оптимизации. Однако текущие подходы сталкиваются с трудностями при генерации корректного 3D-контента для сложных запросов с точки зрения семантики, то есть запросов, описывающих несколько взаимодействующих объектов, связанных с различными атрибутами. В данной работе мы предлагаем общий фреймворк под названием Progressive3D, который разбивает процесс генерации на серию локально прогрессивных шагов редактирования для создания точного 3D-контента для сложных запросов, при этом ограничивая изменения контента только областями, определенными пользовательскими региональными запросами на каждом шаге редактирования. Кроме того, мы предлагаем технику подавления перекрывающихся семантических компонентов, чтобы стимулировать процесс оптимизации сосредоточиться на семантических различиях между запросами. Многочисленные эксперименты показывают, что предложенный фреймворк Progressive3D генерирует точный 3D-контент для запросов со сложной семантикой и является универсальным для различных методов генерации 3D-контента на основе текста, использующих различные 3D-представления.