Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в интеграции разнообразных экспертных моделей для решения сложных задач в области языка и зрения. Несмотря на их важность для развития области генерации контента с использованием искусственного интеллекта (AIGC), их возможности в создании интеллектуального аудиоконтента остаются неисследованными. В данной работе мы решаем задачу создания аудиоконтента с сюжетными линиями, включающими речь, музыку и звуковые эффекты, на основе текстовых инструкций. Мы представляем WavJourney — систему, которая использует LLM для объединения различных аудиомоделей с целью генерации аудиоконтента. Получив текстовое описание аудиосцены, WavJourney сначала запрашивает у LLM создание структурированного сценария, предназначенного для аудиорассказа. Этот аудиосценарий включает разнообразные аудиоэлементы, организованные в соответствии с их пространственно-временными отношениями. Как концептуальное представление аудио, аудиосценарий обеспечивает интерактивную и интерпретируемую основу для взаимодействия с человеком. Затем аудиосценарий передается в компилятор сценариев, который преобразует его в компьютерную программу. Каждая строка программы вызывает специализированную модель генерации аудио или вычислительную операцию (например, объединение, микширование). Программа выполняется для получения объяснимого решения по генерации аудио. Мы демонстрируем практическую применимость WavJourney в различных реальных сценариях, включая научную фантастику, образование и радиопостановки. Объяснимый и интерактивный дизайн WavJourney способствует совместному творчеству человека и машины в многораундовых диалогах, повышая творческий контроль и адаптивность в производстве аудио. WavJourney озвучивает человеческое воображение, открывая новые возможности для творчества в создании мультимедийного контента.
Низкоранговые адаптации (LoRA) часто используются для тонкой настройки больших языковых моделей (LLM) для новых задач. В данной статье исследуется композиционность LoRA для обобщения на кросс-задачи и представлен LoraHub — стратегическая структура, разработанная для целенаправленной сборки модулей LoRA, обученных на различных задачах, с целью достижения адаптируемой производительности на неизвестных задачах. Всего лишь с несколькими примерами новой задачи LoraHub позволяет гибко комбинировать несколько модулей LoRA, устраняя необходимость в экспертных знаниях. Примечательно, что композиция не требует дополнительных параметров модели или градиентов. Наши эмпирические результаты, полученные на основе бенчмарка Big-Bench Hard (BBH), показывают, что LoraHub может эффективно имитировать производительность обучения в контексте в условиях малого количества примеров, исключая необходимость использования контекстных примеров для каждого входного вывода. Значительным вкладом нашего исследования является создание сообщества для LoRA, где пользователи могут делиться своими обученными модулями LoRA, тем самым облегчая их применение к новым задачам. Мы ожидаем, что этот ресурс расширит доступ и стимулирует прогресс в области общего интеллекта, а также LLM в производстве. Код будет доступен по адресу https://github.com/sail-sg/lorahub.
Крупные языковые модели (LLM) демонстрируют лучшие результаты, когда они генерируют пошаговые рассуждения в стиле "Цепочка мыслей" (Chain-of-Thought, CoT) перед ответом на вопрос. Однако неясно, являются ли эти рассуждения точным отражением реального процесса, используемого моделью для формирования ответа. Мы исследуем гипотезы о том, почему рассуждения CoT могут быть недостоверными, анализируя, как изменяются предсказания модели при вмешательстве в CoT (например, добавлении ошибок или перефразировании). Модели демонстрируют значительные различия в зависимости от задачи в том, насколько сильно они учитывают CoT при формировании ответа: иногда они сильно полагаются на CoT, а в других случаях в основном игнорируют его. Улучшение производительности CoT, по-видимому, не связано исключительно с дополнительными вычислительными ресурсами во время тестирования или с информацией, закодированной в конкретной формулировке CoT. По мере увеличения размера и способностей моделей они генерируют менее достоверные рассуждения в большинстве исследуемых задач. В целом, наши результаты показывают, что CoT может быть достоверным, если тщательно подобраны такие условия, как размер модели и задача.
С развитием генеративного искусственного интеллекта появился захватывающий потенциал для автономных агентов, способных управлять повседневными задачами с помощью команд на естественном языке. Однако текущие агенты в основном создаются и тестируются в упрощенных синтетических средах, что существенно ограничивает представление реальных сценариев. В данной статье мы создаем среду для управления и контроля агентов, которая является высоко реалистичной и воспроизводимой. В частности, мы сосредотачиваемся на агентах, выполняющих задачи на веб-сайтах, и создаем среду с полностью функциональными веб-сайтами из четырех распространенных областей: электронная коммерция, обсуждения на социальных форумах, совместная разработка программного обеспечения и управление контентом. Наша среда обогащена инструментами (например, картой) и внешними базами знаний (например, руководствами пользователя) для поощрения человекообразного решения задач. На основе нашей среды мы выпускаем набор эталонных задач, ориентированных на оценку функциональной корректности выполнения задач. Задачи в нашем эталоне разнообразны, долгосрочны и предназначены для имитации задач, которые люди регулярно выполняют в интернете. Мы разрабатываем и реализуем несколько автономных агентов, интегрируя современные методы, такие как рассуждение перед действием. Результаты показывают, что решение сложных задач является трудным: наш лучший агент на основе GPT-4 достигает только 10,59% успешного выполнения задач от начала до конца. Эти результаты подчеркивают необходимость дальнейшего развития надежных агентов, что современные передовые языковые модели далеки от идеальной производительности в этих реальных задачах, и что WebArena может быть использована для измерения такого прогресса. Наш код, данные, ресурсы для воспроизведения среды и видеодемонстрации доступны публично по адресу https://webarena.dev/.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты на различных тестах количественного мышления и проверки знаний. Однако многие из этих тестов теряют свою полезность, поскольку LLM достигают всё более высоких баллов, хотя ещё не достигают экспертного уровня в этих областях. Мы представляем ARB — новый тест, состоящий из задач на продвинутое логическое мышление в различных областях. ARB предлагает более сложные задачи по сравнению с предыдущими тестами, включая проблемы из математики, физики, биологии, химии и права. В качестве подмножества ARB мы представляем набор сложных задач по математике и физике, которые требуют продвинутого символьного мышления и глубоких знаний в предметной области. Мы оцениваем современные модели, такие как GPT-4 и Claude, на тесте ARB и показываем, что текущие модели набирают менее 50% баллов на более сложных задачах. Для улучшения как автоматической, так и ассистированной оценки мы вводим подход к оценке на основе рубрик, позволяющий GPT-4 оценивать свои промежуточные шаги рассуждений. Кроме того, мы проводим экспертный анализ символьного подмножества ARB, обнаруживая многообещающее согласие между оценками аннотаторов и результатами оценки GPT-4 по рубрикам.
Традиционные системы рекомендаций используют историю предпочтений пользователей по элементам для предложения нового контента, который может им понравиться. Однако современные диалоговые интерфейсы, позволяющие пользователям выражать предпочтения на основе языка, предлагают принципиально иной способ ввода предпочтений. Вдохновленные недавними успехами парадигм подсказок для больших языковых моделей (LLM), мы исследуем их использование для формирования рекомендаций на основе как предпочтений по элементам, так и языковых предпочтений, в сравнении с передовыми методами коллаборативной фильтрации (CF) на основе элементов. Для поддержки этого исследования мы собираем новый набор данных, включающий как предпочтения по элементам, так и языковые предпочтения, полученные от пользователей, а также их оценки на различные (предвзятые) рекомендованные элементы и (непредвзятые) случайные элементы. Среди множества экспериментальных результатов мы обнаруживаем, что LLM демонстрируют конкурентоспособную производительность в рекомендациях для чистых языковых предпочтений (без предпочтений по элементам) в условиях, близких к холодному старту, по сравнению с методами CF на основе элементов, несмотря на отсутствие контролируемого обучения для этой конкретной задачи (zero-shot) или наличие лишь нескольких меток (few-shot). Это особенно перспективно, поскольку языковые представления предпочтений более объяснимы и прозрачны, чем представления на основе элементов или векторов.
Покрытие кода — это широко используемая метрика для количественной оценки степени выполнения элементов программы, таких как операторы или ветви, в процессе тестирования. Вычисление покрытия кода требует значительных ресурсов, включая сборку и выполнение кода с дополнительными накладными расходами на инструментирование. Более того, для вычисления покрытия любого фрагмента кода необходим контекст всей программы. Использование машинного обучения для амортизации этого затратного процесса может снизить стоимость вычисления покрытия кода, требуя только контекста исходного кода, а задача предсказания покрытия кода может стать новым эталоном для оценки способности моделей понимать код. Мы предлагаем новую эталонную задачу под названием "Предсказание покрытия кода для больших языковых моделей (LLM)". Мы формализуем эту задачу для оценки способности LLM понимать выполнение кода, определяя, какие строки метода выполняются при заданном тестовом случае и входных данных. Мы создаем и публикуем набор данных под названием COVERAGEEVAL, выполняя тесты и код из набора данных HumanEval и собирая информацию о покрытии кода. Мы сообщаем о производительности четырех современных LLM, используемых для задач, связанных с кодом, включая GPT-4 и GPT-3.5-Turbo от OpenAI, BARD от Google и Claude от Anthropic, в задаче предсказания покрытия кода. Наконец, мы утверждаем, что покрытие кода как метрика и источник данных для предварительного обучения являются ценными для общей производительности LLM в задачах программной инженерии.
Мы представляем Strivec — новое нейронное представление, которое моделирует 3D-сцену как поле излучения с разреженно распределенными и компактно факторизованными локальными тензорными сетками признаков. Наш подход использует тензорное разложение, следуя недавней работе TensoRF, для моделирования тензорных сеток. В отличие от TensoRF, который использует глобальный тензор и фокусируется на его векторно-матричном разложении, мы предлагаем использовать облако локальных тензоров и применить классическое разложение CANDECOMP/PARAFAC (CP) для факторизации каждого тензора в тройку векторов, которые выражают локальные распределения признаков вдоль пространственных осей и компактно кодируют локальное нейронное поле. Мы также применяем многоуровневые тензорные сетки для выявления общих закономерностей геометрии и внешнего вида, а также используем пространственную согласованность с тройным векторным разложением на нескольких локальных масштабах. Свойства итогового поля излучения регрессируются путем агрегирования нейронных признаков из множества локальных тензоров на всех уровнях. Наши тройные векторные тензоры разреженно распределены вокруг реальной поверхности сцены, обнаруженной с помощью быстрой грубой реконструкции, что использует разреженность 3D-сцены. Мы демонстрируем, что наша модель может достичь более высокого качества визуализации, используя значительно меньше параметров по сравнению с предыдущими методами, включая TensoRF и Instant-NGP.
Хотя многие реальные задачи могли бы выиграть от применения обучения с подкреплением, они редко укладываются в рамки марковских процессов принятия решений (MDP): взаимодействие со средой часто оказывается дорогостоящим, а определение функций вознаграждения — сложным. Вдохновленные этими вызовами, предыдущие работы разработали подходы, основанные на данных, которые обучаются исключительно на выборках из динамики переходов и примерах состояний с высокой отдачей. Эти методы обычно обучают функцию вознаграждения на основе состояний с высокой отдачей, используют эту функцию для маркировки переходов, а затем применяют алгоритм оффлайн-обучения с подкреплением к этим переходам. Хотя такие методы могут демонстрировать хорошие результаты на многих задачах, они могут быть сложными, часто требуя регуляризации и обновлений на основе временных разностей. В данной статье мы предлагаем метод оффлайн-управления на основе примеров, который обучает неявную модель многошаговых переходов вместо функции вознаграждения. Мы показываем, что эта неявная модель может представлять Q-значения для задачи управления на основе примеров. На ряде задач оффлайн-управления, основанных на состояниях и изображениях, наш метод превосходит базовые подходы, использующие обученные функции вознаграждения; дополнительные эксперименты демонстрируют улучшенную устойчивость и масштабируемость с увеличением размера набора данных.