Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

WavJourney: Композиционное создание аудио с использованием больших языковых моделей
WavJourney: Compositional Audio Creation with Large Language Models

Jul 26, 2023

Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang

441

Крупные языковые модели (LLM) продемонстрировали значительный потенциал в интеграции разнообразных экспертных моделей для решения сложных задач в области языка и зрения. Несмотря на их важность для развития области генерации контента с использованием искусственного интеллекта (AIGC), их возможности в создании интеллектуального аудиоконтента остаются неисследованными. В данной работе мы решаем задачу создания аудиоконтента с сюжетными линиями, включающими речь, музыку и звуковые эффекты, на основе текстовых инструкций. Мы представляем WavJourney — систему, которая использует LLM для объединения различных аудиомоделей с целью генерации аудиоконтента. Получив текстовое описание аудиосцены, WavJourney сначала запрашивает у LLM создание структурированного сценария, предназначенного для аудиорассказа. Этот аудиосценарий включает разнообразные аудиоэлементы, организованные в соответствии с их пространственно-временными отношениями. Как концептуальное представление аудио, аудиосценарий обеспечивает интерактивную и интерпретируемую основу для взаимодействия с человеком. Затем аудиосценарий передается в компилятор сценариев, который преобразует его в компьютерную программу. Каждая строка программы вызывает специализированную модель генерации аудио или вычислительную операцию (например, объединение, микширование). Программа выполняется для получения объяснимого решения по генерации аудио. Мы демонстрируем практическую применимость WavJourney в различных реальных сценариях, включая научную фантастику, образование и радиопостановки. Объяснимый и интерактивный дизайн WavJourney способствует совместному творчеству человека и машины в многораундовых диалогах, повышая творческий контроль и адаптивность в производстве аудио. WavJourney озвучивает человеческое воображение, открывая новые возможности для творчества в создании мультимедийного контента.

LoraHub: Эффективное обобщение для кросс-задач с помощью динамической композиции LoRA
LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition

Jul 25, 2023

Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, Min Lin

322

Низкоранговые адаптации (LoRA) часто используются для тонкой настройки больших языковых моделей (LLM) для новых задач. В данной статье исследуется композиционность LoRA для обобщения на кросс-задачи и представлен LoraHub — стратегическая структура, разработанная для целенаправленной сборки модулей LoRA, обученных на различных задачах, с целью достижения адаптируемой производительности на неизвестных задачах. Всего лишь с несколькими примерами новой задачи LoraHub позволяет гибко комбинировать несколько модулей LoRA, устраняя необходимость в экспертных знаниях. Примечательно, что композиция не требует дополнительных параметров модели или градиентов. Наши эмпирические результаты, полученные на основе бенчмарка Big-Bench Hard (BBH), показывают, что LoraHub может эффективно имитировать производительность обучения в контексте в условиях малого количества примеров, исключая необходимость использования контекстных примеров для каждого входного вывода. Значительным вкладом нашего исследования является создание сообщества для LoRA, где пользователи могут делиться своими обученными модулями LoRA, тем самым облегчая их применение к новым задачам. Мы ожидаем, что этот ресурс расширит доступ и стимулирует прогресс в области общего интеллекта, а также LLM в производстве. Код будет доступен по адресу https://github.com/sail-sg/lorahub.

Измерение достоверности в цепочке рассуждений (Chain-of-Thought Reasoning)
Measuring Faithfulness in Chain-of-Thought Reasoning

Jul 17, 2023

Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez

281

Крупные языковые модели (LLM) демонстрируют лучшие результаты, когда они генерируют пошаговые рассуждения в стиле "Цепочка мыслей" (Chain-of-Thought, CoT) перед ответом на вопрос. Однако неясно, являются ли эти рассуждения точным отражением реального процесса, используемого моделью для формирования ответа. Мы исследуем гипотезы о том, почему рассуждения CoT могут быть недостоверными, анализируя, как изменяются предсказания модели при вмешательстве в CoT (например, добавлении ошибок или перефразировании). Модели демонстрируют значительные различия в зависимости от задачи в том, насколько сильно они учитывают CoT при формировании ответа: иногда они сильно полагаются на CoT, а в других случаях в основном игнорируют его. Улучшение производительности CoT, по-видимому, не связано исключительно с дополнительными вычислительными ресурсами во время тестирования или с информацией, закодированной в конкретной формулировке CoT. По мере увеличения размера и способностей моделей они генерируют менее достоверные рассуждения в большинстве исследуемых задач. В целом, наши результаты показывают, что CoT может быть достоверным, если тщательно подобраны такие условия, как размер модели и задача.

WebArena: Реалистичная веб-среда для создания автономных агентов
WebArena: A Realistic Web Environment for Building Autonomous Agents

Jul 25, 2023

Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig

254

С развитием генеративного искусственного интеллекта появился захватывающий потенциал для автономных агентов, способных управлять повседневными задачами с помощью команд на естественном языке. Однако текущие агенты в основном создаются и тестируются в упрощенных синтетических средах, что существенно ограничивает представление реальных сценариев. В данной статье мы создаем среду для управления и контроля агентов, которая является высоко реалистичной и воспроизводимой. В частности, мы сосредотачиваемся на агентах, выполняющих задачи на веб-сайтах, и создаем среду с полностью функциональными веб-сайтами из четырех распространенных областей: электронная коммерция, обсуждения на социальных форумах, совместная разработка программного обеспечения и управление контентом. Наша среда обогащена инструментами (например, картой) и внешними базами знаний (например, руководствами пользователя) для поощрения человекообразного решения задач. На основе нашей среды мы выпускаем набор эталонных задач, ориентированных на оценку функциональной корректности выполнения задач. Задачи в нашем эталоне разнообразны, долгосрочны и предназначены для имитации задач, которые люди регулярно выполняют в интернете. Мы разрабатываем и реализуем несколько автономных агентов, интегрируя современные методы, такие как рассуждение перед действием. Результаты показывают, что решение сложных задач является трудным: наш лучший агент на основе GPT-4 достигает только 10,59% успешного выполнения задач от начала до конца. Эти результаты подчеркивают необходимость дальнейшего развития надежных агентов, что современные передовые языковые модели далеки от идеальной производительности в этих реальных задачах, и что WebArena может быть использована для измерения такого прогресса. Наш код, данные, ресурсы для воспроизведения среды и видеодемонстрации доступны публично по адресу https://webarena.dev/.

ARB: Расширенный эталонный тест для оценки логического мышления в больших языковых моделях
ARB: Advanced Reasoning Benchmark for Large Language Models

Jul 25, 2023

Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki

170

Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты на различных тестах количественного мышления и проверки знаний. Однако многие из этих тестов теряют свою полезность, поскольку LLM достигают всё более высоких баллов, хотя ещё не достигают экспертного уровня в этих областях. Мы представляем ARB — новый тест, состоящий из задач на продвинутое логическое мышление в различных областях. ARB предлагает более сложные задачи по сравнению с предыдущими тестами, включая проблемы из математики, физики, биологии, химии и права. В качестве подмножества ARB мы представляем набор сложных задач по математике и физике, которые требуют продвинутого символьного мышления и глубоких знаний в предметной области. Мы оцениваем современные модели, такие как GPT-4 и Claude, на тесте ARB и показываем, что текущие модели набирают менее 50% баллов на более сложных задачах. Для улучшения как автоматической, так и ассистированной оценки мы вводим подход к оценке на основе рубрик, позволяющий GPT-4 оценивать свои промежуточные шаги рассуждений. Кроме того, мы проводим экспертный анализ символьного подмножества ARB, обнаруживая многообещающее согласие между оценками аннотаторов и результатами оценки GPT-4 по рубрикам.

Крупные языковые модели конкурируют с рекомендательными системами, работающими в условиях, близких к "холодному старту", для предпочтений, основанных на языке и элементах.
Large Language Models are Competitive Near Cold-start Recommenders for Language- and Item-based Preferences

Jul 26, 2023

Scott Sanner, Krisztian Balog, Filip Radlinski, Ben Wedin, Lucas Dixon

Традиционные системы рекомендаций используют историю предпочтений пользователей по элементам для предложения нового контента, который может им понравиться. Однако современные диалоговые интерфейсы, позволяющие пользователям выражать предпочтения на основе языка, предлагают принципиально иной способ ввода предпочтений. Вдохновленные недавними успехами парадигм подсказок для больших языковых моделей (LLM), мы исследуем их использование для формирования рекомендаций на основе как предпочтений по элементам, так и языковых предпочтений, в сравнении с передовыми методами коллаборативной фильтрации (CF) на основе элементов. Для поддержки этого исследования мы собираем новый набор данных, включающий как предпочтения по элементам, так и языковые предпочтения, полученные от пользователей, а также их оценки на различные (предвзятые) рекомендованные элементы и (непредвзятые) случайные элементы. Среди множества экспериментальных результатов мы обнаруживаем, что LLM демонстрируют конкурентоспособную производительность в рекомендациях для чистых языковых предпочтений (без предпочтений по элементам) в условиях, близких к холодному старту, по сравнению с методами CF на основе элементов, несмотря на отсутствие контролируемого обучения для этой конкретной задачи (zero-shot) или наличие лишь нескольких меток (few-shot). Это особенно перспективно, поскольку языковые представления предпочтений более объяснимы и прозрачны, чем представления на основе элементов или векторов.

Прогнозирование покрытия кода без выполнения
Predicting Code Coverage without Execution

Jul 25, 2023

Michele Tufano, Shubham Chandel, Anisha Agarwal, Neel Sundaresan, Colin Clement

Покрытие кода — это широко используемая метрика для количественной оценки степени выполнения элементов программы, таких как операторы или ветви, в процессе тестирования. Вычисление покрытия кода требует значительных ресурсов, включая сборку и выполнение кода с дополнительными накладными расходами на инструментирование. Более того, для вычисления покрытия любого фрагмента кода необходим контекст всей программы. Использование машинного обучения для амортизации этого затратного процесса может снизить стоимость вычисления покрытия кода, требуя только контекста исходного кода, а задача предсказания покрытия кода может стать новым эталоном для оценки способности моделей понимать код. Мы предлагаем новую эталонную задачу под названием "Предсказание покрытия кода для больших языковых моделей (LLM)". Мы формализуем эту задачу для оценки способности LLM понимать выполнение кода, определяя, какие строки метода выполняются при заданном тестовом случае и входных данных. Мы создаем и публикуем набор данных под названием COVERAGEEVAL, выполняя тесты и код из набора данных HumanEval и собирая информацию о покрытии кода. Мы сообщаем о производительности четырех современных LLM, используемых для задач, связанных с кодом, включая GPT-4 и GPT-3.5-Turbo от OpenAI, BARD от Google и Claude от Anthropic, в задаче предсказания покрытия кода. Наконец, мы утверждаем, что покрытие кода как метрика и источник данных для предварительного обучения являются ценными для общей производительности LLM в задачах программной инженерии.

Strivec: Разреженные тривекторные поля излучения
Strivec: Sparse Tri-Vector Radiance Fields

Jul 25, 2023

Quankai Gao, Qiangeng Xu, Hao Su, Ulrich Neumann, Zexiang Xu

Мы представляем Strivec — новое нейронное представление, которое моделирует 3D-сцену как поле излучения с разреженно распределенными и компактно факторизованными локальными тензорными сетками признаков. Наш подход использует тензорное разложение, следуя недавней работе TensoRF, для моделирования тензорных сеток. В отличие от TensoRF, который использует глобальный тензор и фокусируется на его векторно-матричном разложении, мы предлагаем использовать облако локальных тензоров и применить классическое разложение CANDECOMP/PARAFAC (CP) для факторизации каждого тензора в тройку векторов, которые выражают локальные распределения признаков вдоль пространственных осей и компактно кодируют локальное нейронное поле. Мы также применяем многоуровневые тензорные сетки для выявления общих закономерностей геометрии и внешнего вида, а также используем пространственную согласованность с тройным векторным разложением на нескольких локальных масштабах. Свойства итогового поля излучения регрессируются путем агрегирования нейронных признаков из множества локальных тензоров на всех уровнях. Наши тройные векторные тензоры разреженно распределены вокруг реальной поверхности сцены, обнаруженной с помощью быстрой грубой реконструкции, что использует разреженность 3D-сцены. Мы демонстрируем, что наша модель может достичь более высокого качества визуализации, используя значительно меньше параметров по сравнению с предыдущими методами, включая TensoRF и Instant-NGP.

Контрастное управление на основе примеров
Contrastive Example-Based Control

Jul 24, 2023

Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn

Хотя многие реальные задачи могли бы выиграть от применения обучения с подкреплением, они редко укладываются в рамки марковских процессов принятия решений (MDP): взаимодействие со средой часто оказывается дорогостоящим, а определение функций вознаграждения — сложным. Вдохновленные этими вызовами, предыдущие работы разработали подходы, основанные на данных, которые обучаются исключительно на выборках из динамики переходов и примерах состояний с высокой отдачей. Эти методы обычно обучают функцию вознаграждения на основе состояний с высокой отдачей, используют эту функцию для маркировки переходов, а затем применяют алгоритм оффлайн-обучения с подкреплением к этим переходам. Хотя такие методы могут демонстрировать хорошие результаты на многих задачах, они могут быть сложными, часто требуя регуляризации и обновлений на основе временных разностей. В данной статье мы предлагаем метод оффлайн-управления на основе примеров, который обучает неявную модель многошаговых переходов вместо функции вознаграждения. Мы показываем, что эта неявная модель может представлять Q-значения для задачи управления на основе примеров. На ряде задач оффлайн-управления, основанных на состояниях и изображениях, наш метод превосходит базовые подходы, использующие обученные функции вознаграждения; дополнительные эксперименты демонстрируют улучшенную устойчивость и масштабируемость с увеличением размера набора данных.

WebArena: Реалистичная веб-среда для создания автономных агентов
WebArena: A Realistic Web Environment for Building Autonomous Agents

Jul 25, 2023

Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig

254

Ежедневные статьи

WavJourney: Композиционное создание аудио с использованием больших языковых моделей
WavJourney: Compositional Audio Creation with Large Language Models

LoraHub: Эффективное обобщение для кросс-задач с помощью динамической композиции LoRA
LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition

Измерение достоверности в цепочке рассуждений (Chain-of-Thought Reasoning)
Measuring Faithfulness in Chain-of-Thought Reasoning

WebArena: Реалистичная веб-среда для создания автономных агентов
WebArena: A Realistic Web Environment for Building Autonomous Agents

ARB: Расширенный эталонный тест для оценки логического мышления в больших языковых моделях
ARB: Advanced Reasoning Benchmark for Large Language Models

Прогнозирование покрытия кода без выполнения
Predicting Code Coverage without Execution

Strivec: Разреженные тривекторные поля излучения
Strivec: Sparse Tri-Vector Radiance Fields

Контрастное управление на основе примеров
Contrastive Example-Based Control

Support

Support

Ежедневные статьи

WavJourney: Композиционное создание аудио с использованием больших языковых моделей
WavJourney: Compositional Audio Creation with Large Language Models

LoraHub: Эффективное обобщение для кросс-задач с помощью динамической композиции LoRA
LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition

Измерение достоверности в цепочке рассуждений (Chain-of-Thought Reasoning)
Measuring Faithfulness in Chain-of-Thought Reasoning

WebArena: Реалистичная веб-среда для создания автономных агентов
WebArena: A Realistic Web Environment for Building Autonomous Agents

ARB: Расширенный эталонный тест для оценки логического мышления в больших языковых моделях
ARB: Advanced Reasoning Benchmark for Large Language Models

Прогнозирование покрытия кода без выполнения
Predicting Code Coverage without Execution

Strivec: Разреженные тривекторные поля излучения
Strivec: Sparse Tri-Vector Radiance Fields

Контрастное управление на основе примеров
Contrastive Example-Based Control