Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

ToolLLM: Расширение возможностей крупных языковых моделей для работы с более чем 16000 реальных API
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31, 2023

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun

1005

Несмотря на прогресс в разработке открытых больших языковых моделей (LLM) и их вариантов, таких как LLaMA и Vicuna, они остаются значительно ограниченными в выполнении задач более высокого уровня, таких как следование человеческим инструкциям для использования внешних инструментов (API). Это связано с тем, что текущая настройка на инструкции в основном сосредоточена на базовых языковых задачах, а не на области использования инструментов. Это контрастирует с передовыми LLM, такими как ChatGPT, которые продемонстрировали превосходные возможности использования инструментов, но, к сожалению, являются закрытыми. Для развития возможностей использования инструментов в открытых LLM мы представляем ToolLLM — общий фреймворк для создания данных, обучения модели и оценки. Сначала мы представляем ToolBench — набор данных для настройки на инструкции, связанные с использованием инструментов, который создается автоматически с помощью ChatGPT. В частности, мы собираем 16 464 реальных RESTful API, охватывающих 49 категорий с платформы RapidAPI Hub, а затем используем ChatGPT для генерации разнообразных человеческих инструкций, связанных с этими API, включая как сценарии с одним инструментом, так и с несколькими. Наконец, мы используем ChatGPT для поиска действительного пути решения (цепочки вызовов API) для каждой инструкции. Чтобы сделать процесс поиска более эффективным, мы разрабатываем новое дерево решений на основе поиска в глубину (DFSDT), позволяющее LLM оценивать несколько траекторий рассуждений и расширять пространство поиска. Мы показываем, что DFSDT значительно улучшает способности LLM к планированию и рассуждению. Для эффективной оценки использования инструментов мы разрабатываем автоматический оценщик ToolEval. Мы донастраиваем LLaMA на ToolBench и получаем ToolLLaMA. Наш ToolEval показывает, что ToolLLaMA демонстрирует замечательную способность выполнять сложные инструкции и обобщать на незнакомые API, а также показывает сопоставимую производительность с ChatGPT. Чтобы сделать процесс более практичным, мы разрабатываем нейронный API-ретривер для рекомендации подходящих API для каждой инструкции, устраняя необходимость ручного выбора API.

Скелет-мысли: крупные языковые модели способны к параллельному декодированию
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Jul 28, 2023

Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang

382

Данная работа направлена на снижение сквозной задержки генерации больших языковых моделей (LLM). Одной из основных причин высокой задержки генерации является последовательный подход к декодированию, используемый практически всеми современными LLM. Вдохновляясь процессом мышления и написания текста у людей, мы предлагаем подход "Скелет мысли" (Skeleton-of-Thought, SoT), который направляет LLM сначала сгенерировать скелет ответа, а затем выполнить параллельные API-вызовы или пакетное декодирование для заполнения содержания каждого пункта скелета параллельно. SoT не только обеспечивает значительное ускорение (до 2.39x для 11 различных LLM), но также потенциально может улучшить качество ответов в нескольких категориях вопросов с точки зрения разнообразия и релевантности. SoT представляет собой начальную попытку оптимизации эффективности, ориентированной на данные, и раскрывает потенциал заставить LLM мыслить более по-человечески для повышения качества ответов.

Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи от человека
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Jul 27, 2023

Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

384

Обучение с подкреплением на основе человеческой обратной связи (RLHF) — это метод обучения ИИ-систем для согласования с человеческими целями. RLHF стал основным подходом, используемым для тонкой настройки современных крупных языковых моделей (LLM). Несмотря на его популярность, публичных работ, систематизирующих его недостатки, относительно мало. В данной статье мы (1) рассматриваем открытые проблемы и фундаментальные ограничения RLHF и связанных методов; (2) обобщаем методы для понимания, улучшения и дополнения RLHF на практике; и (3) предлагаем стандарты аудита и раскрытия информации для улучшения общественного контроля над системами RLHF. Наша работа подчеркивает ограничения RLHF и акцентирует важность многогранного подхода к разработке более безопасных ИИ-систем.

Med-Flamingo: многомодальная медицинская модель для обучения с малым количеством примеров
Med-Flamingo: a Multimodal Medical Few-shot Learner

Jul 27, 2023

Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec

231

Медицина, по своей природе, является многогранной областью, требующей синтеза информации из различных модальностей. Медицинские генеративные модели, объединяющие зрение и язык (VLMs), делают первый шаг в этом направлении и обещают множество захватывающих клинических применений. Однако существующие модели обычно требуют тонкой настройки на значительных наборах данных, что представляет собой существенное ограничение, поскольку во многих медицинских приложениях данные ограничены, что требует моделей, способных обучаться на малом количестве примеров в реальном времени. Здесь мы предлагаем Med-Flamingo, многомодальную модель, адаптированную для обучения на малом количестве примеров в медицинской области. Основываясь на OpenFlamingo-9B, мы продолжаем предварительное обучение на парных и чередующихся медицинских изображениях и текстах из публикаций и учебников. Med-Flamingo открывает возможности генеративного медицинского визуального ответа на вопросы (VQA) с малым количеством примеров, что мы оцениваем на нескольких наборах данных, включая новый сложный набор данных с открытыми вопросами в стиле USMLE. Кроме того, мы проводим первую оценку генеративного медицинского VQA с участием врачей, которые анализируют задачи и слепые генерации в интерактивном приложении. Med-Flamingo улучшает производительность в генеративном медицинском VQA до 20% по оценке клиницистов и впервые позволяет адаптировать многомодальные медицинские модели для обучения на малом количестве примеров, например, для генерации обоснований. Мы публикуем нашу модель, код и приложение для оценки по адресу https://github.com/snap-stanford/med-flamingo.

PromptStyler: Генерация стилей на основе промптов для обобщения доменов без исходных данных
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Jul 27, 2023

Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak

120

В совместном визуально-языковом пространстве текстовая характеристика (например, из "фотография собаки") может эффективно представлять соответствующие визуальные характеристики (например, из фотографий собак). Вдохновленные этим, мы предлагаем PromptStyler, который моделирует различные сдвиги распределения в совместном пространстве путем синтеза разнообразных стилей с использованием подсказок, не прибегая к использованию изображений, для решения задачи обобщения на домены без исходных данных. Наш метод обучается генерировать разнообразные стилевые характеристики (из "стиль S* для") с помощью обучаемых векторов стилевых слов для псевдослов S*. Чтобы гарантировать, что изученные стили не искажают информацию о содержании, мы заставляем стилево-содержательные характеристики (из "стиль S* для [класса]") располагаться рядом с соответствующими содержательными характеристиками (из "[класса]") в совместном визуально-языковом пространстве. После обучения векторов стилевых слов мы обучаем линейный классификатор, используя синтезированные стилево-содержательные характеристики. PromptStyler достигает наилучших результатов на наборах данных PACS, VLCS, OfficeHome и DomainNet, хотя не требует использования изображений и занимает всего ~30 минут для обучения с использованием одного GPU.

Устойчивые водяные знаки без искажений для языковых моделей
Robust Distortion-free Watermarks for Language Models

Jul 28, 2023

Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang

Мы предлагаем методологию внедрения водяных знаков в текст, генерируемый авторегрессионной языковой моделью, которая обеспечивает устойчивость к искажениям без изменения распределения текста в пределах определенного максимального бюджета генерации. Мы создаем текст с водяными знаками, отображая последовательность случайных чисел — которые вычисляются с использованием рандомизированного ключа водяного знака — на выборку из языковой модели. Для обнаружения текста с водяными знаками любая сторона, знающая ключ, может сопоставить текст с последовательностью случайных чисел. Мы реализуем нашу методологию водяных знаков с использованием двух схем выборки: обратного преобразования выборки и экспоненциальной минимальной выборки. Мы применяем эти водяные знаки к трем языковым моделям — OPT-1.3B, LLaMA-7B и Alpaca-7B — чтобы экспериментально подтвердить их статистическую мощность и устойчивость к различным атакам на перефразирование. В частности, для моделей OPT-1.3B и LLaMA-7B мы обнаруживаем, что можем надежно идентифицировать текст с водяными знаками (p ≤ 0.01) начиная с 35 токенов, даже после искажения 40-50% токенов с помощью случайных правок (например, замен, вставок или удалений). Для модели Alpaca-7B мы проводим исследование возможности внедрения водяных знаков в ответы на типичные пользовательские инструкции. Из-за более низкой энтропии ответов их обнаружение затруднено: около 25% ответов — средняя длина которых составляет около 100 токенов — можно идентифицировать с p ≤ 0.01, а водяной знак также менее устойчив к некоторым автоматизированным атакам на перефразирование, которые мы реализовали.

Исследование согласованности форматов для настройки инструкций
Exploring Format Consistency for Instruction Tuning

Jul 28, 2023

Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun

Настройка на инструкции стала перспективным подходом для улучшения крупных языковых моделей в следовании человеческим инструкциям. Показано, что увеличение разнообразия и количества инструкций в обучающих данных может последовательно улучшать обобщающую способность, что способствует недавним усилиям по сбору различных инструкций и объединению существующих наборов данных для настройки на инструкции в более крупные коллекции. Однако разные пользователи имеют свои уникальные способы формулирования инструкций, и часто существуют различия в стилях и форматах инструкций между различными наборами данных, то есть несогласованность форматов. В данной работе мы исследуем, как несогласованность форматов может влиять на производительность настройки на инструкции. Мы предлагаем фреймворк под названием "Унифицированная настройка на инструкции" (Unified Instruction Tuning, UIT), который использует API OpenAI для автоматического преобразования форматов между различными наборами данных для настройки на инструкции. Мы показываем, что UIT успешно улучшает обобщающую способность на невидимых инструкциях, что подчеркивает важность согласованности форматов для настройки на инструкции. Чтобы сделать фреймворк UIT более практичным, мы также предлагаем новый метод удаления шума на основе перплексии для снижения уровня шума при автоматическом преобразовании форматов. Кроме того, мы обучаем меньшую автономную модель, которая достигает сопоставимой способности преобразования форматов с API OpenAI, чтобы снизить затраты на практике.

Seal-3D: Интерактивное редактирование на уровне пикселей для нейронных полей излучения
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Jul 27, 2023

Xiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen

С ростом популярности неявных нейронных представлений, таких как нейронные поля излучения (NeRF), возникает острая необходимость в методах редактирования для взаимодействия с неявными 3D-моделями, например, для постобработки реконструированных сцен и создания 3D-контента. Хотя предыдущие работы исследовали редактирование NeRF с различных точек зрения, они ограничены в гибкости, качестве и скорости редактирования, не предоставляя прямого отклика на изменения и мгновенного предпросмотра. Основная задача заключается в создании локально редактируемого нейронного представления, которое может напрямую отражать инструкции редактирования и мгновенно обновляться. Чтобы устранить этот пробел, мы предлагаем новый интерактивный метод и систему редактирования для неявных представлений под названием Seal-3D, который позволяет пользователям редактировать модели NeRF на уровне пикселей и в свободной форме с использованием широкого спектра NeRF-подобных архитектур, а также мгновенно просматривать результаты редактирования. Для достижения этих эффектов мы решаем ключевые задачи с помощью предложенной нами прокси-функции, которая отображает инструкции редактирования в исходное пространство моделей NeRF, а также стратегии обучения "учитель-ученик" с локальным предобучением и глобальной донастройкой. Мы разработали систему редактирования NeRF, демонстрирующую различные типы редактирования. Наша система позволяет достигать впечатляющих результатов редактирования с интерактивной скоростью около 1 секунды.

ToolLLM: Расширение возможностей крупных языковых моделей для работы с более чем 16000 реальных API
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31, 2023

1005

Ежедневные статьи

ToolLLM: Расширение возможностей крупных языковых моделей для работы с более чем 16000 реальных API
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Скелет-мысли: крупные языковые модели способны к параллельному декодированию
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи от человека
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Med-Flamingo: многомодальная медицинская модель для обучения с малым количеством примеров
Med-Flamingo: a Multimodal Medical Few-shot Learner

PromptStyler: Генерация стилей на основе промптов для обобщения доменов без исходных данных
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Устойчивые водяные знаки без искажений для языковых моделей
Robust Distortion-free Watermarks for Language Models

Исследование согласованности форматов для настройки инструкций
Exploring Format Consistency for Instruction Tuning

Seal-3D: Интерактивное редактирование на уровне пикселей для нейронных полей излучения
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Support

Support

Ежедневные статьи

ToolLLM: Расширение возможностей крупных языковых моделей для работы с более чем 16000 реальных API
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Скелет-мысли: крупные языковые модели способны к параллельному декодированию
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Открытые проблемы и фундаментальные ограничения обучения с подкреплением на основе обратной связи от человека
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Med-Flamingo: многомодальная медицинская модель для обучения с малым количеством примеров
Med-Flamingo: a Multimodal Medical Few-shot Learner

PromptStyler: Генерация стилей на основе промптов для обобщения доменов без исходных данных
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Устойчивые водяные знаки без искажений для языковых моделей
Robust Distortion-free Watermarks for Language Models

Исследование согласованности форматов для настройки инструкций
Exploring Format Consistency for Instruction Tuning

Seal-3D: Интерактивное редактирование на уровне пикселей для нейронных полей излучения
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields