Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Документация инструментов позволяет использовать инструменты с крупными языковыми моделями в режиме "zero-shot".
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Aug 1, 2023

Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

361

Сегодня крупные языковые модели (LLMs) обучаются использовать новые инструменты с помощью предоставления нескольких демонстраций их использования. К сожалению, демонстрации сложно получить, и они могут привести к нежелательному смещению в использовании, если выбрана неподходящая демонстрация. Даже в редких случаях, когда демонстрации легко доступны, отсутствует систематический протокол для определения того, сколько и какие именно демонстрации следует предоставить. По мере усложнения задач поиск подходящих демонстраций растет комбинаторно и неизбежно становится неразрешимым. Наша работа предлагает альтернативу демонстрациям: документацию по инструментам. Мы выступаем за использование документации по инструментам, описаний их индивидуального использования, вместо демонстраций. Мы подтверждаем наше утверждение тремя основными эмпирическими результатами на 6 задачах, охватывающих как визуальные, так и языковые модальности. Во-первых, на существующих бенчмарках нулевые подсказки с использованием только документации по инструментам достаточны для правильного использования инструментов, достигая производительности на уровне немногих подсказок. Во-вторых, на новом реалистичном наборе данных по использованию инструментов с сотнями доступных API мы показываем, что документация по инструментам значительно ценнее демонстраций, при этом нулевые подсказки с документацией значительно превосходят немногие подсказки без документации. В-третьих, мы подчеркиваем преимущества документации по инструментам, решая задачи генерации изображений и отслеживания видео с использованием только что выпущенных передовых моделей в качестве инструментов. Наконец, мы подчеркиваем возможность использования документации по инструментам для автоматического включения новых приложений: используя только документацию по GroundingDino, Stable Diffusion, XMem и SAM, LLMs могут воссоздать функциональность только что выпущенных моделей Grounded-SAM и Track Anything.

SelfCheck: Использование языковых моделей для самопроверки пошаговых рассуждений без обучения
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Aug 1, 2023

Ning Miao, Yee Whye Teh, Tom Rainforth

230

Недавние достижения в области больших языковых моделей (LLM), особенно изобретение метода цепочки рассуждений (CoT), сделали возможным решение задач, требующих логического мышления. Однако даже самые мощные LLM по-прежнему испытывают трудности с более сложными проблемами, которые требуют нелинейного мышления и многошаговых рассуждений. В данной работе мы исследуем, способны ли LLM распознавать собственные ошибки без привлечения внешних ресурсов. В частности, мы изучаем, можно ли их использовать для выявления отдельных ошибок в пошаговых рассуждениях. Для этого мы предлагаем схему проверки без предварительного обучения (zero-shot verification), предназначенную для распознавания таких ошибок. Затем мы используем эту схему для улучшения производительности в задачах вопросов и ответов, применяя её для взвешенного голосования между различными сгенерированными ответами. Мы тестируем метод на трёх математических наборах данных — GSM8K, MathQA и MATH — и обнаруживаем, что он успешно распознаёт ошибки и, как следствие, повышает итоговую точность предсказаний.

Контекстно-зависимое формирование запросов: Раскрытие композициональности в крупных языковых моделях
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models

Aug 1, 2023

Jiaao Chen, Xiaoman Pan, Dian Yu, Kaiqiang Song, Xiaoyang Wang, Dong Yu, Jianshu Chen

231

Мы рассматриваем задачу развития способностей к композиционному обобщению в больших языковых моделях (LLM) с использованием новой стратегии подсказок. Композиционное обобщение позволяет LLM решать задачи, которые сложнее тех, с которыми они сталкивались ранее (т.е. обобщение от простого к сложному), что является важным аспектом рассуждений, характерных для человеческого интеллекта. Однако даже современные LLM испытывают трудности с таким типом рассуждений. Чтобы устранить этот разрыв, мы предлагаем стратегию подсказок "навыки в контексте" (SKiC), которая обучает LLM комбинировать базовые навыки для решения более сложных задач. Мы обнаружили, что важно демонстрировать как навыки, так и примеры их композиции в рамках одного контекста подсказок. Всего с двумя примерами наша стратегия SKiC создает синергию между навыками и их композиционными возможностями. В частности, она позволяет LLM решать ранее не встречавшиеся задачи, требующие инновационных комбинаций навыков, достигая почти идеального обобщения на широком спектре сложных задач композиционности. Интересно, что SKiC раскрывает скрытый потенциал LLM, позволяя им использовать внутренние навыки, приобретенные на этапах предварительного обучения, даже если эти навыки не представлены явно в контексте подсказок. Это приводит к способности LLM решать незнакомые сложные задачи путем активации и комбинирования внутренних компетенций. Благодаря таким выдающимся характеристикам, SKiC достигает наилучших результатов на сложных тестах математических рассуждений (например, MATH).

Предсказание замаскированных токенов в стохастических позициях улучшает моделирование замаскированных изображений
Predicting masked tokens in stochastic locations improves masked image modeling

Jul 31, 2023

Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun

160

Самообучение — это перспективная парадигма в глубоком обучении, которая позволяет обучаться на немаркированных данных путем создания предтекстовых задач, требующих изучения полезных представлений. В обработке естественного языка доминирующей предтекстовой задачей стало маскированное языковое моделирование (MLM), тогда как в компьютерном зрении существует эквивалентная задача, называемая маскированным моделированием изображений (MIM). Однако MIM является сложной задачей, поскольку требует предсказания семантического содержимого с точным определением местоположения. Например, имея неполное изображение собаки, мы можем предположить наличие хвоста, но не можем точно определить его местоположение. В данной работе мы предлагаем FlexPredict, стохастическую модель, которая решает эту проблему, учитывая неопределенность местоположения в модели. В частности, мы задаем модель на основе стохастических позиций маскированных токенов, чтобы направить модель на изучение признаков, более устойчивых к неопределенности местоположения. Наш подход улучшает производительность на ряде задач. Например, по сравнению с базовыми методами MIM, FlexPredict повышает точность линейного тестирования на ImageNet на 1,6% для ViT-B и на 2,5% для полуконтролируемой сегментации видео с использованием ViT-L.

Три кита для укрепления водяных знаков в больших языковых моделях
Three Bricks to Consolidate Watermarks for Large Language Models

Jul 26, 2023

Pierre Fernandez, Antoine Chaffin, Karim Tit, Vivien Chappelier, Teddy Furon

140

Задача различения между сгенерированными и естественными текстами становится всё более сложной. В этом контексте водяные знаки (watermarking) появляются как перспективная техника для атрибуции сгенерированного текста конкретной модели. Они изменяют процесс генерации выборки таким образом, чтобы оставить невидимый след в сгенерированном выводе, что облегчает последующее обнаружение. Данное исследование объединяет водяные знаки для больших языковых моделей на основе трёх теоретических и эмпирических соображений. Во-первых, мы представляем новые статистические тесты, которые предлагают надёжные теоретические гарантии, остающиеся действительными даже при низких уровнях ложноположительных срабатываний (менее 10^{-6}). Во-вторых, мы сравниваем эффективность водяных знаков, используя классические бенчмарки в области обработки естественного языка, что позволяет получить представление об их применимости в реальных условиях. В-третьих, мы разрабатываем усовершенствованные схемы обнаружения для сценариев, где доступ к языковой модели возможен, а также многобитовое водяное кодирование.

Документация инструментов позволяет использовать инструменты с крупными языковыми моделями в режиме "zero-shot".
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Aug 1, 2023

Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

361

Ежедневные статьи

Документация инструментов позволяет использовать инструменты с крупными языковыми моделями в режиме "zero-shot".
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

SelfCheck: Использование языковых моделей для самопроверки пошаговых рассуждений без обучения
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Контекстно-зависимое формирование запросов: Раскрытие композициональности в крупных языковых моделях
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models

Предсказание замаскированных токенов в стохастических позициях улучшает моделирование замаскированных изображений
Predicting masked tokens in stochastic locations improves masked image modeling

Три кита для укрепления водяных знаков в больших языковых моделях
Three Bricks to Consolidate Watermarks for Large Language Models

Support

Support

Ежедневные статьи

Документация инструментов позволяет использовать инструменты с крупными языковыми моделями в режиме "zero-shot".
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

SelfCheck: Использование языковых моделей для самопроверки пошаговых рассуждений без обучения
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Контекстно-зависимое формирование запросов: Раскрытие композициональности в крупных языковых моделях
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models

Предсказание замаскированных токенов в стохастических позициях улучшает моделирование замаскированных изображений
Predicting masked tokens in stochastic locations improves masked image modeling

Три кита для укрепления водяных знаков в больших языковых моделях
Three Bricks to Consolidate Watermarks for Large Language Models