Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сегодня крупные языковые модели (LLMs) обучаются использовать новые инструменты с помощью предоставления нескольких демонстраций их использования. К сожалению, демонстрации сложно получить, и они могут привести к нежелательному смещению в использовании, если выбрана неподходящая демонстрация. Даже в редких случаях, когда демонстрации легко доступны, отсутствует систематический протокол для определения того, сколько и какие именно демонстрации следует предоставить. По мере усложнения задач поиск подходящих демонстраций растет комбинаторно и неизбежно становится неразрешимым. Наша работа предлагает альтернативу демонстрациям: документацию по инструментам. Мы выступаем за использование документации по инструментам, описаний их индивидуального использования, вместо демонстраций. Мы подтверждаем наше утверждение тремя основными эмпирическими результатами на 6 задачах, охватывающих как визуальные, так и языковые модальности. Во-первых, на существующих бенчмарках нулевые подсказки с использованием только документации по инструментам достаточны для правильного использования инструментов, достигая производительности на уровне немногих подсказок. Во-вторых, на новом реалистичном наборе данных по использованию инструментов с сотнями доступных API мы показываем, что документация по инструментам значительно ценнее демонстраций, при этом нулевые подсказки с документацией значительно превосходят немногие подсказки без документации. В-третьих, мы подчеркиваем преимущества документации по инструментам, решая задачи генерации изображений и отслеживания видео с использованием только что выпущенных передовых моделей в качестве инструментов. Наконец, мы подчеркиваем возможность использования документации по инструментам для автоматического включения новых приложений: используя только документацию по GroundingDino, Stable Diffusion, XMem и SAM, LLMs могут воссоздать функциональность только что выпущенных моделей Grounded-SAM и Track Anything.
Недавние достижения в области больших языковых моделей (LLM), особенно изобретение метода цепочки рассуждений (CoT), сделали возможным решение задач, требующих логического мышления. Однако даже самые мощные LLM по-прежнему испытывают трудности с более сложными проблемами, которые требуют нелинейного мышления и многошаговых рассуждений. В данной работе мы исследуем, способны ли LLM распознавать собственные ошибки без привлечения внешних ресурсов. В частности, мы изучаем, можно ли их использовать для выявления отдельных ошибок в пошаговых рассуждениях. Для этого мы предлагаем схему проверки без предварительного обучения (zero-shot verification), предназначенную для распознавания таких ошибок. Затем мы используем эту схему для улучшения производительности в задачах вопросов и ответов, применяя её для взвешенного голосования между различными сгенерированными ответами. Мы тестируем метод на трёх математических наборах данных — GSM8K, MathQA и MATH — и обнаруживаем, что он успешно распознаёт ошибки и, как следствие, повышает итоговую точность предсказаний.
Мы рассматриваем задачу развития способностей к композиционному обобщению в больших языковых моделях (LLM) с использованием новой стратегии подсказок. Композиционное обобщение позволяет LLM решать задачи, которые сложнее тех, с которыми они сталкивались ранее (т.е. обобщение от простого к сложному), что является важным аспектом рассуждений, характерных для человеческого интеллекта. Однако даже современные LLM испытывают трудности с таким типом рассуждений. Чтобы устранить этот разрыв, мы предлагаем стратегию подсказок "навыки в контексте" (SKiC), которая обучает LLM комбинировать базовые навыки для решения более сложных задач. Мы обнаружили, что важно демонстрировать как навыки, так и примеры их композиции в рамках одного контекста подсказок. Всего с двумя примерами наша стратегия SKiC создает синергию между навыками и их композиционными возможностями. В частности, она позволяет LLM решать ранее не встречавшиеся задачи, требующие инновационных комбинаций навыков, достигая почти идеального обобщения на широком спектре сложных задач композиционности. Интересно, что SKiC раскрывает скрытый потенциал LLM, позволяя им использовать внутренние навыки, приобретенные на этапах предварительного обучения, даже если эти навыки не представлены явно в контексте подсказок. Это приводит к способности LLM решать незнакомые сложные задачи путем активации и комбинирования внутренних компетенций. Благодаря таким выдающимся характеристикам, SKiC достигает наилучших результатов на сложных тестах математических рассуждений (например, MATH).
Самообучение — это перспективная парадигма в глубоком обучении, которая позволяет обучаться на немаркированных данных путем создания предтекстовых задач, требующих изучения полезных представлений. В обработке естественного языка доминирующей предтекстовой задачей стало маскированное языковое моделирование (MLM), тогда как в компьютерном зрении существует эквивалентная задача, называемая маскированным моделированием изображений (MIM). Однако MIM является сложной задачей, поскольку требует предсказания семантического содержимого с точным определением местоположения. Например, имея неполное изображение собаки, мы можем предположить наличие хвоста, но не можем точно определить его местоположение. В данной работе мы предлагаем FlexPredict, стохастическую модель, которая решает эту проблему, учитывая неопределенность местоположения в модели. В частности, мы задаем модель на основе стохастических позиций маскированных токенов, чтобы направить модель на изучение признаков, более устойчивых к неопределенности местоположения. Наш подход улучшает производительность на ряде задач. Например, по сравнению с базовыми методами MIM, FlexPredict повышает точность линейного тестирования на ImageNet на 1,6% для ViT-B и на 2,5% для полуконтролируемой сегментации видео с использованием ViT-L.
Задача различения между сгенерированными и естественными текстами становится всё более сложной. В этом контексте водяные знаки (watermarking) появляются как перспективная техника для атрибуции сгенерированного текста конкретной модели. Они изменяют процесс генерации выборки таким образом, чтобы оставить невидимый след в сгенерированном выводе, что облегчает последующее обнаружение. Данное исследование объединяет водяные знаки для больших языковых моделей на основе трёх теоретических и эмпирических соображений. Во-первых, мы представляем новые статистические тесты, которые предлагают надёжные теоретические гарантии, остающиеся действительными даже при низких уровнях ложноположительных срабатываний (менее 10^{-6}). Во-вторых, мы сравниваем эффективность водяных знаков, используя классические бенчмарки в области обработки естественного языка, что позволяет получить представление об их применимости в реальных условиях. В-третьих, мы разрабатываем усовершенствованные схемы обнаружения для сценариев, где доступ к языковой модели возможен, а также многобитовое водяное кодирование.