Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Расширение контекстного окна больших языковых моделей с помощью позиционной интерполяции
Extending Context Window of Large Language Models via Positional Interpolation

Jun 27, 2023

Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian

536

Мы представляем метод интерполяции позиций (Position Interpolation, PI), который расширяет размеры контекстного окна предобученных языковых моделей (LLM) на основе RoPE, таких как модели LLaMA, до 32768 с минимальной дообучением (в пределах 1000 шагов), демонстрируя при этом сильные эмпирические результаты на различных задачах, требующих длинного контекста, включая извлечение ключевых фраз, языковое моделирование и суммаризация длинных документов для моделей LLaMA от 7B до 65B. При этом модели, расширенные с помощью интерполяции позиций, сохраняют качество относительно хорошо на задачах в пределах их исходного контекстного окна. Для достижения этой цели интерполяция позиций линейно уменьшает индексы входных позиций, чтобы они соответствовали исходному размеру контекстного окна, вместо экстраполяции за пределы обученной длины контекста, что может привести к катастрофически высоким значениям внимания, полностью разрушающим механизм самовнимания. Наше теоретическое исследование показывает, что верхняя граница интерполяции как минимум в ∼600 раз меньше, чем у экстраполяции, что дополнительно подтверждает её стабильность. Модели, расширенные с помощью интерполяции позиций, сохраняют свою исходную архитектуру и могут повторно использовать большинство существующих оптимизаций и инфраструктуры.

LeanDojo: Доказательство теорем с использованием языковых моделей, дополненных поиском
LeanDojo: Theorem Proving with Retrieval-Augmented Language Models

Jun 27, 2023

Kaiyu Yang, Aidan M. Swope, Alex Gu, Rahul Chalamala, Peiyang Song, Shixing Yu, Saad Godil, Ryan Prenger, Anima Anandkumar

170

Крупные языковые модели (LLM) продемонстрировали потенциал в доказательстве формальных теорем с использованием систем автоматизированного доказательства, таких как Lean. Однако существующие методы сложно воспроизвести или развить из-за закрытого кода, данных и высоких требований к вычислительным ресурсам. Это создало значительные барьеры для исследований в области машинного обучения для автоматического доказательства теорем. Данная работа устраняет эти барьеры, представляя LeanDojo: открытую платформу для работы с Lean, включающую набор инструментов, данные, модели и бенчмарки. LeanDojo извлекает данные из Lean и позволяет программно взаимодействовать со средой доказательств. Она содержит детализированные аннотации предпосылок в доказательствах, предоставляя ценные данные для задачи выбора предпосылок — ключевого узкого места в доказательстве теорем. Используя эти данные, мы разработали ReProver (Retrieval-Augmented Prover): первую LLM-модель для доказательства теорем, дополненную механизмом поиска для выбора предпосылок из обширной математической библиотеки. Она экономична и требует всего одной недели обучения на одном GPU. Наш механизм поиска использует возможности программного анализа LeanDojo для идентификации доступных предпосылок и сложных отрицательных примеров, что значительно повышает эффективность поиска. Кроме того, мы создали новый бенчмарк, состоящий из 96 962 теорем и доказательств, извлеченных из математической библиотеки Lean. Он включает сложные разделы данных, требующие от модели обобщения на теоремы, основанные на новых предпосылках, которые никогда не использовались при обучении. Мы используем этот бенчмарк для обучения и оценки, и экспериментальные результаты демонстрируют превосходство ReProver над базовыми моделями без механизма поиска и GPT-4. Таким образом, мы предоставляем первый набор открытых LLM-моделей для доказательства теорем, не использующих проприетарные данные, и выпускаем их под разрешительной лицензией MIT для содействия дальнейшим исследованиям.

CLIPA-v2: Масштабирование обучения CLIP с точностью 81,1% на ImageNet в режиме zero-shot при бюджете в \$10,000; Дополнительные \$4,000 повышают точность до 81,8%
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \10,000 Budget; An Extra 4,000 Unlocks 81.8% Accuracy

Jun 27, 2023

Xianhang Li, Zeyu Wang, Cihang Xie

121

Недавняя работа CLIPA представляет обратный закон масштабирования для обучения CLIP — чем больше используются кодировщики изображений и текста, тем короче может быть длина последовательности токенов изображений и текста, применяемых при обучении. Это открытие позволяет нам обучать высокопроизводительные модели CLIP с существенно сокращенными вычислительными затратами. Основываясь на этой работе, мы представляем CLIPA-v2 с двумя ключевыми вкладами. Технически мы обнаруживаем, что этот обратный закон масштабирования также применим на этапе тонкой настройки, что позволяет дополнительно снизить вычислительные потребности. Эмпирически мы исследуем CLIPA в крупном масштабе, расширяя эксперименты до модели H/14 с использованием ~13 миллиардов пар изображений и текстов, обработанных в ходе обучения. Наши результаты впечатляют — при выделении бюджета всего в \10,000 наша модель CLIP достигает впечатляющей точности 81,1% в задаче zero-shot на ImageNet, превосходя предыдущую лучшую модель CLIP (от OpenCLIP, 80,1%) на 1,0%, одновременно сокращая вычислительные затраты примерно в 39 раз. Более того, при дополнительных инвестициях в размере 4,000 мы можем повысить точность zero-shot на ImageNet до 81,8%. Наш код и модели доступны по адресу https://github.com/UCSC-VLAA/CLIPA.

PoseDiffusion: Решение задачи оценки позы с помощью диффузионного пакетного уточнения
PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

Jun 27, 2023

Jianyuan Wang, Christian Rupprecht, David Novotny

Оценка положения камеры является давней проблемой компьютерного зрения, которая до сих пор часто опирается на классические методы, такие как ручное сопоставление ключевых точек, RANSAC и бандл-адаптацию. В данной статье мы предлагаем сформулировать задачу восстановления структуры по движению (Structure from Motion, SfM) в рамках вероятностного диффузионного подхода, моделируя условное распределение положений камеры на основе входных изображений. Этот новый взгляд на старую проблему имеет несколько преимуществ. (i) Природа диффузионного подхода отражает итеративный процесс бандл-адаптации. (ii) Формулировка позволяет легко интегрировать геометрические ограничения из эпиполярной геометрии. (iii) Метод превосходит в типично сложных сценариях, таких как разреженные виды с широкими базовыми линиями. (iv) Метод может предсказывать внутренние и внешние параметры для произвольного количества изображений. Мы демонстрируем, что наш метод PoseDiffusion значительно улучшает результаты по сравнению с классическими SfM-пайплайнами и обученными подходами на двух реальных наборах данных. Наконец, наблюдается, что наш метод может обобщать данные между наборами без дополнительного обучения. Страница проекта: https://posediffusion.github.io/

3D-Speaker: Масштабный корпус с использованием множества устройств, различных дистанций и диалектов для разделения речевых представлений
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

Jun 27, 2023

Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen

Разделение некоррелированной информации в речевых высказываниях является важной исследовательской задачей в области обработки речи. Различные задачи, связанные с речью, сосредоточены на извлечении отдельных речевых представлений при минимизации влияния другой некоррелированной информации. Мы представляем крупномасштабный речевой корпус для содействия исследованиям в области разделения речевых представлений. 3D-Speaker содержит более 10 000 дикторов, каждый из которых одновременно записывается с использованием нескольких устройств, расположенных на разных расстояниях, а некоторые дикторы говорят на нескольких диалектах. Контролируемые комбинации многомерных аудиоданных создают матрицу разнообразных смешений речевых представлений, что стимулирует разработку интересных методов для их разделения. Многодоменная природа 3D-Speaker также делает его подходящим ресурсом для оценки крупных универсальных речевых моделей и экспериментов с методами обучения вне домена и самообучения. https://3dspeaker.github.io/

MIMIC: Маскированное моделирование изображений с использованием соответствий между изображениями
MIMIC: Masked Image Modeling with Image Correspondences

Jun 27, 2023

Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna

Многие задачи плотного предсказания на уровне пикселей, такие как оценка глубины и семантическая сегментация в компьютерном зрении, сегодня полагаются на предварительно обученные представления изображений. Поэтому создание эффективных наборов данных для предварительного обучения имеет решающее значение. К сожалению, эффективные наборы данных для предварительного обучения — это те, которые содержат сцены с несколькими ракурсами, и они были созданы только с использованием аннотированных 3D-мешей, облаков точек и параметров камер из симулированных сред. Мы предлагаем механизм создания наборов данных, который не требует никаких аннотаций. Мы извлекаем два набора данных: MIMIC-1M с 1,3 миллионами и MIMIC-3M с 3,1 миллионами пар изображений с несколькими ракурсами из открытых видеонаборов и синтетических 3D-сред. Мы обучаем несколько моделей с самоконтролем с различными целями маскированного моделирования изображений, чтобы продемонстрировать следующие результаты: представления, обученные на MIMIC-3M, превосходят те, которые были извлечены с использованием аннотаций, в нескольких последующих задачах, включая оценку глубины, семантическую сегментацию, нормали поверхностей и оценку позы. Они также превосходят замороженные представления и когда данные для последующего обучения ограничены малым количеством примеров (few-shot). Больший набор данных (MIMIC-3M) значительно улучшает производительность, что обнадеживает, поскольку наш метод создания данных может масштабироваться произвольно для создания еще более крупных наборов. Код MIMIC, наборы данных и предварительно обученные модели доступны по адресу https://github.com/RAIVNLab/MIMIC.

Понимание обучения в контексте через вспомогательные предобучающие данные
Understanding In-Context Learning via Supportive Pretraining Data

Jun 26, 2023

Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang

Обучение в контексте (In-context learning, ICL) повышает производительность языковых моделей на различных задачах обработки естественного языка (NLP) за счет простого демонстрирования нескольких примеров во время вывода. До сих пор не до конца понятно, почему возникает способность к ICL, поскольку модель никогда не обучалась специально на таких демонстрациях. В отличие от предыдущих работ, исследующих скрытые механизмы, лежащие в основе ICL, мы изучаем ICL через анализ данных предварительного обучения. В частности, мы сначала адаптируем итеративный градиентный подход для поиска небольшого подмножества данных предварительного обучения, которое поддерживает ICL. Мы наблюдаем, что продолжение предварительного обучения на этом небольшом подмножестве значительно улучшает способность модели к ICL — до 18%. Затем мы сравниваем поддерживающее подмножество с произвольными подмножествами данных предварительного обучения и обнаруживаем: (1) Поддерживающие данные предварительного обучения для ICL не имеют более высокой релевантности домену для последующих задач. (2) Поддерживающие данные предварительного обучения содержат больше редких, длинных токенов из "длинного хвоста". (3) Поддерживающие данные предварительного обучения представляют собой сложные примеры, где информационная выгода от длинного контекста ниже среднего, что указывает на то, что обучение учитывать сложный длинный контекст способствует ICL. Наша работа делает первый шаг к пониманию ICL через анализ данных предварительного обучения на уровне отдельных примеров. Наши выводы имеют потенциал для улучшения способности языковых моделей к ICL за счет активного руководства построением данных предварительного обучения в будущем.

Являются ли выровненные нейронные сети устойчивыми к атакам?
Are aligned neural networks adversarially aligned?

Jun 26, 2023

Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt

Крупные языковые модели теперь настраиваются на соответствие целям их создателей, а именно быть "полезными и безопасными". Эти модели должны полезно отвечать на вопросы пользователей, но отказываться отвечать на запросы, которые могут причинить вред. Однако злонамеренные пользователи могут создавать входные данные, которые обходят попытки согласования. В данной работе мы изучаем, в какой степени эти модели остаются согласованными, даже при взаимодействии с злонамеренным пользователем, который создает наихудшие входные данные (атакующие примеры). Эти входные данные предназначены для того, чтобы заставить модель выдавать вредоносный контент, который в противном случае был бы запрещен. Мы показываем, что существующие атаки на основе оптимизации в NLP недостаточно мощны для надежной атаки на согласованные текстовые модели: даже когда текущие атаки на основе NLP терпят неудачу, мы можем найти атакующие входные данные методом перебора. В результате, неудача текущих атак не должна рассматриваться как доказательство того, что согласованные текстовые модели остаются согласованными при атакующих входных данных. Однако недавняя тенденция в крупномасштабных ML моделях — это мультимодальные модели, которые позволяют пользователям предоставлять изображения, влияющие на генерируемый текст. Мы показываем, что эти модели могут быть легко атакованы, то есть их можно заставить выполнять произвольное несогласованное поведение через атакующие возмущения входного изображения. Мы предполагаем, что улучшенные атаки на NLP могут продемонстрировать такой же уровень контроля над текстовыми моделями.

Обобщение длины в арифметических трансформерах
Length Generalization in Arithmetic Transformers

Jun 27, 2023

Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton

Мы исследуем, как трансформеры справляются с двумя задачами: изучением базовой целочисленной арифметики и обобщением на последовательности большей длины, чем те, что встречались во время обучения. Мы обнаруживаем, что относительные позиционные эмбеддинги позволяют модели обобщать длину для простых задач, таких как сложение: модели, обученные на 5-значных числах, могут выполнять сложение 15-значных чисел. Однако этот метод не работает для умножения, и мы предлагаем метод "подготовки обучающего набора": добавление нескольких (от 10 до 50) длинных последовательностей в обучающий набор. Мы показываем, что подготовка позволяет моделям, обученным на умножении 5-значных чисел на 3-значные, обобщать на примеры 35×3. Мы также демонстрируем, что модели можно подготовить для обобщения на разные длины и что размер подготовительной выборки масштабируется как логарифм размера обучающего набора. Наконец, мы обсуждаем потенциальные применения подготовки за пределами арифметики.

LeanDojo: Доказательство теорем с использованием языковых моделей, дополненных поиском
LeanDojo: Theorem Proving with Retrieval-Augmented Language Models

Jun 27, 2023

Kaiyu Yang, Aidan M. Swope, Alex Gu, Rahul Chalamala, Peiyang Song, Shixing Yu, Saad Godil, Ryan Prenger, Anima Anandkumar

170