Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем метод интерполяции позиций (Position Interpolation, PI), который расширяет размеры контекстного окна предобученных языковых моделей (LLM) на основе RoPE, таких как модели LLaMA, до 32768 с минимальной дообучением (в пределах 1000 шагов), демонстрируя при этом сильные эмпирические результаты на различных задачах, требующих длинного контекста, включая извлечение ключевых фраз, языковое моделирование и суммаризация длинных документов для моделей LLaMA от 7B до 65B. При этом модели, расширенные с помощью интерполяции позиций, сохраняют качество относительно хорошо на задачах в пределах их исходного контекстного окна. Для достижения этой цели интерполяция позиций линейно уменьшает индексы входных позиций, чтобы они соответствовали исходному размеру контекстного окна, вместо экстраполяции за пределы обученной длины контекста, что может привести к катастрофически высоким значениям внимания, полностью разрушающим механизм самовнимания. Наше теоретическое исследование показывает, что верхняя граница интерполяции как минимум в ∼600 раз меньше, чем у экстраполяции, что дополнительно подтверждает её стабильность. Модели, расширенные с помощью интерполяции позиций, сохраняют свою исходную архитектуру и могут повторно использовать большинство существующих оптимизаций и инфраструктуры.
Крупные языковые модели (LLM) продемонстрировали потенциал в доказательстве формальных теорем с использованием систем автоматизированного доказательства, таких как Lean. Однако существующие методы сложно воспроизвести или развить из-за закрытого кода, данных и высоких требований к вычислительным ресурсам. Это создало значительные барьеры для исследований в области машинного обучения для автоматического доказательства теорем. Данная работа устраняет эти барьеры, представляя LeanDojo: открытую платформу для работы с Lean, включающую набор инструментов, данные, модели и бенчмарки. LeanDojo извлекает данные из Lean и позволяет программно взаимодействовать со средой доказательств. Она содержит детализированные аннотации предпосылок в доказательствах, предоставляя ценные данные для задачи выбора предпосылок — ключевого узкого места в доказательстве теорем. Используя эти данные, мы разработали ReProver (Retrieval-Augmented Prover): первую LLM-модель для доказательства теорем, дополненную механизмом поиска для выбора предпосылок из обширной математической библиотеки. Она экономична и требует всего одной недели обучения на одном GPU. Наш механизм поиска использует возможности программного анализа LeanDojo для идентификации доступных предпосылок и сложных отрицательных примеров, что значительно повышает эффективность поиска. Кроме того, мы создали новый бенчмарк, состоящий из 96 962 теорем и доказательств, извлеченных из математической библиотеки Lean. Он включает сложные разделы данных, требующие от модели обобщения на теоремы, основанные на новых предпосылках, которые никогда не использовались при обучении. Мы используем этот бенчмарк для обучения и оценки, и экспериментальные результаты демонстрируют превосходство ReProver над базовыми моделями без механизма поиска и GPT-4. Таким образом, мы предоставляем первый набор открытых LLM-моделей для доказательства теорем, не использующих проприетарные данные, и выпускаем их под разрешительной лицензией MIT для содействия дальнейшим исследованиям.
Недавняя работа CLIPA представляет обратный закон масштабирования для обучения CLIP — чем больше используются кодировщики изображений и текста, тем короче может быть длина последовательности токенов изображений и текста, применяемых при обучении. Это открытие позволяет нам обучать высокопроизводительные модели CLIP с существенно сокращенными вычислительными затратами. Основываясь на этой работе, мы представляем CLIPA-v2 с двумя ключевыми вкладами. Технически мы обнаруживаем, что этот обратный закон масштабирования также применим на этапе тонкой настройки, что позволяет дополнительно снизить вычислительные потребности. Эмпирически мы исследуем CLIPA в крупном масштабе, расширяя эксперименты до модели H/14 с использованием ~13 миллиардов пар изображений и текстов, обработанных в ходе обучения. Наши результаты впечатляют — при выделении бюджета всего в \10,000 наша модель CLIP достигает впечатляющей точности 81,1% в задаче zero-shot на ImageNet, превосходя предыдущую лучшую модель CLIP (от OpenCLIP, 80,1%) на 1,0%, одновременно сокращая вычислительные затраты примерно в 39 раз. Более того, при дополнительных инвестициях в размере 4,000 мы можем повысить точность zero-shot на ImageNet до 81,8%. Наш код и модели доступны по адресу https://github.com/UCSC-VLAA/CLIPA.
Оценка положения камеры является давней проблемой компьютерного зрения, которая до сих пор часто опирается на классические методы, такие как ручное сопоставление ключевых точек, RANSAC и бандл-адаптацию. В данной статье мы предлагаем сформулировать задачу восстановления структуры по движению (Structure from Motion, SfM) в рамках вероятностного диффузионного подхода, моделируя условное распределение положений камеры на основе входных изображений. Этот новый взгляд на старую проблему имеет несколько преимуществ. (i) Природа диффузионного подхода отражает итеративный процесс бандл-адаптации. (ii) Формулировка позволяет легко интегрировать геометрические ограничения из эпиполярной геометрии. (iii) Метод превосходит в типично сложных сценариях, таких как разреженные виды с широкими базовыми линиями. (iv) Метод может предсказывать внутренние и внешние параметры для произвольного количества изображений. Мы демонстрируем, что наш метод PoseDiffusion значительно улучшает результаты по сравнению с классическими SfM-пайплайнами и обученными подходами на двух реальных наборах данных. Наконец, наблюдается, что наш метод может обобщать данные между наборами без дополнительного обучения. Страница проекта: https://posediffusion.github.io/
Разделение некоррелированной информации в речевых высказываниях является важной исследовательской задачей в области обработки речи. Различные задачи, связанные с речью, сосредоточены на извлечении отдельных речевых представлений при минимизации влияния другой некоррелированной информации. Мы представляем крупномасштабный речевой корпус для содействия исследованиям в области разделения речевых представлений. 3D-Speaker содержит более 10 000 дикторов, каждый из которых одновременно записывается с использованием нескольких устройств, расположенных на разных расстояниях, а некоторые дикторы говорят на нескольких диалектах. Контролируемые комбинации многомерных аудиоданных создают матрицу разнообразных смешений речевых представлений, что стимулирует разработку интересных методов для их разделения. Многодоменная природа 3D-Speaker также делает его подходящим ресурсом для оценки крупных универсальных речевых моделей и экспериментов с методами обучения вне домена и самообучения. https://3dspeaker.github.io/
Многие задачи плотного предсказания на уровне пикселей, такие как оценка глубины и семантическая сегментация в компьютерном зрении, сегодня полагаются на предварительно обученные представления изображений. Поэтому создание эффективных наборов данных для предварительного обучения имеет решающее значение. К сожалению, эффективные наборы данных для предварительного обучения — это те, которые содержат сцены с несколькими ракурсами, и они были созданы только с использованием аннотированных 3D-мешей, облаков точек и параметров камер из симулированных сред. Мы предлагаем механизм создания наборов данных, который не требует никаких аннотаций. Мы извлекаем два набора данных: MIMIC-1M с 1,3 миллионами и MIMIC-3M с 3,1 миллионами пар изображений с несколькими ракурсами из открытых видеонаборов и синтетических 3D-сред. Мы обучаем несколько моделей с самоконтролем с различными целями маскированного моделирования изображений, чтобы продемонстрировать следующие результаты: представления, обученные на MIMIC-3M, превосходят те, которые были извлечены с использованием аннотаций, в нескольких последующих задачах, включая оценку глубины, семантическую сегментацию, нормали поверхностей и оценку позы. Они также превосходят замороженные представления и когда данные для последующего обучения ограничены малым количеством примеров (few-shot). Больший набор данных (MIMIC-3M) значительно улучшает производительность, что обнадеживает, поскольку наш метод создания данных может масштабироваться произвольно для создания еще более крупных наборов. Код MIMIC, наборы данных и предварительно обученные модели доступны по адресу https://github.com/RAIVNLab/MIMIC.
Обучение в контексте (In-context learning, ICL) повышает производительность языковых моделей на различных задачах обработки естественного языка (NLP) за счет простого демонстрирования нескольких примеров во время вывода. До сих пор не до конца понятно, почему возникает способность к ICL, поскольку модель никогда не обучалась специально на таких демонстрациях. В отличие от предыдущих работ, исследующих скрытые механизмы, лежащие в основе ICL, мы изучаем ICL через анализ данных предварительного обучения. В частности, мы сначала адаптируем итеративный градиентный подход для поиска небольшого подмножества данных предварительного обучения, которое поддерживает ICL. Мы наблюдаем, что продолжение предварительного обучения на этом небольшом подмножестве значительно улучшает способность модели к ICL — до 18%. Затем мы сравниваем поддерживающее подмножество с произвольными подмножествами данных предварительного обучения и обнаруживаем: (1) Поддерживающие данные предварительного обучения для ICL не имеют более высокой релевантности домену для последующих задач. (2) Поддерживающие данные предварительного обучения содержат больше редких, длинных токенов из "длинного хвоста". (3) Поддерживающие данные предварительного обучения представляют собой сложные примеры, где информационная выгода от длинного контекста ниже среднего, что указывает на то, что обучение учитывать сложный длинный контекст способствует ICL. Наша работа делает первый шаг к пониманию ICL через анализ данных предварительного обучения на уровне отдельных примеров. Наши выводы имеют потенциал для улучшения способности языковых моделей к ICL за счет активного руководства построением данных предварительного обучения в будущем.
Крупные языковые модели теперь настраиваются на соответствие целям их создателей, а именно быть "полезными и безопасными". Эти модели должны полезно отвечать на вопросы пользователей, но отказываться отвечать на запросы, которые могут причинить вред. Однако злонамеренные пользователи могут создавать входные данные, которые обходят попытки согласования. В данной работе мы изучаем, в какой степени эти модели остаются согласованными, даже при взаимодействии с злонамеренным пользователем, который создает наихудшие входные данные (атакующие примеры). Эти входные данные предназначены для того, чтобы заставить модель выдавать вредоносный контент, который в противном случае был бы запрещен. Мы показываем, что существующие атаки на основе оптимизации в NLP недостаточно мощны для надежной атаки на согласованные текстовые модели: даже когда текущие атаки на основе NLP терпят неудачу, мы можем найти атакующие входные данные методом перебора. В результате, неудача текущих атак не должна рассматриваться как доказательство того, что согласованные текстовые модели остаются согласованными при атакующих входных данных. Однако недавняя тенденция в крупномасштабных ML моделях — это мультимодальные модели, которые позволяют пользователям предоставлять изображения, влияющие на генерируемый текст. Мы показываем, что эти модели могут быть легко атакованы, то есть их можно заставить выполнять произвольное несогласованное поведение через атакующие возмущения входного изображения. Мы предполагаем, что улучшенные атаки на NLP могут продемонстрировать такой же уровень контроля над текстовыми моделями.
Мы исследуем, как трансформеры справляются с двумя задачами: изучением базовой целочисленной арифметики и обобщением на последовательности большей длины, чем те, что встречались во время обучения. Мы обнаруживаем, что относительные позиционные эмбеддинги позволяют модели обобщать длину для простых задач, таких как сложение: модели, обученные на 5-значных числах, могут выполнять сложение 15-значных чисел. Однако этот метод не работает для умножения, и мы предлагаем метод "подготовки обучающего набора": добавление нескольких (от 10 до 50) длинных последовательностей в обучающий набор. Мы показываем, что подготовка позволяет моделям, обученным на умножении 5-значных чисел на 3-значные, обобщать на примеры 35×3. Мы также демонстрируем, что модели можно подготовить для обобщения на разные длины и что размер подготовительной выборки масштабируется как логарифм размера обучающего набора. Наконец, мы обсуждаем потенциальные применения подготовки за пределами арифметики.