Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Llemma, крупную языковую модель для математики. Мы продолжили предварительное обучение модели Code Llama на наборе данных Proof-Pile-2, представляющем собой смесь научных статей, веб-данных, содержащих математику, и математического кода, что привело к созданию Llemma. На бенчмарке MATH Llemma превосходит все известные открытые базовые модели, а также невыпущенный набор моделей Minerva при равном количестве параметров. Более того, Llemma способна использовать инструменты и выполнять формальное доказательство теорем без дополнительного тонкого настраивания. Мы открыто публикуем все материалы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения наших экспериментов.
Крупные языковые модели (LM) в настоящее время обучаются для предсказания токенов на основе префиксов документов, что позволяет им напрямую выполнять задачи длинной генерации и стимулирующих запросов, которые могут быть сведены к завершению документов. Существующие конвейеры предварительного обучения тренируют LM путем объединения случайных наборов коротких документов для создания входных контекстов, однако предыдущие документы не предоставляют сигналов для предсказания следующего документа. Вместо этого мы представляем In-Context Pretraining — новый подход, при котором языковые модели предварительно обучаются на последовательности связанных документов, тем самым явно поощряя их читать и рассуждать за пределами границ отдельных документов. Мы можем реализовать In-Context Pretraining, просто изменив порядок документов так, чтобы каждый контекст содержал связанные документы, и напрямую применив существующие конвейеры предварительного обучения. Однако задача сортировки документов является сложной. Существуют миллиарды документов, и мы хотим, чтобы сортировка максимизировала контекстуальную схожесть для каждого документа без повторения данных. Для этого мы вводим приближенные алгоритмы поиска связанных документов с использованием эффективного поиска ближайших соседей и построения согласованных входных контекстов с помощью алгоритма обхода графа. Наши эксперименты показывают, что In-Context Pretraining предлагает простой и масштабируемый подход для значительного улучшения производительности LM: мы наблюдаем заметные улучшения в задачах, требующих более сложного контекстуального рассуждения, включая обучение в контексте (+8%), понимание прочитанного (+15%), соответствие предыдущим контекстам (+16%), рассуждение в длинных контекстах (+5%) и усиление с помощью поиска (+9%).
Крупные языковые модели продемонстрировали свои впечатляющие возможности в качестве универсального интерфейса для различных задач, связанных с обработкой языка. Вдохновленные этим, мы ставим цель создать единый интерфейс для выполнения множества задач на стыке зрения и языка, включая описание изображений, визуальный вопросно-ответный анализ и визуальное закрепление, среди прочего. Основная задача заключается в использовании одной модели для эффективного выполнения разнообразных задач на стыке зрения и языка с помощью простых мультимодальных инструкций. Для достижения этой цели мы представляем MiniGPT-v2 — модель, которую можно рассматривать как унифицированный интерфейс для более эффективного решения различных задач на стыке зрения и языка. Мы предлагаем использовать уникальные идентификаторы для различных задач при обучении модели. Эти идентификаторы позволяют нашей модели легко различать инструкции для каждой задачи, а также повышают эффективность обучения модели для каждой задачи. После трехэтапного обучения результаты экспериментов показывают, что MiniGPT-v2 демонстрирует высокую производительность на многих бенчмарках для визуального вопросно-ответного анализа и визуального закрепления по сравнению с другими универсальными моделями на стыке зрения и языка. Наша модель и код доступны по адресу https://minigpt-v2.github.io/.
Интерактивная роботизированная система обеспечивает планирование задач на длительный горизонт и легко обобщается для новых целей или различных задач, даже в процессе выполнения. Однако большинство традиционных методов требуют предварительного проектирования модулей, что затрудняет обобщение для разных целей. Современные подходы, основанные на крупных языковых моделях, позволяют более открытое планирование, но часто требуют сложной инженерии промптов или предварительно обученных моделей для конкретных областей. Чтобы решить эту проблему, мы предлагаем простую систему, которая реализует интерактивное планирование задач с использованием языковых моделей. Наша система объединяет как высокоуровневое планирование, так и выполнение низкоуровневых функций через язык. Мы проверяем устойчивость нашей системы в генерации новых высокоуровневых инструкций для неизвестных целей и её легкость адаптации к различным задачам путем простой замены руководств по задачам, без необходимости в дополнительной сложной инженерии промптов. Более того, когда пользователь отправляет новый запрос, наша система способна точно перепланировать на основе нового запроса, руководств по задачам и ранее выполненных шагов. Подробнее можно узнать на наших ресурсах: https://wuphilipp.github.io/itp_site и https://youtu.be/TrKLuyv26_g.
Хотя крупные языковые модели доказали свою эффективность в широком спектре прикладных задач, они часто генерируют текст, который является проблематичным или не обладает желаемыми характеристиками. В данной статье мы представляем метод генерации текста с использованием награды (Reward-Augmented Decoding, RAD), который использует небольшую однонаправленную модель награды для стимулирования языковой модели к генерации текста с определёнными свойствами. В частности, RAD использует модель награды для оценки генерируемого текста по мере его создания и пересчитывает вероятности выборки, чтобы предпочитать токены с высокой наградой. Благодаря использованию однонаправленной модели награды, RAD может кэшировать активации из предыдущих шагов генерации, что снижает вычислительные затраты. В экспериментах по генерации нетоксичного текста и текста с контролируемой эмоциональной окраской мы демонстрируем, что RAD превосходит другие методы, которые изменяют только процедуру генерации, и соответствует производительности современных методов, включающих переобучение языковой модели. Мы также подтверждаем, что RAD эффективен для очень крупных языковых моделей при минимальных вычислительных затратах.
Мы стремимся обеспечить визуальное планирование для сложных задач с длительным горизонтом в пространстве генерируемых видео и текстов, используя последние достижения в области крупных генеративных моделей, предварительно обученных на данных интернет-масштаба. Для этого мы представляем алгоритм видеоязыкового планирования (Video Language Planning, VLP), который включает процедуру поиска по дереву, где мы обучаем (i) модели "визуальный язык" для выполнения роли как политик, так и функций ценности, и (ii) модели "текст-в-видео" в качестве моделей динамики. VLP принимает на вход инструкцию для задачи с длительным горизонтом и текущее изображение, а на выходе предоставляет длительный видео-план, содержащий детальные мультимодальные (видео и текст) спецификации, описывающие, как выполнить конечную задачу. VLP масштабируется с увеличением вычислительных ресурсов, где большее время вычислений приводит к улучшению видео-планов, и способен синтезировать долгосрочные видео-планы в различных робототехнических областях: от перестановки множества объектов до манипуляций с использованием двух манипуляторов и нескольких камер. Сгенерированные видео-планы могут быть преобразованы в действия реальных роботов с помощью политик, обусловленных целью, где каждая промежуточная кадр генерируемого видео служит условием. Эксперименты показывают, что VLP значительно повышает успешность выполнения задач с длительным горизонтом по сравнению с предыдущими методами как на симуляторах, так и на реальных роботах (на 3 аппаратных платформах).
Мы исследуем дистилляцию данных для задач авторегрессивного машинного обучения, где входные и выходные данные имеют строгую причинно-следственную структуру слева направо. Более конкретно, мы предлагаем метод Farzi, который суммирует набор данных последовательностей событий в небольшое количество синтетических последовательностей — Farzi Data, которые оптимизированы для сохранения (или даже улучшения) производительности модели по сравнению с обучением на полном наборе данных. В основе Farzi лежит эффективная с точки зрения использования памяти дистилляция данных, которая достигается за счет (i) выведения эффективного обратного дифференцирования для оптимизатора Adam с использованием произведений Гессе-вектор; и (ii) факторизации высокоразмерного дискретного пространства событий в латентное пространство, которое доказанно способствует неявной регуляризации. Экспериментально, для задач последовательных рекомендаций и языкового моделирования, мы смогли достичь 98-120% производительности моделей, обученных на полных данных, при обучении современных моделей на Farzi Data, объем которых составляет всего 0,1% от исходного набора данных. Примечательно, что возможность обучать более качественные модели с использованием значительно меньшего объема данных проливает свет на проектирование будущих крупных авторегрессивных моделей и открывает новые возможности для дальнейшего масштабирования размеров моделей и данных.
Узкие форматы данных с малым количеством битов играют ключевую роль в снижении вычислительных и ресурсных затрат современных приложений глубокого обучения. В данной работе исследуются форматы данных Microscaling (MX), которые сочетают масштабирующий коэффициент на уровне блока с узкими типами данных с плавающей запятой и целыми числами для отдельных элементов. Форматы MX находят баланс между конкурирующими требованиями аппаратной эффективности, точности модели и удобства использования. Экспериментальные результаты на более чем двух десятках тестовых задач демонстрируют практическую применимость форматов MX в качестве прямой замены базового формата FP32 для задач вывода и обучения в ИИ с минимальными усилиями со стороны пользователя. Мы также впервые показываем возможность обучения генеративных языковых моделей с весами, активациями и градиентами менее 8 бит с минимальной потерей точности и без изменений в процессе обучения.
Несмотря на успехи в решении многих задач обработки естественного языка, решение математических задач остается серьезным вызовом для крупных языковых моделей (LLM). Существует значительный разрыв между показателями "pass-at-one" и "pass-at-N" в решении математических задач, что указывает на то, что LLM могут быть близки к нахождению правильных решений, что мотивирует наше исследование методов тонкой настройки для раскрытия их потенциала. Используя сложный набор данных MATH, мы исследуем три стратегии тонкой настройки: (1) тонкая настройка на решения, где модель обучается генерировать подробное решение для заданной математической задачи; (2) переранжирование кластеров решений, где LLM настраивается как верификатор/оценщик для выбора среди сгенерированных кандидатов решений; (3) многозадачная последовательная тонкая настройка, которая эффективно объединяет задачи генерации и оценки решений для повышения производительности модели. С помощью этих методов мы проводим всестороннее эмпирическое исследование на серии моделей PaLM 2 и обнаруживаем: (1) Качество и стиль пошаговых решений, используемых для тонкой настройки, могут существенно влиять на производительность модели; (2) Хотя переранжирование решений и мажоритарное голосование эффективны для улучшения производительности модели по отдельности, их совместное использование дает еще больший прирост; (3) Многозадачная тонкая настройка, которая последовательно разделяет задачи генерации и оценки решений, может предложить улучшенную производительность по сравнению с базовой тонкой настройкой на решения. Руководствуясь этими выводами, мы разрабатываем рецепт тонкой настройки, который обеспечивает точность около 58,8% на наборе данных MATH для настроенных моделей PaLM 2-L, что на 11,2% выше точности предварительно обученной модели PaLM 2-L с мажоритарным голосованием в режиме few-shot.
Мы исследуем способности крупных языковых моделей (LLM) на основе трансформеров в задачах реляционного рассуждения, связанных с абстрактными символами. Такие задачи давно изучаются в нейронаучной литературе как фундаментальные строительные блоки для более сложных способностей в программировании, математике и вербальном рассуждении. Для (i) задач регрессии мы доказываем, что трансформеры обобщают при обучении, но требуют поразительно больших объемов обучающих данных. Для (ii) задач предсказания следующего токена с символическими метками мы демонстрируем "обратный закон масштабирования": трансформеры не способны обобщать с увеличением размерности их эмбеддингов. Для обоих сценариев (i) и (ii) мы предлагаем тонкие модификации трансформеров, которые могут сократить объем необходимых данных за счет добавления двух обучаемых параметров на каждый головной блок.
Синтез индуктивных инвариантов циклов является фундаментальной задачей для автоматизации верификации программ. В данной работе мы наблюдаем, что крупные языковые модели (такие как GPT-3.5 или GPT-4) способны синтезировать инварианты циклов для определенного класса программ в режиме "0-shot", однако для генерации корректных инвариантов требуется несколько попыток. Это может привести к большому количеству вызовов программы верификации для установления инварианта. Чтобы решить эту проблему, мы предлагаем подход {\it переранжирования} для сгенерированных результатов языковых моделей. Мы разработали ранкер, который может отличать корректные индуктивные инварианты от некорректных попыток на основе определения задачи. Ранкер оптимизирован как контрастный ранкер. Экспериментальные результаты показывают, что этот механизм переранжирования значительно улучшает позиционирование корректных инвариантов среди сгенерированных кандидатов, что приводит к заметному сокращению количества вызовов верификатора.