Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Llemma: Открытая языковая модель для математики
Llemma: An Open Language Model For Mathematics

Oct 16, 2023

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck

566

Мы представляем Llemma, крупную языковую модель для математики. Мы продолжили предварительное обучение модели Code Llama на наборе данных Proof-Pile-2, представляющем собой смесь научных статей, веб-данных, содержащих математику, и математического кода, что привело к созданию Llemma. На бенчмарке MATH Llemma превосходит все известные открытые базовые модели, а также невыпущенный набор моделей Minerva при равном количестве параметров. Более того, Llemma способна использовать инструменты и выполнять формальное доказательство теорем без дополнительного тонкого настраивания. Мы открыто публикуем все материалы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения наших экспериментов.

Предварительное обучение в контексте: языковое моделирование за пределами границ документов
In-Context Pretraining: Language Modeling Beyond Document Boundaries

Oct 16, 2023

Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis

303

Крупные языковые модели (LM) в настоящее время обучаются для предсказания токенов на основе префиксов документов, что позволяет им напрямую выполнять задачи длинной генерации и стимулирующих запросов, которые могут быть сведены к завершению документов. Существующие конвейеры предварительного обучения тренируют LM путем объединения случайных наборов коротких документов для создания входных контекстов, однако предыдущие документы не предоставляют сигналов для предсказания следующего документа. Вместо этого мы представляем In-Context Pretraining — новый подход, при котором языковые модели предварительно обучаются на последовательности связанных документов, тем самым явно поощряя их читать и рассуждать за пределами границ отдельных документов. Мы можем реализовать In-Context Pretraining, просто изменив порядок документов так, чтобы каждый контекст содержал связанные документы, и напрямую применив существующие конвейеры предварительного обучения. Однако задача сортировки документов является сложной. Существуют миллиарды документов, и мы хотим, чтобы сортировка максимизировала контекстуальную схожесть для каждого документа без повторения данных. Для этого мы вводим приближенные алгоритмы поиска связанных документов с использованием эффективного поиска ближайших соседей и построения согласованных входных контекстов с помощью алгоритма обхода графа. Наши эксперименты показывают, что In-Context Pretraining предлагает простой и масштабируемый подход для значительного улучшения производительности LM: мы наблюдаем заметные улучшения в задачах, требующих более сложного контекстуального рассуждения, включая обучение в контексте (+8%), понимание прочитанного (+15%), соответствие предыдущим контекстам (+16%), рассуждение в длинных контекстах (+5%) и усиление с помощью поиска (+9%).

MiniGPT-v2: крупная языковая модель как унифицированный интерфейс для многозадачного обучения в области взаимодействия зрения и языка
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Oct 14, 2023

Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny

211

Крупные языковые модели продемонстрировали свои впечатляющие возможности в качестве универсального интерфейса для различных задач, связанных с обработкой языка. Вдохновленные этим, мы ставим цель создать единый интерфейс для выполнения множества задач на стыке зрения и языка, включая описание изображений, визуальный вопросно-ответный анализ и визуальное закрепление, среди прочего. Основная задача заключается в использовании одной модели для эффективного выполнения разнообразных задач на стыке зрения и языка с помощью простых мультимодальных инструкций. Для достижения этой цели мы представляем MiniGPT-v2 — модель, которую можно рассматривать как унифицированный интерфейс для более эффективного решения различных задач на стыке зрения и языка. Мы предлагаем использовать уникальные идентификаторы для различных задач при обучении модели. Эти идентификаторы позволяют нашей модели легко различать инструкции для каждой задачи, а также повышают эффективность обучения модели для каждой задачи. После трехэтапного обучения результаты экспериментов показывают, что MiniGPT-v2 демонстрирует высокую производительность на многих бенчмарках для визуального вопросно-ответного анализа и визуального закрепления по сравнению с другими универсальными моделями на стыке зрения и языка. Наша модель и код доступны по адресу https://minigpt-v2.github.io/.

Интерактивное планирование задач с использованием языковых моделей
Interactive Task Planning with Language Models

Oct 16, 2023

Boyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik

131

Интерактивная роботизированная система обеспечивает планирование задач на длительный горизонт и легко обобщается для новых целей или различных задач, даже в процессе выполнения. Однако большинство традиционных методов требуют предварительного проектирования модулей, что затрудняет обобщение для разных целей. Современные подходы, основанные на крупных языковых моделях, позволяют более открытое планирование, но часто требуют сложной инженерии промптов или предварительно обученных моделей для конкретных областей. Чтобы решить эту проблему, мы предлагаем простую систему, которая реализует интерактивное планирование задач с использованием языковых моделей. Наша система объединяет как высокоуровневое планирование, так и выполнение низкоуровневых функций через язык. Мы проверяем устойчивость нашей системы в генерации новых высокоуровневых инструкций для неизвестных целей и её легкость адаптации к различным задачам путем простой замены руководств по задачам, без необходимости в дополнительной сложной инженерии промптов. Более того, когда пользователь отправляет новый запрос, наша система способна точно перепланировать на основе нового запроса, руководств по задачам и ранее выполненных шагов. Подробнее можно узнать на наших ресурсах: https://wuphilipp.github.io/itp_site и https://youtu.be/TrKLuyv26_g.

Декодирование с усилением вознаграждения: эффективное управляемое генерация текста с использованием однонаправленной модели вознаграждения
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Oct 14, 2023

Haikang Deng, Colin Raffel

121

Хотя крупные языковые модели доказали свою эффективность в широком спектре прикладных задач, они часто генерируют текст, который является проблематичным или не обладает желаемыми характеристиками. В данной статье мы представляем метод генерации текста с использованием награды (Reward-Augmented Decoding, RAD), который использует небольшую однонаправленную модель награды для стимулирования языковой модели к генерации текста с определёнными свойствами. В частности, RAD использует модель награды для оценки генерируемого текста по мере его создания и пересчитывает вероятности выборки, чтобы предпочитать токены с высокой наградой. Благодаря использованию однонаправленной модели награды, RAD может кэшировать активации из предыдущих шагов генерации, что снижает вычислительные затраты. В экспериментах по генерации нетоксичного текста и текста с контролируемой эмоциональной окраской мы демонстрируем, что RAD превосходит другие методы, которые изменяют только процедуру генерации, и соответствует производительности современных методов, включающих переобучение языковой модели. Мы также подтверждаем, что RAD эффективен для очень крупных языковых моделей при минимальных вычислительных затратах.

Планирование языка для видео
Video Language Planning

Oct 16, 2023

Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson

111

Мы стремимся обеспечить визуальное планирование для сложных задач с длительным горизонтом в пространстве генерируемых видео и текстов, используя последние достижения в области крупных генеративных моделей, предварительно обученных на данных интернет-масштаба. Для этого мы представляем алгоритм видеоязыкового планирования (Video Language Planning, VLP), который включает процедуру поиска по дереву, где мы обучаем (i) модели "визуальный язык" для выполнения роли как политик, так и функций ценности, и (ii) модели "текст-в-видео" в качестве моделей динамики. VLP принимает на вход инструкцию для задачи с длительным горизонтом и текущее изображение, а на выходе предоставляет длительный видео-план, содержащий детальные мультимодальные (видео и текст) спецификации, описывающие, как выполнить конечную задачу. VLP масштабируется с увеличением вычислительных ресурсов, где большее время вычислений приводит к улучшению видео-планов, и способен синтезировать долгосрочные видео-планы в различных робототехнических областях: от перестановки множества объектов до манипуляций с использованием двух манипуляторов и нескольких камер. Сгенерированные видео-планы могут быть преобразованы в действия реальных роботов с помощью политик, обусловленных целью, где каждая промежуточная кадр генерируемого видео служит условием. Эксперименты показывают, что VLP значительно повышает успешность выполнения задач с длительным горизонтом по сравнению с предыдущими методами как на симуляторах, так и на реальных роботах (на 3 аппаратных платформах).

Farzi Data: Авторегрессивная дистилляция данных
Farzi Data: Autoregressive Data Distillation

Oct 15, 2023

Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley

101

Мы исследуем дистилляцию данных для задач авторегрессивного машинного обучения, где входные и выходные данные имеют строгую причинно-следственную структуру слева направо. Более конкретно, мы предлагаем метод Farzi, который суммирует набор данных последовательностей событий в небольшое количество синтетических последовательностей — Farzi Data, которые оптимизированы для сохранения (или даже улучшения) производительности модели по сравнению с обучением на полном наборе данных. В основе Farzi лежит эффективная с точки зрения использования памяти дистилляция данных, которая достигается за счет (i) выведения эффективного обратного дифференцирования для оптимизатора Adam с использованием произведений Гессе-вектор; и (ii) факторизации высокоразмерного дискретного пространства событий в латентное пространство, которое доказанно способствует неявной регуляризации. Экспериментально, для задач последовательных рекомендаций и языкового моделирования, мы смогли достичь 98-120% производительности моделей, обученных на полных данных, при обучении современных моделей на Farzi Data, объем которых составляет всего 0,1% от исходного набора данных. Примечательно, что возможность обучать более качественные модели с использованием значительно меньшего объема данных проливает свет на проектирование будущих крупных авторегрессивных моделей и открывает новые возможности для дальнейшего масштабирования размеров моделей и данных.

Микромасштабирование форматов данных для глубокого обучения
Microscaling Data Formats for Deep Learning

Oct 16, 2023

Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verilli, Ralph Wittig, Eric Chung

Узкие форматы данных с малым количеством битов играют ключевую роль в снижении вычислительных и ресурсных затрат современных приложений глубокого обучения. В данной работе исследуются форматы данных Microscaling (MX), которые сочетают масштабирующий коэффициент на уровне блока с узкими типами данных с плавающей запятой и целыми числами для отдельных элементов. Форматы MX находят баланс между конкурирующими требованиями аппаратной эффективности, точности модели и удобства использования. Экспериментальные результаты на более чем двух десятках тестовых задач демонстрируют практическую применимость форматов MX в качестве прямой замены базового формата FP32 для задач вывода и обучения в ИИ с минимальными усилиями со стороны пользователя. Мы также впервые показываем возможность обучения генеративных языковых моделей с весами, активациями и градиентами менее 8 бит с минимальной потерей точности и без изменений в процессе обучения.

Улучшение тонкой настройки больших языковых моделей для решения математических задач
Improving Large Language Model Fine-tuning for Solving Math Problems

Oct 16, 2023

Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu

Несмотря на успехи в решении многих задач обработки естественного языка, решение математических задач остается серьезным вызовом для крупных языковых моделей (LLM). Существует значительный разрыв между показателями "pass-at-one" и "pass-at-N" в решении математических задач, что указывает на то, что LLM могут быть близки к нахождению правильных решений, что мотивирует наше исследование методов тонкой настройки для раскрытия их потенциала. Используя сложный набор данных MATH, мы исследуем три стратегии тонкой настройки: (1) тонкая настройка на решения, где модель обучается генерировать подробное решение для заданной математической задачи; (2) переранжирование кластеров решений, где LLM настраивается как верификатор/оценщик для выбора среди сгенерированных кандидатов решений; (3) многозадачная последовательная тонкая настройка, которая эффективно объединяет задачи генерации и оценки решений для повышения производительности модели. С помощью этих методов мы проводим всестороннее эмпирическое исследование на серии моделей PaLM 2 и обнаруживаем: (1) Качество и стиль пошаговых решений, используемых для тонкой настройки, могут существенно влиять на производительность модели; (2) Хотя переранжирование решений и мажоритарное голосование эффективны для улучшения производительности модели по отдельности, их совместное использование дает еще больший прирост; (3) Многозадачная тонкая настройка, которая последовательно разделяет задачи генерации и оценки решений, может предложить улучшенную производительность по сравнению с базовой тонкой настройкой на решения. Руководствуясь этими выводами, мы разрабатываем рецепт тонкой настройки, который обеспечивает точность около 58,8% на наборе данных MATH для настроенных моделей PaLM 2-L, что на 11,2% выше точности предварительно обученной модели PaLM 2-L с мажоритарным голосованием в режиме few-shot.

Когда трансформеры могут рассуждать с использованием абстрактных символов?
When can transformers reason with abstract symbols?

Oct 15, 2023

Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind

Мы исследуем способности крупных языковых моделей (LLM) на основе трансформеров в задачах реляционного рассуждения, связанных с абстрактными символами. Такие задачи давно изучаются в нейронаучной литературе как фундаментальные строительные блоки для более сложных способностей в программировании, математике и вербальном рассуждении. Для (i) задач регрессии мы доказываем, что трансформеры обобщают при обучении, но требуют поразительно больших объемов обучающих данных. Для (ii) задач предсказания следующего токена с символическими метками мы демонстрируем "обратный закон масштабирования": трансформеры не способны обобщать с увеличением размерности их эмбеддингов. Для обоих сценариев (i) и (ii) мы предлагаем тонкие модификации трансформеров, которые могут сократить объем необходимых данных за счет добавления двух обучаемых параметров на каждый головной блок.

Ранжирование инвариантов циклов, сгенерированных языковыми моделями, для верификации программ
Ranking LLM-Generated Loop Invariants for Program Verification

Oct 13, 2023

Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy

Синтез индуктивных инвариантов циклов является фундаментальной задачей для автоматизации верификации программ. В данной работе мы наблюдаем, что крупные языковые модели (такие как GPT-3.5 или GPT-4) способны синтезировать инварианты циклов для определенного класса программ в режиме "0-shot", однако для генерации корректных инвариантов требуется несколько попыток. Это может привести к большому количеству вызовов программы верификации для установления инварианта. Чтобы решить эту проблему, мы предлагаем подход {\it переранжирования} для сгенерированных результатов языковых моделей. Мы разработали ранкер, который может отличать корректные индуктивные инварианты от некорректных попыток на основе определения задачи. Ранкер оптимизирован как контрастный ранкер. Экспериментальные результаты показывают, что этот механизм переранжирования значительно улучшает позиционирование корректных инвариантов среди сгенерированных кандидатов, что приводит к заметному сокращению количества вызовов верификатора.

Улучшение тонкой настройки больших языковых моделей для решения математических задач
Improving Large Language Model Fine-tuning for Solving Math Problems

Oct 16, 2023

Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu

Ежедневные статьи

Llemma: Открытая языковая модель для математики
Llemma: An Open Language Model For Mathematics

Предварительное обучение в контексте: языковое моделирование за пределами границ документов
In-Context Pretraining: Language Modeling Beyond Document Boundaries

Интерактивное планирование задач с использованием языковых моделей
Interactive Task Planning with Language Models

Планирование языка для видео
Video Language Planning

Farzi Data: Авторегрессивная дистилляция данных
Farzi Data: Autoregressive Data Distillation

Микромасштабирование форматов данных для глубокого обучения
Microscaling Data Formats for Deep Learning

Улучшение тонкой настройки больших языковых моделей для решения математических задач
Improving Large Language Model Fine-tuning for Solving Math Problems

Когда трансформеры могут рассуждать с использованием абстрактных символов?
When can transformers reason with abstract symbols?

Ранжирование инвариантов циклов, сгенерированных языковыми моделями, для верификации программ
Ranking LLM-Generated Loop Invariants for Program Verification

Support

Support

Ежедневные статьи

Llemma: Открытая языковая модель для математики
Llemma: An Open Language Model For Mathematics

Предварительное обучение в контексте: языковое моделирование за пределами границ документов
In-Context Pretraining: Language Modeling Beyond Document Boundaries

Интерактивное планирование задач с использованием языковых моделей
Interactive Task Planning with Language Models

Планирование языка для видео
Video Language Planning

Farzi Data: Авторегрессивная дистилляция данных
Farzi Data: Autoregressive Data Distillation

Микромасштабирование форматов данных для глубокого обучения
Microscaling Data Formats for Deep Learning

Улучшение тонкой настройки больших языковых моделей для решения математических задач
Improving Large Language Model Fine-tuning for Solving Math Problems

Когда трансформеры могут рассуждать с использованием абстрактных символов?
When can transformers reason with abstract symbols?

Ранжирование инвариантов циклов, сгенерированных языковыми моделями, для верификации программ
Ranking LLM-Generated Loop Invariants for Program Verification