Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем QLoRA — эффективный метод тонкой настройки, который снижает использование памяти до уровня, позволяющего выполнять тонкую настройку модели с 65 миллиардами параметров на одном GPU с 48 ГБ памяти, сохраняя при этом полную производительность 16-битной тонкой настройки. QLoRA распространяет градиенты через замороженную, 4-битную квантованную предобученную языковую модель в Low Rank Adapters (LoRA). Наша лучшая семейная модель, которую мы назвали Guanaco, превосходит все ранее открыто выпущенные модели на бенчмарке Vicuna, достигая 99,3% уровня производительности ChatGPT, при этом требуя всего 24 часа тонкой настройки на одном GPU. QLoRA вводит ряд инноваций для экономии памяти без ущерба для производительности: (a) 4-битный NormalFloat (NF4) — новый тип данных, теоретически оптимальный для нормально распределенных весов; (b) двойное квантование для уменьшения среднего объема памяти за счет квантования констант квантования; и (c) пейджированные оптимизаторы для управления всплесками памяти. Мы используем QLoRA для тонкой настройки более 1000 моделей, предоставляя детальный анализ выполнения инструкций и производительности чат-ботов на 8 наборах данных с инструкциями, различных типах моделей (LLaMA, T5) и масштабах моделей, которые было бы невозможно запустить с обычной тонкой настройкой (например, модели с 33 и 65 миллиардами параметров). Наши результаты показывают, что тонкая настройка QLoRA на небольшом высококачественном наборе данных приводит к передовым результатам, даже при использовании моделей меньшего размера, чем предыдущие SoTA. Мы предоставляем детальный анализ производительности чат-ботов на основе оценок как людей, так и GPT-4, показывая, что оценки GPT-4 являются дешевой и разумной альтернативой человеческой оценке. Кроме того, мы обнаруживаем, что текущие бенчмарки для чат-ботов не заслуживают доверия для точной оценки их производительности. Анализ с "выбором лимонов" демонстрирует, где Guanaco уступает ChatGPT. Мы публикуем все наши модели и код, включая CUDA-ядра для 4-битного обучения.
Тонкая настройка на данных инструкций широко признана эффективной практикой для реализации чат-моделей языка, таких как ChatGPT. Увеличение разнообразия и качества таких данных, хотя и является простым, с большой вероятностью приводит к улучшению производительности. В данной статье мы стремимся еще больше повысить верхнюю границу производительности моделей с открытым исходным кодом. Сначала мы представляем систематически разработанный, разнообразный, информативный и масштабный набор данных инструктивных диалогов UltraChat, который не включает запросы от людей. Наша цель — охватить весь спектр взаимодействий, которые человек может иметь с ИИ-ассистентом, и использовать комплексную структуру для итеративной генерации многоходовых диалогов. UltraChat содержит 1,5 миллиона высококачественных многоходовых диалогов и охватывает широкий круг тем и инструкций. Наш статистический анализ UltraChat демонстрирует его превосходство по различным ключевым метрикам, включая масштаб, среднюю длину, разнообразие, связность и т.д., что укрепляет его позицию как ведущего набора данных с открытым исходным кодом. На основе UltraChat мы проводим тонкую настройку модели LLaMA, создавая мощную диалоговую модель UltraLLaMA. Наши оценки показывают, что UltraLLaMA стабильно превосходит другие модели с открытым исходным кодом, включая Vicuna, ранее признанную передовой моделью с открытым исходным кодом. Набор данных и модель будут публично доступны по адресу \url{https://github.com/thunlp/UltraChat}.
Мы представляем Goat, тонко настроенную модель LLaMA, которая значительно превосходит GPT-4 в решении различных арифметических задач. Обучившись на синтетически сгенерированном наборе данных, Goat демонстрирует наилучшие результаты в арифметической подзадаче BIG-bench. В частности, модель Goat-7B в режиме zero-shot соответствует или даже превосходит точность, достигнутую моделью PaLM-540B в режиме few-shot. Удивительно, но Goat достигает почти идеальной точности в сложении и вычитании больших чисел только за счет контролируемого тонкого обучения, что было практически невозможно для предыдущих предобученных языковых моделей, таких как Bloom, OPT, GPT-NeoX и других. Мы связываем выдающуюся производительность Goat с последовательной токенизацией чисел в LLaMA. Для решения более сложных задач, таких как умножение и деление больших чисел, мы предлагаем подход, который классифицирует задачи по их обучаемости, а затем разбивает необучаемые задачи, такие как многозначное умножение и деление, на серию обучаемых задач, используя базовые арифметические принципы. Мы тщательно исследуем производительность нашей модели, предоставляя всестороннюю оценку эффективности предложенных шагов декомпозиции. Кроме того, Goat-7B может быть легко обучена с использованием LoRA на GPU с 24 ГБ видеопамяти, что упрощает воспроизводимость для других исследователей. Мы публикуем нашу модель, набор данных и Python-скрипт для генерации данных.
Основной риск использования языковых моделей в практических приложениях заключается в их склонности к галлюцинациям — генерации некорректных утверждений. Галлюцинации часто связывают с пробелами в знаниях языковых моделей, однако мы предполагаем, что в некоторых случаях, оправдывая ранее сгенерированные галлюцинации, модели выдают ложные утверждения, которые они сами могут распознать как ошибочные. Мы создали три набора данных для вопросов и ответов, в которых ChatGPT и GPT-4 часто дают неверный ответ и сопровождают его объяснением, содержащим хотя бы одно ложное утверждение. Важно отметить, что ChatGPT и GPT-4 способны распознать 67% и 87% своих ошибок соответственно. Мы называем это явление "эффектом снежного кома галлюцинаций": языковая модель чрезмерно привержена ранним ошибкам, что приводит к появлению дополнительных ошибок, которые в иных случаях она бы не допустила.
Речевые языковые модели (SpeechLMs) обрабатывают и генерируют только акустические данные без использования текстового надзора. В данной работе мы предлагаем метод TWIST для обучения SpeechLMs с использованием "теплого старта" на основе предварительно обученных текстовых языковых моделей. Мы демонстрируем с помощью как автоматических, так и человеческих оценок, что TWIST превосходит SpeechLM, обученную с "холодного старта", по всем параметрам. Мы эмпирически анализируем влияние различных решений в проектировании модели, таких как выбор речевого токенизатора, предварительно обученной текстовой модели и размера набора данных. Мы обнаруживаем, что масштаб модели и набора данных играют важную роль в создании более эффективных SpeechLMs. На основе наших наблюдений мы представляем (насколько нам известно) самую крупную SpeechLM как по количеству параметров, так и по объему обучающих данных. Дополнительно мы вводим две устные версии текстового бенчмарка StoryCloze для улучшения оценки моделей и продвижения будущих исследований в этой области. Примеры речевых данных можно найти на нашем сайте: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
Фиксированный размер контекста в Transformer делает модели GPT неспособными генерировать текст произвольной длины. В данной статье мы представляем RecurrentGPT — языковую симуляцию механизма рекуррентности, используемого в RNN. RecurrentGPT построен на основе крупной языковой модели (LLM), такой как ChatGPT, и использует естественный язык для имитации механизма долгой краткосрочной памяти (LSTM). На каждом временном шаге RecurrentGPT генерирует абзац текста и обновляет свою языковую долгосрочную и краткосрочную память, хранящуюся на жестком диске и в подсказке соответственно. Этот механизм рекуррентности позволяет RecurrentGPT генерировать тексты произвольной длины без потери информации. Поскольку пользователи могут легко наблюдать и редактировать естественно-языковые воспоминания, RecurrentGPT является интерпретируемым и позволяет интерактивно генерировать длинные тексты. RecurrentGPT представляет собой первый шаг к созданию систем компьютерного сопровождения написания текстов нового поколения, выходящих за рамки локальных предложений по редактированию. Помимо создания контента, генерируемого ИИ (AIGC), мы также демонстрируем возможность использования RecurrentGPT в качестве интерактивной художественной литературы, которая напрямую взаимодействует с потребителями. Мы называем этот способ использования генеративных моделей «ИИ как контент» (AIAC), который, по нашему мнению, является следующей формой традиционного AIGC. Мы также показываем возможность использования RecurrentGPT для создания персонализированной интерактивной литературы, которая напрямую взаимодействует с читателями, а не с авторами. В более широком смысле, RecurrentGPT демонстрирует полезность заимствования идей из популярных моделей когнитивной науки и глубокого обучения для создания подсказок для LLM. Наш код доступен по адресу https://github.com/aiwaves-cn/RecurrentGPT, а онлайн-демонстрация — на сайте https://www.aiwaves.org/recurrentgpt.
Рост крупных языковых моделей (LLM) открыл множество возможностей для применения этой технологии в разработке программного обеспечения. В частности, генеративные LLM доказали свою эффективность в создании инструментов для написания кода на основе ИИ, которые могут предлагать целые выражения или блоки кода в процессе написания. В данной статье мы представляем CodeCompose — инструмент для написания кода с поддержкой ИИ, разработанный и внедренный внутри компании Meta. CodeCompose основан на модели InCoder LLM, которая объединяет генеративные возможности с двунаправленностью. Мы масштабировали CodeCompose для обслуживания десятков тысяч разработчиков в Meta, поддерживая более 10 языков программирования и несколько сред разработки. Мы обсуждаем уникальные проблемы, связанные с пользовательским опытом и метриками, которые возникают при внедрении таких инструментов в крупных промышленных условиях. Мы делимся опытом принятия решений по проектированию модели и архитектуры системы для CodeCompose, которые позволяют решать эти проблемы. Наконец, мы представляем метрики из нашего масштабного внедрения CodeCompose, демонстрирующие его влияние на процесс написания кода внутри Meta за 15-дневный период, в течение которого CodeCompose сделал 4,5 миллиона предложений. Количественные метрики показывают, что (i) уровень принятия предложений CodeCompose составляет 22% для нескольких языков, и (ii) 8% кода, написанного пользователями CodeCompose, было создано путем принятия предложений от инструмента. Качественные отзывы указывают на ошеломляющие 91,5% положительного восприятия CodeCompose. Помимо помощи в написании кода, CodeCompose также способствует другим положительным эффектам, таким как стимулирование разработчиков к созданию большего количества документации в коде, помощь в открытии новых API и т.д.
Мы предлагаем новый мультимодальный видео-бенчмарк — Perception Test — для оценки навыков восприятия и рассуждения предварительно обученных мультимодальных моделей (например, Flamingo, BEiT-3 или GPT-4). В отличие от существующих бенчмарков, которые сосредоточены на вычислительных задачах (например, классификация, детекция или отслеживание), Perception Test акцентирует внимание на навыках (Память, Абстракция, Физика, Семантика) и типах рассуждений (описательные, объяснительные, прогностические, контрфактические) в видео, аудио и текстовых модальностях, предоставляя комплексный и эффективный инструмент оценки. Бенчмарк исследует способности предварительно обученных моделей к переносу знаний в условиях zero-shot / few-shot или ограниченной дообучения. Для этих целей Perception Test включает 11,6 тыс. реальных видео средней продолжительностью 23 секунды, снятых примерно 100 участниками по всему миру и демонстрирующих перцептивно интересные ситуации. Видео плотно аннотированы шестью типами меток (множественный выбор и привязанные вопросы-ответы по видео, треки объектов и точек, временные сегменты действий и звуков), что позволяет проводить как языковые, так и неязыковые оценки. Разделы для дообучения и валидации бенчмарка доступны публично (лицензия CC-BY), а также сервер для проведения соревнований с закрытым тестовым разделом. Результаты базовых человеческих показателей по сравнению с современными моделями для видео-вопросов показывают значительный разрыв в производительности (91,4% против 43,6%), что свидетельствует о существенном потенциале для улучшения понимания мультимодального видео. Набор данных, код базовых моделей и сервер для соревнований доступны по адресу: https://github.com/deepmind/perception_test
Согласование больших языковых моделей (LLM) с человеческими ценностями становится все более важным, так как это позволяет осуществлять сложное управление LLM, например, заставлять их следовать заданным инструкциям, одновременно снижая их токсичность. Однако это требует значительного объема человеческих демонстраций и обратной связи. Недавно открытые модели попытались воспроизвести процесс обучения согласованию, извлекая данные из уже согласованных LLM, таких как InstructGPT или ChatGPT. Хотя этот процесс снижает усилия человека, создание таких наборов данных сильно зависит от моделей-учителей. В данной работе мы предлагаем новую структуру для обучения согласованию, практически без участия человека и без зависимости от предварительно согласованных LLM. Сначала мы выполняем моделирование вознаграждения (RM) с использованием синтетической обратной связи, сравнивая ответы базовых LLM различных размеров и с различными промптами. Затем мы используем RM для симуляции высококачественных демонстраций, чтобы обучить контролируемую политику, и для дальнейшей оптимизации модели с помощью обучения с подкреплением. Наша итоговая модель, Aligned Language Model with Synthetic Training dataset (ALMoST), превосходит открытые модели, включая Alpaca, Dolly и OpenAssistant, которые обучены на выходах InstructGPT или инструкциях, аннотированных человеком. Наша модель размером 7B превосходит модели размером 12-13B в A/B-тестах с использованием GPT-4 в качестве судьи, с показателем выигрыша около 75% в среднем.
Люди учатся овладевать открытыми репертуарами навыков, представляя и практикуя собственные цели. Этот аутогелический процесс обучения, буквально означающий преследование самостоятельно сгенерированных (ауто) целей (телос), становится всё более открытым по мере того, как цели становятся более разнообразными, абстрактными и творческими. Исследование пространства возможных навыков поддерживается межличностным взаимодействием: представления целей культурно эволюционируют и передаются между индивидами, в частности с использованием языка. Современные искусственные агенты в основном полагаются на предопределённые представления целей, соответствующие либо ограниченным (например, списки инструкций), либо неограниченным (например, пространство возможных визуальных входных данных) пространствам целей, но редко наделяются способностью переосмысливать свои представления целей, формировать новые абстракции или представлять творческие цели. В данной статье мы представляем аутогелического агента, дополненного языковой моделью (LMA3), который использует предобученную языковую модель (LM) для поддержки представления, генерации и обучения разнообразным, абстрактным, значимым для человека целям. Языковая модель используется как несовершенная модель культурной передачи у людей; попытка уловить аспекты человеческого здравого смысла, интуитивной физики и общих интересов. В частности, она поддерживает три ключевых компонента аутогелической архитектуры: 1) перемаркировщик, который описывает цели, достигнутые в траекториях агента, 2) генератор целей, который предлагает новые высокоуровневые цели вместе с их декомпозицией на подцели, уже освоенные агентом, и 3) функции вознаграждения для каждой из этих целей. Без использования каких-либо ручных представлений целей, функций вознаграждения или учебного плана, мы показываем, что агенты LMA3 учатся овладевать большим разнообразием навыков в независимой от задач текстовой среде.
В данной статье мы проводим тщательное исследование способностей к рассуждению у крупных языковых моделей (LLM), уделяя особое внимание моделям Open Pretrained Transformers (OPT) как представителям данного класса моделей. Наше исследование включает тонкую настройку трех моделей OPT разного размера на тщательно отобранном корпусе для рассуждений, что приводит к созданию двух наборов настроенных моделей: OPT-R, настроенных без объяснений, и OPT-RE, настроенных с объяснениями. Затем мы оцениваем все модели на 57 задачах извне домена, взятых из бенчмарка SUPER-NATURALINSTRUCTIONS, охватывающих 26 различных навыков рассуждения, используя три метода промптинга. Через всестороннюю сетку из 27 конфигураций и 6 156 тестовых оценок мы исследуем аспекты тонкой настройки, промптинга и масштаба, чтобы понять роль объяснений в различных навыках рассуждения. Наши результаты показывают, что наличие объяснений в примерах fewshot не оказывает значительного влияния на производительность модели, когда модель настроена, но положительно влияет на ненастроенную модель. Кроме того, мы наблюдаем небольшое, но устойчивое повышение точности классификации по мере включения объяснений в промптинг и тонкую настройку соответственно. Наконец, мы предлагаем инсайты о том, какие навыки получают наибольшую пользу от включения объяснений в тонкую настройку и промптинг, такие как числовое (+20,4%) и аналогическое (+13,9%) рассуждение, а также о навыках, которые демонстрируют незначительный или отрицательный эффект.
Недостаток данных является ключевой проблемой для разработки высоко многоязычных NLP-систем. Однако для многих недостаточно представленных языков (НПЯ) — языков, для которых исследования в области NLP особенно отстают в удовлетворении потребностей пользователей — возможно аннотировать небольшие объемы данных. Вдохновленные этим, мы предлагаем XTREME-UP — бенчмарк, определяемый: акцентом на сценарий с ограниченными данными, а не на zero-shot; фокусом на пользовательских задачах — задачах, широко используемых носителями языков с большими ресурсами; и вниманием к недостаточно представленным языкам, где этот сценарий с ограниченными данными наиболее реалистичен. XTREME-UP оценивает возможности языковых моделей для 88 недостаточно представленных языков в 9 ключевых пользовательских технологиях, включая ASR, OCR, MT и задачи доступа к информации, которые имеют общую полезность. Мы создаем новые наборы данных для OCR, автодополнения, семантического парсинга и транслитерации, а также дорабатываем существующие наборы данных для других задач. XTREME-UP предоставляет методологию для оценки множества сценариев моделирования, включая текстовые, мультимодальные (визуальные, аудио и текстовые), обучение с настройкой параметров и обучение в контексте. Мы оцениваем широко используемые модели на этом бенчмарке. Мы публикуем весь код и скрипты для обучения и оценки моделей.