Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем метрику Score for Instruction Following (IFS), которая оценивает способность языковых моделей следовать инструкциям. Метрика имеет двойное назначение. Во-первых, IFS может использоваться для различения базовых и инструктивных моделей. Мы проводим сравнительный анализ публично доступных базовых и инструктивных моделей и показываем, что соотношение хорошо отформатированных ответов к частичным и полным предложениям может служить эффективным критерием для различения этих двух классов моделей. Во-вторых, метрика может использоваться как критерий ранней остановки для настройки инструктивных моделей. Мы вычисляем IFS для контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) моделей LLaMA с 7B и 13B параметрами, демонстрируя, что модели учатся следовать инструкциям относительно рано в процессе обучения, а дальнейшая тонкая настройка может привести к изменениям в семантике базовой модели. В качестве примера изменения семантики мы показываем объективность предсказаний модели, определяемую вспомогательной метрикой ObjecQA. Мы демонстрируем, что в данном конкретном случае изменения семантики наиболее выражены, когда IFS начинает выходить на плато. Мы надеемся, что разделение настройки инструктивных моделей на факторы IFS и семантики положит начало новому тренду в более контролируемой настройке инструктивных моделей и откроет возможности для проектирования минималистичных интерфейсов запросов к базовым моделям.
Операции в цепочках поставок традиционно включают в себя множество сложных задач принятия решений. За последние несколько десятилетий цепочки поставок значительно выиграли от достижений в области вычислений, что позволило перейти от ручной обработки к автоматизации и экономически эффективной оптимизации. Тем не менее, бизнес-операторам по-прежнему приходится прилагать значительные усилия для объяснения и интерпретации результатов оптимизации заинтересованным сторонам. Вдохновленные недавними достижениями в области больших языковых моделей (LLM), мы изучаем, как эта революционная технология может помочь сократить разрыв между автоматизацией цепочек поставок и их пониманием и доверием со стороны человека. Мы разрабатываем фреймворк, который принимает на вход запросы в виде обычного текста и выводит информацию о результатах базовой оптимизации. Наш фреймворк не отказывается от современных технологий комбинаторной оптимизации, а использует их для количественного анализа сценариев "что, если" (например, как изменится стоимость, если для заданного спроса использовать поставщика B вместо поставщика A?). Важно отметить, что наш дизайн не требует передачи конфиденциальных данных в LLM, что может вызывать опасения в отношении конфиденциальности в некоторых случаях. Мы демонстрируем эффективность нашего фреймворка на реальном сценарии размещения серверов в облачной цепочке поставок Microsoft. В процессе мы разрабатываем общий эталонный тест, который может быть использован для оценки точности вывода LLM в других сценариях.
Крупные языковые модели, такие как GPT-4, демонстрируют эмерджентные способности в решении задач общего назначения, таких как базовые арифметические операции, при обучении на обширных текстовых данных, даже если эти задачи не явно закодированы в рамках задачи неконтролируемого предсказания следующего токена. В данном исследовании изучается, как небольшие трансформеры, обученные с случайной инициализации, могут эффективно осваивать арифметические операции, такие как сложение, умножение и элементарные функции, например извлечение квадратного корня, используя задачу предсказания следующего токена. Мы сначала показываем, что традиционные обучающие данные не являются наиболее эффективными для изучения арифметики, и простые изменения форматирования могут значительно повысить точность. Это приводит к резким фазовым переходам в зависимости от масштаба обучающих данных, что в некоторых случаях можно объяснить через связи с задачей завершения низкоранговых матриц. Опираясь на предыдущие работы, мы затем обучаем на данных в стиле "цепочки рассуждений", включающих промежуточные результаты шагов. Даже при полном отсутствии предварительного обучения этот подход значительно и одновременно улучшает точность, сложность выборки и скорость сходимости. Мы также изучаем взаимодействие между арифметическими и текстовыми данными в процессе обучения и исследуем влияние немногих примеров (few-shot prompting), предварительного обучения и масштаба модели. Кроме того, мы обсуждаем проблемы обобщения на более длинные последовательности. Наша работа подчеркивает важность высококачественных, обучающих данных, которые учитывают особенности задачи предсказания следующего слова для быстрого развития арифметических способностей.
Инструктивная настройка больших языковых моделей (LLM) на парах изображение-текст достигла беспрецедентных способностей в области мультимодального взаимодействия между зрением и языком. Однако их выравнивание между зрением и языком ограничивается уровнем изображения, а отсутствие выравнивания на уровне регионов ограничивает их прогресс в тонком мультимодальном понимании. В данной статье мы предлагаем инструктивную настройку на основе областей интереса. Ключевая идея заключается в реформулировании ограничивающего прямоугольника в формате пространственной инструкции. Перемежающиеся последовательности визуальных признаков, извлеченных с помощью пространственной инструкции, и языкового представления подаются на вход LLM и обучаются на преобразованных данных регион-текст в формате инструктивной настройки. Наша модель уровня регионов для взаимодействия зрения и языка, названная GPT4RoI, предлагает совершенно новый опыт общения и взаимодействия, выходящий за рамки понимания на уровне изображения. (1) Управляемость: пользователи могут взаимодействовать с нашей моделью как с помощью языковых, так и пространственных инструкций, чтобы гибко регулировать уровень детализации вопроса. (2) Возможности: наша модель поддерживает не только однократные пространственные инструкции, но и многократные. Это открывает дополнительные мультимодальные возможности на уровне регионов, такие как детальное описание регионов и сложное рассуждение о регионах. (3) Композиция: любой готовый детектор объектов может выступать в роли поставщика пространственных инструкций, что позволяет извлекать информативные атрибуты объектов из нашей модели, такие как цвет, форма, материал, действия, отношения с другими объектами и т.д. Код, данные и демонстрация доступны по адресу https://github.com/jshilong/GPT4RoI.
Множество людей вынуждены использовать Интернет на языке, в котором они имеют низкий уровень грамотности, из-за технологических асимметрий. Письменный текст на втором языке (L2) от таких пользователей часто содержит множество ошибок, на которые влияет их родной язык (L1). Мы предлагаем метод для выявления фонемных путаниц (звуков в L2, которые носитель L1 может смешивать) для пар языков L1 и L2. Эти путаницы затем интегрируются в генеративную модель (Bi-Phone) для синтетического создания искаженного текста на L2. С помощью человеческой оценки мы показываем, что Bi-Phone генерирует правдоподобные искажения, которые различаются в зависимости от L1 и также имеют широкое распространение в Интернете. Мы также искажаем популярный бенчмарк для понимания языка SuperGLUE с помощью нашей техники (FunGLUE для фонетически зашумленного GLUE) и показываем, что современные модели понимания языка демонстрируют низкую производительность. Мы также вводим новую задачу предварительного обучения на предсказание фонем, которая помогает байтовым моделям восстановить производительность, близкую к SuperGLUE. Наконец, мы выпускаем бенчмарк FunGLUE для продвижения дальнейших исследований в области фонетически устойчивых языковых моделей. Насколько нам известно, FunGLUE является первым бенчмарком, который вводит взаимодействия L1-L2 в тексте.
Благодаря появлению фундаментальных моделей, крупные языковые и визуальные модели интегрируются для приобретения мультимодальных способностей, таких как создание визуальных описаний, ведение диалогов, ответы на вопросы и т.д. Хотя существующие мультимодальные модели демонстрируют впечатляющие результаты в области визуального понимания и рассуждений, их ограничения остаются в значительной степени неисследованными из-за недостатка высококачественных данных для настройки инструкций. Чтобы расширить границы мультимодальных возможностей, мы разработали масштабируемую настройку визуальных инструкций (SVIT), создав набор данных из 3,2 миллиона примеров для настройки визуальных инструкций, включая 1,6 миллиона пар вопросов и ответов (QA) для диалогов, 1,6 миллиона пар QA для сложных рассуждений и 106 тысяч детальных описаний изображений. Помимо объема, предложенный набор данных также отличается высоким качеством и богатым разнообразием, так как он был сгенерирован с использованием GPT-4 на основе обильных ручных аннотаций изображений. Мы эмпирически подтверждаем, что обучение мультимодальных моделей на SVIT значительно улучшает их производительность в таких аспектах, как визуальное восприятие, рассуждение и планирование.
В последних работах эмпирически анализировалось обучение в контексте, и было показано, что трансформеры, обученные на синтетических задачах линейной регрессии, могут научиться реализовывать ридж-регрессию, которая является байесово-оптимальным предсказателем, при наличии достаточной емкости [Akyürek et al., 2023], в то время как однослойные трансформеры с линейным self-attention и без слоя MLP будут обучаться реализации одного шага градиентного спуска (GD) для задачи наименьших квадратов линейной регрессии [von Oswald et al., 2022]. Однако теория, лежащая в основе этих наблюдений, остается слабо изученной. Мы теоретически исследуем трансформеры с одним слоем линейного self-attention, обученные на синтетических данных зашумленной линейной регрессии. Во-первых, мы математически показываем, что когда ковариаты извлекаются из стандартного гауссовского распределения, однослойный трансформер, минимизирующий потери предобучения, будет реализовывать один шаг GD для задачи наименьших квадратов линейной регрессии. Затем мы обнаруживаем, что изменение распределения ковариат и вектора весов на не изотропное гауссовское распределение оказывает сильное влияние на изучаемый алгоритм: глобальный минимизатор потерь предобучения теперь реализует один шаг предобусловленного GD. Однако если изменяется только распределение откликов, это не оказывает значительного влияния на изучаемый алгоритм: даже когда отклик происходит из более общего семейства нелинейных функций, глобальный минимизатор потерь предобучения по-прежнему реализует один шаг GD для задачи наименьших квадратов линейной регрессии.
Что делает обобщение сложным для имитационного обучения в визуальной роботизированной манипуляции? Этот вопрос трудно рассмотреть на первый взгляд, но окружение с точки зрения робота часто можно разложить на перечислимые факторы изменчивости, такие как условия освещения или расположение камеры. Эмпирически обобщение на некоторые из этих факторов представляло большую сложность, чем на другие, но существующие работы мало проливают свет на то, насколько каждый фактор вносит вклад в разрыв обобщения. В поисках ответа на этот вопрос мы изучаем политики имитационного обучения в симуляции и на реальной роботизированной задаче манипуляции с языковым условием, чтобы количественно оценить сложность обобщения на различные (наборы) факторов. Мы также разрабатываем новый симулированный бенчмарк из 19 задач с 11 факторами изменчивости, чтобы облегчить более контролируемую оценку обобщения. В результате нашего исследования мы определяем порядок факторов на основе сложности обобщения, который согласуется как в симуляции, так и в нашей реальной роботизированной установке.
Передовые модели ИИ обещают огромные выгоды для человечества, но обществу необходимо активно управлять сопутствующими рисками. В данной статье мы сосредотачиваемся на том, что называем "фронтирными моделями ИИ": высокопроизводительными базовыми моделями, которые могут обладать опасными возможностями, способными представлять серьезные угрозы для общественной безопасности. Фронтирные модели ИИ представляют собой особую регуляторную проблему: опасные возможности могут возникать неожиданно; сложно надежно предотвратить неправомерное использование развернутой модели; и трудно остановить широкое распространение возможностей модели. Для решения этих проблем необходимы как минимум три ключевых элемента регулирования фронтирных моделей: (1) процессы установления стандартов для определения соответствующих требований к разработчикам фронтирных моделей ИИ, (2) требования к регистрации и отчетности, чтобы предоставить регуляторам прозрачность в процессах разработки фронтирных моделей ИИ, и (3) механизмы обеспечения соблюдения стандартов безопасности при разработке и развертывании фронтирных моделей ИИ. Саморегулирование отрасли является важным первым шагом. Однако для создания стандартов и обеспечения их соблюдения потребуются более широкие общественные обсуждения и вмешательство государства. Мы рассматриваем несколько вариантов для достижения этой цели, включая предоставление надзорным органам полномочий по обеспечению соблюдения и введение лицензионных режимов для фронтирных моделей ИИ. Наконец, мы предлагаем начальный набор стандартов безопасности. Они включают проведение оценки рисков перед развертыванием; внешнюю проверку поведения модели; использование оценки рисков для принятия решений о развертывании; а также мониторинг и реагирование на новую информацию о возможностях и использовании модели после развертывания. Мы надеемся, что это обсуждение внесет вклад в более широкую дискуссию о том, как сбалансировать риски для общественной безопасности и преимущества инноваций, связанные с достижениями на переднем крае разработки ИИ.