Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние исследования сосредоточены на повышении возможностей небольших моделей с использованием обучения через имитацию, опираясь на результаты, генерируемые крупными базовыми моделями (Large Foundation Models, LFMs). На качество этих моделей влияет ряд факторов, включая ограниченные сигналы имитации из поверхностных выходных данных LFMs; небольшой объем однородных обучающих данных; и, что наиболее важно, отсутствие строгой оценки, что приводит к завышению возможностей небольших моделей, поскольку они склонны имитировать стиль, но не процесс рассуждений LFMs. Для решения этих проблем мы разработали Orca (мы работаем с нашей юридической командой, чтобы публично выпустить разницу в весах модели в соответствии с политикой выпуска LLaMA, которая будет опубликована на https://aka.ms/orca-lm), модель с 13 миллиардами параметров, которая учится имитировать процесс рассуждений LFMs. Orca обучается на богатых сигналах от GPT-4, включая трассировки объяснений; пошаговые мыслительные процессы; и другие сложные инструкции, направляемые помощью учителя от ChatGPT. Для поддержки этого прогрессивного обучения мы используем крупномасштабные и разнообразные данные имитации с тщательным выбором и отбором. Orca превосходит традиционные современные модели, настроенные на инструкции, такие как Vicuna-13B, более чем на 100% в сложных тестах на рассуждение без предварительного обучения (zero-shot), таких как Big-Bench Hard (BBH), и на 42% на AGIEval. Более того, Orca достигает паритета с ChatGPT на тесте BBH и демонстрирует конкурентоспособные результаты (разрыв в 4 балла с оптимизированным системным сообщением) в профессиональных и академических экзаменах, таких как SAT, LSAT, GRE и GMAT, как в условиях zero-shot без использования цепочек рассуждений (CoT), так и отставая от GPT-4. Наше исследование показывает, что обучение на основе пошаговых объяснений, будь они созданы людьми или более продвинутыми моделями ИИ, является перспективным направлением для улучшения возможностей и навыков моделей.
Крупные языковые модели обычно обучаются на смеси отфильтрованных веб-данных и тщательно отобранных высококачественных корпусов, таких как диалоги из социальных сетей, книги или технические статьи. Считается, что такой процесс отбора необходим для создания эффективных моделей с широкими способностями к обобщению в условиях нулевого сценария. Однако, по мере рассмотрения более крупных моделей, требующих предварительного обучения на триллионах токенов, остается неясным, насколько масштабируем процесс отбора и не исчерпаем ли мы вскоре уникальные высококачественные данные. Вопреки предыдущим убеждениям, мы показываем, что правильно отфильтрованные и дедуплицированные веб-данные сами по себе могут привести к созданию мощных моделей, даже значительно превосходящих модели, обученные на наборе данных The Pile, которые считаются передовыми. Несмотря на тщательную фильтрацию, высококачественные данные, извлеченные из веба, остаются обильными, и мы смогли получить пять триллионов токенов из CommonCrawl. Мы публично выпускаем выборку из 600 миллиардов токенов из нашего набора данных RefinedWeb, а также языковые модели с 1,3/7,5 миллиардами параметров, обученные на этих данных.
Недавно представленная модель Segment Anything Model (SAM) представляет собой значительный шаг вперед в масштабировании моделей сегментации, обеспечивая мощные возможности zero-shot и гибкость в использовании подсказок. Несмотря на обучение с использованием 1,1 миллиарда масок, качество предсказания масок SAM во многих случаях оказывается недостаточным, особенно при работе с объектами, имеющими сложную структуру. Мы предлагаем HQ-SAM, наделяя SAM способностью точно сегментировать любой объект, сохраняя при этом оригинальную дизайн-концепцию SAM, эффективность и обобщаемость zero-shot. Наш тщательно продуманный подход повторно использует и сохраняет предварительно обученные веса модели SAM, вводя лишь минимальное количество дополнительных параметров и вычислений. Мы разработали обучаемый токен High-Quality Output Token, который внедряется в декодер масок SAM и отвечает за предсказание высококачественной маски. Вместо того чтобы применять его только к признакам декодера масок, мы сначала объединяем их с ранними и финальными признаками ViT для улучшения деталей маски. Для обучения введенных нами обучаемых параметров мы составили набор данных из 44 тысяч детализированных масок из нескольких источников. HQ-SAM обучается только на введенном наборе данных из 44 тысяч масок, что занимает всего 4 часа на 8 GPU. Мы демонстрируем эффективность HQ-SAM на наборе из 9 разнообразных наборов данных для сегментации в различных задачах, где 7 из них оцениваются по протоколу zero-shot переноса. Наш код и модели будут доступны по адресу https://github.com/SysCV/SAM-HQ.
Мы представляем LLM-Blender, фреймворк для ансамблирования, разработанный для достижения стабильно высоких результатов за счет использования разнообразных сильных сторон нескольких открытых больших языковых моделей (LLM). Наш фреймворк состоит из двух модулей: PairRanker и GenFuser, которые решают проблему значительного варьирования оптимальных LLM для разных примеров. PairRanker использует специализированный метод попарного сравнения для выявления тонких различий между кандидатными выходами. Он совместно кодирует входной текст и пару кандидатов, применяя кросс-внимательные кодировщики для определения лучшего из них. Наши результаты показывают, что PairRanker демонстрирует наивысшую корреляцию с ранжированием на основе ChatGPT. Затем GenFuser стремится объединить наиболее высоко оцененные кандидаты, генерируя улучшенный выход, используя их сильные стороны и компенсируя слабости. Для облегчения масштабной оценки мы представляем эталонный набор данных MixInstruct, представляющий собой смесь нескольких наборов данных с инструкциями, включающих эталонные попарные сравнения. Наш LLM-Blender значительно превосходит отдельные LLM и базовые методы по различным метрикам, устанавливая существенный разрыв в производительности.
Крупные языковые модели (LLM) следуют инструкциям, однако поиск оптимальной инструкции для различных ситуаций может быть сложной задачей, особенно для "черных ящиков" LLM, где использование обратного распространения запрещено. Вместо непосредственной оптимизации дискретной инструкции мы оптимизируем низкоразмерный мягкий промт, применяемый к открытой LLM, чтобы сгенерировать инструкцию для "черного ящика" LLM. На каждой итерации предложенного метода, который мы называем InstructZero, мягкий промт преобразуется в инструкцию с помощью открытой LLM, которая затем передается в "черный ящик" LLM для оценки в режиме zero-shot, а результаты отправляются в байесовскую оптимизацию для создания новых мягких промтов, улучшающих производительность в режиме zero-shot. Мы оцениваем InstructZero на различных комбинациях открытых LLM и API, включая Vicuna и ChatGPT. Наши результаты показывают, что InstructZero превосходит современные методы автоматической генерации инструкций в различных задачах. Наш код и данные доступны по адресу https://github.com/Lichang-Chen/InstructZero.
Языковые модели (ЯМ) часто демонстрируют нежелательное поведение при генерации текста, включая создание ложных, токсичных или нерелевантных результатов. Обучение с подкреплением на основе обратной связи от человека (RLHF) — где суждения о предпочтениях человека относительно выходных данных ЯМ преобразуются в обучающий сигнал — недавно показало свою эффективность в решении этих проблем. Однако такая общая обратная связь предоставляет ограниченную информацию для длинных текстовых выводов; она не указывает, какие аспекты выходных данных повлияли на предпочтения пользователя; например, какие части содержат ошибки и какого типа. В данной работе мы используем детализированную обратную связь от человека (например, какое предложение является ложным, какая часть предложения нерелевантна) в качестве явного обучающего сигнала. Мы представляем Fine-Grained RLHF — фреймворк, который позволяет обучать и извлекать знания из функций вознаграждения, детализированных в двух аспектах: (1) плотность, предоставляя вознаграждение после генерации каждого сегмента (например, предложения); и (2) включение множества моделей вознаграждения, связанных с различными типами обратной связи (например, фактическая некорректность, нерелевантность и неполнота информации). Мы проводим эксперименты по детоксификации и ответам на вопросы в длинных текстах, чтобы продемонстрировать, как обучение с такими функциями вознаграждения приводит к улучшению производительности, что подтверждается как автоматической, так и человеческой оценкой. Кроме того, мы показываем, что поведение ЯМ можно настраивать, используя различные комбинации детализированных моделей вознаграждения. Мы публикуем все данные, собранную обратную связь от человека и код на сайте https://FineGrainedRLHF.github.io.
Методы обучения с дифференциальной приватностью (DP), такие как DP-SGD, могут защищать конфиденциальные обучающие данные, гарантируя, что модели машинного обучения не раскроют приватную информацию. Альтернативный подход, который исследуется в данной работе, заключается в использовании конфиденциального набора данных для генерации нового синтетического набора данных, который является дифференциально приватным по отношению к исходным данным. Такой подход имеет несколько преимуществ: синтетические данные могут быть повторно использованы для других задач (включая настройку гиперпараметров), храниться неограниченное время или передаваться третьим сторонам без ущерба для конфиденциальности. Однако получение DP-данных значительно сложнее, чем внедрение DP в процессе обучения. Чтобы сделать это осуществимым для текстовых данных, в последних работах использовались публичные данные, начиная с предварительно обученной генеративной языковой модели и дообучая её на конфиденциальных данных с учетом приватности. Эта модель может использоваться для создания синтетического набора данных с DP. Хотя такая стратегия кажется простой, её реализация оказалась проблематичной. Предыдущие подходы либо демонстрируют значительную потерю производительности, либо, как мы показываем, содержат критические недостатки в дизайне. В данной работе мы демонстрируем, что правильная формулировка задачи обучения вместе с настройкой меньшего числа параметров приводит к отличному качеству синтетических данных с DP. Наш подход конкурентоспособен с прямым DP-обучением классификаторов в терминах производительности на последующих задачах. Мы также показываем, что наши синтетические данные с DP полезны не только для обучения классификаторов, но и для настройки этих же моделей.
Недавно выпущенная модель ChatGPT демонстрирует беспрецедентные возможности в решении задач с нулевым обучением (zero-shot question-answering). В данной работе мы исследуем способность ChatGPT к пониманию диалогов и представляем диалоговую структуру (протокол), которая может быть использована в будущих исследованиях. Вселенная Pokémon служит идеальной площадкой для проверки способностей ChatGPT к рассуждению благодаря её замкнутому миру. После выявления фоновых знаний ChatGPT о вселенной Pokémon мы тестируем его процесс рассуждения при использовании этих концепций в сценариях сражений. Затем мы оцениваем его способность усваивать новые знания и включать их в процесс рассуждения. Наша конечная цель — оценить способность ChatGPT к обобщению, комбинированию признаков, а также к усвоению и рассуждению на основе новых знаний, полученных из обратной связи с человеком. Мы обнаруживаем, что ChatGPT обладает предварительными знаниями о вселенной Pokémon, на основе которых он может в значительной степени рассуждать в сценариях сражений, даже когда вводится новая информация. Модель показывает лучшие результаты при совместной обратной связи и наличии начальной фазы извлечения информации, но также иногда генерирует ложные данные и уязвима для атак со стороны злоумышленников.
Стандартная методология оценки больших языковых моделей (LLM), основанная на статических парах входных и выходных данных, недостаточна для разработки ассистентов: такой подход не учитывает важный интерактивный элемент в их использовании и, следовательно, ограничивает наше понимание возможностей языковых моделей. Мы представляем CheckMate, адаптируемую прототипную платформу для взаимодействия людей с LLM и их оценки. Мы провели исследование с использованием CheckMate, чтобы оценить три языковые модели (InstructGPT, ChatGPT и GPT-4) в роли ассистентов при решении задач на уровне бакалавриата по математике, с участием смешанной группы участников — от студентов до профессоров математики. Мы публикуем полученный набор данных взаимодействий и оценок, MathConverse. Анализируя MathConverse, мы выводим предварительную таксономию человеческого поведения и обнаруживаем, что, несмотря на общую положительную корреляцию, существуют заметные случаи расхождения между корректностью и воспринимаемой полезностью в ответах LLM, среди других выводов. Кроме того, мы выявляем полезные сценарии и существующие проблемы GPT-4 в математических рассуждениях через серию кейсов, предоставленных экспертами-математиками. Мы завершаем практическими рекомендациями для специалистов по машинному обучению и математиков: модели, которые сообщают о неопределенности, хорошо реагируют на исправления пользователей, более интерпретируемы и лаконичны, могут быть лучшими ассистентами; интерактивная оценка — перспективный способ постоянно исследовать возможности этих моделей; людям следует осознавать алгебраическую уязвимость языковых моделей и, исходя из этого, определять, где их следует использовать.
Недавний успех крупных языковых моделей (LLM) знаменует собой впечатляющий шаг на пути к искусственному общему интеллекту. Они продемонстрировали многообещающие перспективы в автоматическом выполнении задач на основе пользовательских инструкций, функционируя как мозгоподобные координаторы. Сопутствующие риски станут очевидными по мере того, как мы будем делегировать всё больше задач машинам для автоматизированного выполнения. Возникает важный вопрос: как сделать так, чтобы машины вели себя ответственно, помогая людям автоматизировать задачи в роли персональных помощников? В данной статье мы подробно исследуем этот вопрос с точки зрения осуществимости, полноты и безопасности. В частности, мы представляем Ответственную Автоматизацию Задач (ResponsibleTA) как фундаментальную структуру, способствующую ответственному взаимодействию между координаторами и исполнителями на основе LLM для автоматизации задач с тремя ключевыми возможностями: 1) прогнозирование осуществимости команд для исполнителей; 2) проверка полноты исполнителей; 3) повышение безопасности (например, защита конфиденциальности пользователей). Мы также предлагаем и сравниваем две парадигмы для реализации первых двух возможностей. Одна из них заключается в использовании общих знаний самих LLM через инженерное проектирование запросов, а другая — в применении специализированных обучаемых моделей. Кроме того, мы вводим механизм локальной памяти для достижения третьей возможности. Мы оцениваем нашу предложенную ResponsibleTA на примере автоматизации задач пользовательского интерфейса и надеемся, что это привлечёт больше внимания к обеспечению ответственности LLM в различных сценариях. Домашняя страница исследовательского проекта доступна по адресу https://task-automation-research.github.io/responsible_task_automation.
Наблюдая тесную взаимосвязь между задачами панорамной, семантической и инстанс-сегментации, мы предлагаем обучить универсальную многозадачную модель сегментации для нескольких наборов данных: DaTaSeg. Мы используем общее представление (предложения масок с предсказаниями классов) для всех задач. Для устранения различий между задачами применяются различные операции объединения и постобработка. Мы также используем слабое обучение, позволяя нашей модели сегментации извлекать пользу из более дешевых аннотаций в виде ограничивающих рамок. Для обмена знаниями между наборами данных мы используем текстовые эмбеддинги из одного семантического пространства в качестве классификаторов и разделяем все параметры сети между наборами данных. Мы обучаем DaTaSeg на наборах данных ADE для семантической сегментации, COCO для панорамной сегментации и Objects365 для детекции. DaTaSeg улучшает производительность на всех наборах данных, особенно на небольших, достигая 54.0 mIoU на ADE для семантической сегментации и 53.5 PQ на COCO для панорамной сегментации. DaTaSeg также позволяет осуществлять слабо контролируемый перенос знаний на задачи панорамной сегментации ADE и инстанс-сегментации Objects365. Эксперименты показывают, что DaTaSeg масштабируется с увеличением числа обучающих наборов данных и позволяет выполнять сегментацию с открытым словарем через прямой перенос. Кроме того, мы аннотировали набор данных Objects365 для инстанс-сегментации, состоящий из 1000 изображений, и планируем выпустить его в качестве публичного бенчмарка.
Применение крупных языковых моделей (LLM) для решения математических задач представляет собой увлекательное направление исследований, учитывая обилие математических задач, сформулированных на естественном языке в различных областях науки и техники. Хотя в ряде предыдущих работ изучалось решение элементарных математических задач с использованием LLM, данное исследование исследует границы применения GPT-4 для решения более сложных и трудных математических задач. Мы оцениваем различные подходы к использованию GPT-4. Некоторые из них адаптированы из существующих работ, а один — \MathChat, новый диалоговый фреймворк для решения задач, предложенный в данной работе. Оценка проводится на сложных задачах из школьных олимпиад из набора данных MATH, что демонстрирует преимущество предложенного диалогового подхода.
Трансформерные языковые модели нашли множество разнообразных применений, требующих обработки последовательностей увеличивающейся длины. В таких задачах причинно-следственное самовнимание (causal self-attention) — единственный компонент, масштабирующийся квадратично относительно длины последовательности — становится ключевой проблемой. Хотя многие работы предлагали схемы для разрежения паттернов внимания и снижения вычислительных затрат на самовнимание, они часто ограничиваются проблемами реализации и в итоге накладывают простую и статичную структуру на матрицу внимания. С другой стороны, реализация более динамичного разреженного внимания часто приводит к значительно более медленному времени выполнения по сравнению с вычислением полного внимания с использованием реализации FlashAttention от Dao et al. (2022). Мы расширяем FlashAttention для поддержки широкого класса паттернов разреженного внимания, которые, в частности, включают отбрасывание ключей/запросов и внимание на основе хэширования. Это приводит к реализациям без увеличения вычислительной сложности и многократному ускорению времени выполнения поверх FlashAttention. Даже при относительно низкой степени разреженности наш метод заметно улучшает производительность FlashAttention с увеличением длины последовательности. Без ухудшения перплексии мы увеличиваем скорость обучения трансформерной языковой модели в 2.0 и 3.3 раза для последовательностей длиной 8k и 16k токенов соответственно.
Мы представляем критический анализ крупных языковых моделей и исследуем перспективы моделей языка, дополненных механизмом извлечения информации. Такие языковые модели являются полупараметрическими, где модели интегрируют параметры модели и знания из внешних источников данных для формирования предсказаний, в отличие от параметрической природы стандартных крупных языковых моделей. Мы приводим предварительные экспериментальные результаты, показывающие, что полупараметрические архитектуры могут быть улучшены за счет использования представлений, анализатора/планировщика запросов и отслеживания происхождения данных, что позволяет создать значительно более мощную систему для ответов на вопросы с точки зрения точности и эффективности, а также, потенциально, для других задач обработки естественного языка.