Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем PaLM 2 — новую языковую модель, которая превосходит своего предшественника PaLM по многоязычным и логическим возможностям, а также по вычислительной эффективности. PaLM 2 основана на архитектуре Transformer и обучена с использованием смеси целевых функций. Благодаря обширным оценкам на английском и многоязычных языковых задачах, а также задачах на логическое мышление, мы демонстрируем, что PaLM 2 значительно улучшает качество выполнения задач на различных размерах модели, одновременно обеспечивая более быстрый и эффективный вывод по сравнению с PaLM. Эта повышенная эффективность позволяет расширить область применения модели, а также ускоряет её ответы, делая взаимодействие более естественным. PaLM 2 демонстрирует устойчивые способности к логическому мышлению, что подтверждается значительным улучшением результатов на тестах BIG-Bench и других задачах на рассуждение. Модель показывает стабильную производительность в рамках набора оценок ответственного ИИ и позволяет контролировать токсичность на этапе вывода без дополнительных затрат или ущерба для других возможностей. В целом, PaLM 2 достигает передовых результатов в широком спектре задач и возможностей. При обсуждении семейства PaLM 2 важно различать предварительно обученные модели (различных размеров), их доработанные версии и пользовательские продукты, использующие эти модели. В частности, пользовательские продукты обычно включают дополнительные этапы пред- и постобработки. Кроме того, базовые модели могут развиваться со временем. Поэтому не следует ожидать, что производительность пользовательских продуктов будет точно соответствовать результатам, представленным в этом отчете.
Редактирование или пересмотр текста является важной функцией в процессе человеческого письма. Понимание возможностей языковых моделей (LLM) для выполнения качественных правок и сотрудничества с авторами — это ключевой шаг на пути к созданию эффективных помощников для письма. Учитывая предыдущие успехи LLM и настройки на инструкции, мы используем LLM, настроенные на инструкции, для редактирования текста с целью повышения качества пользовательского текста и улучшения эффективности процесса. Мы представляем CoEdIT — современную модель редактирования текста для помощи в написании. CoEdIT принимает инструкции от пользователя, определяющие атрибуты желаемого текста, такие как «Сделать предложение проще» или «Написать в более нейтральном стиле», и выдает отредактированный текст. Мы представляем крупную языковую модель, дообученную на разнообразной коллекции задач, специфичных для редактирования текста (всего 82 тыс. инструкций). Наша модель (1) демонстрирует наилучшие результаты на различных тестах по редактированию текста, (2) конкурирует с общедоступными крупнейшими LLM, обученными на инструкциях, при этом будучи в 60 раз меньше, (3) способна обобщать на неизвестные инструкции по редактированию и (4) проявляет способность к композиционному пониманию, обобщая инструкции, содержащие различные комбинации действий по редактированию. Благодаря обширному качественному и количественному анализу мы показываем, что авторы предпочитают правки, предложенные CoEdIT, по сравнению с другими современными моделями редактирования текста. Наш код и набор данных доступны публично.
Обучение на основе обратной связи от человека доказало свою эффективность в согласовании языковых моделей с человеческими предпочтениями. В предыдущих работах часто использовалось обучение с подкреплением на основе человеческой обратной связи (RLHF), которое оптимизирует языковую модель с использованием оценок вознаграждения, присвоенных моделью вознаграждения, обученной на данных о человеческих предпочтениях. В данной работе мы показываем, как недавно предложенный метод калибровки правдоподобия последовательностей (SLiC) также может быть эффективно использован для обучения на основе человеческих предпочтений (SLiC-HF). Более того, мы демонстрируем, что это можно сделать с использованием данных обратной связи, собранных для другой модели, аналогично данным обучения с подкреплением вне политики (off-policy) и оффлайн (offline). Эксперименты с автоматической и человеческой оценкой на задаче суммаризации TL;DR показывают, что SLiC-HF значительно улучшает базовые методы тонкой настройки с учителем. Кроме того, SLiC-HF представляет собой конкурентоспособную альтернативу реализации RLHF на основе алгоритма PPO, использованной в предыдущих работах, при этом будучи гораздо проще в реализации, легче в настройке и более вычислительно эффективной на практике.
Пропорции смешения доменов данных предварительного обучения (например, Википедия, книги, веб-тексты) существенно влияют на производительность языковой модели (LM). В данной статье мы предлагаем метод Domain Reweighting with Minimax Optimization (DoReMi), который сначала обучает небольшую прокси-модель с использованием групповой оптимизации, устойчивой к распределению (Group DRO), по доменам для получения весов доменов (пропорций смешения) без знания о целевых задачах. Затем мы повторно выбираем набор данных с этими весами доменов и обучаем более крупную, полноразмерную модель. В наших экспериментах мы применяем DoReMi к прокси-модели с 280 миллионами параметров для определения весов доменов, чтобы более эффективно обучить модель с 8 миллиардами параметров (в 30 раз больше). На наборе данных The Pile DoReMi улучшает перплексию во всех доменах, даже когда он снижает вес какого-либо домена. DoReMi повышает среднюю точность на нескольких целевых задачах на 6,5% по сравнению с базовой моделью, обученной с использованием стандартных весов доменов The Pile, и достигает точности базовой модели за в 2,6 раза меньше шагов обучения. На наборе данных GLaM DoReMi, который не имеет информации о целевых задачах, даже соответствует производительности использования весов доменов, настроенных на целевых задачах.
В данной статье мы представляем метод самообучения и онлайн-кластеризации для самообучения речевых представлений (DinoSR), который объединяет маскированное языковое моделирование, самообучение и онлайн-кластеризацию. Мы показываем, что эти концепции дополняют друг друга и приводят к созданию мощной модели обучения представлений для речи. DinoSR сначала извлекает контекстуализированные эмбеддинги из входного аудио с помощью учительской сети, затем применяет систему онлайн-кластеризации к этим эмбеддингам для получения машинно-обнаруженного инвентаря фонем и, наконец, использует дискретизированные токены для обучения ученической сети. Мы демонстрируем, что DinoSR превосходит предыдущие достижения в нескольких последующих задачах, а также предоставляем детальный анализ модели и изученных дискретных единиц. Исходный код будет опубликован после завершения периода анонимности.
Улучшение использования слов является желательной функцией для систем помощи в написании текстов. Для дальнейшего продвижения исследований в этой области данная статья представляет задачу и эталонный тест "Умные предложения слов" (Smart Word Suggestions, SWS). В отличие от других работ, SWS делает акцент на сквозной оценке и представляет более реалистичный сценарий помощи в написании. Эта задача включает в себя выявление слов или фраз, требующих улучшения, и предоставление вариантов замены. Эталонный тест включает данные, размеченные людьми для тестирования, большой набор данных с дистанционным контролем для обучения и структуру для оценки. Тестовые данные содержат 1000 предложений, написанных изучающими английский язык, с более чем 16 000 предложений замен, аннотированных 10 носителями языка. Обучающий набор данных включает более 3,7 миллионов предложений и 12,7 миллионов предложений, сгенерированных с помощью правил. Наши эксперименты с семью базовыми моделями показывают, что SWS является сложной задачей. На основе анализа экспериментов мы предлагаем возможные направления для будущих исследований SWS. Набор данных и связанные коды доступны по адресу https://github.com/microsoft/SmartWordSuggestions.
Крупные языковые модели (LLM) продемонстрировали впечатляющую производительность в прогнозировании для всё большего числа задач. Однако их быстрое распространение и растущая непрозрачность создают всё большую потребность в интерпретируемости. В данной работе мы задаёмся вопросом, можно ли автоматически получать объяснения на естественном языке для "чёрных ящиков" текстовых модулей. Под "текстовым модулем" понимается любая функция, которая преобразует текст в скалярное непрерывное значение, например, подмодуль внутри LLM или обученная модель области мозга. "Чёрный ящик" означает, что у нас есть доступ только к входам и выходам модуля. Мы представляем метод Summarize and Score (SASC), который принимает текстовый модуль и возвращает объяснение на естественном языке, описывающее избирательность модуля, а также оценку надёжности этого объяснения. Мы исследуем SASC в трёх контекстах. Во-первых, мы оцениваем SASC на синтетических модулях и обнаруживаем, что он часто восстанавливает истинные объяснения. Во-вторых, мы используем SASC для объяснения модулей, найденных в предобученной модели BERT, что позволяет исследовать внутреннюю структуру модели. Наконец, мы показываем, что SASC может генерировать объяснения для реакции отдельных вокселей фМРТ на языковые стимулы, что открывает возможности для детального картирования мозга. Весь код для использования SASC и воспроизведения результатов доступен на Github.
Системы автоматического распознавания речи на устройствах сталкиваются с рядом проблем по сравнению с серверными системами. Они должны соответствовать более строгим ограничениям в отношении скорости, объема дискового пространства и памяти, сохраняя при этом ту же точность. Зачастую им приходится одновременно обслуживать несколько приложений с разными распределениями данных, таких как взаимодействие с виртуальным помощником и преобразование речи в текст. Наиболее простое решение для обслуживания нескольких приложений — создание специализированных (языковых) моделей для каждого приложения, однако это приводит к увеличению объема используемой памяти. Поэтому мы исследуем различные подходы к языковому моделированию, основанные на данных и архитектуре, чтобы создать единую универсальную модель. Мы предлагаем две новые архитектуры с прямой связью, которые находят оптимальный баланс между различными ограничениями на устройствах. По сравнению с решением, использующим специализированные модели, один из наших новых подходов сокращает объем дискового пространства вдвое, сохраняя при этом скорость и точность исходной модели.
Основой метода Multi-view Stereo (MVS) является процесс сопоставления пикселей между опорным и исходным изображениями. Агрегация затрат играет ключевую роль в этом процессе, однако предыдущие методы сосредоточены на её реализации с использованием сверточных нейронных сетей (CNNs). Это может наследовать естественное ограничение CNNs, заключающееся в неспособности различать повторяющиеся или ошибочные совпадения из-за ограниченных локальных рецептивных полей. Для решения этой проблемы мы предлагаем интегрировать Transformer в процесс агрегации затрат. Однако возникает другая проблема, связанная с квадратичным ростом вычислительной сложности Transformer, что приводит к переполнению памяти и задержкам при выводе. В данной статье мы преодолеваем эти ограничения с помощью эффективной сети агрегации затрат на основе Transformer, названной CostFormer. Предлагается Residual Depth-Aware Cost Transformer (RDACT) для агрегации долгосрочных признаков на объеме затрат с использованием механизмов самовнимания по глубине и пространственным измерениям. Кроме того, предлагается Residual Regression Transformer (RRT) для усиления пространственного внимания. Предложенный метод является универсальным плагином для улучшения методов MVS, основанных на обучении.
Крупные многоязычные языковые модели демонстрируют удивительно хорошие способности к машинному переводу в условиях нулевого или малого числа примеров, несмотря на то, что они никогда не видели специально включенных примеров перевода, предоставляемых типичным нейронным системам перевода. Мы исследуем роль случайного билингвизма — непреднамеренного потребления двуязычных сигналов, включая примеры перевода — в объяснении переводческих способностей крупных языковых моделей, используя Pathways Language Model (PaLM) в качестве примера. Мы предлагаем смешанный метод для измерения и понимания случайного билингвизма в масштабе. Мы показываем, что PaLM подвергается воздействию более 30 миллионов пар перевода как минимум на 44 языках. Более того, объем случайного двуязычного контента сильно коррелирует с объемом одноязычного контента на неанглийских языках. Мы связываем случайный двуязычный контент с запросами для нулевого перевода и показываем, что его можно использовать для поиска новых запросов, чтобы улучшить качество нулевого перевода PaLM с английского на другие языки. Наконец, в серии небольших экспериментов мы демонстрируем, что его присутствие оказывает существенное влияние на способности к переводу, хотя это влияние уменьшается с увеличением масштаба модели.
Мы исследуем, могут ли несколько крупных языковых моделей (LLM) автономно улучшать друг друга в игре-переговорах, играя, анализируя и критикуя. Этот вопрос важен, поскольку если LLM смогут улучшать друг друга, это открывает возможность создания мощных ИИ-агентов с минимальным вмешательством человека. Мы предлагаем двум LLM вести переговоры друг с другом, играя роли покупателя и продавца соответственно. Их цель — достичь соглашения, при этом покупатель стремится к более низкой цене, а продавец — к более высокой. Третья языковая модель, выступающая в роли критика, предоставляет обратную связь игроку для улучшения его стратегий переговоров. Мы позволяем двум агентам играть несколько раундов, используя историю предыдущих переговоров и обратную связь от ИИ в качестве контекстных демонстраций для итеративного улучшения стратегии переговоров. Мы используем разные LLM (GPT и Claude) для разных ролей и оцениваем результаты по цене сделки. Наши эксперименты выявили несколько интересных результатов: (1) Только часть рассмотренных языковых моделей способна к самообучению и улучшению цены сделки на основе обратной связи от ИИ; более слабые модели либо не понимают правила игры, либо не могут использовать обратную связь для дальнейшего улучшения. (2) Способности моделей учиться на обратной связи различаются в зависимости от роли. Например, Claude-instant сложнее улучшать свои результаты в роли покупателя, чем в роли продавца. (3) При проведении нескольких раундов более сильные агенты могут последовательно улучшать свои результаты, осмысленно используя предыдущий опыт и итеративную обратную связь от ИИ, но при этом выше риск срыва сделки. Мы надеемся, что наша работа станет полезным начальным исследованием в области автономного улучшения моделей друг другом через игровые взаимодействия и обратную связь от ИИ.
Точная классификация (fine-grained classification) представляет собой сложную задачу, связанную с распознаванием тонких различий между объектами внутри одной категории. Эта задача особенно трудна в условиях ограниченного объема данных. Визуальные трансформеры (ViT) недавно зарекомендовали себя как мощный инструмент для классификации изображений благодаря их способности обучать высоко выразительные представления визуальных данных с использованием механизмов самовнимания (self-attention). В данной работе мы исследуем Semi-ViT — модель ViT, дообученную с использованием методов полуконтролируемого обучения, что подходит для ситуаций, когда аннотированных данных недостаточно. Это особенно актуально в сфере электронной коммерции, где изображения доступны в большом количестве, но метки либо зашумлены, либо отсутствуют, либо их получение связано с высокими затратами. Наши результаты показывают, что Semi-ViT превосходит традиционные сверточные нейронные сети (CNN) и стандартные ViT, даже при дообучении на ограниченных аннотированных данных. Эти результаты свидетельствуют о значительном потенциале Semi-ViT для приложений, требующих точной и детализированной классификации визуальных данных.
Данная работа была представлена на семинаре по нетрадиционным пространственным представлениям в рамках Международной конференции IEEE по робототехнике и автоматизации 2023 года. Нейронные поля излучения (NeRF) представляют собой класс неявных моделей сцен, которые воссоздают трёхмерные среды на основе цветных изображений. NeRF обладают высокой выразительностью и способны моделировать сложную и многоуровневую геометрию реальных сред, что делает их потенциально мощным инструментом для применения в робототехнике. Современные библиотеки для обучения NeRF могут создавать фотореалистичные модели NeRF из статичного набора данных всего за несколько секунд, однако они предназначены для оффлайн-использования и требуют предварительного медленного этапа оптимизации поз. В данной работе мы представляем NerfBridge — открытый мост между операционной системой для роботов (ROS) и популярной библиотекой Nerfstudio для обучения NeRF в реальном времени на потоке изображений. NerfBridge ускоряет разработку исследований по применению NeRF в робототехнике, предоставляя расширяемый интерфейс к эффективным конвейерам обучения и библиотекам моделей, доступным в Nerfstudio. В качестве примера использования мы описываем аппаратную установку, которая может быть использована с NerfBridge для обучения NeRF на изображениях, захваченных камерой, установленной на квадрокоптере, как в помещении, так и на открытом воздухе. Сопроводительное видео: https://youtu.be/EH0SLn-RcDg и код: https://github.com/javieryu/nerf_bridge.
Мультимедийный контент, такой как рекламные ролики и сюжетные видео, демонстрирует богатое сочетание креативности и множества модальностей. Он включает элементы, такие как текст, визуальные образы, аудио и техники повествования, используя приемы, такие как эмоции, символизм и слоганы, для передачи смысла. Хотя предыдущие исследования в области понимания мультимедиа в основном сосредотачивались на видео с конкретными действиями, такими как приготовление пищи, существует недостаток крупных аннотированных обучающих наборов данных, что затрудняет разработку моделей обучения с учителем с удовлетворительной производительностью для реальных приложений. Однако появление больших языковых моделей (LLM) продемонстрировало впечатляющую производительность в задачах обработки естественного языка (NLP), таких как классификация эмоций, ответы на вопросы и классификация тем. Чтобы преодолеть этот разрыв в производительности в понимании мультимедиа, мы предлагаем вербализовать сюжетные видео для генерации их описаний на естественном языке, а затем выполнять задачи понимания видео на основе сгенерированного сюжета, а не исходного видео. В ходе обширных экспериментов на пяти задачах понимания видео мы демонстрируем, что наш метод, несмотря на отсутствие обучения, достигает значительно лучших результатов, чем контролируемые базовые модели для понимания видео. Кроме того, чтобы устранить недостаток эталонных данных для понимания сюжетов, мы публикуем первый набор данных для важной задачи в вычислительной социальной науке — идентификации стратегий убеждения.