Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало популярной парадигмой для согласования моделей с человеческими намерениями. Обычно алгоритмы RLHF работают в два этапа: сначала используют человеческие предпочтения для обучения функции вознаграждения, а затем согласовывают модель, оптимизируя полученное вознаграждение с помощью обучения с подкреплением (RL). Эта парадигма предполагает, что человеческие предпочтения распределены в соответствии с вознаграждением, однако последние исследования показывают, что они скорее следуют сожалению относительно оптимальной политики пользователя. Таким образом, обучение функции вознаграждения на основе обратной связи не только основано на ошибочном предположении о человеческих предпочтениях, но и приводит к сложным задачам оптимизации, возникающим из-за градиентов политики или бутстрэппинга на этапе RL. Из-за этих проблем оптимизации современные методы RLHF ограничиваются контекстными бандитскими настройками (например, в крупных языковых моделях) или ограничивают размерность наблюдений (например, в робототехнике, основанной на состояниях). Мы преодолеваем эти ограничения, представляя новое семейство алгоритмов для оптимизации поведения на основе человеческой обратной связи с использованием модели сожаления для описания предпочтений. Используя принцип максимальной энтропии, мы выводим Контрастное обучение на основе предпочтений (CPL) — алгоритм для обучения оптимальных политик из предпочтений без необходимости обучения функции вознаграждения, что позволяет обойтись без RL. CPL полностью внеполитичен, использует только простую контрастную цель и может применяться к произвольным марковским процессам принятия решений (MDP). Это позволяет CPL эффективно масштабироваться на задачи RLHF с высокой размерностью и последовательными решениями, оставаясь при этом проще, чем предыдущие методы.
*Синтез данных* представляет собой перспективный способ обучения небольшой модели с использованием минимального количества размеченных данных. Один из подходов к синтезу данных заключается в использовании богатых знаний крупных языковых моделей для создания псевдо-обучающих примеров для небольших моделей, что позволяет одновременно достичь эффективности как в использовании данных, так и в вычислительных ресурсах. Однако ключевой проблемой при синтезе данных является то, что синтезированный набор данных часто значительно отличается по распределению от распределения данных *реальной задачи*. В связи с этим в данной статье мы предлагаем *Синтез Шаг за Шагом* (**S3**), фреймворк для синтеза данных, который сокращает этот разрыв в распределении путем итеративного исправления ошибок, допущенных небольшой моделью, обученной на синтезированном наборе данных, с использованием небольшого реального валидационного набора данных и крупной языковой модели. Эксперименты на множестве задач обработки естественного языка показывают, что наш подход улучшает производительность небольшой модели, сокращая разрыв между синтезированным набором данных и реальными данными, что приводит к значительному улучшению по сравнению с несколькими базовыми методами: улучшение на 9,48% по сравнению с ZeroGen и на 2,73% по сравнению с GoldGen, а также максимальное улучшение на 15,17% по сравнению с небольшой моделью, обученной на данных, размеченных человеком.
Диффузионные вероятностные модели (DPM) продемонстрировали превосходные результаты в генерации изображений с высокой точностью, однако страдают от неэффективности процесса выборки. В последних работах ускорение процедуры выборки достигается за счет предложения быстрых решателей обыкновенных дифференциальных уравнений (ODE), которые используют специфическую форму ODE, присущую DPM. Однако эти методы сильно зависят от конкретной параметризации во время вывода (например, предсказания шума или данных), что может быть неоптимальным выбором. В данной работе мы предлагаем новую формулировку, направленную на оптимальную параметризацию в процессе выборки, которая минимизирует ошибку дискретизации первого порядка решения ODE. На основе этой формулировки мы представляем DPM-Solver-v3 — новый быстрый решатель ODE для DPM, вводя несколько коэффициентов, эффективно вычисляемых на предварительно обученной модели, которые мы называем эмпирической статистикой модели. Мы также интегрируем многошаговые методы и структуру предиктор-корректор, а также предлагаем несколько техник для улучшения качества выборки при малом количестве вычислений функции (NFE) или больших масштабах регуляризации. Эксперименты показывают, что DPM-Solver-v3 демонстрирует стабильно лучшие или сопоставимые результаты как в безусловной, так и в условной выборке для DPM в пространстве пикселей и латентном пространстве, особенно при 5–10 NFE. Мы достигаем значений FID 12.21 (5 NFE) и 2.51 (10 NFE) на безусловной выборке CIFAR10, а также MSE 0.55 (5 NFE, масштаб регуляризации 7.5) на Stable Diffusion, что обеспечивает ускорение на 15–30% по сравнению с предыдущими методами, не требующими дообучения. Код доступен по адресу https://github.com/thu-ml/DPM-Solver-v3.
Слух, несомненно, является важной способностью искусственного интеллекта (ИИ) в физическом мире, подразумевая восприятие и понимание общей звуковой информации, которая включает как минимум три типа звуков: речь, звуковые события и музыку. В данной работе мы представляем SALMONN — открытую нейронную сеть для обработки речи, звука и музыки, созданную путем интеграции предварительно обученной текстовой крупной языковой модели (LLM) с кодировщиками речи и звука в единую мультимодальную модель. SALMONN позволяет LLM напрямую обрабатывать и понимать общие звуковые входные данные и демонстрирует конкурентоспособные результаты на ряде задач, используемых при обучении, таких как автоматическое распознавание и перевод речи, ответы на вопросы на основе звуковой информации, распознавание эмоций, верификация говорящего, а также создание описаний музыки и звуков. SALMONN также обладает разнообразным набором возникающих способностей, не наблюдавшихся в процессе обучения, включая, но не ограничиваясь, переводом речи на неподготовленные языки, заполнением слотов на основе речи, ответами на вопросы с использованием устных запросов, созданием историй на основе звука и совместным рассуждением на основе речи и звука. Исследуется наличие кросс-модальных возникающих способностей, и предлагается новый подход к активации таких способностей SALMONN с использованием настройки с малым количеством примеров. Насколько нам известно, SALMONN является первой моделью такого типа и может рассматриваться как шаг к созданию ИИ с универсальными слуховыми способностями. Интерактивная демонстрация SALMONN доступна по адресу \url{https://github.com/bytedance/SALMONN}, а код обучения и контрольные точки модели будут опубликованы после принятия работы.
Крупные языковые модели (LLM) демонстрируют впечатляющие эмерджентные способности в обработке естественного языка, но их демократизация затруднена из-за огромных вычислительных требований и закрытого характера. Недавние исследования, направленные на развитие открытых меньших языковых моделей путем дистилляции знаний из чернобоксных LLM, показали многообещающие результаты в способности следовать инструкциям. Однако способность к рассуждению, которую сложнее развить, изучена относительно мало. В данной статье мы предлагаем специализированный подход к обучению для дистилляции этой способности к рассуждению в меньшие языковые модели, чтобы способствовать демократизации исключительной способности к рассуждению. В отличие от простого использования LLM в качестве аннотатора данных, мы раскрываем потенциал LLM как учителя рассуждений, создавая интерактивную многоэтапную парадигму обучения. Эта парадигма позволяет ученику выявлять свои недостатки перед чернобоксным учителем, который затем может предоставить персонализированные обучающие данные. Кроме того, чтобы раскрыть потенциал рассуждений меньшей языковой модели, мы предлагаем обучение через саморефлексию, мотивируя ученика учиться на собственных ошибках. Обучение через саморефлексию и с помощью LLM адаптируется к текущему состоянию обучения ученика благодаря бесшовной интеграции с многоэтапной парадигмой обучения. Комплексные эксперименты и анализ на задачах математического и здравого рассуждения демонстрируют эффективность нашего метода. Код будет доступен по адресу https://github.com/Raibows/Learn-to-Reason.
Крупные языковые модели (LLM) продемонстрировали мощные способности к принятию решений и планированию при решении сложных реальных задач. Автономные агенты на основе LLM могут взаимодействовать с различными инструментами (например, функциональными API) и генерировать планы решений, которые выполняют последовательность вызовов функций API пошагово. Множество возможных вызовов функций API значительно расширяет пространство действий, что усиливает критическую необходимость эффективной навигации в этом пространстве. Однако существующие методы либо сталкиваются с односторонним исследованием в обширных пространствах действий, застревая в локально оптимальном решении, либо страдают от исчерпывающего перебора всех возможных действий, что приводит к неэффективной навигации. Для решения этих проблем мы предлагаем ToolChain*, эффективный алгоритм планирования на основе поиска по дереву для агентов на основе LLM. Он формулирует всё пространство действий в виде дерева решений, где каждый узел представляет возможный вызов функции API, участвующий в плане решения. Внедряя алгоритм поиска A* с проектированием функции затрат, специфичной для задачи, он эффективно отсекает ветви с высокими затратами, которые могут включать ошибочные действия, и находит путь с наименьшими затратами в качестве решения. Многочисленные эксперименты на задачах использования инструментов и логического рассуждения показывают, что ToolChain* эффективно балансирует исследование и использование в обширном пространстве действий. Он превосходит современные базовые методы на задачах планирования и рассуждения в среднем на 3,1% и 3,5% соответственно, при этом требуя в 7,35 и 2,31 раза меньше времени.
Методы, основанные на диффузии, достигли значительных успехов в генерации 2D-медиа. Однако достижение аналогичных результатов в текстурировании сцен на уровне мешей в 3D-пространственных приложениях, таких как XR/VR, остается ограниченным, главным образом из-за сложности 3D-геометрии и необходимости обеспечения иммерсивного рендеринга с произвольных точек обзора. В данной статье мы предлагаем новый фреймворк для текстурирования внутренних сцен, который обеспечивает генерацию текстур на основе текстовых описаний с захватывающими деталями и аутентичной пространственной согласованностью. Ключевая идея заключается в том, чтобы сначала представить стилизованную 360{\deg} панорамную текстуру с центральной точки обзора сцены, а затем распространить её на остальные области с использованием техник восстановления и имитации. Для обеспечения осмысленных и согласованных текстур сценой мы разработали новый подход к генерации панорамных текстур от грубого к детальному с двойным выравниванием текстур, который учитывает как геометрические, так и текстурные характеристики захваченных сцен. Для преодоления сложностей, связанных с загроможденной геометрией в процессе распространения текстур, мы разработали раздельную стратегию, которая выполняет восстановление текстур в доступных областях, а затем обучает неявную сеть имитации для синтеза текстур в скрытых и мелких структурных областях. Многочисленные эксперименты и иммерсивное VR-приложение на реальных внутренних сценах демонстрируют высокое качество сгенерированных текстур и увлекательный опыт использования на VR-гарнитурах. Страница проекта: https://ybbbbt.com/publication/dreamspace
Способность крупных языковых моделей (LLM) к самосовершенствованию, реализуемая через анализ и пересмотр их собственных выходных данных, вызвала значительный интерес в последних исследованиях. Однако было показано, что эта способность отсутствует и трудно поддается обучению для более мелких моделей, что увеличивает разрыв в производительности между передовыми LLM и более экономичными и быстрыми моделями. Чтобы сократить этот разрыв, мы представляем TriPosT — алгоритм обучения, который наделяет более мелкие модели такой способностью к самосовершенствованию, и демонстрируем, что наш подход может улучшить производительность модели LLaMA-7b на задачах по математике и логическому мышлению до 7,13%. В отличие от предыдущих работ, мы достигаем этого, заставляя меньшую модель взаимодействовать с LLM для сбора обратной связи и улучшений на основе её собственных генераций. Затем мы используем этот опыт для обучения малой модели. Наши эксперименты на четырех наборах данных по математике и логическому мышлению показывают, что интерактивный опыт обучения и исправления собственных ошибок имеет решающее значение для улучшения производительности малых моделей.
Крупные языковые модели (LLM) способны выполнять широкий спектр задач, следуя инструкциям на естественном языке, без необходимости специфической дообучки для каждой задачи. К сожалению, производительность LLM сильно зависит от качества этих инструкций, а ручное написание эффективных инструкций для каждой задачи является трудоемким и субъективным процессом. В данной статье мы представляем Auto-Instruct — новый метод автоматического повышения качества инструкций, предоставляемых LLM. Наш метод использует присущую LLM способность к генерации для создания разнообразных кандидатов инструкций для заданной задачи, а затем ранжирует их с помощью модели оценки, обученной на 575 существующих задачах обработки естественного языка (NLP). В экспериментах на 118 задачах из других областей Auto-Instruct превосходит как инструкции, написанные людьми, так и существующие базовые методы генерации инструкций с помощью LLM. Более того, наш метод демонстрирует заметную обобщаемость даже при использовании с другими LLM, которые не были включены в процесс его обучения.
Настройка инструкций для открытых больших языковых моделей (LLM), таких как LLaMA, с использованием прямых выходных данных более мощных моделей, таких как Instruct-GPT и GPT-4, доказала свою эффективность как экономичный способ согласования поведения моделей с человеческими предпочтениями. Однако модель, настроенная на инструкции, видит только один ответ на каждую инструкцию, не имея представления о потенциально лучших ответах. В данной статье мы предлагаем донастройку модели, уже настроенной на инструкции, с использованием наших новых подходов вероятностного ранжирования и контекстного ранжирования, чтобы увеличить вероятность генерации более качественных ответов. Вероятностное ранжирование позволяет модели, настроенной на инструкции, унаследовать относительные ранги высококачественных и низкокачественных ответов от учительской LLM. С другой стороны, обучение с контекстным ранжированием позволяет модели уточнить распределение своих ответов, используя способность более мощных LLM к контекстному пониманию. Кроме того, мы последовательно применяем вероятностное и контекстное ранжирование к модели, настроенной на инструкции. Полученная модель, которую мы называем Tuna, последовательно улучшает производительность на задачах Super Natural Instructions (119 тестовых задач), LMentry (25 тестовых задач), Vicuna QA и даже может превзойти несколько сильных базовых моделей, обученных с подкреплением. Наш код и данные доступны по адресу https://github.com/microsoft/LMOps.
Предварительное обучение на масштабных наборах данных с изображениями и подписями стало стандартным подходом для моделей классификации и поиска с открытым словарём благодаря успеху CLIP и его вариаций. Несколько работ также использовали признаки CLIP для задач плотного предсказания, демонстрируя появление способностей к работе с открытыми множествами. Однако контрастивная функция потерь фокусируется только на согласовании изображений и текста и не стимулирует обучение признаков изображений для задач плотного предсказания. В данной работе мы предлагаем простое добавление обучения локально-глобальным соответствиям через самодистилляцию в качестве дополнительной цели для контрастивного предварительного обучения, предлагая модель SILC. Мы показываем, что дистилляция локальных признаков изображений от модели-учителя с экспоненциальным скользящим средним (EMA) значительно улучшает производительность модели на различных задачах компьютерного зрения, включая классификацию, поиск и особенно сегментацию. Мы также демонстрируем, что SILC масштабируется лучше при одинаковой продолжительности обучения по сравнению с базовыми моделями. Наша модель SILC устанавливает новый эталон для задач классификации с нулевым обучением, классификации с малым количеством примеров, поиска изображений и текста, сегментации с нулевым обучением и сегментации с открытым словарём.
Использование инструментов является признаком развитого интеллекта, что демонстрируется как в поведении животных, так и в возможностях роботов. В данной статье исследуется возможность наделения роботов способностью творчески использовать инструменты при выполнении задач, связанных с неявными физическими ограничениями и долгосрочным планированием. Используя крупные языковые модели (LLM), мы разработали RoboTool — систему, которая принимает инструкции на естественном языке и выдает исполняемый код для управления роботами как в симулированных, так и в реальных условиях. RoboTool включает четыре ключевых компонента: (i) "Анализатор", который интерпретирует естественный язык для выявления ключевых концепций, связанных с задачей, (ii) "Планировщик", который генерирует комплексные стратегии на основе языкового ввода и ключевых концепций, (iii) "Калькулятор", который вычисляет параметры для каждого навыка, и (iv) "Кодер", который преобразует эти планы в исполняемый код на Python. Наши результаты показывают, что RoboTool способен не только понимать явные и неявные физические ограничения и факторы окружающей среды, но и демонстрировать творческое использование инструментов. В отличие от традиционных методов планирования задач и движений (TAMP), которые полагаются на явную оптимизацию, наша система на основе LLM предлагает более гибкое, эффективное и удобное решение для сложных задач робототехники. В ходе обширных экспериментов мы подтвердили, что RoboTool успешно справляется с задачами, которые были бы невыполнимы без творческого использования инструментов, тем самым расширяя возможности роботизированных систем. Демонстрации доступны на странице проекта: https://creative-robotool.github.io/.
Крупные языковые модели (LLMs) представляют собой революцию в области искусственного интеллекта. Однако они также несут в себе множество значительных рисков, таких как наличие предвзятых, конфиденциальных, защищённых авторским правом или вредоносных текстов. По этой причине нам необходимы открытые, прозрачные и безопасные решения. Мы представляем полную экосистему с открытым исходным кодом для разработки и тестирования LLMs. Цель этого проекта — стимулировать развитие открытых альтернатив закрытым подходам. Мы выпускаем h2oGPT — семейство тонко настроенных LLMs с количеством параметров от 7 до 70 миллиардов. Также мы представляем H2O LLM Studio — фреймворк и графический интерфейс без необходимости написания кода, предназначенный для эффективной тонкой настройки, оценки и развёртывания LLMs с использованием самых современных передовых технологий. Наш код и модели распространяются под полностью разрешительной лицензией Apache 2.0. Мы считаем, что языковые модели с открытым исходным кодом способствуют ускорению развития ИИ, делая его более доступным и заслуживающим доверия. Демонстрация доступна по адресу: https://gpt.h2o.ai/
Обучение с подкреплением на основе человеческой обратной связи (RLHF) является популярным методом для обучения высококачественных ИИ-ассистентов. Однако RLHF также может способствовать тому, что модели будут выдавать ответы, соответствующие убеждениям пользователя, вместо правдивых ответов, — поведение, известное как сикофантство. Мы исследуем распространенность сикофантства в моделях, обученных с использованием RLHF, и выясняем, являются ли суждения о человеческих предпочтениях причиной этого. Сначала мы демонстрируем, что пять современных ИИ-ассистентов последовательно проявляют сикофантское поведение в четырех различных задачах генерации свободного текста. Чтобы понять, обусловлено ли это широко наблюдаемое поведение моделей RLHF человеческими предпочтениями, мы анализируем существующие данные о таких предпочтениях. Мы обнаруживаем, что ответ, совпадающий с взглядами пользователя, с большей вероятностью будет предпочтен. Более того, как люди, так и модели предпочтений (PM) в незначительной доле случаев предпочитают убедительно написанные сикофантские ответы правильным. Оптимизация выходных данных моделей с учетом PM также иногда жертвует правдивостью в пользу сикофантства. В целом, наши результаты указывают на то, что сикофантство является общим поведением моделей RLHF, вероятно, частично обусловленным человеческими предпочтениями, которые склоняются к сикофантским ответам.
В диффузионных моделях UNet является наиболее популярной архитектурой сети, поскольку её длинные пропускные соединения (LSCs), связывающие удалённые блоки сети, позволяют агрегировать информацию на больших расстояниях и смягчать проблему исчезающего градиента. К сожалению, UNet часто сталкивается с нестабильностью обучения в диффузионных моделях, что можно частично устранить, уменьшая коэффициенты LSCs. Однако теоретическое понимание причин нестабильности UNet в диффузионных моделях, а также улучшения производительности за счёт масштабирования LSCs до сих пор отсутствует. Чтобы решить эту проблему, мы теоретически показываем, что коэффициенты LSCs в UNet оказывают значительное влияние на стабильность прямого и обратного распространения, а также на устойчивость сети. В частности, скрытые признаки и градиенты UNet на любом слое могут колебаться, причём диапазоны этих колебаний оказываются значительными, что объясняет нестабильность обучения UNet. Более того, UNet также теоретически чувствительна к возмущённым входным данным и предсказывает выход, далёкий от желаемого, что приводит к колебаниям функции потерь и, следовательно, градиентов. Кроме того, мы также наблюдаем теоретические преимущества масштабирования коэффициентов LSCs в UNet для стабильности скрытых признаков, градиентов и устойчивости сети. Вдохновлённые нашей теорией, мы предлагаем эффективную структуру масштабирования коэффициентов ScaleLong, которая масштабирует коэффициенты LSCs в UNet и значительно улучшает стабильность обучения. Экспериментальные результаты на четырёх известных наборах данных показывают, что наш метод превосходит другие подходы в стабилизации обучения и обеспечивает ускорение обучения примерно в 1,5 раза на различных диффузионных моделях с архитектурами UNet или UViT. Код: https://github.com/sail-sg/ScaleLong