Ежедневно отобранные исследовательские статьи по ИИ с переводами
В стремлении к эффективному автоматизированному созданию контента процедурная генерация, использующая изменяемые параметры и системы на основе правил, представляется многообещающим подходом. Однако это может быть сложной задачей, учитывая её сложную природу, требующую глубокого понимания правил, алгоритмов и параметров. Для снижения нагрузки мы представляем 3D-GPT — фреймворк, использующий большие языковые модели (LLM) для создания 3D-моделей на основе инструкций. 3D-GPT позиционирует LLM как эффективных решателей задач, разбивая процедурные задачи 3D-моделирования на доступные этапы и назначая подходящего агента для каждой задачи. 3D-GPT объединяет три ключевых агента: агент распределения задач, агент концептуализации и агент моделирования. Они совместно достигают двух целей. Во-первых, улучшают краткие начальные описания сцен, развивая их в детализированные формы, динамически адаптируя текст на основе последующих инструкций. Во-вторых, интегрируют процедурную генерацию, извлекая значения параметров из обогащённого текста для беспрепятственного взаимодействия с 3D-программами для создания ассетов. Наши эмпирические исследования подтверждают, что 3D-GPT не только интерпретирует и выполняет инструкции, предоставляя надёжные результаты, но и эффективно сотрудничает с человеческими дизайнерами. Кроме того, он легко интегрируется с Blender, открывая расширенные возможности манипуляции. Наша работа подчеркивает потенциал LLM в 3D-моделировании, предлагая базовый фреймворк для будущих достижений в генерации сцен и анимации.
Открытые большие языковые модели (LLMs), демонстрирующие высокую производительность в различных задачах, значительно продвинули развитие LLMs. Однако они существенно уступают коммерческим моделям, таким как ChatGPT и GPT-4, при использовании в качестве агентов для решения сложных задач в реальном мире. Эти задачи агентов используют LLMs в качестве центрального контроллера, отвечающего за планирование, запоминание и использование инструментов, что требует как тонких методов промптинга, так и мощных LLMs для достижения удовлетворительной производительности. Хотя было предложено множество методов промптинга для выполнения конкретных задач агентов, недостаточно исследований, направленных на улучшение агентских способностей самих LLMs без ущерба для их общих возможностей. В данной работе мы представляем AgentTuning — простой и универсальный метод для улучшения агентских способностей LLMs с сохранением их общих возможностей. Мы создаем AgentInstruct, легковесный набор данных для тонкой настройки инструкций, содержащий высококачественные траектории взаимодействий. Мы используем гибридную стратегию тонкой настройки инструкций, комбинируя AgentInstruct с открытыми инструкциями из общих областей. AgentTuning применяется для тонкой настройки инструкций серии Llama 2, в результате чего получается AgentLM. Наши оценки показывают, что AgentTuning позволяет улучшить агентские способности LLMs без ущерба для их общих возможностей. Модель AgentLM-70B сопоставима с GPT-3.5-turbo на незнакомых задачах агентов, демонстрируя обобщенные агентские способности. Мы открываем исходный код для AgentInstruct и моделей AgentLM-7B, 13B и 70B на https://github.com/THUDM/AgentTuning, предоставляя открытые и мощные альтернативы коммерческим LLMs для задач агентов.
С развитием крупных языковых моделей (LLM) достижение баланса между производительностью и безопасностью ИИ-систем стало как никогда важным. Однако присущее противоречие между целями полезности и безвредности представляет собой значительную проблему в процессе обучения LLM. Для решения этой проблемы мы предлагаем Safe Reinforcement Learning from Human Feedback (Safe RLHF) — новый алгоритм для согласования с человеческими ценностями. Safe RLHF явно разделяет человеческие предпочтения относительно полезности и безвредности, эффективно устраняя путаницу среди краудворкеров, связанную с этим противоречием, и позволяя обучать отдельные модели вознаграждения и затрат. Мы формализуем проблему безопасности LLM как задачу оптимизации, направленную на максимизацию функции вознаграждения при соблюдении заданных ограничений по затратам. Используя метод Лагранжа для решения этой ограниченной задачи, Safe RLHF динамически регулирует баланс между двумя целями в процессе тонкой настройки. В ходе трехэтапной тонкой настройки с использованием Safe RLHF мы демонстрируем превосходную способность снижать вредоносные ответы, одновременно улучшая производительность модели по сравнению с существующими алгоритмами, согласованными с ценностями. Экспериментально мы настроили модель Alpaca-7B с помощью Safe RLHF, согласовав её с собранными человеческими предпочтениями, что значительно улучшило её полезность и безвредность согласно оценкам людей.
Крупные языковые модели (LLMs) преуспели в роли высокоуровневых семантических планировщиков для задач последовательного принятия решений. Однако их использование для обучения сложным низкоуровневым манипуляционным задачам, таким как ловкое вращение ручки, остается открытой проблемой. Мы устраняем этот фундаментальный разрыв и представляем Eureka — алгоритм проектирования вознаграждений уровня человека, основанный на LLMs. Eureka использует впечатляющие возможности современных LLMs, таких как GPT-4, в области генерации с нулевым обучением, написания кода и улучшения в контексте для выполнения эволюционной оптимизации кода вознаграждений. Полученные вознаграждения затем могут быть использованы для освоения сложных навыков с помощью обучения с подкреплением. Без каких-либо специфичных для задачи подсказок или предопределенных шаблонов вознаграждений, Eureka генерирует функции вознаграждения, которые превосходят вознаграждения, разработанные экспертами-людьми. В наборе из 29 открытых сред для обучения с подкреплением, включающих 10 различных морфологий роботов, Eureka превосходит экспертов-людей в 83% задач, что приводит к среднему нормализованному улучшению на 52%. Универсальность Eureka также позволяет реализовать новый градиентный подход к обучению с подкреплением на основе человеческой обратной связи (RLHF), легко интегрируя человеческие данные для повышения качества и безопасности генерируемых вознаграждений без обновления модели. Наконец, используя вознаграждения Eureka в рамках обучения по учебному плану, мы впервые демонстрируем, как смоделированная рука Shadow Hand способна выполнять трюки с вращением ручки, ловко манипулируя ею по кругу на высокой скорости.
Обучение с подкреплением (RL) требует либо ручного задания функции вознаграждения, что часто неосуществимо, либо обучения модели вознаграждения на основе большого объема человеческой обратной связи, что обычно очень затратно. Мы исследуем более эффективный с точки зрения использования данных подход: использование предобученных моделей, работающих с визуальными и текстовыми данными (VLMs), в качестве моделей вознаграждения (RMs) с нулевым обучением для задания задач через естественный язык. Мы предлагаем естественный и универсальный подход к использованию VLMs в качестве моделей вознаграждения, который мы называем VLM-RMs. Мы применяем VLM-RMs на основе CLIP для обучения человекообразного агента в среде MuJoCo выполнению сложных задач без ручного задания функции вознаграждения, таких как стояние на коленях, шпагат и поза лотоса. Для каждой из этих задач мы предоставляем только одно текстовое описание желаемой задачи с минимальной инженерией подсказок. Видео обученных агентов доступны по ссылке: https://sites.google.com/view/vlm-rm. Мы можем улучшить производительность, предоставив вторую «базовую» подсказку и исключив части пространства эмбеддингов CLIP, нерелевантные для различения цели и базового состояния. Кроме того, мы обнаруживаем сильный эффект масштабирования для VLM-RMs: более крупные VLMs, обученные с большими вычислительными ресурсами и данными, становятся лучшими моделями вознаграждения. Проблемы, с которыми мы столкнулись при использовании VLM-RMs, связаны с известными ограничениями текущих VLMs, такими как ограниченная способность к пространственному рассуждению или визуально нереалистичные среды, которые сильно отклоняются от распределения данных, на которых обучалась VLM. Мы обнаруживаем, что VLM-RMs демонстрируют замечательную устойчивость, если VLM достаточно велика. Это позволяет предположить, что будущие VLMs станут все более полезными моделями вознаграждения для широкого спектра приложений RL.
Создание музыки — это итеративный процесс, требующий различных методов на каждом этапе. Однако существующие системы ИИ для создания музыки не справляются с координацией нескольких подсистем для удовлетворения разнообразных потребностей. Чтобы устранить этот пробел, мы представляем Loop Copilot — новую систему, которая позволяет пользователям генерировать и итеративно улучшать музыку через интерактивный интерфейс многораундового диалога. Система использует большую языковую модель для интерпретации намерений пользователя и выбора подходящих моделей ИИ для выполнения задач. Каждая из моделей бэкенда специализируется на конкретной задаче, а их результаты объединяются для удовлетворения требований пользователя. Для обеспечения музыкальной согласованности ключевые атрибуты сохраняются в централизованной таблице. Мы оцениваем эффективность предложенной системы с помощью полуструктурированных интервью и анкет, подчеркивая её полезность не только в облегчении создания музыки, но и её потенциал для более широкого применения.
Крупные языковые модели (LLMs) теперь доступны в различных размерах и конфигурациях от провайдеров облачных API. Хотя это разнообразие предлагает широкий спектр выбора, эффективное использование этих опций для оптимизации вычислительных затрат и производительности остается сложной задачей. В данной работе мы представляем AutoMix — подход, который стратегически направляет запросы к более крупным LLM на основе приблизительной корректности выходных данных от меньшей модели. Ключевым элементом AutoMix является механизм самопроверки с использованием нескольких примеров, который оценивает надежность собственных выходных данных без необходимости обучения. Учитывая, что проверки могут быть неточными, мы используем мета-верификатор в AutoMix для повышения точности этих оценок. Наши эксперименты с использованием LLAMA2-13/70B на пяти наборах данных для контекстно-обоснованных рассуждений демонстрируют, что AutoMix превосходит установленные базовые методы, улучшая прирост пользы на единицу затрат до 89%. Наш код и данные доступны по адресу https://github.com/automix-llm/automix.
Широко используемые языковые модели (LM) обычно создаются путем масштабирования двухэтапного процесса обучения: этапа предварительного обучения, который использует очень большой и разнообразный набор текстовых данных, и этапа тонкой настройки (иногда называемого "согласованием"), который использует целевые примеры или другие спецификации желаемого поведения. Хотя предполагается, что знания и навыки формируются на этапе предварительного обучения, а тонкая настройка в основном фильтрует эти знания и навыки, эта интуиция не была тщательно проверена. Чтобы помочь в этом, мы представляем новый метод разделения знаний и навыков, полученных на этих двух этапах, что позволяет напрямую ответить на вопрос: "Что произойдет, если мы объединим знания, полученные большой моделью на этапе предварительного обучения, с знаниями, полученными маленькой моделью на этапе тонкой настройки (или наоборот)?" Используя основанную на RL (обучении с подкреплением) структуру, разработанную на основе последних достижений в обучении с учетом человеческих предпочтений, мы вводим эмулированную тонкую настройку (Emulated Fine-Tuning, EFT) — принципиальный и практический метод выборки из распределения, которое аппроксимирует (или "эмулирует") результат предварительного обучения и тонкой настройки на разных масштабах. Наши эксперименты с EFT показывают, что масштабирование тонкой настройки обычно улучшает полезность, а масштабирование предварительного обучения — достоверность. Помимо разделения масштаба, мы показываем, что EFT позволяет настраивать конкурирующие поведенческие характеристики, такие как полезность и безопасность, во время тестирования без дополнительного обучения. Наконец, частный случай эмулированной тонкой настройки, который мы называем масштабированием LM, позволяет избежать ресурсоемкой тонкой настройки больших предварительно обученных моделей, объединяя их с маленькими тонко настроенными моделями, по сути эмулируя результат тонкой настройки большой предварительно обученной модели. Масштабирование последовательно улучшает полезность и достоверность моделей, следующих инструкциям, в семействах Llama, Llama-2 и Falcon, без дополнительных гиперпараметров или обучения.
Textural Inversion, метод обучения через подсказки, изучает единичное вложение для нового "слова", чтобы представлять стиль и внешний вид изображения, что позволяет интегрировать его в естественные языковые предложения для генерации новых синтезированных изображений. Однако идентификация и интеграция нескольких объектно-ориентированных концепций в одной сцене представляет значительные трудности, даже если вложения для отдельных концепций доступны. Это подтверждается нашими эмпирическими тестами. Для решения этой задачи мы представляем фреймворк для обучения через подсказки с несколькими концепциями (Multi-Concept Prompt Learning, MCPL), где одновременно изучаются несколько новых "слов" из одной пары предложение-изображение. Для повышения точности корреляции между словами и концепциями мы предлагаем три метода регуляризации: Attention Masking (AttnMask) для концентрации обучения на релевантных областях; Prompts Contrastive Loss (PromptCL) для разделения вложений разных концепций; и Bind adjective (Bind adj.) для ассоциации новых "слов" с известными словами. Мы оцениваем метод через генерацию изображений, редактирование и визуализацию внимания на разнообразных изображениях. Обширные количественные сравнения показывают, что наш метод способен изучать более семантически разделенные концепции с улучшенной корреляцией между словами и концепциями. Кроме того, мы представляем новый набор данных и протокол оценки, адаптированные для этой новой задачи изучения объектно-ориентированных концепций.
Генерация высококачественных 3D-объектов остается сложной задачей, главным образом из-за ограниченной доступности полноценных аннотированных обучающих данных. Последние достижения направлены на преодоление этого ограничения путем использования моделей генерации изображений, предварительно обученных на обширных веб-наборах данных, с применением методов передачи знаний, таких как Score Distillation Sampling (SDS). Эффективное удовлетворение требований высококачественного рендеринга часто требует использования моделей, основанных на латентных представлениях, таких как Latent Diffusion Model (LDM). В рамках этого подхода возникает значительная проблема: для вычисления градиентов для отдельных пикселей изображения необходимо распространять градиенты из заданного латентного пространства через замороженные компоненты модели изображения, такие как VAE-кодировщик, используемый в LDM. Однако этот путь распространения градиентов никогда не оптимизировался и оставался неконтролируемым в процессе обучения. Мы обнаруживаем, что нерегулируемые градиенты негативно влияют на способность 3D-модели извлекать информацию, связанную с текстурой, из модели генерации изображений, что приводит к низкому качеству синтеза внешнего вида. Для решения этой глобальной проблемы мы предлагаем инновационную операцию, называемую Pixel-wise Gradient Clipping (PGC), предназначенную для бесшовной интеграции в существующие 3D-генеративные модели, тем самым повышая качество их синтеза. В частности, мы контролируем величину стохастических градиентов, эффективно ограничивая градиенты на уровне пикселей, сохраняя при этом важные направления градиентов, связанные с текстурой. Несмотря на простоту и минимальные дополнительные затраты, обширные эксперименты демонстрируют эффективность нашего PGC в улучшении производительности существующих 3D-генеративных моделей для высококачественного рендеринга объектов.