Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

3D-GPT: Процедурное 3D-моделирование с использованием больших языковых моделей
3D-GPT: Procedural 3D Modeling with Large Language Models

Oct 19, 2023

Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould

592

В стремлении к эффективному автоматизированному созданию контента процедурная генерация, использующая изменяемые параметры и системы на основе правил, представляется многообещающим подходом. Однако это может быть сложной задачей, учитывая её сложную природу, требующую глубокого понимания правил, алгоритмов и параметров. Для снижения нагрузки мы представляем 3D-GPT — фреймворк, использующий большие языковые модели (LLM) для создания 3D-моделей на основе инструкций. 3D-GPT позиционирует LLM как эффективных решателей задач, разбивая процедурные задачи 3D-моделирования на доступные этапы и назначая подходящего агента для каждой задачи. 3D-GPT объединяет три ключевых агента: агент распределения задач, агент концептуализации и агент моделирования. Они совместно достигают двух целей. Во-первых, улучшают краткие начальные описания сцен, развивая их в детализированные формы, динамически адаптируя текст на основе последующих инструкций. Во-вторых, интегрируют процедурную генерацию, извлекая значения параметров из обогащённого текста для беспрепятственного взаимодействия с 3D-программами для создания ассетов. Наши эмпирические исследования подтверждают, что 3D-GPT не только интерпретирует и выполняет инструкции, предоставляя надёжные результаты, но и эффективно сотрудничает с человеческими дизайнерами. Кроме того, он легко интегрируется с Blender, открывая расширенные возможности манипуляции. Наша работа подчеркивает потенциал LLM в 3D-моделировании, предлагая базовый фреймворк для будущих достижений в генерации сцен и анимации.

AgentTuning: Обеспечение обобщенных агентских способностей для языковых моделей
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Oct 19, 2023

Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang

361

Открытые большие языковые модели (LLMs), демонстрирующие высокую производительность в различных задачах, значительно продвинули развитие LLMs. Однако они существенно уступают коммерческим моделям, таким как ChatGPT и GPT-4, при использовании в качестве агентов для решения сложных задач в реальном мире. Эти задачи агентов используют LLMs в качестве центрального контроллера, отвечающего за планирование, запоминание и использование инструментов, что требует как тонких методов промптинга, так и мощных LLMs для достижения удовлетворительной производительности. Хотя было предложено множество методов промптинга для выполнения конкретных задач агентов, недостаточно исследований, направленных на улучшение агентских способностей самих LLMs без ущерба для их общих возможностей. В данной работе мы представляем AgentTuning — простой и универсальный метод для улучшения агентских способностей LLMs с сохранением их общих возможностей. Мы создаем AgentInstruct, легковесный набор данных для тонкой настройки инструкций, содержащий высококачественные траектории взаимодействий. Мы используем гибридную стратегию тонкой настройки инструкций, комбинируя AgentInstruct с открытыми инструкциями из общих областей. AgentTuning применяется для тонкой настройки инструкций серии Llama 2, в результате чего получается AgentLM. Наши оценки показывают, что AgentTuning позволяет улучшить агентские способности LLMs без ущерба для их общих возможностей. Модель AgentLM-70B сопоставима с GPT-3.5-turbo на незнакомых задачах агентов, демонстрируя обобщенные агентские способности. Мы открываем исходный код для AgentInstruct и моделей AgentLM-7B, 13B и 70B на https://github.com/THUDM/AgentTuning, предоставляя открытые и мощные альтернативы коммерческим LLMs для задач агентов.

Безопасное обучение с подкреплением на основе человеческой обратной связи (Safe RLHF)
Safe RLHF: Safe Reinforcement Learning from Human Feedback

Oct 19, 2023

Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang

285

С развитием крупных языковых моделей (LLM) достижение баланса между производительностью и безопасностью ИИ-систем стало как никогда важным. Однако присущее противоречие между целями полезности и безвредности представляет собой значительную проблему в процессе обучения LLM. Для решения этой проблемы мы предлагаем Safe Reinforcement Learning from Human Feedback (Safe RLHF) — новый алгоритм для согласования с человеческими ценностями. Safe RLHF явно разделяет человеческие предпочтения относительно полезности и безвредности, эффективно устраняя путаницу среди краудворкеров, связанную с этим противоречием, и позволяя обучать отдельные модели вознаграждения и затрат. Мы формализуем проблему безопасности LLM как задачу оптимизации, направленную на максимизацию функции вознаграждения при соблюдении заданных ограничений по затратам. Используя метод Лагранжа для решения этой ограниченной задачи, Safe RLHF динамически регулирует баланс между двумя целями в процессе тонкой настройки. В ходе трехэтапной тонкой настройки с использованием Safe RLHF мы демонстрируем превосходную способность снижать вредоносные ответы, одновременно улучшая производительность модели по сравнению с существующими алгоритмами, согласованными с ценностями. Экспериментально мы настроили модель Alpaca-7B с помощью Safe RLHF, согласовав её с собранными человеческими предпочтениями, что значительно улучшило её полезность и безвредность согласно оценкам людей.

Eureka: Создание наград на уровне человека с помощью программирования крупных языковых моделей
Eureka: Human-Level Reward Design via Coding Large Language Models

Oct 19, 2023

Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar

263

Крупные языковые модели (LLMs) преуспели в роли высокоуровневых семантических планировщиков для задач последовательного принятия решений. Однако их использование для обучения сложным низкоуровневым манипуляционным задачам, таким как ловкое вращение ручки, остается открытой проблемой. Мы устраняем этот фундаментальный разрыв и представляем Eureka — алгоритм проектирования вознаграждений уровня человека, основанный на LLMs. Eureka использует впечатляющие возможности современных LLMs, таких как GPT-4, в области генерации с нулевым обучением, написания кода и улучшения в контексте для выполнения эволюционной оптимизации кода вознаграждений. Полученные вознаграждения затем могут быть использованы для освоения сложных навыков с помощью обучения с подкреплением. Без каких-либо специфичных для задачи подсказок или предопределенных шаблонов вознаграждений, Eureka генерирует функции вознаграждения, которые превосходят вознаграждения, разработанные экспертами-людьми. В наборе из 29 открытых сред для обучения с подкреплением, включающих 10 различных морфологий роботов, Eureka превосходит экспертов-людей в 83% задач, что приводит к среднему нормализованному улучшению на 52%. Универсальность Eureka также позволяет реализовать новый градиентный подход к обучению с подкреплением на основе человеческой обратной связи (RLHF), легко интегрируя человеческие данные для повышения качества и безопасности генерируемых вознаграждений без обновления модели. Наконец, используя вознаграждения Eureka в рамках обучения по учебному плану, мы впервые демонстрируем, как смоделированная рука Shadow Hand способна выполнять трюки с вращением ручки, ловко манипулируя ею по кругу на высокой скорости.

Модели "Видение-Язык" являются моделями вознаграждения с нулевым обучением для обучения с подкреплением
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Oct 19, 2023

Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner

201

Обучение с подкреплением (RL) требует либо ручного задания функции вознаграждения, что часто неосуществимо, либо обучения модели вознаграждения на основе большого объема человеческой обратной связи, что обычно очень затратно. Мы исследуем более эффективный с точки зрения использования данных подход: использование предобученных моделей, работающих с визуальными и текстовыми данными (VLMs), в качестве моделей вознаграждения (RMs) с нулевым обучением для задания задач через естественный язык. Мы предлагаем естественный и универсальный подход к использованию VLMs в качестве моделей вознаграждения, который мы называем VLM-RMs. Мы применяем VLM-RMs на основе CLIP для обучения человекообразного агента в среде MuJoCo выполнению сложных задач без ручного задания функции вознаграждения, таких как стояние на коленях, шпагат и поза лотоса. Для каждой из этих задач мы предоставляем только одно текстовое описание желаемой задачи с минимальной инженерией подсказок. Видео обученных агентов доступны по ссылке: https://sites.google.com/view/vlm-rm. Мы можем улучшить производительность, предоставив вторую «базовую» подсказку и исключив части пространства эмбеддингов CLIP, нерелевантные для различения цели и базового состояния. Кроме того, мы обнаруживаем сильный эффект масштабирования для VLM-RMs: более крупные VLMs, обученные с большими вычислительными ресурсами и данными, становятся лучшими моделями вознаграждения. Проблемы, с которыми мы столкнулись при использовании VLM-RMs, связаны с известными ограничениями текущих VLMs, такими как ограниченная способность к пространственному рассуждению или визуально нереалистичные среды, которые сильно отклоняются от распределения данных, на которых обучалась VLM. Мы обнаруживаем, что VLM-RMs демонстрируют замечательную устойчивость, если VLM достаточно велика. Это позволяет предположить, что будущие VLMs станут все более полезными моделями вознаграждения для широкого спектра приложений RL.

Loop Copilot: Оркестрация ансамблей ИИ для генерации музыки и итеративного редактирования
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing

Oct 19, 2023

Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon

151

Создание музыки — это итеративный процесс, требующий различных методов на каждом этапе. Однако существующие системы ИИ для создания музыки не справляются с координацией нескольких подсистем для удовлетворения разнообразных потребностей. Чтобы устранить этот пробел, мы представляем Loop Copilot — новую систему, которая позволяет пользователям генерировать и итеративно улучшать музыку через интерактивный интерфейс многораундового диалога. Система использует большую языковую модель для интерпретации намерений пользователя и выбора подходящих моделей ИИ для выполнения задач. Каждая из моделей бэкенда специализируется на конкретной задаче, а их результаты объединяются для удовлетворения требований пользователя. Для обеспечения музыкальной согласованности ключевые атрибуты сохраняются в централизованной таблице. Мы оцениваем эффективность предложенной системы с помощью полуструктурированных интервью и анкет, подчеркивая её полезность не только в облегчении создания музыки, но и её потенциал для более широкого применения.

AutoMix: Автоматическое смешивание языковых моделей
AutoMix: Automatically Mixing Language Models

Oct 19, 2023

Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui

142

Крупные языковые модели (LLMs) теперь доступны в различных размерах и конфигурациях от провайдеров облачных API. Хотя это разнообразие предлагает широкий спектр выбора, эффективное использование этих опций для оптимизации вычислительных затрат и производительности остается сложной задачей. В данной работе мы представляем AutoMix — подход, который стратегически направляет запросы к более крупным LLM на основе приблизительной корректности выходных данных от меньшей модели. Ключевым элементом AutoMix является механизм самопроверки с использованием нескольких примеров, который оценивает надежность собственных выходных данных без необходимости обучения. Учитывая, что проверки могут быть неточными, мы используем мета-верификатор в AutoMix для повышения точности этих оценок. Наши эксперименты с использованием LLAMA2-13/70B на пяти наборах данных для контекстно-обоснованных рассуждений демонстрируют, что AutoMix превосходит установленные базовые методы, улучшая прирост пользы на единицу затрат до 89%. Наш код и данные доступны по адресу https://github.com/automix-llm/automix.

Эмулятор для тонкой настройки больших языковых моделей с использованием малых языковых моделей
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Oct 19, 2023

Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning

131

Широко используемые языковые модели (LM) обычно создаются путем масштабирования двухэтапного процесса обучения: этапа предварительного обучения, который использует очень большой и разнообразный набор текстовых данных, и этапа тонкой настройки (иногда называемого "согласованием"), который использует целевые примеры или другие спецификации желаемого поведения. Хотя предполагается, что знания и навыки формируются на этапе предварительного обучения, а тонкая настройка в основном фильтрует эти знания и навыки, эта интуиция не была тщательно проверена. Чтобы помочь в этом, мы представляем новый метод разделения знаний и навыков, полученных на этих двух этапах, что позволяет напрямую ответить на вопрос: "Что произойдет, если мы объединим знания, полученные большой моделью на этапе предварительного обучения, с знаниями, полученными маленькой моделью на этапе тонкой настройки (или наоборот)?" Используя основанную на RL (обучении с подкреплением) структуру, разработанную на основе последних достижений в обучении с учетом человеческих предпочтений, мы вводим эмулированную тонкую настройку (Emulated Fine-Tuning, EFT) — принципиальный и практический метод выборки из распределения, которое аппроксимирует (или "эмулирует") результат предварительного обучения и тонкой настройки на разных масштабах. Наши эксперименты с EFT показывают, что масштабирование тонкой настройки обычно улучшает полезность, а масштабирование предварительного обучения — достоверность. Помимо разделения масштаба, мы показываем, что EFT позволяет настраивать конкурирующие поведенческие характеристики, такие как полезность и безопасность, во время тестирования без дополнительного обучения. Наконец, частный случай эмулированной тонкой настройки, который мы называем масштабированием LM, позволяет избежать ресурсоемкой тонкой настройки больших предварительно обученных моделей, объединяя их с маленькими тонко настроенными моделями, по сути эмулируя результат тонкой настройки большой предварительно обученной модели. Масштабирование последовательно улучшает полезность и достоверность моделей, следующих инструкциям, в семействах Llama, Llama-2 и Falcon, без дополнительных гиперпараметров или обучения.

Изображение стоит множества слов: изучение концепций на уровне объектов с помощью обучения на основе мультиконцептных промптов
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

Oct 18, 2023

Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare

131

Textural Inversion, метод обучения через подсказки, изучает единичное вложение для нового "слова", чтобы представлять стиль и внешний вид изображения, что позволяет интегрировать его в естественные языковые предложения для генерации новых синтезированных изображений. Однако идентификация и интеграция нескольких объектно-ориентированных концепций в одной сцене представляет значительные трудности, даже если вложения для отдельных концепций доступны. Это подтверждается нашими эмпирическими тестами. Для решения этой задачи мы представляем фреймворк для обучения через подсказки с несколькими концепциями (Multi-Concept Prompt Learning, MCPL), где одновременно изучаются несколько новых "слов" из одной пары предложение-изображение. Для повышения точности корреляции между словами и концепциями мы предлагаем три метода регуляризации: Attention Masking (AttnMask) для концентрации обучения на релевантных областях; Prompts Contrastive Loss (PromptCL) для разделения вложений разных концепций; и Bind adjective (Bind adj.) для ассоциации новых "слов" с известными словами. Мы оцениваем метод через генерацию изображений, редактирование и визуализацию внимания на разнообразных изображениях. Обширные количественные сравнения показывают, что наш метод способен изучать более семантически разделенные концепции с улучшенной корреляцией между словами и концепциями. Кроме того, мы представляем новый набор данных и протокол оценки, адаптированные для этой новой задачи изучения объектно-ориентированных концепций.

Улучшение генерации высококачественных 3D-моделей с использованием поэлементного ограничения градиентов
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

Oct 19, 2023

Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang

Генерация высококачественных 3D-объектов остается сложной задачей, главным образом из-за ограниченной доступности полноценных аннотированных обучающих данных. Последние достижения направлены на преодоление этого ограничения путем использования моделей генерации изображений, предварительно обученных на обширных веб-наборах данных, с применением методов передачи знаний, таких как Score Distillation Sampling (SDS). Эффективное удовлетворение требований высококачественного рендеринга часто требует использования моделей, основанных на латентных представлениях, таких как Latent Diffusion Model (LDM). В рамках этого подхода возникает значительная проблема: для вычисления градиентов для отдельных пикселей изображения необходимо распространять градиенты из заданного латентного пространства через замороженные компоненты модели изображения, такие как VAE-кодировщик, используемый в LDM. Однако этот путь распространения градиентов никогда не оптимизировался и оставался неконтролируемым в процессе обучения. Мы обнаруживаем, что нерегулируемые градиенты негативно влияют на способность 3D-модели извлекать информацию, связанную с текстурой, из модели генерации изображений, что приводит к низкому качеству синтеза внешнего вида. Для решения этой глобальной проблемы мы предлагаем инновационную операцию, называемую Pixel-wise Gradient Clipping (PGC), предназначенную для бесшовной интеграции в существующие 3D-генеративные модели, тем самым повышая качество их синтеза. В частности, мы контролируем величину стохастических градиентов, эффективно ограничивая градиенты на уровне пикселей, сохраняя при этом важные направления градиентов, связанные с текстурой. Несмотря на простоту и минимальные дополнительные затраты, обширные эксперименты демонстрируют эффективность нашего PGC в улучшении производительности существующих 3D-генеративных моделей для высококачественного рендеринга объектов.

Эмулятор для тонкой настройки больших языковых моделей с использованием малых языковых моделей
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Oct 19, 2023

Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning

131

Ежедневные статьи

3D-GPT: Процедурное 3D-моделирование с использованием больших языковых моделей
3D-GPT: Procedural 3D Modeling with Large Language Models

AgentTuning: Обеспечение обобщенных агентских способностей для языковых моделей
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Безопасное обучение с подкреплением на основе человеческой обратной связи (Safe RLHF)
Safe RLHF: Safe Reinforcement Learning from Human Feedback

Eureka: Создание наград на уровне человека с помощью программирования крупных языковых моделей
Eureka: Human-Level Reward Design via Coding Large Language Models

Модели "Видение-Язык" являются моделями вознаграждения с нулевым обучением для обучения с подкреплением
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Loop Copilot: Оркестрация ансамблей ИИ для генерации музыки и итеративного редактирования
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing

AutoMix: Автоматическое смешивание языковых моделей
AutoMix: Automatically Mixing Language Models

Эмулятор для тонкой настройки больших языковых моделей с использованием малых языковых моделей
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Улучшение генерации высококачественных 3D-моделей с использованием поэлементного ограничения градиентов
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

Support

Support

Ежедневные статьи

3D-GPT: Процедурное 3D-моделирование с использованием больших языковых моделей
3D-GPT: Procedural 3D Modeling with Large Language Models

AgentTuning: Обеспечение обобщенных агентских способностей для языковых моделей
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Безопасное обучение с подкреплением на основе человеческой обратной связи (Safe RLHF)
Safe RLHF: Safe Reinforcement Learning from Human Feedback

Eureka: Создание наград на уровне человека с помощью программирования крупных языковых моделей
Eureka: Human-Level Reward Design via Coding Large Language Models

Модели "Видение-Язык" являются моделями вознаграждения с нулевым обучением для обучения с подкреплением
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Loop Copilot: Оркестрация ансамблей ИИ для генерации музыки и итеративного редактирования
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing

AutoMix: Автоматическое смешивание языковых моделей
AutoMix: Automatically Mixing Language Models

Эмулятор для тонкой настройки больших языковых моделей с использованием малых языковых моделей
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Улучшение генерации высококачественных 3D-моделей с использованием поэлементного ограничения градиентов
Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping