Ежедневно отобранные исследовательские статьи по ИИ с переводами
Наборы данных являются основой многих прорывов в современном искусственном интеллекте. Многие последние достижения в области обработки естественного языка (NLP) можно объяснить тонкой настройкой предварительно обученных моделей на разнообразных задачах, что позволяет крупным языковым моделям (LLM) реагировать на инструкции. Тонкая настройка на инструкциях (Instruction Fine-Tuning, IFT) требует специально созданных и аннотированных наборов данных. Однако существующие наборы данных почти полностью представлены на английском языке. В данной работе наша основная цель — преодолеть языковой разрыв, создав аннотированный человеком набор данных для выполнения инструкций, охватывающий 65 языков. Мы сотрудничали с носителями языков со всего мира, чтобы собрать естественные примеры инструкций и их выполнения. Кроме того, мы создали наиболее обширную на сегодняшний день многоязычную коллекцию, включающую 513 миллионов примеров, путем шаблонизации и перевода существующих наборов данных на 114 языков. В общей сложности мы представляем четыре ключевых ресурса: разрабатываем и открываем доступ к платформе аннотирования Aya, набору данных Aya, коллекции Aya и набору для оценки Aya. Инициатива Aya также служит ценным примером участия в исследованиях, вовлекая сотрудников из 119 стран. Мы рассматриваем это как полезную основу для будущих исследовательских коллабораций, направленных на устранение пробелов в ресурсах.
Математические способности крупных языковых моделей могут отражать их способность к абстрактному рассуждению. В данной статье мы представляем и открываем исходный код нашей модели для математических рассуждений InternLM-Math, которая была дообучена на основе InternLM2. Мы объединяем цепочку рассуждений, моделирование вознаграждений, формальные рассуждения, аугментацию данных и интерпретатор кода в едином формате seq2seq и обучаем нашу модель быть универсальным инструментом для математических рассуждений, проверки, доказательства и аугментации. Эти способности могут быть использованы для разработки следующих математических языковых моделей или для самоитерации. InternLM-Math демонстрирует наилучшие результаты среди открытых моделей в условиях обучения с контекстом, тонкой настройки с учителем и кодового ассистирования на различных неформальных и формальных тестах, включая GSM8K, MATH, венгерский экзамен по математике, MathBench-ZH и MiniF2F. Наша предобученная модель достигает результата 30.3 на тестовом наборе MiniF2F без дополнительной настройки. Мы также исследуем, как использовать LEAN для решения математических задач, и изучаем её производительность в условиях многозадачного обучения, что демонстрирует возможность использования LEAN как универсальной платформы для решения и доказательства в математике. Наши модели, код и данные доступны по адресу https://github.com/InternLM/InternLM-Math.
Создание цифровых аватаров на основе текстовых запросов долгое время оставалось желаемой, но сложной задачей. Несмотря на многообещающие результаты, достигнутые с использованием 2D диффузионных моделей в последних работах, современные методы сталкиваются с трудностями в эффективном создании высококачественных и анимированных аватаров. В данной статье мы представляем HeadStudio — новый фреймворк, который использует 3D гауссово размытие для генерации реалистичных и анимированных аватаров из текстовых запросов. Наш метод семантически управляет 3D гауссовыми функциями, создавая гибкий и достижимый внешний вид через промежуточное представление FLAME. В частности, мы интегрируем FLAME как в 3D представление, так и в процесс дистилляции оценок: 1) 3D гауссово размытие на основе FLAME, управляющее точками 3D гауссовых функций путем привязки каждой точки к сетке FLAME. 2) Дистилляция оценок на основе FLAME, использующая детализированные управляющие сигналы FLAME для направления дистилляции оценок из текстового запроса. Многочисленные эксперименты демонстрируют эффективность HeadStudio в создании анимируемых аватаров из текстовых запросов, которые обладают визуально привлекательным внешним видом. Аватары способны рендерить высококачественные новые виды в реальном времени (≥ 40 кадров в секунду) с разрешением 1024. Они могут плавно управляться с помощью реальной речи и видео. Мы надеемся, что HeadStudio сможет продвинуть создание цифровых аватаров, и что представленный метод найдет широкое применение в различных областях.
Последние достижения в моделях генерации музыки из текста открыли новые возможности для музыкального творчества. Однако создание музыки обычно требует итеративных доработок, и задача редактирования сгенерированной музыки остается значительным вызовом. В данной статье представлен новый подход к редактированию музыки, созданной такими моделями, который позволяет изменять конкретные атрибуты, такие как жанр, настроение и инструменты, сохраняя при этом другие аспекты неизменными. Наш метод преобразует редактирование текста в манипуляции в латентном пространстве, добавляя дополнительное ограничение для обеспечения согласованности. Он легко интегрируется с существующими предобученными диффузионными моделями генерации музыки из текста, не требуя дополнительного обучения. Экспериментальные результаты демонстрируют превосходную производительность по сравнению как с нулевыми, так и с некоторыми контролируемыми базовыми методами в оценках передачи стиля и тембра. Кроме того, мы показываем практическую применимость нашего подхода в реальных сценариях редактирования музыки.
Объединяя понимание естественного языка, генеративные возможности и обширные знания крупных языковых моделей с восприятием изображений, современные крупные визуально-языковые модели (LVLMs) продемонстрировали беспрецедентные способности к рассуждению в реальном мире. Однако генерируемый текст часто страдает от неточной привязки к визуальным данным, что приводит к ошибкам, таким как галлюцинации несуществующих элементов сцены, пропуск значительных частей сцены и некорректное определение атрибутов и отношений между объектами. Для решения этих проблем мы представляем новый фреймворк ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), который использует детализированное моделирование вознаграждений для значительного улучшения визуальной привязки LVLMs по сравнению с предварительно обученными базовыми моделями. Это улучшение эффективно достигается с использованием более дешевых человеческих оценок вместо полного контроля, а также автоматизированных методов. Мы демонстрируем эффективность нашего подхода с помощью множества метрик на нескольких бенчмарках. Кроме того, мы создаем всеобъемлющий и сложный набор данных, специально разработанный для проверки способностей LVLMs к визуальной привязке. Наконец, мы планируем опубликовать наши аннотации, включающие примерно 16 000 пар изображений и сгенерированного текста с детализированными оценками, чтобы внести вклад в связанные исследования в сообществе.
Мы представляем редактирование моделей с использованием канонических примеров — подход, в котором (1) для каждого желаемого поведения предоставляется один обучающий пример, (2) оценка проводится исключительно на данных, выходящих за пределы распределения, и (3) отклонение от исходной модели строго ограничено. Канонический пример — это простой случай желаемого поведения (например, «Столица Маврикия — Порт-Луи») или нежелательного поведения (например, «Аспект исследователей — бессердечность»). Набор для оценки содержит более сложные примеры каждого поведения (например, абзац, в котором требуется указать столицу Маврикия). Мы создаем три набора данных и модифицируем еще три для редактирования моделей с использованием канонических примеров, охватывая улучшения, связанные с обработкой знаний, смягчение социальных предубеждений и синтаксические крайние случаи. В наших экспериментах с языковыми моделями Pythia мы обнаруживаем, что LoRA превосходит полное тонкое настройку и MEMIT. Затем мы обращаемся к архитектуре языковой модели Backpack, поскольку она предназначена для целенаправленного улучшения. Backpack определяет большой банк векторов смыслов — декомпозицию различных значений каждого слова, — которые взвешиваются и суммируются для формирования выходных логитов модели. Мы предлагаем тонкую настройку смыслов, которая выбирает и настраивает несколько (примерно 10) векторов смыслов для каждого канонического примера, и обнаруживаем, что она превосходит другие методы тонкой настройки (например, улучшение на 4,8% против 0,3%). Наконец, мы улучшаем GPT-J-6B с помощью ансамбля на этапе вывода, используя только изменения от тонкой настройки смыслов Backpack, который в 35 раз меньше, и в одном из сценариев превосходим редактирование самой GPT-J (4,1% против 1,0%).
Крупные языковые модели (LLM) обладают потенциалом для влияния на широкий спектр творческих областей, однако их применение в анимации остается малоизученным и сопряжено с новыми вызовами, такими как эффективное описание движения на естественном языке. В данной статье мы представляем Keyframer — инструмент для анимации статических изображений (SVG) с использованием естественного языка. Разработанный на основе интервью с профессиональными аниматорами и инженерами, Keyframer поддерживает исследование и уточнение анимаций за счет комбинации запросов и прямого редактирования сгенерированных результатов. Система также позволяет пользователям запрашивать варианты дизайна, способствуя сравнению и генерации идей. В ходе исследования с участием 13 человек мы выделяем характеристики стратегий запросов пользователей, включая таксономию семантических типов запросов для описания движения и "декомпозированный" стиль запросов, при котором пользователи постоянно адаптируют свои цели в ответ на сгенерированные результаты. Мы показываем, как прямое редактирование в сочетании с запросами позволяет выйти за рамки одношаговых интерфейсов, характерных для современных генеративных инструментов. В этой работе мы предлагаем, как LLM могут расширить возможности различных аудиторий для участия в создании анимации.
Несмотря на значительные успехи крупных языковых моделей (LLM), их высокие требования к памяти создают трудности при их развертывании для генерации токенов в длинных контекстах. Значительный объем памяти, занимаемый декодерами LLM, обусловлен необходимостью хранения всех предыдущих токенов в модуле внимания, что является требованием, накладываемым кэшированием ключей и значений (KV). В данной работе мы сосредоточены на разработке эффективного метода сжатия KV-кэша. Эмпирические данные указывают на значительную тенденцию к кластеризации в ключевых эмбеддингах модуля внимания. Опираясь на это ключевое наблюдение, мы разработали новый метод кэширования с сублинейной сложностью, использующий онлайн-кластеризацию для ключевых токенов и онлайн-выборку по норме ell_2 для значений. В результате был создан алгоритм декодирования внимания с доказанной точностью и эффективностью, названный SubGen. Этот алгоритм не только обеспечивает сублинейный объем памяти и сублинейную временную сложность, но и устанавливает строгую границу ошибки для нашего подхода. Эмпирические оценки на задачах ответов на вопросы в длинных контекстах демонстрируют, что SubGen значительно превосходит существующие и передовые методы сжатия KV-кэша по производительности и эффективности.
Существующие методы управления языковыми моделями, такие как RLHF и Constitutional AI, предполагают определение желаемого поведения языковых моделей (LLM) и их обучение в соответствии с этими критериями. Однако во многих случаях желательно, чтобы LLM были управляемыми на этапе вывода, что позволит использовать их в различных контекстах с разнообразными требованиями. Мы иллюстрируем это на примере проблемы "Розового слона": инструкция LLM избегать обсуждения определённой сущности ("Розовый слон") и вместо этого обсуждать предпочтительную сущность ("Серый слон"). Мы применяем новое упрощение метода Constitutional AI — Direct Principle Feedback (DPF), которое пропускает этап ранжирования ответов и напрямую использует DPO на основе критики и исправлений. Наши результаты показывают, что после тонкой настройки с использованием DPF на нашем синтетическом наборе данных "Розовые слоны", наша 13B-модель LLaMA 2 значительно превосходит Llama-2-13B-Chat и базовый вариант с подсказками, а также демонстрирует результаты, сопоставимые с GPT-4, на нашем тестовом наборе, оценивающем проблему "Розового слона".
Мы представляем Premier-TACO, подход к обучению многозадачных представлений признаков, разработанный для повышения эффективности обучения стратегий с малым количеством примеров в задачах последовательного принятия решений. Premier-TACO использует подмножество многозадачных оффлайн-наборов данных для предварительного обучения общего представления признаков, которое фиксирует ключевые динамические характеристики среды и дорабатывается с использованием минимального количества экспертных демонстраций. Этот подход развивает цель временного контрастивного обучения действий (TACO), известную своими передовыми результатами в задачах визуального управления, за счет включения новой стратегии выборки отрицательных примеров. Эта стратегия играет ключевую роль в значительном повышении вычислительной эффективности TACO, делая крупномасштабное многозадачное оффлайн-предобучение осуществимым. Наши обширные эмпирические оценки на разнообразных наборах задач непрерывного управления, включая Deepmind Control Suite, MetaWorld и LIBERO, демонстрируют эффективность Premier-TACO в предобучении визуальных представлений, значительно улучшая обучение с малым количеством примеров для новых задач. Наш код, данные для предобучения, а также контрольные точки предобученных моделей будут доступны по адресу https://github.com/PremierTACO/premier-taco.
Мы представляем анимированные стикеры — модель видеодиффузии, которая генерирует анимацию на основе текстового запроса и статичного изображения стикера. Наша модель построена на основе передовой модели Emu для генерации изображений по тексту, с добавлением временных слоёв для моделирования движения. Из-за разрыва в доменах, то есть различий в визуальном и анимационном стиле, модель, которая хорошо справлялась с генерацией натуральных видео, не может создавать яркие видео применительно к стикерам. Чтобы преодолеть этот разрыв, мы используем двухэтапный процесс дообучения: сначала на слабо соответствующих данных, а затем с применением стратегии "человек в цикле" (HITL), которую мы называем "ансамбль учителей". Этот подход позволяет объединить лучшие качества нескольких моделей-учителей в более компактной модели-ученике. Мы показываем, что такая стратегия позволяет целенаправленно улучшать качество движения, сохраняя при этом стиль исходного статичного изображения. Благодаря оптимизациям в процессе вывода, наша модель способна генерировать восьмикадровое видео с высококачественным, интересным и релевантным движением менее чем за одну секунду.
Крупные языковые модели (LLM) в настоящее время ожидается, что они будут генерировать контент, соответствующий человеческим предпочтениям. Современные исследования сосредоточены на согласовании на этапе обучения модели с использованием таких методов, как обучение с подкреплением на основе человеческой обратной связи (RLHF). Однако остается неясным, являются ли такие методы эффективным способом обучения моделей целям согласования. Во-первых, ключевыми ограничениями являются невозможность включения множества пользовательских наград и зависимость от представлений разработчика модели об универсальных и статических принципах. Во-вторых, остаточные пробелы в обучении модели и надежность таких подходов также вызывают сомнения (например, уязвимость к взлому даже после обучения на безопасность). Для решения этих проблем мы предлагаем DeAL — фреймворк, который позволяет пользователю настраивать функции наград и обеспечивает согласование LLM на этапе декодирования (DeAL). В основе нашего подхода лежит рассмотрение декодирования как процесса поиска, управляемого эвристиками, что позволяет использовать широкий спектр целей согласования. Наши эксперименты с программными ограничениями, такими как ограничения по ключевым словам и длине (широко изучавшиеся в эпоху до LLM), и абстрактными целями, такими как безвредность и полезность (предложенными в эпоху после LLM), показывают, что мы можем эффективно работать с тонкими компромиссами, улучшать соблюдение целей согласования и устранять остаточные пробелы в LLM. Наконец, хотя DeAL может эффективно сочетаться с RLHF и техниками подсказок, его универсальность замедляет процесс декодирования, что является задачей для будущих оптимизаций.
Недавние успехи в практическом применении обучения с подкреплением (RL) основывались на возможности точного моделирования систем в больших масштабах. Однако в таких областях, как системы с динамикой жидкостей, наблюдаются сложные динамические явления, которые трудно моделировать с высокой частотой интегрирования, что ограничивает прямое применение современных алгоритмов глубокого RL к часто дорогостоящему или критически важному для безопасности оборудованию. В данной работе мы представляем "Box o Flows" — новую настольную экспериментальную систему управления для систематической оценки алгоритмов RL в динамических реальных сценариях. Мы описываем ключевые компоненты системы Box o Flows и в серии экспериментов демонстрируем, как современные алгоритмы RL без модели могут синтезировать разнообразные сложные поведения с помощью простых спецификаций вознаграждения. Кроме того, мы исследуем роль автономного RL в эффективном тестировании гипотез с использованием данных, повторно используя прошлый опыт. Мы считаем, что полученные в этом предварительном исследовании выводы и доступность систем, подобных Box o Flows, способствуют разработке систематических алгоритмов RL, которые могут быть широко применены к сложным динамическим системам. Дополнительные материалы и видео экспериментов доступны по адресу https://sites.google.com/view/box-o-flows/home.