HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

Набор данных Aya: Открытая коллекция для мультиязычной настройки инструкций
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9

ByShivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker

Наборы данных являются основой многих прорывов в современном искусственном интеллекте. Многие последние достижения в области обработки естественного языка (NLP) можно объяснить тонкой настройкой предварительно обученных моделей на разнообразных задачах, что позволяет крупным языковым моделям (LLM) реагировать на инструкции. Тонкая настройка на инструкциях (Instruction Fine-Tuning, IFT) требует специально созданных и аннотированных наборов данных. Однако существующие наборы данных почти полностью представлены на английском языке. В данной работе наша основная цель — преодолеть языковой разрыв, создав аннотированный человеком набор данных для выполнения инструкций, охватывающий 65 языков. Мы сотрудничали с носителями языков со всего мира, чтобы собрать естественные примеры инструкций и их выполнения. Кроме того, мы создали наиболее обширную на сегодняшний день многоязычную коллекцию, включающую 513 миллионов примеров, путем шаблонизации и перевода существующих наборов данных на 114 языков. В общей сложности мы представляем четыре ключевых ресурса: разрабатываем и открываем доступ к платформе аннотирования Aya, набору данных Aya, коллекции Aya и набору для оценки Aya. Инициатива Aya также служит ценным примером участия в исследованиях, вовлекая сотрудников из 119 стран. Мы рассматриваем это как полезную основу для будущих исследовательских коллабораций, направленных на устранение пробелов в ресурсах.

InternLM-Math: Открытые большие языковые модели для математики, ориентированные на проверяемые рассуждения
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Feb 9

ByHuaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin

Математические способности крупных языковых моделей могут отражать их способность к абстрактному рассуждению. В данной статье мы представляем и открываем исходный код нашей модели для математических рассуждений InternLM-Math, которая была дообучена на основе InternLM2. Мы объединяем цепочку рассуждений, моделирование вознаграждений, формальные рассуждения, аугментацию данных и интерпретатор кода в едином формате seq2seq и обучаем нашу модель быть универсальным инструментом для математических рассуждений, проверки, доказательства и аугментации. Эти способности могут быть использованы для разработки следующих математических языковых моделей или для самоитерации. InternLM-Math демонстрирует наилучшие результаты среди открытых моделей в условиях обучения с контекстом, тонкой настройки с учителем и кодового ассистирования на различных неформальных и формальных тестах, включая GSM8K, MATH, венгерский экзамен по математике, MathBench-ZH и MiniF2F. Наша предобученная модель достигает результата 30.3 на тестовом наборе MiniF2F без дополнительной настройки. Мы также исследуем, как использовать LEAN для решения математических задач, и изучаем её производительность в условиях многозадачного обучения, что демонстрирует возможность использования LEAN как универсальной платформы для решения и доказательства в математике. Наши модели, код и данные доступны по адресу https://github.com/InternLM/InternLM-Math.

HeadStudio: Создание анимируемых аватаров головы из текста с использованием 3D-гауссовского сплайтинга
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Feb 9

ByZhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang

Создание цифровых аватаров на основе текстовых запросов долгое время оставалось желаемой, но сложной задачей. Несмотря на многообещающие результаты, достигнутые с использованием 2D диффузионных моделей в последних работах, современные методы сталкиваются с трудностями в эффективном создании высококачественных и анимированных аватаров. В данной статье мы представляем HeadStudio — новый фреймворк, который использует 3D гауссово размытие для генерации реалистичных и анимированных аватаров из текстовых запросов. Наш метод семантически управляет 3D гауссовыми функциями, создавая гибкий и достижимый внешний вид через промежуточное представление FLAME. В частности, мы интегрируем FLAME как в 3D представление, так и в процесс дистилляции оценок: 1) 3D гауссово размытие на основе FLAME, управляющее точками 3D гауссовых функций путем привязки каждой точки к сетке FLAME. 2) Дистилляция оценок на основе FLAME, использующая детализированные управляющие сигналы FLAME для направления дистилляции оценок из текстового запроса. Многочисленные эксперименты демонстрируют эффективность HeadStudio в создании анимируемых аватаров из текстовых запросов, которые обладают визуально привлекательным внешним видом. Аватары способны рендерить высококачественные новые виды в реальном времени (≥ 40 кадров в секунду) с разрешением 1024. Они могут плавно управляться с помощью реальной речи и видео. Мы надеемся, что HeadStudio сможет продвинуть создание цифровых аватаров, и что представленный метод найдет широкое применение в различных областях.

MusicMagus: Редактирование текста в музыку с нулевым обучением с использованием диффузионных моделей
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Feb 9

ByYixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Последние достижения в моделях генерации музыки из текста открыли новые возможности для музыкального творчества. Однако создание музыки обычно требует итеративных доработок, и задача редактирования сгенерированной музыки остается значительным вызовом. В данной статье представлен новый подход к редактированию музыки, созданной такими моделями, который позволяет изменять конкретные атрибуты, такие как жанр, настроение и инструменты, сохраняя при этом другие аспекты неизменными. Наш метод преобразует редактирование текста в манипуляции в латентном пространстве, добавляя дополнительное ограничение для обеспечения согласованности. Он легко интегрируется с существующими предобученными диффузионными моделями генерации музыки из текста, не требуя дополнительного обучения. Экспериментальные результаты демонстрируют превосходную производительность по сравнению как с нулевыми, так и с некоторыми контролируемыми базовыми методами в оценках передачи стиля и тембра. Кроме того, мы показываем практическую применимость нашего подхода в реальных сценариях редактирования музыки.

ViGoR: Улучшение визуального заземления крупных моделей обработки зрения и языка с помощью моделирования детализированных вознаграждений
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Feb 9

BySiming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li

Объединяя понимание естественного языка, генеративные возможности и обширные знания крупных языковых моделей с восприятием изображений, современные крупные визуально-языковые модели (LVLMs) продемонстрировали беспрецедентные способности к рассуждению в реальном мире. Однако генерируемый текст часто страдает от неточной привязки к визуальным данным, что приводит к ошибкам, таким как галлюцинации несуществующих элементов сцены, пропуск значительных частей сцены и некорректное определение атрибутов и отношений между объектами. Для решения этих проблем мы представляем новый фреймворк ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), который использует детализированное моделирование вознаграждений для значительного улучшения визуальной привязки LVLMs по сравнению с предварительно обученными базовыми моделями. Это улучшение эффективно достигается с использованием более дешевых человеческих оценок вместо полного контроля, а также автоматизированных методов. Мы демонстрируем эффективность нашего подхода с помощью множества метрик на нескольких бенчмарках. Кроме того, мы создаем всеобъемлющий и сложный набор данных, специально разработанный для проверки способностей LVLMs к визуальной привязке. Наконец, мы планируем опубликовать наши аннотации, включающие примерно 16 000 пар изображений и сгенерированного текста с детализированными оценками, чтобы внести вклад в связанные исследования в сообществе.

Keyframer: Расширение возможностей анимационного дизайна с использованием больших языковых моделей
Keyframer: Empowering Animation Design using Large Language Models

Feb 8

ByTiffany Tseng, Ruijia Cheng, Jeffrey Nichols

Крупные языковые модели (LLM) обладают потенциалом для влияния на широкий спектр творческих областей, однако их применение в анимации остается малоизученным и сопряжено с новыми вызовами, такими как эффективное описание движения на естественном языке. В данной статье мы представляем Keyframer — инструмент для анимации статических изображений (SVG) с использованием естественного языка. Разработанный на основе интервью с профессиональными аниматорами и инженерами, Keyframer поддерживает исследование и уточнение анимаций за счет комбинации запросов и прямого редактирования сгенерированных результатов. Система также позволяет пользователям запрашивать варианты дизайна, способствуя сравнению и генерации идей. В ходе исследования с участием 13 человек мы выделяем характеристики стратегий запросов пользователей, включая таксономию семантических типов запросов для описания движения и "декомпозированный" стиль запросов, при котором пользователи постоянно адаптируют свои цели в ответ на сгенерированные результаты. Мы показываем, как прямое редактирование в сочетании с запросами позволяет выйти за рамки одношаговых интерфейсов, характерных для современных генеративных инструментов. В этой работе мы предлагаем, как LLM могут расширить возможности различных аудиторий для участия в создании анимации.

Редактирование моделей с использованием канонических примеров
Model Editing with Canonical Examples

Feb 9

ByJohn Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning

Мы представляем редактирование моделей с использованием канонических примеров — подход, в котором (1) для каждого желаемого поведения предоставляется один обучающий пример, (2) оценка проводится исключительно на данных, выходящих за пределы распределения, и (3) отклонение от исходной модели строго ограничено. Канонический пример — это простой случай желаемого поведения (например, «Столица Маврикия — Порт-Луи») или нежелательного поведения (например, «Аспект исследователей — бессердечность»). Набор для оценки содержит более сложные примеры каждого поведения (например, абзац, в котором требуется указать столицу Маврикия). Мы создаем три набора данных и модифицируем еще три для редактирования моделей с использованием канонических примеров, охватывая улучшения, связанные с обработкой знаний, смягчение социальных предубеждений и синтаксические крайние случаи. В наших экспериментах с языковыми моделями Pythia мы обнаруживаем, что LoRA превосходит полное тонкое настройку и MEMIT. Затем мы обращаемся к архитектуре языковой модели Backpack, поскольку она предназначена для целенаправленного улучшения. Backpack определяет большой банк векторов смыслов — декомпозицию различных значений каждого слова, — которые взвешиваются и суммируются для формирования выходных логитов модели. Мы предлагаем тонкую настройку смыслов, которая выбирает и настраивает несколько (примерно 10) векторов смыслов для каждого канонического примера, и обнаруживаем, что она превосходит другие методы тонкой настройки (например, улучшение на 4,8% против 0,3%). Наконец, мы улучшаем GPT-J-6B с помощью ансамбля на этапе вывода, используя только изменения от тонкой настройки смыслов Backpack, который в 35 раз меньше, и в одном из сценариев превосходим редактирование самой GPT-J (4,1% против 1,0%).

SubGen: Генерация токенов за сублинейное время и с использованием сублинейной памяти
SubGen: Token Generation in Sublinear Time and Memory

Feb 8

ByAmir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi

Несмотря на значительные успехи крупных языковых моделей (LLM), их высокие требования к памяти создают трудности при их развертывании для генерации токенов в длинных контекстах. Значительный объем памяти, занимаемый декодерами LLM, обусловлен необходимостью хранения всех предыдущих токенов в модуле внимания, что является требованием, накладываемым кэшированием ключей и значений (KV). В данной работе мы сосредоточены на разработке эффективного метода сжатия KV-кэша. Эмпирические данные указывают на значительную тенденцию к кластеризации в ключевых эмбеддингах модуля внимания. Опираясь на это ключевое наблюдение, мы разработали новый метод кэширования с сублинейной сложностью, использующий онлайн-кластеризацию для ключевых токенов и онлайн-выборку по норме ell_2 для значений. В результате был создан алгоритм декодирования внимания с доказанной точностью и эффективностью, названный SubGen. Этот алгоритм не только обеспечивает сублинейный объем памяти и сублинейную временную сложность, но и устанавливает строгую границу ошибки для нашего подхода. Эмпирические оценки на задачах ответов на вопросы в длинных контекстах демонстрируют, что SubGen значительно превосходит существующие и передовые методы сжатия KV-кэша по производительности и эффективности.

Анимированные стикеры: Оживление стикеров с помощью видео-диффузии
Animated Stickers: Bringing Stickers to Life with Video Diffusion

Feb 8

ByDavid Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu

Мы представляем анимированные стикеры — модель видеодиффузии, которая генерирует анимацию на основе текстового запроса и статичного изображения стикера. Наша модель построена на основе передовой модели Emu для генерации изображений по тексту, с добавлением временных слоёв для моделирования движения. Из-за разрыва в доменах, то есть различий в визуальном и анимационном стиле, модель, которая хорошо справлялась с генерацией натуральных видео, не может создавать яркие видео применительно к стикерам. Чтобы преодолеть этот разрыв, мы используем двухэтапный процесс дообучения: сначала на слабо соответствующих данных, а затем с применением стратегии "человек в цикле" (HITL), которую мы называем "ансамбль учителей". Этот подход позволяет объединить лучшие качества нескольких моделей-учителей в более компактной модели-ученике. Мы показываем, что такая стратегия позволяет целенаправленно улучшать качество движения, сохраняя при этом стиль исходного статичного изображения. Благодаря оптимизациям в процессе вывода, наша модель способна генерировать восьмикадровое видео с высококачественным, интересным и релевантным движением менее чем за одну секунду.

Premier-TACO: Предобучение многозадачных представлений с помощью контрастной функции потерь, управляемой временными действиями
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Feb 9

ByRuijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang

Мы представляем Premier-TACO, подход к обучению многозадачных представлений признаков, разработанный для повышения эффективности обучения стратегий с малым количеством примеров в задачах последовательного принятия решений. Premier-TACO использует подмножество многозадачных оффлайн-наборов данных для предварительного обучения общего представления признаков, которое фиксирует ключевые динамические характеристики среды и дорабатывается с использованием минимального количества экспертных демонстраций. Этот подход развивает цель временного контрастивного обучения действий (TACO), известную своими передовыми результатами в задачах визуального управления, за счет включения новой стратегии выборки отрицательных примеров. Эта стратегия играет ключевую роль в значительном повышении вычислительной эффективности TACO, делая крупномасштабное многозадачное оффлайн-предобучение осуществимым. Наши обширные эмпирические оценки на разнообразных наборах задач непрерывного управления, включая Deepmind Control Suite, MetaWorld и LIBERO, демонстрируют эффективность Premier-TACO в предобучении визуальных представлений, значительно улучшая обучение с малым количеством примеров для новых задач. Наш код, данные для предобучения, а также контрольные точки предобученных моделей будут доступны по адресу https://github.com/PremierTACO/premier-taco.

Подавление "розовых слонов" с помощью прямой обратной связи на основе принципов
Suppressing Pink Elephants with Direct Principle Feedback

Feb 12

ByLouis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman

Существующие методы управления языковыми моделями, такие как RLHF и Constitutional AI, предполагают определение желаемого поведения языковых моделей (LLM) и их обучение в соответствии с этими критериями. Однако во многих случаях желательно, чтобы LLM были управляемыми на этапе вывода, что позволит использовать их в различных контекстах с разнообразными требованиями. Мы иллюстрируем это на примере проблемы "Розового слона": инструкция LLM избегать обсуждения определённой сущности ("Розовый слон") и вместо этого обсуждать предпочтительную сущность ("Серый слон"). Мы применяем новое упрощение метода Constitutional AI — Direct Principle Feedback (DPF), которое пропускает этап ранжирования ответов и напрямую использует DPO на основе критики и исправлений. Наши результаты показывают, что после тонкой настройки с использованием DPF на нашем синтетическом наборе данных "Розовые слоны", наша 13B-модель LLaMA 2 значительно превосходит Llama-2-13B-Chat и базовый вариант с подсказками, а также демонстрирует результаты, сопоставимые с GPT-4, на нашем тестовом наборе, оценивающем проблему "Розового слона".

DeAL: Выравнивание во время декодирования для больших языковых моделей
DeAL: Decoding-time Alignment for Large Language Models

Feb 5

ByJames Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth

Крупные языковые модели (LLM) в настоящее время ожидается, что они будут генерировать контент, соответствующий человеческим предпочтениям. Современные исследования сосредоточены на согласовании на этапе обучения модели с использованием таких методов, как обучение с подкреплением на основе человеческой обратной связи (RLHF). Однако остается неясным, являются ли такие методы эффективным способом обучения моделей целям согласования. Во-первых, ключевыми ограничениями являются невозможность включения множества пользовательских наград и зависимость от представлений разработчика модели об универсальных и статических принципах. Во-вторых, остаточные пробелы в обучении модели и надежность таких подходов также вызывают сомнения (например, уязвимость к взлому даже после обучения на безопасность). Для решения этих проблем мы предлагаем DeAL — фреймворк, который позволяет пользователю настраивать функции наград и обеспечивает согласование LLM на этапе декодирования (DeAL). В основе нашего подхода лежит рассмотрение декодирования как процесса поиска, управляемого эвристиками, что позволяет использовать широкий спектр целей согласования. Наши эксперименты с программными ограничениями, такими как ограничения по ключевым словам и длине (широко изучавшиеся в эпоху до LLM), и абстрактными целями, такими как безвредность и полезность (предложенными в эпоху после LLM), показывают, что мы можем эффективно работать с тонкими компромиссами, улучшать соблюдение целей согласования и устранять остаточные пробелы в LLM. Наконец, хотя DeAL может эффективно сочетаться с RLHF и техниками подсказок, его универсальность замедляет процесс декодирования, что является задачей для будущих оптимизаций.

Управление движением твердого тела в реальных условиях с учетом воздействия жидкостей с использованием глубокого обучения с подкреплением
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

Feb 8

ByMohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli

Недавние успехи в практическом применении обучения с подкреплением (RL) основывались на возможности точного моделирования систем в больших масштабах. Однако в таких областях, как системы с динамикой жидкостей, наблюдаются сложные динамические явления, которые трудно моделировать с высокой частотой интегрирования, что ограничивает прямое применение современных алгоритмов глубокого RL к часто дорогостоящему или критически важному для безопасности оборудованию. В данной работе мы представляем "Box o Flows" — новую настольную экспериментальную систему управления для систематической оценки алгоритмов RL в динамических реальных сценариях. Мы описываем ключевые компоненты системы Box o Flows и в серии экспериментов демонстрируем, как современные алгоритмы RL без модели могут синтезировать разнообразные сложные поведения с помощью простых спецификаций вознаграждения. Кроме того, мы исследуем роль автономного RL в эффективном тестировании гипотез с использованием данных, повторно используя прошлый опыт. Мы считаем, что полученные в этом предварительном исследовании выводы и доступность систем, подобных Box o Flows, способствуют разработке систематических алгоритмов RL, которые могут быть широко применены к сложным динамическим системам. Дополнительные материалы и видео экспериментов доступны по адресу https://sites.google.com/view/box-o-flows/home.

Редактирование моделей с использованием канонических примеров
Model Editing with Canonical Examples

Feb 9

ByJohn Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning