HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

15 papers found

LongWriter: Разблокирование генерации более 10 000 слов из долгих контекстных LLM.
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Современные модели языка с длинным контекстом (LLM) могут обрабатывать входные данные до 100 000 токенов, однако испытывают трудности при генерации выводов, превышающих даже скромную длину в 2 000 слов. Через контролируемые эксперименты мы обнаружили, что эффективная длина генерации модели по своей сути ограничена образцом, который она видела во время надзорной донастройки (SFT). Другими словами, их ограничение вывода обусловлено недостатком примеров длинных выводов в существующих наборах данных SFT. Для решения этой проблемы мы представляем AgentWrite, агентный конвейер, который декомпозирует ультрадлинные задачи генерации на подзадачи, позволяя стандартным LLM генерировать последовательные выводы, превышающие 20 000 слов. Используя AgentWrite, мы создаем набор данных LongWriter-6k, содержащий 6 000 данных SFT с длиной вывода от 2k до 32k слов. Интегрируя этот набор данных в обучение модели, мы успешно увеличиваем длину вывода существующих моделей до более чем 10 000 слов, сохраняя качество вывода. Мы также разрабатываем LongBench-Write, комплексный бенчмарк для оценки возможностей ультрадлинной генерации. Наша модель с 9 миллиардами параметров, дополнительно улучшенная через DPO, достигает передовых результатов на этом бенчмарке, превосходя даже гораздо более крупные собственные модели. В целом, наша работа демонстрирует, что существующие модели LLM с длинным контекстом уже обладают потенциалом для более широкого окна вывода - все, что вам нужно, это данные с расширенным выводом во время настройки модели для разблокирования этой возможности. Наш код и модели доступны по ссылке: https://github.com/THUDM/LongWriter.

Изображение 3.
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

Мы представляем Imagen 3, латентную модель диффузии, которая генерирует изображения высокого качества по текстовым подсказкам. Мы описываем наши оценки качества и ответственности. На момент оценки Imagen 3 предпочтительнее других передовых моделей (SOTA). Кроме того, мы обсуждаем вопросы безопасности и представления, а также методы, которые мы использовали для минимизации потенциального вреда от наших моделей.

Разнообразие усиливает интеллект: Интеграция экспертизы агентов программной инженерии
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

Агенты крупных языковых моделей (LLM) показали большой потенциал в решении проблем реальной инженерии программного обеспечения (SWE). Самый передовой открытый агент SWE может решить более 27% реальных проблем GitHub в SWE-Bench Lite. Однако эти сложные фреймворки агентов обладают различными сильными сторонами, преуспевая в определенных задачах, но проявляя слабую производительность в других. Для полного использования разнообразия этих агентов мы предлагаем DEI (Diversity Empowered Intelligence), фреймворк, который использует их уникальную экспертизу. DEI функционирует как мета-модуль над существующими фреймворками агентов SWE, управляя коллективами агентов для улучшения решения проблем. Экспериментальные результаты показывают, что комитет агентов, управляемый DEI, способен превзойти производительность лучшего индивидуального агента на значительное расстояние. Например, группа открытых агентов SWE, с максимальной индивидуальной скоростью решения 27,3% в SWE-Bench Lite, может достичь скорости решения 34,3% с DEI, что означает улучшение на 25% и превосходство большинства закрытых решений. Наша наиболее успешная группа отличается скоростью решения 55%, занимая самое высокое место в SWE-Bench Lite. Наши результаты вносят вклад в растущее исследование коллективных AI систем и их потенциал в решении сложных задач инженерии программного обеспечения.

OpenResearcher: Разблокирование ИИ для Ускоренных Научных Исследований
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

Быстрый рост научной литературы создает значительные вызовы для исследователей, стремящихся быть в курсе последних достижений в своих областях и погружаться в новые направления. Мы представляем OpenResearcher, инновационную платформу, которая использует техники искусственного интеллекта (ИИ) для ускорения процесса исследований путем ответа на разнообразные вопросы от исследователей. OpenResearcher построен на основе Retrieval-Augmented Generation (RAG) для интеграции больших языковых моделей (LLM) с актуальными, специфичными для области знаниями. Более того, мы разрабатываем различные инструменты для OpenResearcher, чтобы понимать запросы исследователей, искать в научной литературе, фильтровать полученную информацию, предоставлять точные и всесторонние ответы, а также самостоятельно совершенствовать эти ответы. OpenResearcher может гибко использовать эти инструменты для балансировки эффективности и результативности. В результате OpenResearcher позволяет исследователям экономить время и увеличивать свой потенциал для обнаружения новых идей и стимулирования научных открытий. Демонстрация, видео и код доступны по ссылке: https://github.com/GAIR-NLP/OpenResearcher.

Послойный рекуррентный маршрутизатор для смеси экспертов.
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

Масштабирование крупных языковых моделей (LLM) революционизировало их возможности в различных задачах, однако этот рост должен быть сопровожден эффективными вычислительными стратегиями. Архитектура Mixture-of-Experts (MoE) выделяется своей способностью масштабировать размер модели без значительного увеличения затрат на обучение. Несмотря на их преимущества, текущие модели MoE часто демонстрируют неэффективность параметров. Например, предварительно обученная LLM на основе MoE с 52 миллиардами параметров может выполнять сравнимо с моделью стандартного типа с 6,7 миллиарда параметров. Будучи важной частью MoE, текущие маршрутизаторы в различных слоях независимо назначают токены, не используя историческую информацию о маршрутизации, что потенциально приводит к субоптимальным комбинациям токенов и экспертов, а также проблеме неэффективности параметров. Для устранения этой проблемы мы представляем Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE использует воротной рекуррентный блок (GRU) для установления зависимостей между решениями по маршрутизации на последовательных слоях. Такая рекуррентность по слоям может быть эффективно параллельно вычислена для входных токенов и вносит незначительные затраты. Наши обширные эмпирические оценки показывают, что языковые модели на основе RMoE последовательно превосходят спектр базовых моделей. Более того, RMoE интегрирует новый этап вычислений, ортогональный существующим методам, обеспечивая безупречную совместимость с другими архитектурами MoE. Наши анализы приписывают успехи RMoE его эффективному обмену информацией между слоями, что также улучшает выбор и разнообразие экспертов. Наш код доступен по ссылке https://github.com/qiuzh20/RMoE

Амуро и Чар: Анализ Взаимосвязи между Предварительным Обучением и Настройкой Крупных Языковых Моделей
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

Развитие больших языковых моделей приводит к формированию парадигмы предварительного обучения, за которым следует настройка, в рамках которой модель обычно предварительно обучается на большом корпусе текста и проходит этап настройки для согласования с предпочтениями человека или конечными задачами. В данной работе мы исследуем взаимосвязь между предварительным обучением и настройкой, выполняя настройку нескольких промежуточных контрольных точек предварительно обученных моделей. Наши результаты на 18 наборах данных показывают, что i) непрерывное предварительное обучение улучшает модель латентным образом, что проявляется после настройки; ii) с дополнительной настройкой наборы данных, на которых модель не проявляет способности, получают гораздо больше, чем те, на которых модель хорошо справляется на этапе предварительного обучения; iii) хотя модель значительно выигрывает от контролируемой настройки, она может забыть ранее известные знания об области и задачи, которые не были видны во время настройки; iv) модель проявляет высокую чувствительность к оценочным запросам после контролируемой настройки, но эту чувствительность можно смягчить дополнительным предварительным обучением.

SlotLifter: Подъемник слотов: подъем признаков, направляемый слотами для обучения объектно-центрических радиационных полей
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

Способность извлекать объектно-центрические абстракции из сложных визуальных сцен лежит в основе обобщения на уровне человека. Несмотря на значительный прогресс в методах обучения, ориентированных на объекты, обучение объектно-центрическим представлениям в трехмерном физическом мире остается важным вызовом. В данной работе мы предлагаем SlotLifter, новую модель объектно-центрического излучения, решающую задачи восстановления и декомпозиции сцены совместно с помощью подъема признаков, управляемого слотами. Такое решение объединяет представления обучения, ориентированные на объекты, и методы визуализации на основе изображений, предлагая передовую производительность в декомпозиции сцены и синтезе нового вида на четырех сложных синтетических и четырех сложных реальных наборах данных, превосходя существующие методы обучения объектно-центрическим представлениям в 3D мире на значительный уровень. Через обширные аблятивные исследования мы демонстрируем эффективность конструкции в SlotLifter, раскрывая ключевые идеи для потенциальных будущих направлений.

DC3DO: Диффузионный классификатор для 3D объектов
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Вдохновленные акцентом Джеффри Хинтона на генеративном моделировании "Чтобы распознавать формы, сначала научитесь их создавать", мы исследуем применение 3D диффузионных моделей для классификации объектов. Используя оценки плотности от этих моделей, наш подход, Классификатор Диффузии для 3D объектов (DC3DO), позволяет классифицировать 3D формы без дополнительного обучения. В среднем наш метод достигает улучшения на 12.5 процента по сравнению с его мультивидовыми аналогами, демонстрируя превосходное мультимодальное мышление по сравнению с дискриминативными подходами. DC3DO использует классово-условную диффузионную модель, обученную на ShapeNet, и мы проводим выводы на облаках точек стульев и автомобилей. Эта работа подчеркивает потенциал генеративных моделей в классификации 3D объектов.

FuxiTranyu: Мультиязычная крупномасштабная модель языка, обученная на сбалансированных данных
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

Большие языковые модели (LLM) продемонстрировали мастерство в широком спектре задач. Однако многие LLM показывают значительные различия в производительности между языками с высоким и низким уровнем ресурсов. Для устранения этого вызова мы представляем FuxiTranyu, мультиязычную LLM с открытым исходным кодом, разработанную для удовлетворения потребностей исследовательского сообщества в сбалансированных и высокопроизводительных мультиязычных возможностях. Базовая модель FuxiTranyu-8B с 8 миллиардами параметров обучается с нуля на тщательно сбалансированном мультиязычном репозитории данных, содержащем 600 миллиардов токенов, охватывающих 43 естественных языка и 16 языков программирования. Помимо базовой модели, мы также разрабатываем две модели, настроенные на инструкции: FuxiTranyu-8B-SFT, которая донастраивается на разнообразном мультиязычном наборе инструкций, и FuxiTranyu-8B-DPO, которая дополнительно улучшается с помощью DPO на наборе предпочтений для повышения способности к выравниванию. Обширные эксперименты на широком спектре мультиязычных бенчмарков демонстрируют конкурентоспособную производительность FuxiTranyu по сравнению с существующими мультиязычными LLM, например, BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B и Mistral-7B-Instruct. Анализы интерпретируемости как на уровне нейронов, так и на уровне представлений показывают, что FuxiTranyu способна учиться согласованным мультиязычным представлениям на разных языках. Для стимулирования дальнейших исследований в области мультиязычных LLM и их рабочих механизмов мы выпускаем как базовые, так и настроенные на инструкции модели FuxiTranyu вместе с 58 контрольными точками предварительного обучения на платформах HuggingFace и Github.

UniT: Объединенное тактильное представление для обучения роботов
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT - это новый подход к обучению тактильного представления, использующий VQVAE для изучения компактного скрытого пространства и служащий в качестве тактильного представления. Он использует тактильные изображения, полученные с помощью единственного простого объекта, для обучения представления с возможностью передачи и обобщения. Это тактильное представление может быть передано на различные последующие задачи, включая задачи восприятия и обучение политики манипуляции без предварительного обучения. Наше сравнение на задаче оценки позы 3D в руке показывает, что UniT превосходит существующие методы обучения визуального и тактильного представлений. Кроме того, эффективность UniT в обучении политики продемонстрирована на трех реальных задачах, включающих разнообразные манипулируемые объекты и сложные взаимодействия робота-объекта-окружения. Через обширные эксперименты показано, что UniT является простым в обучении, готовым к использованию, но широко эффективным методом обучения тактильного представления. Дополнительные детали можно найти в нашем открытом репозитории https://github.com/ZhengtongXu/UniT и на веб-сайте проекта https://zhengtongxu.github.io/unifiedtactile.github.io/.

MovieSum: Набор данных для абстрактного резюмирования сценариев кинофильмов
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

Сжатие сценариев фильмов представляет собой сложную задачу, поскольку требует понимания длинных контекстов ввода и различных элементов, уникальных для кино. Большие языковые модели показали значительные успехи в сжатии документов, но часто испытывают трудности при обработке длинных контекстов ввода. Более того, хотя транскрипты телевизионных передач получили внимание в последних исследованиях, сжатие сценариев фильмов остается малоисследованным. Для стимулирования исследований в этой области мы представляем новый набор данных, MovieSum, для абстрактного сжатия сценариев фильмов. Этот набор данных включает 2200 сценариев фильмов вместе с их краткими описаниями сюжета из Википедии. Мы вручную отформатировали сценарии фильмов, чтобы представить их структурные элементы. По сравнению с существующими наборами данных, MovieSum обладает несколькими отличительными особенностями: (1) Он включает сценарии фильмов, которые длиннее сценариев телевизионных эпизодов. (2) Он вдвое больше по размеру, чем предыдущие наборы данных сценариев фильмов. (3) Он предоставляет метаданные с идентификаторами IMDb для облегчения доступа к дополнительным внешним знаниям. Мы также показываем результаты недавно выпущенных больших языковых моделей, примененных к сжатию нашего набора данных, чтобы предоставить подробную отправную точку.

Проектирование белков с использованием больших языковых моделей: улучшения и сравнительный анализ
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

Предварительно обученные языковые модели (LLM) продемонстрировали значительные возможности в различных традиционных задачах обработки естественного языка (NLP), таких как суммаризация и распознавание сущностей. В данной статье мы исследуем применение LLM для генерации высококачественных последовательностей белков. Конкретно, мы используем набор предварительно обученных LLM, включая Mistral-7B1, Llama-2-7B2, Llama-3-8B3 и gemma-7B4, для создания действительных последовательностей белков. Все эти модели доступны публично. В отличие от предыдущих работ в этой области, наш подход использует относительно небольшой набор данных, включающий 42 000 различных последовательностей человеческих белков. Мы переобучаем эти модели для обработки данных, связанных с белками, обеспечивая генерацию биологически возможных структур белков. Наши результаты показывают, что даже с ограниченными данными адаптированные модели проявляют эффективность, сравнимую с установленными моделями, сосредоточенными на белках, такими как различные варианты ProGen, ProtGPT2 и ProLLaMA, которые были обучены на миллионах последовательностей белков. Для проверки и количественной оценки производительности наших моделей мы проводим сравнительный анализ, используя стандартные метрики, такие как pLDDT, RMSD, TM-score и REU. Более того, мы обязуемся сделать обученные версии всех четырех моделей общедоступными, способствуя большей прозрачности и сотрудничеству в области вычислительной биологии.

TacSL: Библиотека для симуляции и обучения визуотактильным сенсорам
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Для людей и роботов чувство осязания, известное как тактильное восприятие, является критическим для выполнения задач манипулирования с контактом. Три ключевые проблемы в робототехническом тактильном восприятии - 1) интерпретация сигналов сенсоров, 2) генерация сенсорных сигналов в новых сценариях и 3) обучение политикам на основе сенсоров. Для визуотактильных сенсоров интерпретация была облегчена благодаря их тесной связи с визионными сенсорами (например, RGB-камерами). Однако генерация все еще затруднительна, поскольку визуотактильные сенсоры обычно включают контакт, деформацию, освещение и изображение, все это дорого симулировать; в свою очередь, обучение политикам оказалось сложным, поскольку симуляцию нельзя использовать для сбора данных в крупном масштабе. Мы представляем TacSL (таксель), библиотеку для симуляции и обучения визуотактильных сенсоров на основе GPU. TacSL может использоваться для симуляции визуотактильных изображений и извлечения распределений силы контакта более чем в 200 раз быстрее, чем предыдущий state-of-the-art, все в рамках широко используемого симулятора Isaac Gym. Более того, TacSL предоставляет набор инструментов для обучения, включающий несколько моделей сенсоров, среды для обучения с интенсивным контактом и алгоритмы онлайн/офлайн, которые могут облегчить обучение политик для приложений sim-to-real. На алгоритмической стороне мы представляем новый алгоритм обучения с подкреплением онлайн, называемый асимметричным актор-критик дистилляцией (TacSL), разработанный для эффективного и эффективного обучения политик на основе тактильных данных в симуляции, которые могут быть перенесены в реальный мир. Наконец, мы демонстрируем полезность нашей библиотеки и алгоритмов, оценивая выгоды дистилляции и мультимодального восприятия для задач манипулирования с контактом, и, что самое важное, выполняя перенос из симуляции в реальность. Дополнительные видео и результаты доступны на https://iakinola23.github.io/tacsl/.

ZePo: Стилизация портретов без обучения с ускоренной выборкой
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

Модели генерации изображений на основе диффузии значительно продвинули область синтеза контента искусства. Однако текущие методы стилизации портретов обычно требуют либо тонкой настройки модели на основе примеров, либо применения инверсии DDIM для возврата изображений в пространство шума, что существенно замедляет процесс генерации изображений. Для преодоления этих ограничений в данной статье представлена рамочная модель стилизации портретов без инверсии на основе моделей диффузии, которая осуществляет слияние содержательных и стилевых признаков всего лишь за четыре этапа выборки. Мы обнаружили, что модели латентной согласованности, использующие дистилляцию согласованности, могут эффективно извлекать репрезентативные признаки согласованности из зашумленных изображений. Для слияния признаков согласованности, извлеченных из содержательных и стилевых изображений, мы предлагаем технику контроля внимания улучшения стиля, которая тщательно объединяет содержательные и стилевые признаки в пространстве внимания целевого изображения. Более того, мы предлагаем стратегию слияния признаков для объединения избыточных признаков в признаках согласованности, тем самым уменьшая вычислительную нагрузку контроля внимания. Обширные эксперименты подтвердили эффективность нашей предложенной рамочной модели в улучшении эффективности и достоверности стилизации. Код доступен по ссылке https://github.com/liujin112/ZePo.

Адаптация общей методики анонимизации диктора на основе дезентанглирования для улучшения сохранения эмоций
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Обычная система анонимизации диктора на основе общего декодирования обычно разделяет речь на содержательные, дикторские и просодические особенности с использованием отдельных кодировщиков. В данной статье исследуется, как адаптировать такую систему, когда необходимо более полно сохранить новый атрибут речи, например, эмоцию. Хотя существующие системы хорошо анонимизируют вложения диктора, они не предназначены для сохранения эмоции. Рассматриваются две стратегии. Во-первых, показано, что интеграция вложений эмоции из предварительно обученного эмоционального кодировщика может помочь сохранить эмоциональные подсказки, хотя такой подход немного ущемляет защиту конфиденциальности. В качестве альтернативы мы предлагаем стратегию компенсации эмоции в качестве последнего шага постобработки, применяемую к анонимизированным вложениям диктора. Это скрывает исходную личность диктора и вновь вводит потерянные во время анонимизации вложений диктора эмоциональные черты. Конкретно, мы моделируем атрибут эмоции с использованием метода опорных векторов для изучения отдельных границ для каждой эмоции. Во время вывода исходное вложение диктора обрабатывается двумя способами: сначала - с помощью индикатора эмоции для прогнозирования эмоции и точного выбора соответствующего метода опорных векторов для эмоции; и вторым - с помощью анонимизатора диктора для скрытия характеристик диктора. Затем анонимизированное вложение диктора модифицируется вдоль соответствующей границы метода опорных векторов в направлении улучшенной эмоциональной составляющей для сохранения эмоциональных подсказок. Предложенные стратегии также ожидается, что будут полезны для адаптации общей системы анонимизации диктора на основе декодирования для сохранения других целевых парапсихологических атрибутов, с потенциалом для ряда последующих задач.

Изображение 3.
Imagen 3

Aug 13