Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Seed-TTS: Семейство высококачественных универсальных моделей генерации речи
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Jun 4

ByPhilip Anastassiou, Jiawei Chen, Jitong Chen, Yuanzhe Chen, Zhuo Chen, Ziyi Chen, Jian Cong, Lelai Deng, Chuang Ding, Lu Gao, Mingqing Gong, Peisong Huang, Qingqing Huang, Zhiying Huang, Yuanyuan Huo, Dongya Jia, Chumin Li, Feiya Li, Hui Li, Jiaxin Li, Xiaoyang Li, Xingxing Li, Lin Liu, Shouda Liu, Sichao Liu, Xudong Liu, Yuchen Liu, Zhengxi Liu, Lu Lu, Junjie Pan, Xin Wang, Yuping Wang, Yuxuan Wang, Zhen Wei, Jian Wu, Chao Yao, Yifeng Yang, Yuanhao Yi, Junteng Zhang, Qidi Zhang, Shuo Zhang, Wenjie Zhang, Yang Zhang, Zilin Zhao, Dejian Zhong, Xiaobin Zhuang

Мы представляем Seed-TTS, семейство масштабных авторегрессивных моделей текст в речь (TTS), способных генерировать речь, практически неотличимую от человеческой речи. Seed-TTS служит в качестве базовой модели для генерации речи и выделяется в обучении речи в контексте, достигая производительности в сходстве диктора и естественности, соответствующей действительной человеческой речи как в объективных, так и в субъективных оценках. Проводя тонкую настройку, мы достигаем еще более высоких субъективных оценок по этим метрикам. Seed-TTS обладает превосходным контролем над различными атрибутами речи, такими как эмоция, и способен генерировать выразительную и разнообразную речь для дикторов в естественной среде. Более того, мы предлагаем метод самодистилляции для факторизации речи, а также подход на основе обучения с подкреплением для улучшения устойчивости модели, сходства диктора и контролируемости. Мы также представляем неавторегрессивный (NAR) вариант модели Seed-TTS, названный Seed-TTS_DiT, который использует полностью диффузионную архитектуру. В отличие от предыдущих систем TTS на основе NAR, Seed-TTS_DiT не зависит от предварительно оцененных длительностей фонем и выполняет генерацию речи через обработку от начала до конца. Мы демонстрируем, что этот вариант достигает сопоставимой производительности с вариантом на основе языковой модели и демонстрируем его эффективность в редактировании речи. Мы призываем читателей прослушать демонстрации по ссылке https://bytedancespeech.github.io/seedtts_tech_report.

Верить или не верить вашему LLM
To Believe or Not to Believe Your LLM

Jun 4

ByYasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári

Мы исследуем количественную оценку неопределенности в больших языковых моделях (LLM) с целью выявления моментов, когда неопределенность в ответах на запрос является значительной. Мы одновременно рассматриваем как эпистемическую, так и алеаторическую неопределенности, где первая происходит из недостатка знаний о истине (например, о фактах или языке), а вторая обусловлена неустранимой случайностью (например, наличием нескольких возможных ответов). В частности, мы вывели информационно-теоретическую метрику, которая позволяет надежно обнаруживать случаи, когда только эпистемическая неопределенность является значительной, в таких случаях вывод модели ненадежен. Это условие можно вычислить исключительно на основе вывода модели, полученного просто путем специального итеративного подталкивания на основе предыдущих ответов. Такая количественная оценка, например, позволяет обнаруживать галлюцинации (случаи, когда эпистемическая неопределенность высока) как в случае одного, так и нескольких ответов. Это в отличие от многих стандартных стратегий количественной оценки неопределенности (например, установка порога для логарифма правдоподобия ответа), где галлюцинации в случае нескольких ответов не могут быть обнаружены. Мы проводим серию экспериментов, которые демонстрируют преимущества нашего подхода. Кроме того, наши исследования проливают свет на то, как вероятности, присвоенные данному выводу LLM, могут быть усилены итеративным подталкиванием, что может представлять самостоятельный интерес.

Оптимизация предпочтений с помощью самоулучшающихся устойчивых алгоритмов.
Self-Improving Robust Preference Optimization

Jun 3

ByEugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar

Как онлайн, так и офлайн методы RLHF, такие как PPO и DPO, оказались чрезвычайно успешными в выравнивании ИИ с предпочтениями человека. Несмотря на их успех, существующие методы сталкиваются с фундаментальной проблемой: их оптимальное решение сильно зависит от задачи (т.е. неустойчиво к задачам вне распределения). Здесь мы решаем эту проблему, предлагая Self-Improving Robust Preference Optimization (SRPO), практическую и математически обоснованную офлайн рамку RLHF, которая полностью устойчива к изменениям задачи. Основная идея SRPO заключается в том, чтобы представить проблему обучения на основе предпочтений человека как процесс самоусовершенствования, который может быть математически выражен в терминах цели минимакса, направленной на совместную оптимизацию политики самоусовершенствования и генеративной политики в адверсарном стиле. Решение этой задачи оптимизации не зависит от обучающей задачи и, следовательно, устойчиво к ее изменениям. Затем мы показываем, что данная цель может быть переформулирована в виде неадверсарной офлайн потери, которую можно оптимизировать с использованием стандартных техник обучения с учителем в масштабе без необходимости модели вознаграждения и онлайн вывода. Мы демонстрируем эффективность SRPO в терминах побед AI (WR) над человеческими (GOLD) завершениями. В частности, когда SRPO оценивается на наборе данных OOD XSUM, он превосходит известный DPO с явным отрывом в 15% после 5 самопересмотров, достигая WR 90%.

I4VGen: изображение как ступень для генерации текста в видеоформате
I4VGen: Image as Stepping Stone for Text-to-Video Generation

Jun 4

ByXiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang

Генерация видео по тексту отстает по качеству и разнообразию от синтеза изображений по тексту из-за сложности пространственно-временного моделирования и ограниченности наборов данных видео-текст. В данной статье представлена I4VGen - фреймворк вывода видео-диффузии, не требующий обучения и готовый к использованию, который улучшает генерацию видео по тексту, используя надежные техники изображений. Конкретно, следуя от текста к изображению к видео, I4VGen разделяет генерацию видео по тексту на два этапа: синтез якорного изображения и синтез видео под руководством якорного изображения. Соответственно, используется хорошо спроектированная конвейерная генерация-выборка для достижения визуально реалистичного и семантически верного якорного изображения, а также внедрена инновационная выборка дистилляции оценки видео-шума-инвариантного, чтобы анимировать изображение в динамическое видео, за которым следует процесс регенерации видео для его улучшения. Эта стратегия вывода эффективно смягчает распространенную проблему ненулевого отношения сигнал-шум к терминалу. Обширные оценки показывают, что I4VGen не только производит видео с более высоким визуальным реализмом и текстовой достоверностью, но также интегрируется безупречно в существующие модели диффузии изображений в видео, тем самым улучшая общее качество видео.

Руководство моделью диффузии с использованием некорректной версии самой модели.
Guiding a Diffusion Model with a Bad Version of Itself

Jun 4

ByTero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine

Основные оси интереса в моделях диффузии, генерирующих изображения, - это качество изображения, количество вариации в результатах и степень их соответствия заданному условию, например, метке класса или текстовому подсказу. Популярный подход к руководству без использования классификатора использует безусловную модель для направления условной модели, что приводит к одновременному улучшению соответствия подсказке и повышению качества изображений за счет снижения вариации. Эти эффекты кажутся неотделимо переплетенными и, следовательно, сложными для управления. Мы обнаружили удивительный факт, что возможно достичь разделенного контроля над качеством изображения, не жертвуя количеством вариации, направляя генерацию с использованием более маленькой, менее обученной версии самой модели, а не безусловной модели. Это приводит к значительным улучшениям в генерации ImageNet, устанавливая рекордные значения FID в 1.01 для 64x64 и 1.25 для 512x512 с использованием общедоступных сетей. Более того, метод также применим к безусловным моделям диффузии, радикально улучшая их качество.

RoboCasa: Масштабное моделирование повседневных задач для универсальных роботов
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

Jun 4

BySoroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, Yuke Zhu

Недавние достижения в области искусственного интеллекта (ИИ) в значительной степени были обусловлены масштабированием. В робототехнике масштабирование затруднено из-за отсутствия доступа к обширным наборам данных роботов. Мы выступаем за использование реалистичной физической симуляции как средства для масштабирования сред, задач и наборов данных для методов обучения роботов. Мы представляем RoboCasa, крупномасштабную симуляционную платформу для обучения универсальных роботов в повседневных средах. RoboCasa включает реалистичные и разнообразные сцены, сосредотачиваясь на кухонных средах. Мы предоставляем тысячи 3D-объектов по более чем 150 категориям объектов и десятки мебели и бытовой техники, с которыми можно взаимодействовать. Мы обогащаем реализм и разнообразие нашей симуляции с помощью генеративных инструментов ИИ, таких как объекты из текста в 3D-модели и текстуры окружения из текста в изображения. Мы разрабатываем набор из 100 задач для систематической оценки, включая составные задачи, созданные под руководством крупных языковых моделей. Для облегчения обучения мы предоставляем высококачественные демонстрации человека и интегрируем методы автоматической генерации траекторий для значительного расширения наших наборов данных с минимальной нагрузкой на человека. Наши эксперименты показывают явную тенденцию к масштабированию при использовании синтетически сгенерированных данных роботов для обучения по методу имитации в крупномасштабном масштабе и демонстрируют большой потенциал использования симуляционных данных в задачах реального мира. Видео и открытый исходный код доступны на https://robocasa.ai/

V-Express: Условное отсевание для поэтапного обучения портретной генерации видео
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

Jun 4

ByCong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang

В области создания портретных видео использование одиночных изображений для генерации портретных видео становится все более распространенным. Одним из распространенных подходов является использование генеративных моделей для улучшения адаптеров для управляемой генерации. Однако управляющие сигналы (например, текст, аудио, опорное изображение, поза, глубинная карта и т. д.) могут различаться по силе. Среди них слабые условия часто испытывают затруднения в эффективности из-за вмешательства более сильных условий, что создает проблему балансировки этих условий. В нашей работе по созданию портретных видео мы выявили аудиосигналы как особенно слабые, часто затмеваемые более сильными сигналами, такими как поза лица и опорное изображение. Однако прямое обучение со слабыми сигналами часто приводит к трудностям с сходимостью. Для решения этой проблемы мы предлагаем V-Express, простой метод, который балансирует различные управляющие сигналы через пошаговое обучение и условную операцию отсева. Наш метод постепенно обеспечивает эффективное управление слабыми условиями, тем самым достигая возможностей генерации, которые одновременно учитывают позу лица, опорное изображение и аудио. Экспериментальные результаты показывают, что наш метод может эффективно генерировать портретные видео, управляемые аудио. Более того, предлагается потенциальное решение для одновременного и эффективного использования условий различной силы.

CamCo: Генерация видео изображений с помощью камеры с 3D-согласованием
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

Jun 4

ByDejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat

Недавно модели видеораспространения стали выразительными генеративными инструментами для создания видеоконтента высокого качества, легко доступными для обычных пользователей. Однако эти модели часто не обеспечивают точного контроля над положением камеры для генерации видео, что ограничивает выразительность кинематографического языка и контроль пользователя. Для решения этой проблемы мы представляем CamCo, который позволяет осуществлять тонкий контроль положения камеры для генерации изображений в видео. Мы оснастили предварительно обученный генератор изображений в видео точно параметризованным вводом положения камеры с использованием координат Плюккера. Для улучшения трехмерной согласованности в создаваемых видео мы интегрировали модуль внимания к эпиполярной геометрии в каждый блок внимания, который накладывает эпиполярные ограничения на карты признаков. Кроме того, мы донастраиваем CamCo на реальных видеозаписях с оцененными положениями камеры через алгоритм структуры движения для лучшего синтеза движения объектов. Наши эксперименты показывают, что CamCo значительно улучшает трехмерную согласованность и возможности управления камерой по сравнению с предыдущими моделями, эффективно генерируя правдоподобное движение объектов. Страница проекта: https://ir1d.github.io/CamCo/

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Seed-TTS: Семейство высококачественных универсальных моделей генерации речи
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Jun 4

Верить или не верить вашему LLM
To Believe or Not to Believe Your LLM

Jun 4

ByYasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári

Оптимизация предпочтений с помощью самоулучшающихся устойчивых алгоритмов.
Self-Improving Robust Preference Optimization

Jun 3

ByEugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar

I4VGen: изображение как ступень для генерации текста в видеоформате
I4VGen: Image as Stepping Stone for Text-to-Video Generation

Jun 4

ByXiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang

Руководство моделью диффузии с использованием некорректной версии самой модели.
Guiding a Diffusion Model with a Bad Version of Itself

Jun 4

ByTero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine

RoboCasa: Масштабное моделирование повседневных задач для универсальных роботов
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

Jun 4

BySoroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, Yuke Zhu

V-Express: Условное отсевание для поэтапного обучения портретной генерации видео
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

Jun 4

ByCong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang

CamCo: Генерация видео изображений с помощью камеры с 3D-согласованием
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

Jun 4

ByDejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat