Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Seed-TTS, семейство масштабных авторегрессивных моделей текст в речь (TTS), способных генерировать речь, практически неотличимую от человеческой речи. Seed-TTS служит в качестве базовой модели для генерации речи и выделяется в обучении речи в контексте, достигая производительности в сходстве диктора и естественности, соответствующей действительной человеческой речи как в объективных, так и в субъективных оценках. Проводя тонкую настройку, мы достигаем еще более высоких субъективных оценок по этим метрикам. Seed-TTS обладает превосходным контролем над различными атрибутами речи, такими как эмоция, и способен генерировать выразительную и разнообразную речь для дикторов в естественной среде. Более того, мы предлагаем метод самодистилляции для факторизации речи, а также подход на основе обучения с подкреплением для улучшения устойчивости модели, сходства диктора и контролируемости. Мы также представляем неавторегрессивный (NAR) вариант модели Seed-TTS, названный Seed-TTS_DiT, который использует полностью диффузионную архитектуру. В отличие от предыдущих систем TTS на основе NAR, Seed-TTS_DiT не зависит от предварительно оцененных длительностей фонем и выполняет генерацию речи через обработку от начала до конца. Мы демонстрируем, что этот вариант достигает сопоставимой производительности с вариантом на основе языковой модели и демонстрируем его эффективность в редактировании речи. Мы призываем читателей прослушать демонстрации по ссылке https://bytedancespeech.github.io/seedtts_tech_report.
Мы исследуем количественную оценку неопределенности в больших языковых моделях (LLM) с целью выявления моментов, когда неопределенность в ответах на запрос является значительной. Мы одновременно рассматриваем как эпистемическую, так и алеаторическую неопределенности, где первая происходит из недостатка знаний о истине (например, о фактах или языке), а вторая обусловлена неустранимой случайностью (например, наличием нескольких возможных ответов). В частности, мы вывели информационно-теоретическую метрику, которая позволяет надежно обнаруживать случаи, когда только эпистемическая неопределенность является значительной, в таких случаях вывод модели ненадежен. Это условие можно вычислить исключительно на основе вывода модели, полученного просто путем специального итеративного подталкивания на основе предыдущих ответов. Такая количественная оценка, например, позволяет обнаруживать галлюцинации (случаи, когда эпистемическая неопределенность высока) как в случае одного, так и нескольких ответов. Это в отличие от многих стандартных стратегий количественной оценки неопределенности (например, установка порога для логарифма правдоподобия ответа), где галлюцинации в случае нескольких ответов не могут быть обнаружены. Мы проводим серию экспериментов, которые демонстрируют преимущества нашего подхода. Кроме того, наши исследования проливают свет на то, как вероятности, присвоенные данному выводу LLM, могут быть усилены итеративным подталкиванием, что может представлять самостоятельный интерес.
Как онлайн, так и офлайн методы RLHF, такие как PPO и DPO, оказались чрезвычайно успешными в выравнивании ИИ с предпочтениями человека. Несмотря на их успех, существующие методы сталкиваются с фундаментальной проблемой: их оптимальное решение сильно зависит от задачи (т.е. неустойчиво к задачам вне распределения). Здесь мы решаем эту проблему, предлагая Self-Improving Robust Preference Optimization (SRPO), практическую и математически обоснованную офлайн рамку RLHF, которая полностью устойчива к изменениям задачи. Основная идея SRPO заключается в том, чтобы представить проблему обучения на основе предпочтений человека как процесс самоусовершенствования, который может быть математически выражен в терминах цели минимакса, направленной на совместную оптимизацию политики самоусовершенствования и генеративной политики в адверсарном стиле. Решение этой задачи оптимизации не зависит от обучающей задачи и, следовательно, устойчиво к ее изменениям. Затем мы показываем, что данная цель может быть переформулирована в виде неадверсарной офлайн потери, которую можно оптимизировать с использованием стандартных техник обучения с учителем в масштабе без необходимости модели вознаграждения и онлайн вывода. Мы демонстрируем эффективность SRPO в терминах побед AI (WR) над человеческими (GOLD) завершениями. В частности, когда SRPO оценивается на наборе данных OOD XSUM, он превосходит известный DPO с явным отрывом в 15% после 5 самопересмотров, достигая WR 90%.
Генерация видео по тексту отстает по качеству и разнообразию от синтеза изображений по тексту из-за сложности пространственно-временного моделирования и ограниченности наборов данных видео-текст. В данной статье представлена I4VGen - фреймворк вывода видео-диффузии, не требующий обучения и готовый к использованию, который улучшает генерацию видео по тексту, используя надежные техники изображений. Конкретно, следуя от текста к изображению к видео, I4VGen разделяет генерацию видео по тексту на два этапа: синтез якорного изображения и синтез видео под руководством якорного изображения. Соответственно, используется хорошо спроектированная конвейерная генерация-выборка для достижения визуально реалистичного и семантически верного якорного изображения, а также внедрена инновационная выборка дистилляции оценки видео-шума-инвариантного, чтобы анимировать изображение в динамическое видео, за которым следует процесс регенерации видео для его улучшения. Эта стратегия вывода эффективно смягчает распространенную проблему ненулевого отношения сигнал-шум к терминалу. Обширные оценки показывают, что I4VGen не только производит видео с более высоким визуальным реализмом и текстовой достоверностью, но также интегрируется безупречно в существующие модели диффузии изображений в видео, тем самым улучшая общее качество видео.
Основные оси интереса в моделях диффузии, генерирующих изображения, - это качество изображения, количество вариации в результатах и степень их соответствия заданному условию, например, метке класса или текстовому подсказу. Популярный подход к руководству без использования классификатора использует безусловную модель для направления условной модели, что приводит к одновременному улучшению соответствия подсказке и повышению качества изображений за счет снижения вариации. Эти эффекты кажутся неотделимо переплетенными и, следовательно, сложными для управления. Мы обнаружили удивительный факт, что возможно достичь разделенного контроля над качеством изображения, не жертвуя количеством вариации, направляя генерацию с использованием более маленькой, менее обученной версии самой модели, а не безусловной модели. Это приводит к значительным улучшениям в генерации ImageNet, устанавливая рекордные значения FID в 1.01 для 64x64 и 1.25 для 512x512 с использованием общедоступных сетей. Более того, метод также применим к безусловным моделям диффузии, радикально улучшая их качество.
Недавние достижения в области искусственного интеллекта (ИИ) в значительной степени были обусловлены масштабированием. В робототехнике масштабирование затруднено из-за отсутствия доступа к обширным наборам данных роботов. Мы выступаем за использование реалистичной физической симуляции как средства для масштабирования сред, задач и наборов данных для методов обучения роботов. Мы представляем RoboCasa, крупномасштабную симуляционную платформу для обучения универсальных роботов в повседневных средах. RoboCasa включает реалистичные и разнообразные сцены, сосредотачиваясь на кухонных средах. Мы предоставляем тысячи 3D-объектов по более чем 150 категориям объектов и десятки мебели и бытовой техники, с которыми можно взаимодействовать. Мы обогащаем реализм и разнообразие нашей симуляции с помощью генеративных инструментов ИИ, таких как объекты из текста в 3D-модели и текстуры окружения из текста в изображения. Мы разрабатываем набор из 100 задач для систематической оценки, включая составные задачи, созданные под руководством крупных языковых моделей. Для облегчения обучения мы предоставляем высококачественные демонстрации человека и интегрируем методы автоматической генерации траекторий для значительного расширения наших наборов данных с минимальной нагрузкой на человека. Наши эксперименты показывают явную тенденцию к масштабированию при использовании синтетически сгенерированных данных роботов для обучения по методу имитации в крупномасштабном масштабе и демонстрируют большой потенциал использования симуляционных данных в задачах реального мира. Видео и открытый исходный код доступны на https://robocasa.ai/
В области создания портретных видео использование одиночных изображений для генерации портретных видео становится все более распространенным. Одним из распространенных подходов является использование генеративных моделей для улучшения адаптеров для управляемой генерации. Однако управляющие сигналы (например, текст, аудио, опорное изображение, поза, глубинная карта и т. д.) могут различаться по силе. Среди них слабые условия часто испытывают затруднения в эффективности из-за вмешательства более сильных условий, что создает проблему балансировки этих условий. В нашей работе по созданию портретных видео мы выявили аудиосигналы как особенно слабые, часто затмеваемые более сильными сигналами, такими как поза лица и опорное изображение. Однако прямое обучение со слабыми сигналами часто приводит к трудностям с сходимостью. Для решения этой проблемы мы предлагаем V-Express, простой метод, который балансирует различные управляющие сигналы через пошаговое обучение и условную операцию отсева. Наш метод постепенно обеспечивает эффективное управление слабыми условиями, тем самым достигая возможностей генерации, которые одновременно учитывают позу лица, опорное изображение и аудио. Экспериментальные результаты показывают, что наш метод может эффективно генерировать портретные видео, управляемые аудио. Более того, предлагается потенциальное решение для одновременного и эффективного использования условий различной силы.
Недавно модели видеораспространения стали выразительными генеративными инструментами для создания видеоконтента высокого качества, легко доступными для обычных пользователей. Однако эти модели часто не обеспечивают точного контроля над положением камеры для генерации видео, что ограничивает выразительность кинематографического языка и контроль пользователя. Для решения этой проблемы мы представляем CamCo, который позволяет осуществлять тонкий контроль положения камеры для генерации изображений в видео. Мы оснастили предварительно обученный генератор изображений в видео точно параметризованным вводом положения камеры с использованием координат Плюккера. Для улучшения трехмерной согласованности в создаваемых видео мы интегрировали модуль внимания к эпиполярной геометрии в каждый блок внимания, который накладывает эпиполярные ограничения на карты признаков. Кроме того, мы донастраиваем CamCo на реальных видеозаписях с оцененными положениями камеры через алгоритм структуры движения для лучшего синтеза движения объектов. Наши эксперименты показывают, что CamCo значительно улучшает трехмерную согласованность и возможности управления камерой по сравнению с предыдущими моделями, эффективно генерируя правдоподобное движение объектов. Страница проекта: https://ir1d.github.io/CamCo/