Ежедневно отобранные исследовательские статьи по ИИ с переводами
Задача синтеза речи с нулевым обучением (zero-shot text-to-speech) заключается в создании голосов на основе речевых подсказок, которые ранее не использовались. Предыдущие крупномасштабные модели синтеза речи для нескольких говорящих успешно достигали этой цели с использованием записи длительностью до 10 секунд. Однако большинство из них предназначены для работы только с короткими речевыми подсказками. Ограниченная информация в коротких подсказках существенно снижает качество имитации тонких характеристик голоса. В данной статье мы представляем Mega-TTS 2 — универсальную модель синтеза речи для нескольких говорящих с нулевым обучением, способную синтезировать речь для неизвестных говорящих на основе подсказок произвольной длины. В частности, мы 1) разработали многоканальный энкодер тембра для извлечения информации о тембре из нескольких речевых образцов; 2) обучили языковую модель просодии на основе речевых подсказок произвольной длины. Благодаря этим решениям наша модель подходит для подсказок разной длины, что расширяет верхний предел качества синтеза речи с нулевым обучением. Помимо подсказок произвольной длины, мы вводим подсказки произвольного источника, которые используют вероятности, полученные из выходных данных нескольких P-LLM, для создания выразительной и контролируемой просодии. Кроме того, мы предлагаем авторегрессионную модель длительности на уровне фонем, чтобы добавить возможности обучения в контексте для моделирования длительности. Эксперименты показывают, что наш метод не только синтезирует речь, сохраняющую идентичность говорящего, на основе короткой подсказки, но и демонстрирует улучшенные результаты при использовании более длинных речевых подсказок. Аудиообразцы доступны по ссылке: https://mega-tts.github.io/mega2_demo/.
Крупные языковые модели (LLM) продемонстрировали способность к обучению в контексте, что позволяет им выполнять различные задачи на основе нескольких примеров входных и выходных данных. Однако эффективность такого обучения в контексте сильно зависит от качества выбранных примеров. В данной статье мы предлагаем новый фреймворк для итеративного обучения плотных моделей поиска, которые могут идентифицировать высококачественные примеры для LLM. Наш фреймворк сначала обучает модель оценки на основе обратной связи от LLM для определения качества кандидатов, а затем использует дистилляцию знаний для обучения плотной модели поиска на основе би-энкодера. Эксперименты на наборе из 30 задач показывают, что наш фреймворк значительно улучшает производительность обучения в контексте. Кроме того, мы демонстрируем способность нашего фреймворка к обобщению на задачи, не встречавшиеся во время обучения. Подробный анализ показывает, что наша модель улучшает производительность за счет поиска примеров с похожими паттернами, и эти улучшения согласуются для LLM различного размера.
В данной работе мы представляем фреймворк для обучения представлений признаков с самоконтролем DreamTeacher, который использует генеративные сети для предварительного обучения базовых моделей обработки изображений. Мы предлагаем извлекать знания из обученной генеративной модели и передавать их стандартным базовым моделям обработки изображений, которые были тщательно разработаны для конкретных задач восприятия. Мы исследуем два типа дистилляции знаний: 1) передачу изученных генеративных признаков на целевые базовые модели обработки изображений в качестве альтернативы их предварительному обучению на больших размеченных наборах данных, таких как ImageNet, и 2) передачу меток, полученных от генеративных сетей с использованием голов задач, на логиты целевых базовых моделей. Мы проводим обширный анализ на множестве генеративных моделей, бенчмарках для задач плотного предсказания и различных режимах предварительного обучения. Эмпирически мы обнаруживаем, что наш DreamTeacher значительно превосходит существующие подходы к обучению представлений с самоконтролем по всем направлениям. Предварительное обучение на ImageNet без учителя с использованием DreamTeacher приводит к значительным улучшениям по сравнению с предварительным обучением на классификации ImageNet на последующих наборах данных, демонстрируя генеративные модели, и в частности диффузионные генеративные модели, как перспективный подход к обучению представлений на больших и разнообразных наборах данных без необходимости ручной аннотации.
Мы рассматриваем задачу генерации реалистичных 3D-движений человека, взаимодействующего с объектами в сцене. Наша ключевая идея заключается в создании нейронного поля взаимодействия, привязанного к конкретному объекту, которое вычисляет расстояние до допустимого многообразия взаимодействия на основе заданной позы человека. Это поле взаимодействия направляет выборку в диффузионной модели движения человека, учитывающей объект, что способствует созданию правдоподобных контактов и семантики аффордансов. Для поддержки взаимодействий с ограниченным объемом данных мы предлагаем автоматизированный конвейер синтетических данных. Для этого мы используем предварительно обученную модель движения, обладающую априорными знаниями о базовых аспектах человеческого движения, инициализируя её специфическими для взаимодействия опорными позами, извлеченными из ограниченных данных захвата движения. Используя нашу управляемую диффузионную модель, обученную на сгенерированных синтетических данных, мы синтезируем реалистичные движения для таких действий, как сидение и подъем, с несколькими объектами, превосходя альтернативные подходы по качеству движения и успешности выполнения действий. Мы называем наш фреймворк NIFTY: Neural Interaction Fields for Trajectory sYnthesis.