Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере того как крупные языковые модели (LLM) становятся все более важными в различных областях, остаются нерешенными следующие задачи, связанные с ускорением вывода LLM: (1) Синхронизированное частичное обновление softmax. Операция softmax требует синхронизированного обновления между каждым частичным результатом softmax, что приводит к накладным расходам около 20% для вычисления внимания в LLM. (2) Недостаточное использование вычислений в плоских операциях GEMM. Форма матриц, выполняющих GEMM в выводе LLM, является плоской, что приводит к недостаточному использованию вычислений и потере производительности более чем на 50% из-за добавления нулей в предыдущих разработках. (3) Потери производительности из-за статического потока данных. Производительность ядра в LLM зависит от различных характеристик входных данных, конфигураций оборудования и т.д. Единый и статический поток данных может привести к потере производительности на 50,25% для GEMM различных форм в выводе LLM. Мы представляем FlashDecoding++, быстрый механизм вывода LLM, поддерживающий основные LLM и аппаратные платформы. Для решения вышеуказанных задач FlashDecoding++ предлагает следующие инновационные подходы: (1) Асинхронный softmax с унифицированным максимальным значением. FlashDecoding++ вводит технику унифицированного максимального значения для различных частичных вычислений softmax, чтобы избежать синхронизации. (2) Оптимизация плоских GEMM с двойной буферизацией. FlashDecoding++ указывает, что плоские GEMM различных форм сталкиваются с разными узкими местами. Затем применяются такие техники, как двойная буферизация. (3) Эвристический поток данных с адаптацией к аппаратным ресурсам. FlashDecoding++ эвристически оптимизирует поток данных, используя различные аппаратные ресурсы с учетом динамики входных данных. Благодаря универсальности оптимизаций в FlashDecoding++, он может достичь ускорения до 4,86x и 2,18x на GPU NVIDIA и AMD по сравнению с реализациями Hugging Face. FlashDecoding++ также обеспечивает среднее ускорение в 1,37x по сравнению с современными механизмами вывода LLM на основных LLM.
Мы представляем RoboGen — генеративного роботизированного агента, который автоматически обучается разнообразным роботизированным навыкам в масштабе с помощью генеративной симуляции. RoboGen использует последние достижения в области базовых и генеративных моделей. Вместо прямого применения или адаптации этих моделей для создания политик или низкоуровневых действий мы предлагаем генеративную схему, которая использует эти модели для автоматического создания разнообразных задач, сцен и обучающих данных, тем самым масштабируя обучение роботизированным навыкам с минимальным участием человека. Наш подход оснащает роботизированного агента самоконтролируемым циклом «предложить-сгенерировать-обучиться»: агент сначала предлагает интересные задачи и навыки для разработки, затем генерирует соответствующие симуляционные среды, размещая соответствующие объекты и ресурсы с правильными пространственными конфигурациями. После этого агент разбивает предложенную высокоуровневую задачу на подзадачи, выбирает оптимальный подход к обучению (обучение с подкреплением, планирование движения или оптимизация траектории), генерирует необходимые обучающие данные и затем обучает политики для приобретения предложенного навыка. Наша работа направлена на извлечение обширных и универсальных знаний, заложенных в крупномасштабных моделях, и их перенос в область робототехники. Наш полностью генеративный конвейер может быть запрошен многократно, создавая бесконечный поток демонстраций навыков, связанных с разнообразными задачами и средами.
Мы предлагаем новый подход для генеративного моделирования, основанный на обучении нейронной сети быть идемпотентной. Идемпотентный оператор — это оператор, который может применяться последовательно без изменения результата после первого применения, то есть выполняется условие f(f(z))=f(z). Предложенная модель f обучается для отображения исходного распределения (например, гауссовского шума) на целевое распределение (например, реалистичные изображения) с использованием следующих целей: (1) Образцы из целевого распределения должны отображаться на самих себя, то есть f(x)=x. Мы определяем целевое многообразие как множество всех образцов, которые f отображает на самих себя. (2) Образцы, формирующие исходное распределение, должны отображаться на определенное целевое многообразие. Это достигается путем оптимизации идемпотентного члена f(f(z))=f(z), который способствует тому, чтобы область значений f(z) находилась на целевом многообразии. В идеальных условиях такой процесс гарантированно сходится к целевому распределению. Данная стратегия позволяет получить модель, способную генерировать выходные данные за один шаг, сохраняя согласованное латентное пространство, а также допускать последовательные применения для уточнения. Кроме того, мы обнаружили, что, обрабатывая входные данные как из целевого, так и из исходного распределений, модель эффективно проецирует искаженные или измененные данные обратно на целевое многообразие. Данная работа представляет собой первый шаг к созданию «глобального проектора», который позволяет проецировать любой входной сигнал в целевое распределение данных.
Мы представляем Easy End-to-End Diffusion-based Text to Speech (E3 TTS) — простую и эффективную сквозную модель преобразования текста в речь на основе диффузии. E3 TTS напрямую принимает на вход обычный текст и генерирует аудиоволну через итеративный процесс уточнения. В отличие от многих предыдущих работ, E3 TTS не полагается на промежуточные представления, такие как спектрограммы или информация о выравнивании. Вместо этого E3 TTS моделирует временную структуру аудиоволны с помощью процесса диффузии. Без использования дополнительной условной информации E3 TTS поддерживает гибкую латентную структуру внутри заданного аудио. Это позволяет E3 TTS легко адаптироваться к задачам zero-shot, таким как редактирование, без необходимости дополнительного обучения. Эксперименты показывают, что E3 TTS способен генерировать аудио высокой точности, приближаясь к производительности современных нейронных систем преобразования текста в речь. Аудиообразцы доступны по адресу https://e3tts.github.io.
Смещение распределения представляет собой ключевую проблему при внедрении моделей машинного обучения, поскольку они могут быть недостаточно подготовлены для работы с реальными данными. Это особенно заметно в задаче генерации аудио по тексту, где закодированные представления легко нарушаются при работе с неизвестными запросами, что приводит к ухудшению качества генерируемого аудио. Ограниченный набор текстово-аудио пар остается недостаточным для условной генерации аудио в реальных условиях, так как пользовательские запросы часто недостаточно специфицированы. В частности, мы наблюдаем устойчивое ухудшение качества аудио в сгенерированных образцах при использовании пользовательских запросов по сравнению с запросами из обучающего набора. В связи с этим мы предлагаем основанную на извлечении информации структуру редактирования запросов в контексте, которая использует подписи из обучающего набора в качестве демонстративных примеров для пересмотра пользовательских запросов. Мы показываем, что данная структура улучшает качество аудио для набора собранных пользовательских запросов, которые были отредактированы с учетом подписей из обучающего набора в качестве примеров.
Мы представляем масштабируемую, восходящую и внутренне разнообразную схему сбора данных, которая может быть использована для высокоуровневого рассуждения с длинными и средними горизонтами и которая обеспечивает в 2,2 раза более высокую пропускную способность по сравнению с традиционным узким нисходящим пошаговым сбором. Мы собираем реалистичные данные, выполняя любые запросы пользователей в рамках трех офисных зданий и используя несколько роботизированных и человеческих воплощений. С помощью этих данных мы показываем, что модели, обученные на всех воплощениях, работают лучше, чем модели, обученные только на данных роботов, даже при оценке исключительно на эпизодах с роботами. Мы обнаруживаем, что при фиксированном бюджете на сбор данных выгодно использовать более дешевый сбор данных с участием людей наряду с роботизированным сбором. Мы публикуем большой и высокоразнообразный (29 520 уникальных инструкций) набор данных под названием RoboVQA, содержащий 829 502 пары (видео, текст) для визуального ответа на вопросы, ориентированного на робототехнику. Мы также демонстрируем, как оценка реальных экспериментов с роботами с использованием механизма вмешательства позволяет выполнять задачи до завершения, делая их пригодными для развертывания под наблюдением человека, даже если они не идеальны, а также предоставляет единый показатель производительности. Мы демонстрируем единую модель, названную RoboVQA-VideoCoCa, обученную на нашем наборе данных, которая способна выполнять различные заземленные высокоуровневые задачи рассуждения в широких реалистичных условиях с частотой когнитивных вмешательств на 46% ниже, чем у базовой модели визуального языка (VLM) с нулевым обучением, и способна направлять реальных роботов через задачи с длинным горизонтом. Разрыв в производительности с моделями с нулевым обучением, находящимися на переднем крае, указывает на то, что для развертывания в реальном мире остается собрать много заземленных данных, подчеркивая критическую необходимость масштабируемых подходов к сбору данных. Наконец, мы показываем, что видео-VLM значительно превосходят VLM, работающие с одиночными изображениями, со средним снижением частоты ошибок на 19% по всем задачам VQA. Данные и видео доступны по адресу https://robovqa.github.io.