Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Lumiere — диффузионную модель для преобразования текста в видео, предназначенную для синтеза видеороликов, которые демонстрируют реалистичное, разнообразное и согласованное движение — ключевой вызов в области синтеза видео. Для этого мы предлагаем архитектуру Space-Time U-Net, которая генерирует весь временной отрезок видео за один проход через модель. Это отличается от существующих видео-моделей, которые сначала синтезируют удаленные ключевые кадры, а затем применяют временное супер-разрешение — подход, который затрудняет достижение глобальной временной согласованности. Используя как пространственную, так и (что особенно важно) временную понижающую и повышающую дискретизацию, а также задействуя предварительно обученную диффузионную модель для преобразования текста в изображение, наша модель учится напрямую генерировать видео с полной частотой кадров и низким разрешением, обрабатывая его на нескольких пространственно-временных масштабах. Мы демонстрируем передовые результаты в генерации видео из текста и показываем, что наш дизайн легко адаптируется для широкого спектра задач создания контента и приложений для редактирования видео, включая преобразование изображений в видео, восстановление видео и стилизованную генерацию.
В 2023 году работа с крупными визуально-языковыми моделями (LVLMs) стала популярной в сообществе ИИ. Однако относительно большое количество параметров (более 7 миллиардов) у популярных LVLMs затрудняет их обучение и развертывание на потребительских GPU, что отпугивает многих исследователей с ограниченными ресурсами. Представьте, как круто было бы испытать все возможности современных LVLMs на старой GTX 1080ti (нашей единственной игровой видеокарте). В связи с этим мы представляем в этом отчете Vary-toy — компактную версию Vary, основанную на языковой модели Qwen-1.8B. В Vary-toy мы внедряем улучшенный визуальный словарь, который не только сохраняет все функции Vary, но и повышает обобщающую способность модели. В частности, мы заменяем негативные примеры натуральных изображений на позитивные данные, полученные с помощью детекции объектов, в процессе создания визуального словаря. Это позволяет более эффективно использовать возможности словарной сети и обеспечивает эффективное кодирование визуальной информации, соответствующей натуральным объектам. В экспериментах Vary-toy демонстрирует 65,6% ANLS на DocVQA, 59,1% точности на ChartQA, 88,1% точности на RefCOCO и 29% на MMVet. Код будет общедоступен на нашей странице.
Фундаментальные модели, объединяющие язык, зрение и, в последнее время, действия, произвели революцию в способности использовать данные интернет-масштаба для решения полезных задач. Однако одной из ключевых проблем при обучении воплощенных фундаментальных моделей является недостаток данных, связанных с физическим миром. В данной статье мы предлагаем AutoRT — систему, которая использует существующие фундаментальные модели для масштабирования развертывания операционных роботов в совершенно новых сценариях с минимальным участием человека. AutoRT применяет модели, объединяющие зрение и язык (VLMs), для понимания и привязки к сцене, а также использует крупные языковые модели (LLMs) для предложения разнообразных и новых инструкций, которые должны выполнять группы роботов. Управление сбором данных с использованием знаний фундаментальных моделей позволяет AutoRT эффективно анализировать компромиссы автономности и безопасности, значительно масштабируя сбор данных для обучения роботов. Мы демонстрируем, как AutoRT предлагает инструкции более чем 20 роботам в нескольких зданиях и собирает 77 тысяч реальных эпизодов с использованием как телеуправления, так и автономных политик роботов. Экспериментально мы показываем, что такие данные, собранные AutoRT "в естественных условиях", значительно более разнообразны, а использование LLMs позволяет роботам, собирающим данные, следовать инструкциям, которые соответствуют предпочтениям человека.
Крупные языковые модели (LLM) обычно используют авторегрессивную генерацию во время вывода, что приводит к высоким требованиям к пропускной способности памяти и, как следствие, к увеличению задержек. Для устранения этой неэффективности мы представляем метод Bi-directional Tuning for lossless Acceleration (BiTA), инновационный подход, ускоряющий LLM за счет оптимизированной полуавторегрессивной генерации и проверки черновых вариантов. Вдохновленные концепцией настройки промптов, мы улучшаем LLM с помощью параметрически эффективного подхода, называемого двунаправленной настройкой, для обеспечения возможности полуавторегрессивной генерации. Используя эффективное декодирование на основе деревьев, модели выполняют генерацию черновых кандидатов и их проверку параллельно, гарантируя идентичность выходных данных их авторегрессивным аналогам при жадной выборке. BiTA служит легковесным подключаемым модулем, плавно повышая эффективность вывода существующих LLM без необходимости использования дополнительных вспомогательных моделей или значительных дополнительных затрат памяти. Применение предложенного метода BiTA позволяет модели LLaMA-2-70B-Chat достичь ускорения в 2,7 раза на бенчмарке MT-Bench. Многочисленные эксперименты подтверждают, что наш метод превосходит современные методы ускорения.
Мы представляем GALA — фреймворк, который принимает на вход однослойную одетую 3D-модель человека и разлагает её на полные многослойные 3D-ассеты. Полученные результаты можно комбинировать с другими ассетами для создания новых одетых аватаров человека с любыми позами. Существующие подходы к реконструкции часто рассматривают одетого человека как однослойную геометрию и игнорируют присущую человеку композиционность, включая причёски, одежду и аксессуары, что ограничивает полезность моделей для последующих применений. Разложение однослойной модели на отдельные слои является сложной задачей, поскольку требует синтеза правдоподобной геометрии и текстуры для сильно затенённых областей. Более того, даже при успешном разложении модели не нормализованы по позам и формам тела, что затрудняет их согласованную композицию с новыми идентичностями и позами. Для решения этих задач мы предлагаем использовать общие знания предобученной 2D-диффузионной модели в качестве априорной информации о геометрии и внешнем виде человека и других ассетов. Сначала мы разделяем входную модель с использованием 3D-сегментации поверхности, извлечённой из многовидовой 2D-сегментации. Затем мы синтезируем недостающую геометрию различных слоёв как в пространстве поз, так и в каноническом пространстве, используя новый позо-ориентированный метод Score Distillation Sampling (SDS). После завершения восстановления высококачественной 3D-геометрии мы применяем тот же метод SDS к текстуре для получения полного внешнего вида, включая изначально затенённые области. В результате серии шагов разложения мы получаем несколько слоёв 3D-ассетов в общем каноническом пространстве, нормализованном по позам и формам тела, что позволяет легко комбинировать их с новыми идентичностями и анимировать с новыми позами. Наши эксперименты демонстрируют эффективность нашего подхода для задач разложения, канонизации и композиции по сравнению с существующими решениями.
В эпоху больших моделей авторегрессивный характер декодирования часто приводит к тому, что задержка становится значительным узким местом. Мы предлагаем неавторегрессивную систему распознавания речи (ASR) с интеграцией языковой модели (LM), которая эффективно использует возможности параллелизации аппаратного ускорения. Наш подход сочетает Универсальную речевую модель (USM) и языковую модель PaLM 2 в режиме оценки по сегментам, достигая среднего относительного улучшения WER на 10,8% для всех языков на наборе данных FLEURS и на 3,6% для субтитров YouTube. Кроме того, наше всестороннее исследование с исключением параметров анализирует ключевые факторы, такие как размер LLM, длина контекста, размер словаря и методология интеграции. Например, мы исследуем влияние размера LLM, варьирующегося от 128 миллионов до 340 миллиардов параметров, на производительность ASR. Это исследование предоставляет ценные инсайты о факторах, влияющих на эффективность практических крупномасштабных систем распознавания речи с интеграцией языковых моделей.