Ежедневно отобранные исследовательские статьи по ИИ с переводами
В связи с недавней популярностью больших языковых моделей (LLM) было предпринято несколько попыток расширить их до визуальной области. От наличия визуального ассистента, который мог бы проводить нас по незнакомым окружениям, до генеративных моделей, создающих изображения, используя только текстовое описание на высоком уровне, приложения моделей видео-языка (VLM) значительно повлияют на наши отношения с технологиями. Однако существует множество проблем, которые необходимо решить для улучшения надежности этих моделей. В то время как язык является дискретным, визия развивается в гораздо более высокомерном пространстве, в котором концепции не всегда могут быть легко дискретизированы. Для лучшего понимания механики преобразования визии в язык мы представляем это введение в модели видео-языка, которое, мы надеемся, поможет всем, кто хотел бы войти в эту область. Сначала мы представляем, что такое модели видео-языка, как они работают и как их обучать. Затем мы представляем и обсуждаем подходы к оценке моделей видео-языка. Хотя эта работа в первую очередь фокусируется на преобразовании изображений в язык, мы также обсуждаем расширение моделей видео-языка на видео.
Плохая производительность трансформеров в арифметических задачах, кажется, в значительной степени обусловлена их неспособностью отслеживать точное положение каждой цифры в большом ряду цифр. Мы исправляем эту проблему, добавляя встраивание к каждой цифре, кодирующее ее позицию относительно начала числа. Помимо улучшения, которое обеспечивают эти встраивания самостоятельно, мы показываем, что это исправление позволяет внести изменения в архитектуру, такие как ввод внедрения и рекуррентные слои, для дальнейшего улучшения производительности. С учетом разрешенных позиций мы можем изучить логическую экстраполяционную способность трансформеров. Могут ли они решать арифметические проблемы, которые больше и сложнее, чем те, что есть в их обучающих данных? Мы обнаружили, что обучаясь только на числах из 20 цифр с использованием одного графического процессора в течение одного дня, мы можем достичь современной производительности, достигая до 99% точности в задачах сложения чисел из 100 цифр. Наконец, мы показываем, что эти улучшения в числовых навыках также открывают возможности для улучшений в других задачах многошагового рассуждения, включая сортировку и умножение.
Большие мультимодальные модели (LMM), такие как LLaVA, показали высокую производительность в визуально-лингвистическом рассуждении. Эти модели сначала встраивают изображения в фиксированное большое количество визуальных токенов, а затем передают их в большую языковую модель (LLM). Однако такое конструирование приводит к избыточному количеству токенов для плотных визуальных сценариев, таких как изображения высокого разрешения и видео, что приводит к значительной неэффективности. Хотя существуют методы обрезки/слияния токенов, они генерируют один выход фиксированной длины для каждого изображения и не обеспечивают гибкости в балансировке плотности информации и эффективности. Вдохновленные концепцией матрешек, мы предлагаем M3: Мультимодальные модели Матрешка, которые учатся представлять визуальное содержимое вложенными наборами визуальных токенов, охватывающих информацию на нескольких грубых и тонких уровнях детализации. Наш подход предлагает несколько уникальных преимуществ для LMM: (1) Можно явно контролировать визуальную детализацию для каждого тестового экземпляра во время вывода, например, изменяя количество токенов, используемых для представления изображения, в зависимости от предполагаемой сложности или простоты содержимого; (2) M3 предоставляет фреймворк для анализа необходимой детализации для существующих наборов данных, где мы обнаружили, что для бенчмарков в стиле COCO достаточно около ~9 визуальных токенов для достижения точности, сравнимой с использованием всех 576 токенов; (3) Наш подход обеспечивает основу для исследования оптимального баланса между производительностью и длиной визуальных токенов на уровне образца, где наше исследование показывает, что существует значительный разрыв между оракульной верхней границей и текущими представлениями фиксированного масштаба.
В данном техническом отчете мы представляем Zamba, новую гибридную модель 7B SSM-трансформера, которая достигает конкурентоспособной производительности по сравнению с ведущими моделями с открытым весом на сравнимом масштабе. Zamba обучается на 1T токенах из общедоступных наборов данных и является лучшей моделью без трансформера на данном масштабе. Zamba представляет собой уникальную архитектуру, объединяющую основу Mamba с одним общим модулем внимания, что позволяет получить преимущества внимания при минимальных затратах параметров. Благодаря своей архитектуре Zamba значительно быстрее в выводе, чем сравнимые модели трансформера, и требует значительно меньше памяти для генерации длинных последовательностей. Zamba предварительно обучается в две фазы: первая фаза основана на существующих веб-наборах данных, в то время как вторая состоит в отжиге модели на высококачественных инструктивных и синтетических наборах данных и характеризуется быстрым затуханием скорости обучения. Мы предоставляем веса и все контрольные точки для Zamba в открытом доступе, как для первой фазы, так и для фаз отжига.
Модели встраивания на основе больших языковых моделей (LLM) только для декодера начинают превосходить модели встраивания на основе BERT или T5 в общих задачах встраивания текста, включая поиск на основе плотных векторов. В данной работе мы представляем модель NV-Embed с различными архитектурными конструкциями и процедурами обучения для значительного улучшения производительности LLM в качестве универсальной модели встраивания, сохраняя ее простоту и воспроизводимость. Для архитектуры модели мы предлагаем слой латентного внимания для получения объединенных встраиваний, что последовательно улучшает поиск и точность задач на уровне последующих этапов по сравнению с усреднением или использованием встраивания последнего токена <EOS> из LLM. Для улучшения обучения представлений мы удаляем маску причинного внимания LLM во время контрастного обучения. Для обучения модели мы представляем двухэтапный метод настройки инструкций контраста. Сначала он применяет контрастное обучение с инструкциями на наборах данных поиска, используя отрицательные примеры внутри пакета и отобранные сложные негативные примеры. На втором этапе он объединяет различные нерелевантные наборы данных в настройку инструкций, что не только улучшает точность задач без поиска, но также повышает производительность поиска. Комбинируя эти техники, наша модель NV-Embed, используя только общедоступные данные, достигла рекордного результата 69.32, занимая первое место в Massive Text Embedding Benchmark (MTEB) (на момент 24 мая 2024 года), с 56 задачами, включая поиск, переранжирование, классификацию, кластеризацию и задачи семантической текстовой схожести. Заметим, что наша модель также достигла наивысшего результата 59.36 на 15 задачах поиска в бенчмарке MTEB (также известном как BEIR). Мы планируем предоставить модель с открытым исходным кодом по ссылке: https://huggingface.co/nvidia/NV-Embed-v1.
Замечательные генеративные возможности моделей диффузии побудили к обширным исследованиям как в области редактирования изображений, так и видео. По сравнению с видеоредактированием, которое сталкивается с дополнительными сложностями во временном измерении, редактирование изображений стало свидетелем развития более разнообразных и качественных подходов и более мощного программного обеспечения, такого как Photoshop. Учитывая эту разницу, мы представляем новое и универсальное решение, которое расширяет применимость инструментов редактирования изображений к видео путем распространения правок с одного кадра на весь видеоролик с использованием предварительно обученной модели изображения-видео. Наш метод, названный I2VEdit, адаптивно сохраняет визуальную и движущуюся целостность исходного видео в зависимости от объема правок, эффективно обрабатывая глобальные правки, локальные правки и умеренные изменения формы, которые существующие методы не могут полностью достичь. В основе нашего метода лежат два основных процесса: Грубое Извлечение Движения для выравнивания основных движущихся шаблонов с оригинальным видео и Улучшение Внешнего Вида для точных коррекций с использованием точного соответствия внимания на мелкие детали. Мы также включаем стратегию пропуска интервала для смягчения деградации качества от авторегрессивной генерации через несколько видеоклипов. Экспериментальные результаты демонстрируют превосходное качество работы нашей структуры в тонком видеоредактировании, доказывая ее способность производить высококачественные, временно согласованные результаты.
Мы представляем новый подход к генерации высококачественных, пространственно-временно согласованных видео с человеком из одного изображения под произвольными точками зрения. Наша структура объединяет преимущества U-Net для точной инъекции условий и трансформаторов диффузии для захвата глобальных корреляций между точками зрения и временем. Основой является каскадная 4D архитектура трансформаторов, факторизующая внимание между видами, временем и пространственными измерениями, обеспечивая эффективное моделирование 4D пространства. Точное условие достигается путем инъекции идентичности человека, параметров камеры и временных сигналов в соответствующие трансформаторы. Для обучения этой модели мы создаем многомерный набор данных, охватывающий изображения, видео, многозначные данные и сканирования 3D/4D, а также многомерную стратегию обучения. Наш подход преодолевает ограничения предыдущих методов на основе GAN или моделей диффузии на основе UNet, которые испытывают трудности с комплексными движениями и изменениями точек зрения. Через обширные эксперименты мы демонстрируем способность нашего метода синтезировать реалистичные, согласованные и свободного просмотра видео с человеком, открывая путь к передовым мультимедийным приложениям в областях, таких как виртуальная реальность и анимация. Наш веб-сайт проекта: https://human4dit.github.io.
Адаптеры низкого ранга (Low-rank adapters, LoRA) и их варианты являются популярными техниками эффективной настройки параметров (Parameter-efficient fine-tuning, PEFT), которые тесно соответствуют производительности полной модели после тонкой настройки, требуя лишь небольшого количества дополнительных параметров. Эти дополнительные параметры LoRA специфичны для базовой модели, к которой они применяются. Когда базовая модель требуется устареть и заменить новой, все связанные с ней модули LoRA должны быть переобучены. Для такого повторного обучения необходим доступ к данным, использованным для обучения LoRA для исходной базовой модели. Это особенно проблематично для коммерческих облачных приложений, где модули LoRA и базовые модели размещаются у поставщиков услуг, которым может быть запрещено хранить конфиденциальные данные клиентов. Для решения этой проблемы мы предлагаем Trans-LoRA - новый метод для без потерь, почти бездатасетного переноса LoRA между базовыми моделями. Наш подход основан на использовании синтетических данных для передачи модулей LoRA. С помощью крупных языковых моделей мы разрабатываем генератор синтетических данных для приближения процесса генерации данных наблюдаемого подмножества задач. Обучение на полученном синтетическом наборе данных позволяет передавать модули LoRA новым моделям. Мы демонстрируем эффективность нашего подхода, используя семейства моделей LLama и Gemma. Наш подход обеспечивает без потерь (в основном улучшенный) перенос LoRA между моделями внутри и между различными семействами базовых моделей, а также между различными методами PEFT на широком спектре задач.
Этот документ представляет StreamV2V, модель диффузии, которая достигает перевода видео-в-видео (V2V) в реальном времени с помощью потоковой передачи с пользовательскими подсказками. В отличие от предыдущих методов V2V, использующих пакеты для обработки ограниченного количества кадров, мы предпочли обрабатывать кадры потоковым способом, чтобы поддерживать неограниченное количество кадров. В основе StreamV2V лежит принцип обратного взгляда, который связывает настоящее с прошлым. Это достигается путем поддержания банка признаков, который архивирует информацию из прошлых кадров. Для входящих кадров StreamV2V расширяет самовнимание, чтобы включить ключи и значения из банка, и непосредственно объединяет аналогичные прошлые признаки в выходной сигнал. Банк признаков постоянно обновляется путем слияния сохраненных и новых признаков, что делает его компактным, но информативным. StreamV2V выделяется своей адаптивностью и эффективностью, плавно интегрируясь с моделями диффузии изображений без дополнительной настройки. Он может работать со скоростью 20 кадров в секунду на одном GPU A100, что в 15, 46, 108 и 158 раз быстрее, чем FlowVid, CoDeF, Rerender и TokenFlow соответственно. Количественные метрики и пользовательские исследования подтверждают исключительную способность StreamV2V поддерживать временную согласованность.
Исследования в области генерации видео недавно сделали огромный прогресс, позволяя создавать видео высокого качества по текстовым подсказкам или изображениям. Добавление управления в процесс генерации видео является важной целью на данном этапе, и недавние подходы, которые условно на траектории камеры модели генерации видео, делают значительные шаги в этом направлении. Однако остается сложной задачей создание видео одной и той же сцены из различных траекторий камеры. Решения этой проблемы множественной генерации видео могут обеспечить создание трехмерных сцен в большом масштабе с возможностью редактирования траекторий камеры, среди прочего. Мы представляем коллаборативную диффузию видео (CVD) как важный шаг в этом направлении. Фреймворк CVD включает новый модуль синхронизации между видео, который способствует согласованности между соответствующими кадрами одного и того же видео, созданных из различных поз камеры с использованием механизма внимания к эпиполярным точкам. Обученный поверх современного модуля управления камерой для генерации видео, CVD генерирует несколько видео, созданных из различных траекторий камеры, с значительно лучшей согласованностью по сравнению с базовыми методами, как показано в обширных экспериментах. Страница проекта: https://collaborativevideodiffusion.github.io/.
Недавно появление моделей диффузии открыло новые возможности для восстановления объектов по одному изображению. Однако все существующие методы представляют целевой объект в виде замкнутой сетки, лишенной структурной информации, тем самым игнорируя частно-ориентированную структуру, которая является важной для многих последующих приложений, восстанавливаемой формы. Более того, сгенерированные сетки обычно страдают от больших шумов, неоднородных поверхностей и размытых текстур, что затрудняет получение удовлетворительных частных сегментов с использованием техник сегментации в 3D. В данной статье мы представляем Part123, новую концепцию для частно-ориентированного 3D восстановления по одному изображению. Сначала мы используем модели диффузии для генерации мультивидовых согласованных изображений из данного изображения, а затем используем Модель Любого Сегмента (SAM), которая демонстрирует мощную обобщающую способность на произвольных объектах, для генерации мультивидовых масок сегментации. Для эффективного включения 2D информации на основе частей в 3D восстановление и обработки несоответствий мы вводим контрастное обучение в нейронную среду визуализации для изучения пространства признаков, ориентированных на части, на основе мультивидовых масок сегментации. Также разработан алгоритм на основе кластеризации для автоматического получения результатов сегментации частей в 3D из восстановленных моделей. Эксперименты показывают, что наш метод может генерировать 3D модели с высококачественными сегментированными частями на различных объектах. По сравнению с существующими методами неструктурированного восстановления, частно-ориентированные 3D модели из нашего метода приносят пользу некоторым важным приложениям, включая сохранение особенностей восстановления, приближение примитивов и редактирование формы в 3D.
Хотя модели диффузии могут изучать сложные распределения, для выборки требуется вычислительно затратный итерационный процесс. Существующие методы дистилляции обеспечивают эффективную выборку, но имеют заметные ограничения, такие как деградация производительности при очень небольшом количестве шагов выборки, зависимость от доступа к обучающим данным или оптимизация поиска моды, которая может не захватить полное распределение. Мы предлагаем EM Дистилляцию (EMD), подход на основе максимального правдоподобия, который дистиллирует модель диффузии до модели генератора с одним шагом с минимальной потерей качества восприятия. Наш подход разработан через призму ожидания-максимизации (EM), где параметры генератора обновляются с использованием выборок из совместного распределения априори учителя диффузии и выведенных латентов генератора. Мы разрабатываем перепараметризованную схему выборки и технику отмены шума, которые вместе стабилизируют процесс дистилляции. Мы также раскрываем интересную связь нашего метода с существующими методами, минимизирующими KL по поиску моды. EMD превосходит существующие одношаговые генеративные методы по показателям FID на ImageNet-64 и ImageNet-128, а также сравнительно с предыдущими работами по дистилляции моделей диффузии текста в изображение.
Видео генеративные модели привлекают особое внимание благодаря их способности создавать реалистичные и фантазийные кадры. Кроме того, отмечается, что эти модели проявляют сильную трехмерную согласованность, значительно увеличивая свой потенциал как симуляторы мира. В данной работе мы представляем Vidu4D, новую модель реконструкции, которая отличается точной реконструкцией 4D (т.е. последовательных 3D) представлений из одиночных сгенерированных видео, решая проблемы, связанные с неригидностью и искажением кадров. Эта способность является ключевой для создания высококачественного виртуального контента, который сохраняет как пространственную, так и временную согласованность. В основе Vidu4D лежит наша предложенная техника Dynamic Gaussian Surfels (DGS). DGS оптимизирует временно изменяющиеся функции искривления для преобразования гауссовых сёрфелей (поверхностных элементов) из статического состояния в динамически искривленное состояние. Это преобразование обеспечивает точное изображение движения и деформации со временем. Для сохранения структурной целостности поверхностно-выровненных гауссовых сёрфелей мы разрабатываем геометрическую регуляризацию искривленного состояния на основе непрерывных полей искривления для оценки нормалей. Кроме того, мы изучаем усовершенствования параметров вращения и масштабирования гауссовых сёрфелей, что значительно снижает мерцание текстуры во время процесса искривления и улучшает захват мелких деталей внешнего вида. Vidu4D также содержит новое инициализационное состояние, которое обеспечивает правильное начало для полей искривления в DGS. Оборудовав Vidu4D существующей видео генеративной моделью, общая структура демонстрирует высококачественную генерацию текста в 4D как по внешнему виду, так и по геометрии.
Хорошая инициализация моделей глубокого обучения необходима, поскольку она может помочь им сходиться лучше и быстрее. Однако предварительное обучение больших моделей недоступно для многих исследователей, что делает желательным предсказание начальных параметров в настоящее время. Графовые гиперсети (GHN), один из подходов к предсказанию параметров модели, недавно продемонстрировали высокую производительность при инициализации больших моделей компьютерного зрения. К сожалению, предсказание параметров очень широких сетей основано на копировании небольших фрагментов параметров несколько раз и требует чрезвычайно большого количества параметров для поддержки полного предсказания, что значительно затрудняет его применение на практике. Для преодоления этого ограничения мы предлагаем LoGAH (Low-rank GrAph Hypernetworks), GHN с декодером параметров низкого ранга, который позволяет значительно увеличить ширину сетей без необходимости чрезмерного увеличения параметров, как в предыдущих попытках. LoGAH позволяет нам предсказывать параметры 774-миллионных крупных нейронных сетей в память-эффективном режиме. Мы показываем, что модели компьютерного зрения и языка (т.е. ViT и GPT-2), инициализированные с помощью LoGAH, достигают лучшей производительности, чем те, которые были инициализированы случайным образом или с использованием существующих гиперсетей. Более того, мы демонстрируем многообещающие результаты обучения передачи знаний относительно обучения LoGAH на небольших наборах данных и использования предсказанных параметров для инициализации более крупных задач. Мы предоставляем коды на https://github.com/Blackzxy/LoGAH.
Мы решаем давнюю проблему обучения эффективных моделей диффузии изображений на основе пикселей в масштабе, представляя замечательно простой жадный метод наращивания для стабильного обучения моделей большого масштаба с высоким разрешением без необходимости каскадных компонентов повышения разрешения. Ключевое открытие происходит из тщательного предварительного обучения основных компонентов, а именно тех, которые отвечают за выравнивание текста и изображения и высокоразрешающую рендеринг. Сначала мы демонстрируем преимущества масштабирования Shallow UNet без кодировщика с понижающим(повышающим) дискретизатором. Показано, что масштабирование его глубоких ядерных слоев улучшает выравнивание, структуру объекта и композицию. Основываясь на этой основной модели, мы предлагаем жадный алгоритм, который наращивает архитектуру в модели конечного разрешения, сохраняя целостность предварительно обученного представления, стабилизируя обучение и уменьшая необходимость в больших наборах данных высокого разрешения. Это позволяет создать модель одного этапа, способную генерировать изображения высокого разрешения без необходимости каскада повышения разрешения. Наши ключевые результаты основаны на общедоступных наборах данных и показывают, что мы можем обучать некаскадные модели до 8 миллиардов параметров без дополнительных схем регуляризации. Vermeer, наша полная модель конвейера, обученная на внутренних наборах данных для создания изображений размером 1024x1024 без каскадов, предпочтительна для 44,0% по сравнению с 21,4% человеческих оценщиков по сравнению с SDXL.