Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя Трансформеры были основной архитектурой, лежащей в основе успеха глубокого обучения в моделировании языка, модели пространства состояний (SSM), такие как Mamba, недавно были показаны способными соперничать или превосходить Трансформеры на небольших и средних масштабах. Мы показываем, что эти семейства моделей фактически достаточно тесно связаны и разрабатываем богатую теоретическую связь между SSM и вариантами внимания, связанными через различные декомпозиции хорошо изученного класса структурированных полусепарабельных матриц. Наша концепция двойственности пространства состояний (SSD) позволяет нам разработать новую архитектуру (Mamba-2), основным слоем которой является усовершенствование селективной SSM Mamba, работающее в 2-8 раз быстрее, продолжая при этом конкурировать с Трансформерами в моделировании языка.
В поисках искусственного общего интеллекта Многомодельные Большие Языковые Модели (MLLMs) выделяются как центральная точка в последних достижениях. Однако основное внимание по-прежнему уделяется развитию их способностей в понимании статических изображений. Потенциал MLLMs в обработке последовательных визуальных данных до сих пор недостаточно исследован, что подчеркивает отсутствие всесторонней, высококачественной оценки их производительности. В данной статье мы представляем Video-MME, первый в своем роде полноценный, Многомодальный Бенчмарк Оценки MLLMs в анализе видео. Наша работа отличается от существующих бенчмарков четырьмя ключевыми особенностями: 1) Разнообразие видео типов, охватывающее 6 основных визуальных областей с 30 подобластями для обеспечения широкой сценарной обобщаемости; 2) Продолжительность во временном измерении, охватывающая как короткие, средние, так и долгосрочные видео, варьирующиеся от 11 секунд до 1 часа, для надежной контекстной динамики; 3) Ширина в модальностях данных, интегрирующая многомодальные входы помимо видеокадров, включая субтитры и аудио, для раскрытия всесторонних способностей MLLMs; 4) Качество в аннотациях, использующее строгую ручную разметку опытными аннотаторами для облегчения точной и надежной оценки модели. 900 видео с общим временем 256 часов были вручную отобраны и аннотированы путем многократного просмотра всего видеоконтента, что привело к 2,700 вопросо-ответным парам. С помощью Video-MME мы обширно оцениваем различные передовые MLLMs, включая серию GPT-4 и Gemini 1.5 Pro, а также открытые модели изображений, такие как InternVL-Chat-V1.5, и видео-модели, такие как LLaVA-NeXT-Video. Наши эксперименты показывают, что Gemini 1.5 Pro является лучшей коммерческой моделью, значительно превосходящей открытые модели. Наш набор данных вместе с этими результатами подчеркивает необходимость дальнейших улучшений в обработке более длинных последовательностей и многомодальных данных. Страница проекта: https://video-mme.github.io
В данной работе мы исследуем, могут ли небольшие языковые модели определять высококачественные подмножества крупномасштабных текстовых наборов данных, улучшающие производительность более крупных языковых моделей. В то время как существующие исследования показали, что обрезка на основе перплексии более крупной модели может привести к высококачественным данным, мы исследуем, могут ли более маленькие модели использоваться для обрезки на основе перплексии и как обрезка зависит от доменной структуры данных, которые подвергаются обрезке. Мы демонстрируем, что для нескольких комбинаций наборов данных обрезка на основе перплексии предварительных данных может значительно улучшить производительность на конечных задачах: обрезка на основе перплексий, вычисленных с использованием модели с 125 миллионами параметров, улучшает среднюю производительность на конечных задачах модели с 3 миллиардами параметров на до 2,04 и достигает до 1,45-кратного сокращения этапов предварительного обучения для достижения сопоставимой базовой производительности. Более того, мы демонстрируем, что такая обрезка данных на основе перплексии также приводит к увеличению производительности на конечных задачах в режимах переобучения и ограниченного объема данных.
Модели диффузии стали мощным инструментом для генерации изображений высокого качества по текстовым описаниям. Несмотря на свои успехи, эти модели часто проявляют ограниченное разнообразие в сгенерированных изображениях, особенно при выборке с высоким весом направляющего классификатора. Для решения этой проблемы мы представляем Kaleido, новый подход, который увеличивает разнообразие образцов путем включения авторегрессивных скрытых априорных распределений. Kaleido интегрирует авторегрессивную языковую модель, которая кодирует исходное описание и генерирует скрытые переменные, служащие абстрактными и промежуточными представлениями для направления и облегчения процесса генерации изображения. В данной работе мы исследуем различные дискретные скрытые представления, включая текстовые описания, ограничивающие рамки детекции, объектные области и визуальные токены. Эти представления разнообразят и обогащают входные условия для моделей диффузии, обеспечивая более разнообразные результаты. Наши экспериментальные результаты демонстрируют, что Kaleido эффективно расширяет разнообразие сгенерированных образцов изображений по заданному текстовому описанию, сохраняя высокое качество изображения. Более того, мы показываем, что Kaleido тесно следует указаниям, предоставленным сгенерированными скрытыми переменными, демонстрируя его способность эффективно контролировать и направлять процесс генерации изображения.
Современные методы генерации 4D изображений достигли значительной эффективности благодаря применению передовых диффузионных генеративных моделей. Однако эти методы лишены многопроекционного пространственно-временного моделирования и сталкиваются с проблемами интеграции разнообразных априорных знаний из нескольких моделей диффузии, что приводит к несогласованному временному появлению и мерцаниям. В данной статье мы предлагаем новый пайплайн генерации 4D изображений, названный 4Diffusion, направленный на создание пространственно-временно согласованного 4D контента из монокулярного видео. Сначала мы разрабатываем объединенную модель диффузии, специально предназначенную для генерации многопроекционного видео путем внедрения обучаемого модуля движения в замороженную модель диффузии, осведомленную о трех измерениях, для захвата многопроекционных пространственно-временных корреляций. После обучения на отобранном наборе данных наша модель диффузии приобретает разумную временную согласованность и встроенно сохраняет обобщаемость и пространственную согласованность модели диффузии, осведомленной о трех измерениях. Затем мы предлагаем потерю выборки 4D-aware Score Distillation, основанную на нашей модели диффузии многопроекционного видео, для оптимизации 4D представления, параметризованного динамическим NeRF. Это направлено на устранение расхождений, возникающих из-за нескольких моделей диффузии, что позволяет создавать пространственно-временно согласованный 4D контент. Более того, мы разрабатываем потерю якоря для улучшения деталей внешнего вида и облегчения обучения динамического NeRF. Обширные качественные и количественные эксперименты демонстрируют, что наш метод достигает более высокой производительности по сравнению с предыдущими методами.
Оптимизаторы второго порядка, поддерживающие матрицу, называемую предобуславливателем, превосходят оптимизаторы первого порядка как в теории, так и на практике. Состояния, образующие предобуславливатель и его обратный корень, ограничивают максимальный размер моделей, обучаемых оптимизаторами второго порядка. Для решения этой проблемы сжатие состояний оптимизатора с 32-битной точностью до меньшей разрядности показало перспективы в снижении использования памяти. Однако текущие подходы касаются только оптимизаторов первого порядка. В данной статье мы предлагаем первые 4-битные оптимизаторы второго порядка, в частности 4-битный Shampoo, обеспечивающие производительность, сходную с 32-битными. Мы показываем, что квантование матрицы собственных векторов предобуславливателя в 4-битном Shampoo значительно лучше, чем квантование самого предобуславливателя как с теоретической, так и с экспериментальной точек зрения. Путем исправления ортогональности квантованной матрицы собственных векторов мы улучшаем приближение матрицы собственных векторов предобуславливателя, что также положительно сказывается на вычислении его обратного четвертого корня. Кроме того, мы обнаружили, что линейное квантование незначительно превосходит динамическое дерево квантование при квантовании состояний оптимизатора второго порядка. Оценка на различных сетях для классификации изображений показывает, что наш 4-битный Shampoo достигает сравнимой точности тестирования с его 32-битным аналогом, при этом более эффективен с точки зрения использования памяти. Исходный код будет доступен.