Ежедневно отобранные исследовательские статьи по ИИ с переводами
В эпоху передового мультимодального обучения мультимодальные большие языковые модели (MLLMs), такие как GPT-4V, достигли значительных успехов в объединении языковых и визуальных элементов. Однако закрытый исходный код и значительные вычислительные требования представляют собой серьезные вызовы для их универсального использования и модификаций. Именно здесь на сцену выходят открытые MLLMs, такие как LLaVA и MiniGPT-4, демонстрируя прорывные достижения в различных задачах. Несмотря на эти успехи, проблема вычислительной эффективности остается нерешенной, поскольку такие модели, как LLaVA-v1.5-13B, требуют значительных ресурсов. Решая эти проблемы, мы представляем TinyGPT-V — новую модель, сочетающую впечатляющую производительность с доступной вычислительной мощностью. Она выделяется тем, что для обучения требуется всего 24 ГБ видеопамяти, а для вывода — 8 ГБ видеопамяти или процессор. Основанная на Phi-2, TinyGPT-V объединяет эффективный языковой бэкбон с предобученными визуальными модулями из BLIP-2 или CLIP. 2,8 миллиарда параметров TinyGPT-V могут быть подвергнуты уникальному процессу квантования, что делает модель подходящей для локального развертывания и выполнения задач вывода на устройствах с 8 ГБ памяти. Наша работа способствует дальнейшему развитию проектирования экономически эффективных, производительных и высокоэффективных MLLMs, расширяя их применимость в широком спектре реальных сценариев. Кроме того, в данной статье предложена новая парадигма мультимодальных больших языковых моделей с использованием компактных бэкбонов. Наш код и веса для обучения доступны по адресам: https://github.com/DLYuanGod/TinyGPT-V и https://huggingface.co/Tyrannosaurus/TinyGPT-V соответственно.
Мы представляем Unified-IO 2 — первую авторегрессивную мультимодальную модель, способную понимать и генерировать изображения, текст, аудио и действия. Для объединения различных модальностей мы токенизируем входные и выходные данные — изображения, текст, аудио, действия, ограничивающие рамки и т.д. — в общее семантическое пространство, а затем обрабатываем их с помощью единой модели трансформера с архитектурой кодировщик-декодировщик. Поскольку обучение с такими разнообразными модальностями является сложной задачей, мы предлагаем различные архитектурные улучшения для стабилизации процесса обучения модели. Мы обучаем нашу модель с нуля на большом мультимодальном корпусе предварительного обучения, собранном из разнообразных источников, с использованием мультимодальной смеси целей денойзеров. Для освоения широкого набора навыков, таких как выполнение мультимодальных инструкций, мы создаем и дообучаем модель на ансамбле из 120 наборов данных с подсказками и аугментациями. С единой унифицированной моделью Unified-IO 2 достигает наилучших результатов на бенчмарке GRIT и демонстрирует высокие показатели в более чем 35 бенчмарках, включая генерацию и понимание изображений, понимание естественного языка, понимание видео и аудио, а также манипуляции в робототехнике. Мы публикуем все наши модели для научного сообщества.
Высококачественные крупномасштабные корпуса являются краеугольным камнем для создания базовых моделей. В данной работе мы представляем MathPile — разнообразный и высококачественный корпус, ориентированный на математику, содержащий около 9,5 миллиардов токенов. В процессе его создания мы придерживались принципа «меньше — значит больше», твердо веря в превосходство качества данных над их количеством даже на этапе предварительного обучения. Наши тщательные усилия по сбору и обработке данных включали комплексный набор этапов предобработки, предварительной фильтрации, идентификации языка, очистки, фильтрации и дедупликации, что обеспечило высокое качество нашего корпуса. Кроме того, мы провели проверку на загрязнение данных в тестовых наборах для последующих этапов, чтобы исключить дубликаты. Мы надеемся, что наш MathPile сможет способствовать улучшению способностей языковых моделей к математическому рассуждению. Мы планируем открыть исходный код различных версий \mathpile вместе с используемыми для обработки скриптами, чтобы способствовать дальнейшему развитию в этой области.
Мы представляем MobileVLM, эффективную мультимодальную модель обработки визуальной и языковой информации (MMVLM), предназначенную для работы на мобильных устройствах. Эта модель объединяет множество архитектурных решений и методов, ориентированных на мобильные платформы, включая набор языковых моделей с параметрами масштаба 1,4 млрд и 2,7 млрд, обученных с нуля, мультимодальную визуальную модель, предварительно обученную в стиле CLIP, а также кросс-модальное взаимодействие через эффективный проектор. Мы оцениваем MobileVLM на нескольких типичных бенчмарках для VLM. Наши модели демонстрируют сопоставимую производительность по сравнению с несколькими значительно более крупными моделями. Что еще важнее, мы измеряем скорость вывода как на процессоре Qualcomm Snapdragon 888, так и на графическом процессоре NVIDIA Jetson Orin, достигая передовых показателей в 21,5 и 65,3 токенов в секунду соответственно. Наш код будет доступен по адресу: https://github.com/Meituan-AutoML/MobileVLM.
Было предложено несколько подходов к неконтролируемой сегментации изображений, которые устраняют необходимость в плотных ручных аннотациях масок сегментации; современные модели отдельно решают либо задачу семантической сегментации (например, STEGO), либо класс-независимой сегментации экземпляров (например, CutLER), но не обе задачи одновременно (т.е. панорамную сегментацию). Мы предлагаем модель Unsupervised Universal Segmentation (U2Seg), способную выполнять различные задачи сегментации изображений — сегментацию экземпляров, семантическую и панорамную — с использованием нового унифицированного подхода. U2Seg генерирует псевдосемантические метки для этих задач сегментации, используя самоконтролируемые модели с последующей кластеризацией; каждый кластер представляет различные семантические и/или принадлежность экземпляров пикселей. Затем мы проводим самообучение модели на этих псевдосемантических метках, что приводит к значительному улучшению производительности по сравнению с специализированными методами, адаптированными для каждой задачи: увеличение на +2.6 AP^{box} по сравнению с CutLER в неконтролируемой сегментации экземпляров на COCO и увеличение на +7.0 PixelAcc (по сравнению с STEGO) в неконтролируемой семантической сегментации на COCOStuff. Более того, наш метод устанавливает новый базовый уровень для неконтролируемой панорамной сегментации, которая ранее не исследовалась. U2Seg также является мощной предобученной моделью для сегментации с малым количеством данных, превосходя CutLER на +5.0 AP^{mask} при обучении в условиях ограниченных данных, например, всего 1% меток COCO. Мы надеемся, что наш простой, но эффективный метод вдохновит на дальнейшие исследования в области неконтролируемой универсальной сегментации изображений.
В последнее время был достигнут значительный прогресс в генерации 4D-контента. Однако существующие методы страдают от длительного времени оптимизации, отсутствия управляемости движением и низкого уровня детализации. В данной статье мы представляем DreamGaussian4D — эффективный фреймворк для генерации 4D-контента, основанный на представлении 4D Gaussian Splatting. Наше ключевое наблюдение заключается в том, что явное моделирование пространственных преобразований в Gaussian Splatting делает его более подходящим для задач 4D-генерации по сравнению с неявными представлениями. DreamGaussian4D сокращает время оптимизации с нескольких часов до нескольких минут, позволяет гибко управлять генерируемым 3D-движением и создает анимированные меши, которые могут быть эффективно отрендерены в 3D-движках.
Мы наблюдаем значительный прогресс в области трехмерного зрения на основе глубокого обучения, начиная с обучения представлениям 3D на основе нейронных полей излучения (NeRF) и заканчивая приложениями в синтезе новых видов (NVS). Однако существующие наборы данных на уровне сцен для трехмерного зрения на основе глубокого обучения, ограниченные либо синтетическими средами, либо узким выбором реальных сцен, являются крайне недостаточными. Эта недостаточность не только препятствует всестороннему тестированию существующих методов, но и ограничивает возможности исследования в области анализа 3D на основе глубокого обучения. Чтобы устранить этот критический пробел, мы представляем DL3DV-10K — крупномасштабный набор данных сцен, содержащий 51,2 миллиона кадров из 10 510 видеороликов, снятых в 65 типах точек интереса (POI), охватывающих как ограниченные, так и неограниченные сцены с различными уровнями отражения, прозрачности и освещения. Мы провели всестороннее тестирование современных методов NVS на DL3DV-10K, что позволило получить ценные инсайты для будущих исследований в области NVS. Кроме того, мы получили обнадеживающие результаты в пилотном исследовании по обучению обобщаемого NeRF на основе DL3DV-10K, что подчеркивает необходимость крупномасштабного набора данных на уровне сцен для создания фундаментальной модели обучения представлений 3D. Наш набор данных DL3DV-10K, результаты тестирования и модели будут общедоступны по адресу https://dl3dv-10k.github.io/DL3DV-10K/.
NeRF значительно продвинул реконструкцию 3D-сцен, захватывая сложные детали в различных окружениях. Существующие методы успешно использовали "запекание" полей излучения для обеспечения рендеринга небольших сцен в реальном времени. Однако при применении к крупномасштабным сценам эти методы сталкиваются с серьезными трудностями, не обеспечивая плавного рендеринга в реальном времени из-за ограниченных вычислительных ресурсов, памяти и пропускной способности. В данной работе мы предлагаем City-on-Web, который представляет всю сцену, разделяя её на управляемые блоки, каждый с собственным уровнем детализации (Level-of-Detail), что обеспечивает высокую точность, эффективное управление памятью и быстрый рендеринг. При этом мы тщательно проектируем процесс обучения и вывода, чтобы конечный результат рендеринга в веб-среде соответствовал обучению. Благодаря нашей новой репрезентации и тщательно разработанному процессу обучения/вывода, мы первыми достигли рендеринга крупномасштабных сцен в реальном времени в условиях ограниченных ресурсов. Обширные экспериментальные результаты демонстрируют, что наш метод обеспечивает рендеринг крупномасштабных сцен в реальном времени на веб-платформе, достигая 32 кадров в секунду при разрешении 1080P на GPU RTX 3060, при этом качество близко к современным методам. Страница проекта: https://ustc3dv.github.io/City-on-Web/
В быстро развивающейся области генерации цифрового контента внимание сместилось с моделей преобразования текста в изображение (T2I) на более продвинутые модели диффузии видео, в частности, преобразование текста в видео (T2V) и изображения в видео (I2V). В данной статье рассматривается сложная задача, связанная с I2V: преобразование статических изображений в динамичные, реалистичные видеопоследовательности с сохранением исходной точности изображения. Традиционные методы обычно предполагают интеграцию всего изображения в процессы диффузии или использование предобученных энкодеров для кросс-внимания. Однако такие подходы часто требуют изменения базовых весов моделей T2I, что ограничивает их повторное использование. Мы представляем новое решение, а именно I2V-Adapter, разработанное для преодоления этих ограничений. Наш подход сохраняет структурную целостность моделей T2I и их встроенные модули движения. I2V-Adapter работает, обрабатывая зашумленные кадры видео параллельно с входным изображением, используя легковесный адаптерный модуль. Этот модуль служит мостом, эффективно связывая входные данные с механизмом самовнимания модели, сохраняя пространственные детали без необходимости структурных изменений в модели T2I. Более того, I2V-Adapter требует лишь малой доли параметров по сравнению с традиционными моделями и обеспечивает совместимость с существующими моделями T2I и инструментами управления, разработанными сообществом. Наши экспериментальные результаты демонстрируют способность I2V-Adapter генерировать высококачественные видеовыходы. Такая производительность, в сочетании с универсальностью и сниженной потребностью в обучаемых параметрах, представляет собой значительный прогресс в области генерации видео с использованием ИИ, особенно для творческих приложений.
Создание анимации физически основанных персонажей с интуитивным управлением долгое время оставалось желаемой задачей с множеством приложений. Однако генерация физически симулированных анимаций, отражающих высокоуровневые инструкции человека, остается сложной проблемой из-за сложности физических сред и богатства человеческого языка. В данной статье мы представляем InsActor, принципиальную генеративную структуру, которая использует последние достижения в диффузионных моделях движения человека для создания анимаций физически основанных персонажей, управляемых инструкциями. Наша структура позволяет InsActor улавливать сложные взаимосвязи между высокоуровневыми инструкциями человека и движениями персонажей, применяя диффузионные политики для гибкого планирования движений с учетом условий. Чтобы преодолеть недопустимые состояния и невозможные переходы между состояниями в запланированных движениях, InsActor обнаруживает низкоуровневые навыки и отображает планы в последовательности скрытых навыков в компактном скрытом пространстве. Многочисленные эксперименты демонстрируют, что InsActor достигает передовых результатов в различных задачах, включая генерацию движений, управляемых инструкциями, и движение к целевым точкам, управляемое инструкциями. Особенно важно, что способность InsActor генерировать физически симулированные анимации с использованием высокоуровневых инструкций человека делает его ценным инструментом, особенно для выполнения долгосрочных задач с богатым набором инструкций.
Синтез новых видов динамических сцен представляет собой увлекательную, но сложную задачу. Несмотря на недавние достижения, одновременное достижение фотореалистичных результатов высокого разрешения, рендеринга в реальном времени и компактного хранения данных остается серьезной проблемой. Для решения этих задач мы предлагаем новый метод представления динамических сцен — Spacetime Gaussian Feature Splatting, состоящий из трех ключевых компонентов. Во-первых, мы формулируем выразительные Spacetime Gaussians, расширяя 3D-гауссовы функции временной прозрачностью и параметрическим движением/вращением. Это позволяет Spacetime Gaussians захватывать статическое, динамическое и временное содержимое сцены. Во-вторых, мы вводим рендеринг с использованием сплаттинга признаков, заменяя сферические гармоники нейронными признаками. Эти признаки упрощают моделирование внешнего вида, зависящего от угла обзора и времени, сохраняя при этом малый размер. В-третьих, мы используем руководство по ошибке обучения и грубой глубине для выборки новых гауссовых функций в областях, которые сложно сходимы с существующими подходами. Эксперименты на нескольких известных наборах данных реального мира демонстрируют, что наш метод достигает наивысшего качества и скорости рендеринга при сохранении компактного хранения. На разрешении 8K наша облегченная версия модели способна рендерить со скоростью 60 кадров в секунду на GPU Nvidia RTX 4090.
Современные языковые модели становятся все более крупными в стремлении достичь наивысшей производительности на больших корпусах доступных текстовых данных. Однако огромный размер архитектур Transformer затрудняет развертывание моделей в условиях вычислительных, экологических или специфических для устройств ограничений. Мы исследуем сжатие существующих предобученных моделей на основе данных как альтернативу обучению меньших моделей с нуля. Для этого мы масштабируем аппроксимации кривизны, факторизованные по Кронекеру, для ландшафта целевой функции потерь в крупных языковых моделях. Это позволяет нам вычислять как динамическое распределение структур, которые могут быть удалены, так и обновления оставшихся весов, учитывающие удаление. Мы предлагаем общий фреймворк для неструктурированного, полуструктурированного и структурированного прореживания и улучшаем обновления весов для учета большего количества корреляций между ними, сохраняя при этом вычислительную эффективность. Экспериментально наш метод позволяет прореживать строки и столбцы в ряде моделей OPT и Llamav2-7B на 20%-30% с незначительной потерей производительности и достигает современных результатов в неструктурированном и полуструктурированном прореживании крупных языковых моделей.
Решение задачи преобразования изображения в 3D на основе одного вида является некорректно поставленной проблемой, и современные методы нейронной реконструкции, использующие диффузионные модели, по-прежнему опираются на оптимизацию, специфичную для конкретной сцены, что ограничивает их способность к обобщению. Чтобы преодолеть ограничения существующих подходов в отношении обобщения и согласованности, мы представляем новую технику нейронного рендеринга. Наш подход использует знаковую функцию расстояния для представления поверхности и включает обобщающие априорные знания через объемы, кодирующие геометрию, и HyperNetworks. В частности, наш метод строит нейронные кодирующие объемы на основе сгенерированных входных данных с нескольких видов. Мы настраиваем веса сети SDF, зависящие от входного изображения во время тестирования, чтобы позволить модели адаптироваться к новым сценам в прямом проходе через HyperNetworks. Для устранения артефактов, возникающих из синтезированных видов, мы предлагаем использовать модуль объемного трансформера для улучшения агрегации признаков изображения вместо обработки каждого вида по отдельности. Благодаря нашему предложенному методу, названному Hyper-VolTran, мы избегаем узкого места, связанного с оптимизацией, специфичной для сцены, и поддерживаем согласованность между изображениями, сгенерированными с нескольких точек зрения. Наши эксперименты демонстрируют преимущества предложенного подхода, обеспечивая согласованные результаты и быстрое генерирование.
Нейронные графические примитивы работают быстрее и достигают более высокого качества, когда их нейронные сети дополнены пространственными структурами данных, содержащими обучаемые признаки, организованные в сетку. Однако существующие сетки признаков либо требуют значительного объема памяти (плотные или факторизованные сетки, деревья и хэш-таблицы), либо отличаются низкой производительностью (обучение индексов и векторное квантование). В данной работе мы показываем, что хэш-таблица с обученными пробами лишена этих недостатков, что приводит к выгодному сочетанию размера и скорости. Вывод данных происходит быстрее, чем в хэш-таблицах без проб, при равном качестве, а обучение занимает всего в 1,2–2,6 раза больше времени, значительно превосходя предыдущие подходы к обучению индексов. Мы приходим к этой формулировке, рассматривая все сетки признаков в рамках общей структуры: каждая из них соответствует функции поиска, которая индексирует таблицу векторов признаков. В этой структуре функции поиска существующих структур данных могут быть объединены с помощью простых арифметических комбинаций их индексов, что приводит к Парето-оптимальному сжатию и скорости.
Современные крупномасштабные диффузионные модели представляют собой значительный прорыв в области условного синтеза изображений, способный интерпретировать разнообразные сигналы, такие как текст, позы человека и контуры. Однако их зависимость от значительных вычислительных ресурсов и обширного сбора данных остается узким местом. С другой стороны, интеграция существующих диффузионных моделей, каждая из которых специализируется на различных типах управления и работает в уникальных латентных пространствах, представляет собой сложность из-за несовместимых разрешений изображений и структур встраивания латентных пространств, что затрудняет их совместное использование. Для решения этих ограничений мы представляем "PanGu-Draw", новую латентную диффузионную модель, разработанную для ресурсоэффективного синтеза изображений по тексту, которая эффективно поддерживает множественные управляющие сигналы. Во-первых, мы предлагаем ресурсоэффективную стратегию обучения с разделением по времени, которая разделяет монолитную модель синтеза изображений по тексту на генераторы структуры и текстуры. Каждый генератор обучается с использованием методики, которая максимизирует использование данных и вычислительную эффективность, сокращая подготовку данных на 48% и уменьшая ресурсы для обучения на 51%. Во-вторых, мы представляем "Coop-Diffusion", алгоритм, который позволяет совместно использовать различные предварительно обученные диффузионные модели с разными латентными пространствами и предопределенными разрешениями в рамках единого процесса удаления шума. Это позволяет осуществлять синтез изображений с множественным управлением при произвольных разрешениях без необходимости дополнительных данных или переобучения. Эмпирические проверки PanGu-Draw демонстрируют его исключительные способности в синтезе изображений по тексту и генерации изображений с множественным управлением, указывая на перспективное направление для повышения эффективности обучения моделей и универсальности генерации. Самая крупная 5B T2I модель PanGu-Draw выпущена на платформе Ascend. Страница проекта: https://pangu-draw.github.io.
Последние достижения в области генерации изображений на основе объектов привели к появлению генерации в режиме "zero-shot", однако точный выбор и фокусировка на ключевых представлениях объектов остаются сложными задачами. Для решения этой проблемы мы представляем SSR-Encoder — новую архитектуру, разработанную для избирательного захвата любого объекта из одного или нескольких эталонных изображений. Она реагирует на различные модальности запросов, включая текст и маски, без необходимости тонкой настройки во время тестирования. SSR-Encoder объединяет Token-to-Patch Aligner, который выравнивает входные запросы с участками изображения, и Detail-Preserving Subject Encoder для извлечения и сохранения детальных характеристик объектов, тем самым генерируя эмбеддинги объектов. Эти эмбеддинги, используемые совместно с оригинальными текстовыми эмбеддингами, управляют процессом генерации. Благодаря своей обобщаемости и эффективности, SSR-Encoder адаптируется к широкому спектру пользовательских моделей и управляющих модулей. Улучшенный за счет Embedding Consistency Regularization Loss для более качественного обучения, наши обширные эксперименты демонстрируют его эффективность в универсальной и высококачественной генерации изображений, что указывает на его широкую применимость. Страница проекта: https://ssr-encoder.github.io
Адаптация и генерация 3D-портретов с текстовым управлением находят множество применений в различных областях. Однако из-за недостатка обучающих данных и сложностей, связанных с обработкой большого разнообразия геометрии и внешнего вида, существующие методы для этих задач страдают от таких проблем, как негибкость, нестабильность и низкая точность. В данной статье мы предлагаем новую структуру DiffusionGAN3D, которая улучшает адаптацию и генерацию 3D-доменов с текстовым управлением за счет комбинации 3D GAN и диффузионных априорных моделей. В частности, мы интегрируем предобученные 3D-генеративные модели (например, EG3D) и модели диффузии для преобразования текста в изображение. Первые обеспечивают прочную основу для стабильной и высококачественной генерации аватаров из текста. В свою очередь, модели диффузии предоставляют мощные априорные данные и направляют тонкую настройку 3D-генератора с информативным руководством для достижения гибкой и эффективной адаптации доменов с текстовым управлением. Для повышения разнообразия в адаптации доменов и способности генерации в задаче преобразования текста в аватар мы вводим соответственно функцию потерь на основе относительного расстояния и обучаемую триплоскость, специфичную для конкретного случая. Кроме того, мы разрабатываем прогрессивный модуль уточнения текстур для улучшения качества текстур в обеих задачах. Многочисленные эксперименты демонстрируют, что предложенная структура достигает превосходных результатов как в адаптации доменов, так и в задаче преобразования текста в аватар, превосходя существующие методы по качеству и эффективности генерации. Домашняя страница проекта доступна по адресу https://younglbw.github.io/DiffusionGAN3D-homepage/.
Модели генерации изображений по тексту обладают мощными возможностями, но их использование сопряжено с трудностями. Пользователи создают специфические запросы для получения более качественных изображений, хотя результаты могут быть повторяющимися. В данной статье предлагается фреймворк Prompt Expansion, который помогает пользователям генерировать высококачественные и разнообразные изображения с меньшими усилиями. Модель Prompt Expansion принимает текстовый запрос на вход и выводит набор расширенных текстовых подсказок, оптимизированных таким образом, что при передаче в модель генерации изображений по тексту создается более широкий спектр привлекательных изображений. Мы провели исследование с участием людей, которое показало, что изображения, сгенерированные с использованием Prompt Expansion, более эстетичны и разнообразны по сравнению с результатами базовых методов. В целом, статья представляет новый и эффективный подход к улучшению опыта генерации изображений по тексту.
Врожденная генеративная способность моделей диффузии с удалением шума делает их хорошо подходящими для задач восстановления изображений, где цель заключается в нахождении оптимального высококачественного изображения в генеративном пространстве, которое максимально близко соответствует входному изображению. Мы предлагаем метод адаптации предварительно обученной модели диффузии для восстановления изображений путем простого добавления шума к входному изображению, которое требуется восстановить, и последующего удаления шума. Наш метод основан на наблюдении, что пространство генеративной модели необходимо ограничить. Мы накладываем это ограничение путем тонкой настройки генеративной модели с использованием набора опорных изображений, которые отражают характеристики входного изображения. С ограниченным пространством мы можем затем использовать стратегию выборки, применяемую для генерации, для выполнения восстановления изображений. Мы сравниваем наш метод с предыдущими подходами и демонстрируем превосходные результаты на нескольких наборах данных для восстановления реальных изображений с точки зрения сохранения идентичности и качества изображения. Мы также показываем важное и практическое применение персонализированного восстановления, где в качестве опорных изображений используется личный альбом для ограничения генеративного пространства. Этот подход позволяет нам получать результаты, которые точно сохраняют высокочастотные детали, что недоступно в предыдущих работах. Веб-страница проекта: https://gen2res.github.io.