Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем первую атаку по краже модели, которая извлекает точную, нетривиальную информацию из черного ящика производственных языковых моделей, таких как ChatGPT от OpenAI или PaLM-2 от Google. Конкретно, наша атака восстанавливает слой вложения проекции (до симметрий) модели трансформера при типичном доступе к API. За сумму менее 20 долларов США наша атака извлекает полную матрицу проекции языковых моделей Ada и Babbage от OpenAI. Таким образом, мы подтверждаем впервые, что у этих черных ящиков есть скрытая размерность 1024 и 2048 соответственно. Мы также восстанавливаем точный размер скрытой размерности модели gpt-3.5-turbo и оцениваем, что стоимость извлечения полной матрицы проекции составит менее 2 000 запросов. Мы заканчиваем потенциальными защитными мерами и смягчениями, обсуждаем последствия возможных будущих работ, которые могут расширить нашу атаку.
Недавние достижения в области крупных языковых моделей принесли огромную ценность миру благодаря своим выдающимся возможностям, обусловленным огромным количеством параметров, которые они используют. Однако даже графические процессоры с самыми большими объемами памяти, в настоящее время достигающими 80 ГБ, далеко не достаточны для размещения этих огромных параметров и связанных с ними состояний оптимизатора при проведении оптимизации на основе стохастического градиентного спуска. Один из подходов к размещению таких огромных моделей - объединение памяти устройства из нескольких графических процессоров. Однако этот подход вводит запретительные издержки для большинства академических исследователей, у которых всегда ограниченный бюджет на множество серверов с высокопроизводительными графическими процессорами. В данной статье мы сосредоточимся на тонкой настройке огромной модели на одном, даже недорогом, графическом процессоре в сервере стандартной конфигурации, доступном большинству исследователей в области искусственного интеллекта. В таком сценарии передовая работа ZeRO-Infinity сталкивается с двумя серьезными проблемами при работе на сервере стандартной конфигурации: 1) низкое использование графического процессора из-за неэффективного обмена данными и 2) ограниченный размер обучаемой модели из-за объема оперативной памяти центрального процессора. Причиной этого является то, что ZeRO-Infinity оптимизирован для работы на серверах с высокопроизводительными графическими процессорами. В этой связи мы представляем Fuyou - недорогую обучающую среду, которая позволяет эффективно настраивать огромные модели объемом 100 миллиардов параметров на сервере стандартной конфигурации с недорогим графическим процессором и ограниченным объемом оперативной памяти центрального процессора. Основная идея заключается в добавлении обмена данными между твердотельным накопителем и центральным процессором как измерения оптимизации и тщательной совместной оптимизации вычислений и обмена данных с систематического подхода для максимизации использования графического процессора. Экспериментальные результаты показывают, что 1) Fuyou способен тонко настраивать модель GPT-3 объемом 175 миллиардов параметров на потребительском графическом процессоре RTX 4090 с высоким использованием графического процессора, в то время как ZeRO-Infinity не справляется с этой задачей; и 2) при обучении небольшой модели GPT-3 объемом 13 миллиардов параметров Fuyou достигает производительности 156 триллионов операций с плавающей запятой в секунду на графическом процессоре RTX 4090, в то время как ZeRO-Infinity достигает только 45 триллионов операций в секунду.
Для решения двойных вызовов локальной избыточности и глобальных зависимостей в понимании видео, в данной работе инновационно адаптирован метод Mamba к области видео. Предложенный VideoMamba преодолевает ограничения существующих трехмерных сверточных нейронных сетей и видео-трансформеров. Его оператор линейной сложности обеспечивает эффективное долгосрочное моделирование, что критически важно для понимания длинных видео высокого разрешения. Обширные оценки показывают четыре основные способности VideoMamba: (1) Масштабируемость в визуальной области без обширного предварительного обучения набора данных благодаря новой технике самодистилляции; (2) Чувствительность к распознаванию краткосрочных действий даже с тонкими различиями в движении; (3) Превосходство в понимании долгосрочных видео, демонстрируя значительные преимущества по сравнению с традиционными моделями на основе признаков; и (4) Совместимость с другими модальностями, демонстрируя устойчивость в мультимодальных контекстах. Благодаря этим отличительным преимуществам VideoMamba устанавливает новую точку отсчета для понимания видео, предлагая масштабируемое и эффективное решение для всестороннего понимания видео. Весь код и модели доступны по адресу https://github.com/OpenGVLab/VideoMamba.
Автоматическая генерация 3D-моделей недавно привлекла широкое внимание. Недавние методы значительно увеличили скорость генерации, но обычно создают менее детализированные объекты из-за ограниченных возможностей модели или 3D-данных. Вдохновленные последними достижениями в области видео-моделей диффузии, мы представляем V3D, который использует возможности симуляции мира предварительно обученных видео-моделей диффузии для облегчения генерации 3D-моделей. Для полного раскрытия потенциала видео-диффузии в восприятии 3D-мира, мы дополнительно вводим приоритет согласованности геометрии и расширяем видео-модель диффузии до многопозиционного согласованного 3D-генератора. Благодаря этому, передовая видео-модель диффузии может быть настроена для генерации кадров орбитального обзора на 360 градусов вокруг объекта по одному изображению. С помощью наших настроенных конвейеров реконструкции мы можем создавать качественные сетки или 3D-гауссианы всего за 3 минуты. Более того, наш метод может быть расширен до синтеза нового вида на уровне сцены, обеспечивая точный контроль над траекторией камеры с ограниченными входными видами. Обширные эксперименты демонстрируют превосходную производительность предложенного подхода, особенно в плане качества генерации и согласованности многопозиционного вида. Наш код доступен по адресу https://github.com/heheyas/V3D
В данном исследовании мы выявляем явление неэффективного внимания в больших моделях видео-языкового восприятия (LVLM), особенно в таких выдающихся моделях, как LLaVA-1.5, QwenVL-Chat и Video-LLaVA. Мы обнаружили, что вычисление внимания к визуальным токенам крайне неэффективно в глубоких слоях популярных LVLM, что указывает на необходимость использования более разреженного подхода по сравнению с обработкой текстовых данных. Для этой цели мы представляем FastV, универсальный метод, разработанный для оптимизации вычислительной эффективности путем изучения адаптивных шаблонов внимания в начальных слоях и обрезки визуальных токенов в последующих. Наши оценки демонстрируют способность FastV драматически снизить вычислительные затраты (например, на 45% снижение FLOPs для LLaVA-1.5-13B) без ущерба производительности в широком спектре задач понимания изображений и видео. Компромисс между вычислительной эффективностью и производительностью FastV является высоко настраиваемым и позволяет достичь оптимального решения по Парето. Он способен сжимать FLOPs модели с 13 миллиардами параметров, чтобы достичь более низкого бюджета, чем у модели с 7 миллиардами параметров, сохраняя при этом превосходную производительность. Мы считаем, что FastV имеет практическую ценность для развертывания LVLM на периферийных устройствах и коммерческих моделях. Код доступен по ссылке https://github.com/pkunlp-icler/FastV.
Мы исследуем темп, с которым алгоритмы для предварительного обучения языковых моделей улучшились с момента появления глубокого обучения. Используя набор данных из более чем 200 оценок языковых моделей на Wikitext и Penn Treebank за период с 2012 по 2023 год, мы обнаружили, что вычислительные ресурсы, необходимые для достижения установленного порога производительности, уменьшаются примерно вдвое каждые 8 месяцев, с доверительным интервалом 95% около 5 до 14 месяцев, что существенно быстрее, чем улучшения аппаратного обеспечения согласно закону Мура. Мы оцениваем дополнительные законы масштабирования, которые позволяют нам количественно оценить прогресс алгоритмов и определить относительный вклад масштабирования моделей по сравнению с инновациями в алгоритмах обучения. Несмотря на быстрый темп алгоритмического прогресса и разработку новых архитектур, таких как трансформер, наш анализ показывает, что увеличение вычислительных ресурсов внесло еще более значительный вклад в общее улучшение производительности за этот период времени. Хотя наш анализ ограничен шумными данными оценки, он количественно оценивает быстрый прогресс в языковом моделировании, проливая свет на относительный вклад вычислений и алгоритмов.
Появление Sora отмечает начало новой эры для моделей диффузии текста в видео, принося значительные усовершенствования в генерации видео и потенциальных приложениях. Однако Sora, так же как и другие модели диффузии текста в видео, сильно зависит от подсказок, и нет общедоступного набора данных, включающего изучение подсказок для текста в видео. В данной статье мы представляем VidProM, первый крупномасштабный набор данных, включающий 1,67 миллиона уникальных подсказок для текста в видео от реальных пользователей. Кроме того, набор данных включает 6,69 миллиона видеороликов, сгенерированных четырьмя передовыми моделями диффузии, а также некоторые связанные данные. Сначала мы продемонстрируем создание этого крупномасштабного набора данных, что является длительным и затратным процессом. Затем мы покажем, в чем отличие предложенного VidProM от DiffusionDB, крупномасштабного набора данных с галереей подсказок для генерации изображений. Исходя из анализа этих подсказок, мы выявляем необходимость нового набора данных с подсказками, специально разработанных для генерации текста в видео, и получаем понимание предпочтений реальных пользователей при создании видеороликов. Наш крупномасштабный и разнообразный набор данных также вдохновляет на множество увлекательных новых исследовательских направлений. Например, для разработки более качественных, эффективных и безопасных моделей диффузии текста в видео мы предлагаем исследовать создание подсказок для текста в видео, эффективную генерацию видео и обнаружение копий видео для моделей диффузии. Мы делаем собранный набор данных VidProM общедоступным на GitHub и Hugging Face по лицензии CC-BY-NC 4.0.
Модели диффузии относительно легки в обучении, но требуют много шагов для генерации образцов. Модели согласованности гораздо сложнее в обучении, но генерируют образцы за один шаг. В данной статье мы предлагаем Многошаговые модели согласованности: объединение Моделей согласованности (Сонг и др., 2023) и TRACT (Бертелот и др., 2023), которые могут интерполировать между моделью согласованности и моделью диффузии: компромисс между скоростью генерации образцов и их качеством. Конкретно, модель согласованности на 1 шаге является обычной моделью согласованности, в то время как мы показываем, что модель согласованности на бесконечном числе шагов является моделью диффузии. Многошаговые модели согласованности работают очень хорошо на практике. Увеличивая бюджет образцов с одного шага до 2-8 шагов, мы можем более легко обучать модели, которые генерируют образцы более высокого качества, сохраняя при этом большую часть преимуществ в скорости генерации образцов. Замечательные результаты: 1,4 FID на Imagenet 64 на 8 шаге и 2,1 FID на Imagenet128 на 8 шагах с дистилляцией согласованности. Мы также показываем, что наш метод масштабируется на модель диффузии текста в изображение, генерируя образцы, близкие по качеству к оригинальной модели.
Генерация, основанная на субъекте, недавно привлекла значительный интерес благодаря способности персонализировать генерацию текста в изображение. Типичные работы сосредотачиваются на изучении частных атрибутов нового субъекта. Однако важный факт не был серьезно учтен: субъект не является изолированным новым концептом, а должен быть специализацией определенной категории в предварительно обученной модели. Это приводит к тому, что субъект не в полной мере наследует атрибуты в своей категории, что приводит к плохим генерациям, связанным с атрибутами. В данной статье, вдохновленные объектно-ориентированным программированием, мы моделируем субъект как производный класс, чей базовый класс - это его семантическая категория. Это моделирование позволяет субъекту наследовать общедоступные атрибуты из своей категории, одновременно изучая свои частные атрибуты на примере, предоставленном пользователем. Конкретно, мы предлагаем метод "подключи и играй", регуляризацию, основанную на субъекте (SuDe). Он создает моделирование базового производного класса, ограничивая сгенерированные изображения, основанные на субъекте, семантически принадлежать категории субъекта. Обширные эксперименты на трех базовых уровнях и двух основах на различных субъектах показывают, что наш SuDe позволяет создавать воображаемые генерации, связанные с атрибутами, сохраняя при этом верность субъекта. Коды будут скоро опубликованы на FaceChain (https://github.com/modelscope/facechain).