Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Кража части языковой модели производства
Stealing Part of a Production Language Model

Mar 11

ByNicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr

Мы представляем первую атаку по краже модели, которая извлекает точную, нетривиальную информацию из черного ящика производственных языковых моделей, таких как ChatGPT от OpenAI или PaLM-2 от Google. Конкретно, наша атака восстанавливает слой вложения проекции (до симметрий) модели трансформера при типичном доступе к API. За сумму менее 20 долларов США наша атака извлекает полную матрицу проекции языковых моделей Ada и Babbage от OpenAI. Таким образом, мы подтверждаем впервые, что у этих черных ящиков есть скрытая размерность 1024 и 2048 соответственно. Мы также восстанавливаем точный размер скрытой размерности модели gpt-3.5-turbo и оцениваем, что стоимость извлечения полной матрицы проекции составит менее 2 000 запросов. Мы заканчиваем потенциальными защитными мерами и смягчениями, обсуждаем последствия возможных будущих работ, которые могут расширить нашу атаку.

Добавление NVMe SSD для включения и ускорения настройки модели Fine-tuning на 100 миллиардов параметров на одном графическом процессоре.
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU

Mar 11

ByChangyue Liao, Mo Sun, Zihan Yang, Kaiqi Chen, Binhang Yuan, Fei Wu, Zeke Wang

Недавние достижения в области крупных языковых моделей принесли огромную ценность миру благодаря своим выдающимся возможностям, обусловленным огромным количеством параметров, которые они используют. Однако даже графические процессоры с самыми большими объемами памяти, в настоящее время достигающими 80 ГБ, далеко не достаточны для размещения этих огромных параметров и связанных с ними состояний оптимизатора при проведении оптимизации на основе стохастического градиентного спуска. Один из подходов к размещению таких огромных моделей - объединение памяти устройства из нескольких графических процессоров. Однако этот подход вводит запретительные издержки для большинства академических исследователей, у которых всегда ограниченный бюджет на множество серверов с высокопроизводительными графическими процессорами. В данной статье мы сосредоточимся на тонкой настройке огромной модели на одном, даже недорогом, графическом процессоре в сервере стандартной конфигурации, доступном большинству исследователей в области искусственного интеллекта. В таком сценарии передовая работа ZeRO-Infinity сталкивается с двумя серьезными проблемами при работе на сервере стандартной конфигурации: 1) низкое использование графического процессора из-за неэффективного обмена данными и 2) ограниченный размер обучаемой модели из-за объема оперативной памяти центрального процессора. Причиной этого является то, что ZeRO-Infinity оптимизирован для работы на серверах с высокопроизводительными графическими процессорами. В этой связи мы представляем Fuyou - недорогую обучающую среду, которая позволяет эффективно настраивать огромные модели объемом 100 миллиардов параметров на сервере стандартной конфигурации с недорогим графическим процессором и ограниченным объемом оперативной памяти центрального процессора. Основная идея заключается в добавлении обмена данными между твердотельным накопителем и центральным процессором как измерения оптимизации и тщательной совместной оптимизации вычислений и обмена данных с систематического подхода для максимизации использования графического процессора. Экспериментальные результаты показывают, что 1) Fuyou способен тонко настраивать модель GPT-3 объемом 175 миллиардов параметров на потребительском графическом процессоре RTX 4090 с высоким использованием графического процессора, в то время как ZeRO-Infinity не справляется с этой задачей; и 2) при обучении небольшой модели GPT-3 объемом 13 миллиардов параметров Fuyou достигает производительности 156 триллионов операций с плавающей запятой в секунду на графическом процессоре RTX 4090, в то время как ZeRO-Infinity достигает только 45 триллионов операций в секунду.

V3D: Модели видеораспространения - эффективные генераторы 3D.
V3D: Video Diffusion Models are Effective 3D Generators

Mar 11

ByZilong Chen, Yikai Wang, Feng Wang, Zhengyi Wang, Huaping Liu

Автоматическая генерация 3D-моделей недавно привлекла широкое внимание. Недавние методы значительно увеличили скорость генерации, но обычно создают менее детализированные объекты из-за ограниченных возможностей модели или 3D-данных. Вдохновленные последними достижениями в области видео-моделей диффузии, мы представляем V3D, который использует возможности симуляции мира предварительно обученных видео-моделей диффузии для облегчения генерации 3D-моделей. Для полного раскрытия потенциала видео-диффузии в восприятии 3D-мира, мы дополнительно вводим приоритет согласованности геометрии и расширяем видео-модель диффузии до многопозиционного согласованного 3D-генератора. Благодаря этому, передовая видео-модель диффузии может быть настроена для генерации кадров орбитального обзора на 360 градусов вокруг объекта по одному изображению. С помощью наших настроенных конвейеров реконструкции мы можем создавать качественные сетки или 3D-гауссианы всего за 3 минуты. Более того, наш метод может быть расширен до синтеза нового вида на уровне сцены, обеспечивая точный контроль над траекторией камеры с ограниченными входными видами. Обширные эксперименты демонстрируют превосходную производительность предложенного подхода, особенно в плане качества генерации и согласованности многопозиционного вида. Наш код доступен по адресу https://github.com/heheyas/V3D

VideoMamba: Модель пространства состояний для эффективного понимания видео
VideoMamba: State Space Model for Efficient Video Understanding

Mar 11

ByKunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, Yu Qiao

Для решения двойных вызовов локальной избыточности и глобальных зависимостей в понимании видео, в данной работе инновационно адаптирован метод Mamba к области видео. Предложенный VideoMamba преодолевает ограничения существующих трехмерных сверточных нейронных сетей и видео-трансформеров. Его оператор линейной сложности обеспечивает эффективное долгосрочное моделирование, что критически важно для понимания длинных видео высокого разрешения. Обширные оценки показывают четыре основные способности VideoMamba: (1) Масштабируемость в визуальной области без обширного предварительного обучения набора данных благодаря новой технике самодистилляции; (2) Чувствительность к распознаванию краткосрочных действий даже с тонкими различиями в движении; (3) Превосходство в понимании долгосрочных видео, демонстрируя значительные преимущества по сравнению с традиционными моделями на основе признаков; и (4) Совместимость с другими модальностями, демонстрируя устойчивость в мультимодальных контекстах. Благодаря этим отличительным преимуществам VideoMamba устанавливает новую точку отсчета для понимания видео, предлагая масштабируемое и эффективное решение для всестороннего понимания видео. Весь код и модели доступны по адресу https://github.com/OpenGVLab/VideoMamba.

Изображение стоит 1/2 токена после слоя 2: ускорение подключения и игры для крупных моделей видео-языка.
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Mar 11

ByLiang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang

В данном исследовании мы выявляем явление неэффективного внимания в больших моделях видео-языкового восприятия (LVLM), особенно в таких выдающихся моделях, как LLaVA-1.5, QwenVL-Chat и Video-LLaVA. Мы обнаружили, что вычисление внимания к визуальным токенам крайне неэффективно в глубоких слоях популярных LVLM, что указывает на необходимость использования более разреженного подхода по сравнению с обработкой текстовых данных. Для этой цели мы представляем FastV, универсальный метод, разработанный для оптимизации вычислительной эффективности путем изучения адаптивных шаблонов внимания в начальных слоях и обрезки визуальных токенов в последующих. Наши оценки демонстрируют способность FastV драматически снизить вычислительные затраты (например, на 45% снижение FLOPs для LLaVA-1.5-13B) без ущерба производительности в широком спектре задач понимания изображений и видео. Компромисс между вычислительной эффективностью и производительностью FastV является высоко настраиваемым и позволяет достичь оптимального решения по Парето. Он способен сжимать FLOPs модели с 13 миллиардами параметров, чтобы достичь более низкого бюджета, чем у модели с 7 миллиардами параметров, сохраняя при этом превосходную производительность. Мы считаем, что FastV имеет практическую ценность для развертывания LVLM на периферийных устройствах и коммерческих моделях. Код доступен по ссылке https://github.com/pkunlp-icler/FastV.

Алгоритмический прогресс в языковых моделях
Algorithmic progress in language models

Mar 9

ByAnson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla

Мы исследуем темп, с которым алгоритмы для предварительного обучения языковых моделей улучшились с момента появления глубокого обучения. Используя набор данных из более чем 200 оценок языковых моделей на Wikitext и Penn Treebank за период с 2012 по 2023 год, мы обнаружили, что вычислительные ресурсы, необходимые для достижения установленного порога производительности, уменьшаются примерно вдвое каждые 8 месяцев, с доверительным интервалом 95% около 5 до 14 месяцев, что существенно быстрее, чем улучшения аппаратного обеспечения согласно закону Мура. Мы оцениваем дополнительные законы масштабирования, которые позволяют нам количественно оценить прогресс алгоритмов и определить относительный вклад масштабирования моделей по сравнению с инновациями в алгоритмах обучения. Несмотря на быстрый темп алгоритмического прогресса и разработку новых архитектур, таких как трансформер, наш анализ показывает, что увеличение вычислительных ресурсов внесло еще более значительный вклад в общее улучшение производительности за этот период времени. Хотя наш анализ ограничен шумными данными оценки, он количественно оценивает быстрый прогресс в языковом моделировании, проливая свет на относительный вклад вычислений и алгоритмов.

VidProM: Миллионномасштабный набор данных Prompt-Gallery для текста к видео с моделями диффузии
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

Mar 10

ByWenhao Wang, Yi Yang

Появление Sora отмечает начало новой эры для моделей диффузии текста в видео, принося значительные усовершенствования в генерации видео и потенциальных приложениях. Однако Sora, так же как и другие модели диффузии текста в видео, сильно зависит от подсказок, и нет общедоступного набора данных, включающего изучение подсказок для текста в видео. В данной статье мы представляем VidProM, первый крупномасштабный набор данных, включающий 1,67 миллиона уникальных подсказок для текста в видео от реальных пользователей. Кроме того, набор данных включает 6,69 миллиона видеороликов, сгенерированных четырьмя передовыми моделями диффузии, а также некоторые связанные данные. Сначала мы продемонстрируем создание этого крупномасштабного набора данных, что является длительным и затратным процессом. Затем мы покажем, в чем отличие предложенного VidProM от DiffusionDB, крупномасштабного набора данных с галереей подсказок для генерации изображений. Исходя из анализа этих подсказок, мы выявляем необходимость нового набора данных с подсказками, специально разработанных для генерации текста в видео, и получаем понимание предпочтений реальных пользователей при создании видеороликов. Наш крупномасштабный и разнообразный набор данных также вдохновляет на множество увлекательных новых исследовательских направлений. Например, для разработки более качественных, эффективных и безопасных моделей диффузии текста в видео мы предлагаем исследовать создание подсказок для текста в видео, эффективную генерацию видео и обнаружение копий видео для моделей диффузии. Мы делаем собранный набор данных VidProM общедоступным на GitHub и Hugging Face по лицензии CC-BY-NC 4.0.

Модели согласованности с несколькими шагами
Multistep Consistency Models

Mar 11

ByJonathan Heek, Emiel Hoogeboom, Tim Salimans

Модели диффузии относительно легки в обучении, но требуют много шагов для генерации образцов. Модели согласованности гораздо сложнее в обучении, но генерируют образцы за один шаг. В данной статье мы предлагаем Многошаговые модели согласованности: объединение Моделей согласованности (Сонг и др., 2023) и TRACT (Бертелот и др., 2023), которые могут интерполировать между моделью согласованности и моделью диффузии: компромисс между скоростью генерации образцов и их качеством. Конкретно, модель согласованности на 1 шаге является обычной моделью согласованности, в то время как мы показываем, что модель согласованности на бесконечном числе шагов является моделью диффузии. Многошаговые модели согласованности работают очень хорошо на практике. Увеличивая бюджет образцов с одного шага до 2-8 шагов, мы можем более легко обучать модели, которые генерируют образцы более высокого качества, сохраняя при этом большую часть преимуществ в скорости генерации образцов. Замечательные результаты: 1,4 FID на Imagenet 64 на 8 шаге и 2,1 FID на Imagenet128 на 8 шагах с дистилляцией согласованности. Мы также показываем, что наш метод масштабируется на модель диффузии текста в изображение, генерируя образцы, близкие по качеству к оригинальной модели.

FaceChain-SuDe: Создание производного класса для наследования атрибутов категории для генерации по запросу, инициированной субъектом.
FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

Mar 11

ByPengchong Qiao, Lei Shang, Chang Liu, Baigui Sun, Xiangyang Ji, Jie Chen

Генерация, основанная на субъекте, недавно привлекла значительный интерес благодаря способности персонализировать генерацию текста в изображение. Типичные работы сосредотачиваются на изучении частных атрибутов нового субъекта. Однако важный факт не был серьезно учтен: субъект не является изолированным новым концептом, а должен быть специализацией определенной категории в предварительно обученной модели. Это приводит к тому, что субъект не в полной мере наследует атрибуты в своей категории, что приводит к плохим генерациям, связанным с атрибутами. В данной статье, вдохновленные объектно-ориентированным программированием, мы моделируем субъект как производный класс, чей базовый класс - это его семантическая категория. Это моделирование позволяет субъекту наследовать общедоступные атрибуты из своей категории, одновременно изучая свои частные атрибуты на примере, предоставленном пользователем. Конкретно, мы предлагаем метод "подключи и играй", регуляризацию, основанную на субъекте (SuDe). Он создает моделирование базового производного класса, ограничивая сгенерированные изображения, основанные на субъекте, семантически принадлежать категории субъекта. Обширные эксперименты на трех базовых уровнях и двух основах на различных субъектах показывают, что наш SuDe позволяет создавать воображаемые генерации, связанные с атрибутами, сохраняя при этом верность субъекта. Коды будут скоро опубликованы на FaceChain (https://github.com/modelscope/facechain).