Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии являются основным двигателем прогресса в синтезе изображений и видео, но страдают от медленной скорости вывода. Методы дистилляции, такие как недавно представленная дистилляция адверсариальной диффузии (ADD), нацелены на переход модели от многократного к одношаговому выводу, хотя за счет дорогостоящей и сложной оптимизации из-за зависимости от фиксированного предварительно обученного дискриминатора DINOv2. Мы представляем Латентную Адверсариальную Дистилляцию Диффузии (LADD), новый подход к дистилляции, преодолевающий ограничения ADD. В отличие от пиксельной ADD, LADD использует генеративные признаки из предварительно обученных моделей латентной диффузии. Этот подход упрощает обучение и улучшает производительность, обеспечивая синтез изображений высокого разрешения с различными соотношениями сторон. Мы применяем LADD к Stable Diffusion 3 (8B) для получения SD3-Turbo, быстрой модели, которая соответствует производительности передовых генераторов текста в изображения, используя всего лишь четыре неуправляемых шага выборки. Более того, мы систематически исследуем ее поведение при масштабировании и демонстрируем эффективность LADD в различных приложениях, таких как редактирование изображений и заполнение пробелов.
Обучение с подкреплением на основе обратной связи от человека (RLHF) доказало свою эффективность как сильный метод для согласования Предварительно обученных Больших Языковых Моделей (LLM) с предпочтениями человека. Однако обучение моделей с использованием RLHF является вычислительно затратным и в целом сложным процессом. В данной работе мы изучаем RLHF, в котором базовые модели обучаются с использованием метода эффективного по параметрам метода Низкоранговой Адаптации (LoRA), представленного Ху и др. [2021]. Мы исследуем настройку "Параметрически эффективного обучения с подкреплением" (PERL), в рамках которой мы проводим обучение модели вознаграждения и обучение с подкреплением с использованием LoRA. Мы сравниваем PERL с традиционной настройкой тонкой настройки (полной настройки) на различных конфигурациях для 7 бенчмарков, включая 2 новых набора данных, для моделирования вознаграждения и обучения с подкреплением. Мы обнаружили, что PERL показывает результаты на уровне традиционной настройки RLHF, при этом обучается быстрее и требует меньше памяти. Это обеспечивает высокую производительность RLHF, снижая вычислительную нагрузку, которая ограничивает его применение как метода согласования для Больших Языковых Моделей. Мы также представляем 2 новых набора данных с предпочтениями "палец вверх/палец вниз": "Taskmaster Coffee" и "Taskmaster Ticketing", чтобы содействовать исследованиям в области RLHF.
Эффективное и точное обновление знаний, хранящихся в больших языковых моделях (LLM), является одной из наиболее актуальных исследовательских задач сегодня. В данной статье представлена Larimar - новая архитектура, вдохновленная мозгом, для улучшения LLM с распределенной эпизодической памятью. Память Larimar позволяет динамически обновлять знания одним выстрелом без необходимости затратного повторного обучения или настройки. Экспериментальные результаты на нескольких бенчмарках редактирования фактов показывают, что Larimar достигает точности, сравнимой с большинством конкурентных базовых уровней, даже в сложной последовательной настройке редактирования, но также превосходит в скорости - обеспечивая ускорение в 4-10 раз в зависимости от базового LLM - а также гибкость благодаря предложенной простой, не привязанной к LLM архитектуре и, следовательно, общей. Мы также предоставляем механизмы для выборочного забывания фактов и обобщения длины контекста ввода с помощью Larimar и демонстрируем их эффективность.
Мы представляем модель стабильного видео 3D (SV3D) - латентную модель диффузии видео для генерации изображений в множественных видах орбитальных видео вокруг 3D объекта. Недавние работы по созданию 3D моделей предлагают техники адаптации 2D генеративных моделей для синтеза нового вида (NVS) и 3D оптимизации. Однако эти методы имеют несколько недостатков из-за ограниченных видов или несогласованного NVS, что влияет на производительность генерации 3D объектов. В данной работе мы предлагаем SV3D, которая адаптирует модель диффузии изображения в видео для синтеза новых многовидовых изображений и генерации 3D, тем самым используя обобщение и многовидовую согласованность видео моделей, а также добавляя явное управление камерой для NVS. Мы также предлагаем улучшенные техники 3D оптимизации для использования SV3D и ее выходов NVS для генерации изображения в 3D. Обширные экспериментальные результаты на нескольких наборах данных с использованием 2D и 3D метрик, а также пользовательское исследование, демонстрируют передовую производительность SV3D в NVS и реконструкции 3D по сравнению с предыдущими работами.
Основываясь на последних достижениях в моделях диффузии для генерации текста в изображение, персонализация с сохранением идентичности сделала значительный прогресс в точном воспроизведении конкретных идентичностей с помощью всего одного исходного изображения. Однако существующие методы в основном интегрируют исходные изображения в пределах пространства встраивания текста, что приводит к сложному переплетению информации об изображении и тексте, что создает проблемы для сохранения как верности идентичности, так и семантической последовательности. Для решения этой проблемы мы предлагаем Infinite-ID, парадигму декуплирования идентификаторов и семантики для персонализации с сохранением идентичности. Конкретно, мы вводим улучшенное обучение идентификаторов, включая дополнительный модуль кросс-внимания к изображению для захвата достаточной информации об идентификаторе, отключая при этом исходный модуль кросс-внимания к тексту модели диффузии. Это гарантирует, что поток изображения точно представляет идентичность, предоставленную исходным изображением, минимизируя при этом вмешательство текстового ввода. Кроме того, мы вводим механизм взаимодействия функций, который объединяет смешанный модуль внимания с операцией AdaIN-mean для плавного слияния двух потоков. Этот механизм не только улучшает верность идентичности и семантическую последовательность, но также обеспечивает удобное управление стилями сгенерированных изображений. Обширные экспериментальные результаты как по генерации сырых фотографий, так и по генерации стилей изображений демонстрируют превосходную производительность нашего предложенного метода.
Визуальное кодирование составляет основу крупных мультимодальных моделей (LMM) в понимании визуального мира. Традиционные LMM обрабатывают изображения фиксированных размеров и ограниченного разрешения, в то время как недавние исследования в этом направлении ограничены в адаптивности, эффективности и даже правильности. В данной работе мы в первую очередь рассматриваем GPT-4V и LLaVA-1.5 в качестве репрезентативных примеров и выявляем систематические недостатки, заложенные в их стратегии визуального кодирования. Для решения поставленных задач мы представляем LLaVA-UHD, крупную мультимодальную модель, способную эффективно воспринимать изображения любого соотношения сторон и высокого разрешения. LLaVA-UHD включает три ключевых компонента: (1) стратегию модуляризации изображений, которая разделяет изображения нативного разрешения на более мелкие сегменты переменного размера для эффективного и расширяемого кодирования, (2) модуль сжатия, который дополнительно уплотня токены изображений от визуальных кодировщиков, и (3) пространственную схему для организации сегментов для LMM. Комплексные эксперименты показывают, что LLaVA-UHD превосходит установленные LMM, обученные на 2-3 порядка большем объеме данных, на 9 бенчмарках. Особенно стоит отметить, что наша модель, построенная на LLaVA-1.5 336x336, поддерживает изображения разрешением в 6 раз большем (т.е. 672x1088), используя всего лишь 94% вычислительных ресурсов для вывода, и достигает улучшения точности на 6.4 в задаче TextVQA. Более того, модель может быть эффективно обучена в академических условиях за 23 часа на 8 GPU A100 (в сравнении с 26 часами для LLaVA-1.5). Мы предоставляем данные и код публично по адресу https://github.com/thunlp/LLaVA-UHD.
Мы представляем LightIt, метод явного управления освещением для генерации изображений. Недавние методы генерации не обладают контролем освещения, что критически важно для многих художественных аспектов генерации изображений, таких как установление общего настроения или кинематографического вида. Для преодоления этих ограничений мы предлагаем условие генерации на картах теней и нормалей. Мы моделируем освещение с помощью однократного отражения, включая отбрасывание теней. Сначала мы обучаем модуль оценки теней для создания набора данных из реальных изображений и пар теней. Затем мы обучаем сеть управления, используя оцененные тени и нормали в качестве входных данных. Наш метод продемонстрировал генерацию изображений высокого качества и управление освещением во многих сценах. Кроме того, мы используем наш созданный набор данных для обучения модели переосвещения, сохраняющей идентичность, условленной изображением и целевым освещением. Наш метод является первым, который позволяет генерацию изображений с управляемым, согласованным освещением и работает на уровне специализированных методов переосвещения новейших достижений.
Синтез трехмерных объектов в открытой области отстает от синтеза изображений из-за ограниченных данных и более высокой вычислительной сложности. Для устранения этого разрыва недавние работы исследовали многовидовую диффузию, но часто уступают в либо трехмерной согласованности, либо визуальном качестве, либо эффективности. В данной статье предлагается MVEdit, который функционирует как трехмерный аналог SDEdit, используя предковую выборку для совместного удаления шумов с многовидовых изображений и вывода высококачественных текстурированных сеток. Основанный на готовых 2D моделях диффузии, MVEdit достигает трехмерной согласованности через трехмерный адаптер без обучения, который преобразует 2D виды последнего временного шага в согласованное трехмерное представление, затем условиями делает 2D виды следующего временного шага с использованием отрендеренных видов, не жертвуя визуальным качеством. С временем вывода всего 2-5 минут, этот фреймворк достигает лучшего компромисса между качеством и скоростью, чем дистилляция оценки. MVEdit является высоко гибким и расширяемым, с широким спектром применений, включая генерацию текста/изображения в 3D, редактирование 3D в 3D и синтез текстур высокого качества. В частности, оценки демонстрируют передовые результаты как в задачах генерации изображения в 3D, так и в генерации текстуры по текстовому справочнику. Кроме того, мы представляем метод для тонкой настройки 2D латентных моделей диффузии на небольших 3D наборах данных с ограниченными ресурсами, обеспечивая быструю инициализацию текста в 3D низкого разрешения.
Восстановление визуального восприятия из активности мозга значительно улучшилось, однако практическая применимость таких методов ограничена. Это связано с тем, что такие модели обучаются независимо для каждого испытуемого, где каждому испытуемому требуется десятки часов дорогих данных fMRI для достижения высококачественных результатов. Настоящая работа демонстрирует высококачественные восстановления, используя всего 1 час обучающих данных fMRI. Мы предварительно обучаем нашу модель на 7 испытуемых, а затем донастраиваем на минимальных данных нового испытуемого. Наша новаторская процедура функциональной выравнивания линейно отображает все данные мозга в общее латентное пространство субъекта, за которым следует общее нелинейное отображение в пространство изображений CLIP. Затем мы отображаем из пространства CLIP в пространство пикселей, донастраивая Stable Diffusion XL для принятия латентов CLIP в качестве входных данных вместо текста. Этот подход улучшает обобщение за пределы испытуемого с ограниченными обучающими данными и также достигает метрик поиска и восстановления изображений наилучшего качества по сравнению с подходами для одного испытуемого. MindEye2 демонстрирует, как точные восстановления восприятия возможны после одного посещения в МРТ-центре. Весь код доступен на GitHub.
Мы исследуем, как согласование нескольких базовых моделей (больших языковых моделей и моделей видео-языка) с новым объединенным механизмом памяти может решить сложную проблему понимания видео, особенно захватывая долгосрочные временные отношения в длинных видеороликах. В частности, предложенный мультимодальный агент VideoAgent: 1) создает структурированную память для хранения как общих временных описаний событий, так и объектно-центрических состояний отслеживания видео; 2) при заданном входном запросе к задаче он использует инструменты, включая локализацию видеосегментов и запросы памяти объектов, наряду с другими визуальными базовыми моделями для интерактивного решения задачи, используя возможность нулевого применения инструментов LLMs. VideoAgent демонстрирует впечатляющие результаты на нескольких долгосрочных бенчмарках понимания видео, в среднем увеличивая NExT-QA на 6.6% и EgoSchema на 26.0% по сравнению с базовыми моделями, сокращая разрыв между моделями с открытым и закрытым исходным кодом, включая Gemini 1.5 Pro.
Прогресс в области машинного обучения (ML) был обеспечен масштабированием моделей нейронных сетей. Это масштабирование стало возможным благодаря все более героическим подвигам в инженерии, необходимым для адаптации подходов ML, требующих высокопропускной связи между устройствами, работающими параллельно. В данной работе мы предлагаем совместно разработанную модульную архитектуру и подход к обучению моделей ML, названный DIstributed PAth COmposition (DiPaCo). Во время обучения DiPaCo распределяет вычисления по путям через набор общих модулей. Вместе с оптимизацией, вдохновленной Local-SGD (DiLoCo), которая поддерживает синхронизацию модулей с существенно сокращенной коммуникацией, наш подход облегчает обучение на слабо связанных и гетерогенных рабочих узлах, с дизайном, который обеспечивает устойчивость к сбоям и прерываниям работы рабочих узлов. Во время вывода, для каждого ввода требуется выполнение только одного пути, без необходимости сжатия модели. Мы рассматриваем этот подход как первый прототип новой парадигмы масштабного обучения, менее синхронного и более модульного. Наши эксперименты на широко используемом бенчмарке C4 показывают, что при том же количестве шагов обучения, но меньшем времени настенных часов, DiPaCo превосходит производительность модели языкового трансформера с плотностью 1 миллиард параметров, выбирая один из 256 возможных путей, каждый из которых имеет размер 150 миллионов параметров.
Область нейронного рендеринга заметила значительный прогресс благодаря развитию генеративных моделей и техник дифференцируемого рендеринга. Хотя двумерная диффузия достигла успеха, единый конвейер трехмерной диффузии остается нерешенным. В данной статье представляется новая концепция под названием LN3Diff, которая направлена на заполнение этого пробела и обеспечивает быстрое, высококачественное и универсальное условное трехмерное поколение. Наш подход использует архитектуру, осознающую трехмерное пространство, и вариационный автокодировщик (VAE) для кодирования входного изображения в структурированное, компактное и трехмерное латентное пространство. Латент декодируется декодером на основе трансформера в трехмерное нейронное поле большой емкости. Обучив модель диффузии на этом трехмерно осознающем латентном пространстве, наш метод достигает передовых результатов на ShapeNet для трехмерной генерации и проявляет превосходную производительность в монокулярной трехмерной реконструкции и условной трехмерной генерации на различных наборах данных. Более того, он превосходит существующие методы трехмерной диффузии по скорости вывода, не требуя оптимизации для каждого экземпляра. Наш предложенный LN3Diff представляет собой значительное продвижение в трехмерном генеративном моделировании и обещает многообещающие результаты для различных приложений в области трехмерного зрения и графики.
Данный доклад представляет новую парадигму построения масштабируемых 3D генеративных моделей с использованием предварительно обученных моделей диффузии видео. Основным препятствием при разработке основных 3D генеративных моделей является ограниченная доступность 3D данных. В отличие от изображений, текстов или видео, 3D данные не доступны легко и сложно получить. Это приводит к значительному разрыву в масштабе по сравнению с огромными объемами других типов данных. Для решения этой проблемы мы предлагаем использовать модель диффузии видео, обученную на обширных объемах текста, изображений и видео, в качестве источника знаний для 3D данных. Разблокировав ее многоплановые генеративные возможности через донастройку, мы создаем крупномасштабный синтетический многоплановый набор данных для обучения прямой 3D генеративной модели. Предложенная модель, VFusion3D, обученная на почти 3 млн синтетических многоплановых данных, способна генерировать 3D объект из одного изображения за секунды и достигает превосходных результатов по сравнению с текущими передовыми прямыми 3D генеративными моделями, с предпочтением пользователей в пользу наших результатов более чем в 70% случаев.