Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало критическим подходом для согласования больших языковых моделей с предпочтениями людей, наблюдая быструю эволюцию алгоритмов через методы, такие как Проксимальная оптимизация политики (PPO), Прямая оптимизация предпочтений (DPO), REINFORCE Leave One-Out (RLOO), ReMax и Относительная оптимизация политики группы (GRPO). Мы представляем REINFORCE++, улучшенную вариацию классического алгоритма REINFORCE, которая включает ключевые методы оптимизации из PPO, устраняя при этом необходимость в сети критика. REINFORCE++ достигает трех основных целей: (1) простота, (2) улучшенная стабильность обучения и (3) снижение вычислительной нагрузки. Через обширное эмпирическое оценивание мы демонстрируем, что REINFORCE++ обладает более высокой стабильностью по сравнению с GRPO и достигает большей вычислительной эффективности, чем PPO, сохраняя при этом сопоставимую производительность. Реализация доступна по ссылке https://github.com/OpenRLHF/OpenRLHF.
Физическому искусственному интеллекту необходимо быть обученным сначала в цифровой форме. Для этого ему требуется цифровой двойник самого себя, модель политики, и цифровой двойник мира, модель мира. В данной статье мы представляем платформу модели Cosmos World Foundation для помощи разработчикам в создании настраиваемых моделей мира для их физических AI настроек. Мы позиционируем модель основы мира как универсальную модель мира, которая может быть доведена до настроенных моделей мира для последующих применений. Наша платформа включает в себя конвейер видео-компиляции, предварительно обученные модели основы мира, примеры пост-обучения предварительно обученных моделей основы мира и видео-токенизаторы. Чтобы помочь создателям физического искусственного интеллекта решить наиболее критические проблемы нашего общества, мы делаем нашу платформу открытой и наши модели с открытыми весами с лицензиями, доступными через https://github.com/NVIDIA/Cosmos.
Появление реального времени больших мультимодальных моделей (LMM), таких как GPT-4o, вызвало значительный интерес к эффективным LMM. Фреймворки LMM обычно кодируют визуальные входы в виде визуальных токенов (непрерывные представления) и интегрируют их и текстовые инструкции в контекст больших языковых моделей (LLM), где масштабные параметры и многочисленные контекстные токены (преимущественно визуальные токены) приводят к значительным вычислительным затратам. Предыдущие усилия по созданию эффективных LMM всегда сосредотачивались на замене основы LLM более маленькими моделями, пренебрегая при этом важным вопросом количества токенов. В данной статье мы представляем LLaVA-Mini, эффективную LMM с минимальным количеством визуальных токенов. Для достижения высокого коэффициента сжатия визуальных токенов при сохранении визуальной информации мы сначала анализируем, как LMM понимают визуальные токены, и обнаруживаем, что большинство визуальных токенов играют ключевую роль только в начальных слоях основы LLM, где они в основном объединяют визуальную информацию в текстовые токены. Основываясь на этом открытии, LLaVA-Mini вводит предварительное слияние модальности для объединения визуальной информации в текстовые токены заранее, тем самым облегчая экстремальное сжатие визуальных токенов, поступающих в основу LLM, в один токен. LLaVA-Mini является объединенной большой мультимодальной моделью, способной эффективно обрабатывать изображения, изображения высокого разрешения и видео. Эксперименты на 11 изображениях и 7 видео-бенчмарках показывают, что LLaVA-Mini превосходит LLaVA-v1.5, используя всего 1 визуальный токен вместо 576. Анализ эффективности показывает, что LLaVA-Mini может сократить количество операций с плавающей запятой на 77%, обеспечить низкую задержку в пределах 40 миллисекунд и обрабатывать более 10 000 кадров видео на графическом процессоре с 24 ГБ памяти.
Эта работа представляет Sa2VA, первую объединенную модель для плотного обоснованного понимания как изображений, так и видео. В отличие от существующих мультимодальных крупных языковых моделей, которые часто ограничены определенными модальностями и задачами, Sa2VA поддерживает широкий спектр задач изображений и видео, включая сегментацию по ссылке и разговор, с минимальной настройкой инструкций одного прогона. Sa2VA объединяет SAM-2, модель основанную на видео-сегментации, с LLaVA, передовой моделью видение-язык, и объединяет текст, изображение и видео в общее пространство общих токенов LLM. Используя LLM, Sa2VA генерирует инструкционные токены, которые направляют SAM-2 на создание точных масок, обеспечивая обоснованное, мультимодальное понимание как статического, так и динамического визуального контента. Кроме того, мы представляем Ref-SAV, автоматически размеченный набор данных, содержащий более 72 тыс. выражений объектов в сложных видеосценах, разработанный для улучшения производительности модели. Мы также вручную проверяем 2 тыс. видеообъектов в наборах данных Ref-SAV для оценки сегментации объектов видео по ссылке в сложных средах. Эксперименты показывают, что Sa2VA достигает современного уровня в нескольких задачах, особенно в сегментации объектов видео по ссылке, подчеркивая его потенциал для сложных прикладных задач в реальном мире.
В последние годы модели видео-языка (VLM) сделали значительные успехи в понимании видео. Однако критическая способность - понимание мелких движений - остается недостаточно исследованной в текущих бенчмарках. Для заполнения этого пробела мы предлагаем MotionBench, комплексный бенчмарк, разработанный для оценки понимания мелких движений моделями понимания видео. MotionBench оценивает восприятие моделями уровня движения через шесть основных категорий вопросов, ориентированных на движение, и включает данные, собранные из различных источников, обеспечивая широкое представление видео-контента реального мира. Экспериментальные результаты показывают, что существующие VLM плохо справляются с пониманием мелких движений. Для улучшения способности VLM воспринимать мелкие движения в ограниченной длине последовательности LLM мы проводим обширные эксперименты, рассматривая архитектуры VLM, оптимизированные для сжатия видео-признаков, и предлагаем новый и эффективный метод объединения Through-Encoder (TE) Fusion. Эксперименты показывают, что входы с более высокой частотой кадров и TE Fusion приводят к улучшениям в понимании движения, однако есть еще значительное пространство для улучшения. Наш бенчмарк направлен на руководство и мотивацию разработки более способных моделей понимания видео, подчеркивая важность понимания мелких движений. Страница проекта: https://motion-bench.github.io .
Модели диффузии продемонстрировали впечатляющую производительность в создании видеороликов высокого качества по текстовым подсказкам или изображениям. Однако точное управление процессом генерации видео, такое как манипуляции с камерой или редактирование контента, остается значительным вызовом. Существующие методы управляемой генерации видео обычно ограничены одним типом управления, лишены гибкости для решения разнообразных требований управления. В данной статье мы представляем Диффузию как Шейдер (DaS), новый подход, который поддерживает несколько задач управления видео в рамках единой архитектуры. Наш ключевой инсайт заключается в том, что для достижения универсального управления видео необходимо использовать 3D сигналы управления, поскольку видео фундаментально являются 2D изображениями динамического 3D контента. В отличие от предыдущих методов, ограниченных 2D сигналами управления, DaS использует отслеживание 3D видео в качестве входных данных управления, что делает процесс диффузии видео внутренне осведомленным о 3D. Эта инновация позволяет DaS достигать широкого спектра управления видео просто путем манипулирования 3D отслеживающими видео. Дополнительным преимуществом использования 3D отслеживающих видео является их способность эффективно связывать кадры, значительно улучшая временную согласованность созданных видео. Просто с помощью 3-дневной доводки на 8 H800 GPU, используя менее 10 тыс. видеороликов, DaS демонстрирует сильные возможности управления в различных задачах, включая генерацию видео из сетки, управление камерой, передачу движения и манипулирование объектами.
Автоматическое создание презентаций из документов представляет собой сложную задачу, требующую балансировки качества контента, визуального дизайна и структурной связности. Существующие методы в основном сосредотачиваются на улучшении и оценке качества контента в изоляции, часто игнорируя визуальный дизайн и структурную связность, что ограничивает их практическую применимость. Для решения этих ограничений мы предлагаем PPTAgent, который всесторонне улучшает создание презентаций через двухэтапный подход на основе редактирования, вдохновленный человеческими рабочими процессами. PPTAgent сначала анализирует образцовые презентации для понимания их структурных шаблонов и схем контента, затем создает конспекты и генерирует слайды с помощью действий кода для обеспечения согласованности и выравнивания. Для всесторонней оценки качества созданных презентаций мы дополнительно представляем PPTEval, фреймворк оценки, который оценивает презентации по трем измерениям: Контент, Дизайн и Связность. Эксперименты показывают, что PPTAgent значительно превосходит традиционные методы автоматического создания презентаций по всем трем измерениям. Код и данные доступны по ссылке https://github.com/icip-cas/PPTAgent.
В последнее время были достигнуты значительные успехи в области омни-модального обучения в понимании и генерации изображений, текста и речи, хотя главным образом в рамках собственных моделей. Ограниченные омни-модальные наборы данных и сопутствующие сложности, связанные с генерацией речи в реальном времени, препятствовали прогрессу в области открытых исследований. Для решения этих проблем мы предлагаем openomni, метод обучения в два этапа, объединяющий выравнивание омни-модальности и генерацию речи для разработки передовой омни-модальной крупной языковой модели. На этапе выравнивания предварительно обученная модель речи дополнительно обучается на задачах текст-изображение для обобщения от зрения к речи в (почти) нулевом режиме передачи, превосходя модели, обученные на три-модальных наборах данных. На этапе генерации речи легкий декодер облегчает генерацию речи с эмоциональной окраской в реальном времени путем обучения на задачах речи и предпочтениях. Эксперименты показывают, что openomni последовательно улучшает результаты в оценках омни-модальности, зрение-язык и речь-язык, обеспечивая естественные, эмоционально насыщенные диалоги и генерацию речи с эмоциональной окраской в реальном времени.
Научная парадигма исследований претерпевает глубокие изменения вследствие развития искусственного интеллекта (ИИ). Недавние работы демонстрируют, что различные методы исследований, поддерживаемые ИИ, могут значительно улучшить эффективность исследований путем улучшения анализа данных, ускорения вычислений и поощрения генерации новых идей. Для того чтобы продвигаться к конечной цели (т.е. автоматическим научным исследованиям), в данной статье мы предлагаем Dolphin - первую замкнутую автоматизированную систему открытого исследования для дальнейшего построения всего процесса человеческих научных исследований. Dolphin способен генерировать идеи для исследований, проводить эксперименты и получать обратную связь по результатам экспериментов для генерации идей более высокого качества. Более конкретно, Dolphin сначала генерирует новые идеи на основе соответствующих статей, которые ранжируются по атрибутам темы и задачи. Затем коды автоматически генерируются и отлаживаются с помощью структуры локального кода, направляемой исключениями и трассировкой. Наконец, Dolphin автоматически анализирует результаты каждой идеи и обратно подает результаты на следующий этап генерации идей. Эксперименты проводятся на стандартных наборах данных по различным темам, и результаты показывают, что Dolphin способен непрерывно генерировать новые идеи и завершать эксперимент в цикле. Мы подчеркиваем, что Dolphin способен автоматически предлагать методы, сравнимые с передовыми методами в некоторых задачах, таких как классификация 2D изображений и классификация 3D точек.
Мы представляем Magic Mirror, фреймворк для создания видео с сохранением личности на уровне кинематографического качества и динамичного движения. В то время как недавние достижения в моделях диффузии видео показали впечатляющие возможности в генерации видео из текста, сохранение последовательной личности при производстве естественного движения остается сложной задачей. Предыдущие методы либо требуют тонкой настройки под конкретного человека, либо борются с балансировкой сохранения личности и разнообразия движения. Основываясь на Video Diffusion Transformers, наш метод вводит три ключевых компонента: (1) двухветвевой извлекатель лицевых признаков, который захватывает как личностные, так и структурные особенности, (2) легкий кросс-модальный адаптер с Условной Адаптивной Нормализацией для эффективной интеграции личности, и (3) двухэтапную стратегию обучения, объединяющую синтетические пары личностей с видеоданными. Обширные эксперименты показывают, что Magic Mirror эффективно балансирует согласованность личности с естественным движением, превосходя существующие методы по нескольким метрикам, требуя минимального добавления параметров. Код и модель будут общедоступны по ссылке: https://github.com/dvlab-research/MagicMirror/
3D Гауссово сплетение (3DGS) сделало значительные успехи в представлении сцен и нейронной генерации изображений, с акцентом на адаптацию для динамических сцен. Несмотря на впечатляющее качество и скорость визуализации, существующие методы сталкиваются с проблемами хранения и представления сложных движений в реальном мире. Для решения этих проблем мы предлагаем MoDecGS, эффективную по памяти среду для гауссова сплетения, разработанную для восстановления новых видов в сложных сценариях с динамическими движениями. Мы представляем Глобально-Локальное Декомпозиция Движения (GLMD) для эффективного захвата динамических движений от грубого к тонкому. Этот подход использует Глобальные Канонические Каркасы (Global CS) и Локальные Канонические Каркасы (Local CS), расширяя статическое представление Каркаса до динамической реконструкции видео. Для Global CS мы предлагаем Глобальное Деформирование Якоря (GAD) для эффективного представления глобальной динамики вдоль сложных движений, путем прямого деформирования неявных атрибутов Каркаса, таких как позиция якоря, смещение и локальные контекстные особенности. Затем мы тонко корректируем локальные движения через Локальное Гауссово Деформирование (LGD) Локального CS. Кроме того, мы вводим Регулирование Временного Интервала (TIA) для автоматического контроля временного охвата каждого Локального CS во время обучения, позволяя MoDecGS находить оптимальные интервальные назначения на основе указанного количества временных сегментов. Обширные оценки показывают, что MoDecGS достигает среднего снижения размера модели на 70% по сравнению с передовыми методами для динамических 3D Гауссов из реальных видео с динамическими сценами, сохраняя или даже улучшая качество визуализации.
Обучение с подкреплением на основе обратной связи от человека (RLHF) широко используется для согласования языковых моделей (LMs) с предпочтениями человека. Работы по RLHF ранее обычно применяли бандитскую формулировку, которая, хотя и интуитивно понятна, игнорирует последовательную природу генерации LM и может столкнуться с проблемой разреженного вознаграждения. В то время как недавние работы предлагают плотное обучение RLHF на уровне токенов, обработка каждого токена как действия может быть излишне тонкой для правильного назначения вознаграждения. В данной статье мы стремимся объединить лучшее из обоих подходов, обучая и используя модель вознаграждения на уровне сегмента, которая назначает вознаграждение каждому семантически завершенному текстовому сегменту, охватывающему короткую последовательность токенов. Для обучения вознаграждения наш метод позволяет динамическую сегментацию текста и совместим с обычными наборами данных предпочтений последовательности. Для эффективного обучения LM на основе RL против сегментного вознаграждения мы обобщаем классические нормализаторы вознаграждения бандита скаляра в функции нормализаторов, учитывающих местоположение, и интерполируем сегментное вознаграждение для дальнейшего уплотнения. С учетом этих концепций наш метод демонстрирует конкурентоспособные результаты на трех популярных бенчмарках RLHF для политики LM: AlpacaEval 2.0, Arena-Hard и MT-Bench. Проведены исследования по абляции для дальнейшего демонстрирования нашего метода.
Мы представляем подход к модификации архитектур Transformer путем интеграции графоориентированного реляционного рассуждения в механизм внимания, объединяя концепции графовых нейронных сетей и языкового моделирования. Основываясь на внутренней связи между вниманием и теорией графов, мы переформулируем механизм внимания Transformer как графовую операцию и предлагаем Графовое Изоморфное Внимание. Этот метод использует передовые стратегии моделирования графов, включая Графовые Изоморфные Сети (GIN) и Агрегацию Главного Соседства (PNA), для обогащения представления реляционных структур. Наш подход улавливает сложные зависимости и обобщается на различные задачи, что подтверждается уменьшением разрыва обобщения и улучшением производительности обучения. Кроме того, мы расширяем концепцию графового внимания, чтобы представить Разреженное GIN-Внимание, подход к настройке Feinberg, использующий разреженные GIN. Интерпретируя матрицы внимания как разреженные смежные графы, эта техника улучшает адаптивность предварительно обученных базовых моделей с минимальными вычислительными затратами, наделяя их графоориентированными возможностями. Настройка Feinberg с разреженным GIN-Вниманием достигает улучшенной динамики обучения и лучшего обобщения по сравнению с альтернативными методами, такими как адаптация низкого ранга (LoRA). Мы обсуждаем скрытые графоподобные структуры в традиционных механизмах внимания, предлагая новый взгляд на то, как Transformer'ы могут быть поняты. Эволюционируя Transformer'ы как иерархические модели GIN для реляционного рассуждения. Эта перспектива предполагает глубокие последствия для развития базовых моделей, позволяя создавать архитектуры, которые динамически адаптируются как к локальным, так и к глобальным зависимостям. Приложения в биоинформатике, материаловедении, языковом моделировании и за его пределами могли бы извлечь пользу из этого синтеза моделирования реляционных и последовательных данных, заложив основу для интерпретируемых и обобщаемых стратегий моделирования.
Мы решаем проблему редактирования выражения лица, контролируя относительное изменение единиц действия лицевых мышц (AU) у одного и того же человека. Это позволяет нам редактировать выражение этого конкретного человека тонко, непрерывно и интерпретируемо, сохраняя при этом его идентичность, позу, фон и детальные лицевые атрибуты. Ключевым элементом нашей модели, которую мы называем MagicFace, является диффузионная модель, условием которой являются изменения AU, и кодировщик ID для сохранения лицевых деталей с высокой последовательностью. Конкретно, для сохранения лицевых деталей с входной идентичностью мы используем мощь предварительно обученных моделей Stable-Diffusion и разрабатываем кодировщик ID для объединения признаков внешности через самовнимание. Для поддержания согласованности фона и позы мы вводим эффективный контролер атрибутов, явно информируя модель о текущем фоне и позе цели. Внедряя изменения AU в денойзинговую UNet, наша модель может анимировать произвольные идентичности с различными комбинациями AU, обеспечивая превосходные результаты в редактировании выражения с высокой степенью реалистичности по сравнению с другими работами по редактированию выражения лица. Код общедоступен по адресу https://github.com/weimengting/MagicFace.
Модели диффузии изображений по текстовому сопровождению превосходно справляются с переводом изображений на основе текстовых подсказок, позволяя осуществлять точные и креативные визуальные модификации. Однако такая мощная техника может быть злоупотреблена для распространения дезинформации, нарушения авторских прав и избегания отслеживания контента. Это мотивирует нас представить задачу идентификации происхождения для моделей диффузии изображений по текстовому сопровождению (ID^2), целью которой является извлечение оригинального изображения по заданному переведенному запросу. Простое решение для ID^2 включает обучение специализированной глубокой модели встраивания для извлечения и сравнения признаков как из запроса, так и из эталонных изображений. Однако из-за визуальных расхождений между поколениями, созданными различными моделями диффузии, такой подход на основе сходства терпит неудачу при обучении на изображениях одной модели и тестировании на тех, которые принадлежат другой, что ограничивает его эффективность в реальных приложениях. Для решения этой проблемы, предложенной задачи ID^2, мы предлагаем первоначальный набор данных и теоретически гарантированный метод, оба акцентирующие обобщаемость. Составленный набор данных, OriPID, содержит обширные Происхождения и направляющие Подсказки, которые могут быть использованы для обучения и тестирования потенциальных моделей идентификации через различные модели диффузии. В разделе методов мы сначала доказываем существование линейного преобразования, которое минимизирует расстояние между предварительно обученными встраиваниями вариационного автокодировщика (VAE) сгенерированных образцов и их происхождения. Впоследствии демонстрируется, что такое простое линейное преобразование может быть обобщено на различные модели диффузии. Экспериментальные результаты показывают, что предложенный метод достигает удовлетворительной обобщаемости, значительно превосходя методы на основе сходства (+31.6% mAP), даже те, которые имеют конструкции для обобщения.