Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

REINFORCE++: Простой и эффективный подход для выравнивания больших языковых моделей
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

Обучение с подкреплением на основе обратной связи от человека (RLHF) стало критическим подходом для согласования больших языковых моделей с предпочтениями людей, наблюдая быструю эволюцию алгоритмов через методы, такие как Проксимальная оптимизация политики (PPO), Прямая оптимизация предпочтений (DPO), REINFORCE Leave One-Out (RLOO), ReMax и Относительная оптимизация политики группы (GRPO). Мы представляем REINFORCE++, улучшенную вариацию классического алгоритма REINFORCE, которая включает ключевые методы оптимизации из PPO, устраняя при этом необходимость в сети критика. REINFORCE++ достигает трех основных целей: (1) простота, (2) улучшенная стабильность обучения и (3) снижение вычислительной нагрузки. Через обширное эмпирическое оценивание мы демонстрируем, что REINFORCE++ обладает более высокой стабильностью по сравнению с GRPO и достигает большей вычислительной эффективности, чем PPO, сохраняя при этом сопоставимую производительность. Реализация доступна по ссылке https://github.com/OpenRLHF/OpenRLHF.

Модельная платформа Cosmos World Foundation для физического искусственного интеллекта.
Cosmos World Foundation Model Platform for Physical AI

Jan 7

ByNVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski

Физическому искусственному интеллекту необходимо быть обученным сначала в цифровой форме. Для этого ему требуется цифровой двойник самого себя, модель политики, и цифровой двойник мира, модель мира. В данной статье мы представляем платформу модели Cosmos World Foundation для помощи разработчикам в создании настраиваемых моделей мира для их физических AI настроек. Мы позиционируем модель основы мира как универсальную модель мира, которая может быть доведена до настроенных моделей мира для последующих применений. Наша платформа включает в себя конвейер видео-компиляции, предварительно обученные модели основы мира, примеры пост-обучения предварительно обученных моделей основы мира и видео-токенизаторы. Чтобы помочь создателям физического искусственного интеллекта решить наиболее критические проблемы нашего общества, мы делаем нашу платформу открытой и наши модели с открытыми весами с лицензиями, доступными через https://github.com/NVIDIA/Cosmos.

LLaVA-Mini: Эффективные модели крупномасштабных мультимодальных изображений и видео с одним токеном видения
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Появление реального времени больших мультимодальных моделей (LMM), таких как GPT-4o, вызвало значительный интерес к эффективным LMM. Фреймворки LMM обычно кодируют визуальные входы в виде визуальных токенов (непрерывные представления) и интегрируют их и текстовые инструкции в контекст больших языковых моделей (LLM), где масштабные параметры и многочисленные контекстные токены (преимущественно визуальные токены) приводят к значительным вычислительным затратам. Предыдущие усилия по созданию эффективных LMM всегда сосредотачивались на замене основы LLM более маленькими моделями, пренебрегая при этом важным вопросом количества токенов. В данной статье мы представляем LLaVA-Mini, эффективную LMM с минимальным количеством визуальных токенов. Для достижения высокого коэффициента сжатия визуальных токенов при сохранении визуальной информации мы сначала анализируем, как LMM понимают визуальные токены, и обнаруживаем, что большинство визуальных токенов играют ключевую роль только в начальных слоях основы LLM, где они в основном объединяют визуальную информацию в текстовые токены. Основываясь на этом открытии, LLaVA-Mini вводит предварительное слияние модальности для объединения визуальной информации в текстовые токены заранее, тем самым облегчая экстремальное сжатие визуальных токенов, поступающих в основу LLM, в один токен. LLaVA-Mini является объединенной большой мультимодальной моделью, способной эффективно обрабатывать изображения, изображения высокого разрешения и видео. Эксперименты на 11 изображениях и 7 видео-бенчмарках показывают, что LLaVA-Mini превосходит LLaVA-v1.5, используя всего 1 визуальный токен вместо 576. Анализ эффективности показывает, что LLaVA-Mini может сократить количество операций с плавающей запятой на 77%, обеспечить низкую задержку в пределах 40 миллисекунд и обрабатывать более 10 000 кадров видео на графическом процессоре с 24 ГБ памяти.

Sa2VA: Совмещение SAM2 с LLaVA для плотного осмысления изображений и видео
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

Эта работа представляет Sa2VA, первую объединенную модель для плотного обоснованного понимания как изображений, так и видео. В отличие от существующих мультимодальных крупных языковых моделей, которые часто ограничены определенными модальностями и задачами, Sa2VA поддерживает широкий спектр задач изображений и видео, включая сегментацию по ссылке и разговор, с минимальной настройкой инструкций одного прогона. Sa2VA объединяет SAM-2, модель основанную на видео-сегментации, с LLaVA, передовой моделью видение-язык, и объединяет текст, изображение и видео в общее пространство общих токенов LLM. Используя LLM, Sa2VA генерирует инструкционные токены, которые направляют SAM-2 на создание точных масок, обеспечивая обоснованное, мультимодальное понимание как статического, так и динамического визуального контента. Кроме того, мы представляем Ref-SAV, автоматически размеченный набор данных, содержащий более 72 тыс. выражений объектов в сложных видеосценах, разработанный для улучшения производительности модели. Мы также вручную проверяем 2 тыс. видеообъектов в наборах данных Ref-SAV для оценки сегментации объектов видео по ссылке в сложных средах. Эксперименты показывают, что Sa2VA достигает современного уровня в нескольких задачах, особенно в сегментации объектов видео по ссылке, подчеркивая его потенциал для сложных прикладных задач в реальном мире.

MotionBench: Тестирование и улучшение понимания мелкозернистого движения видео для моделей языка зрения
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

В последние годы модели видео-языка (VLM) сделали значительные успехи в понимании видео. Однако критическая способность - понимание мелких движений - остается недостаточно исследованной в текущих бенчмарках. Для заполнения этого пробела мы предлагаем MotionBench, комплексный бенчмарк, разработанный для оценки понимания мелких движений моделями понимания видео. MotionBench оценивает восприятие моделями уровня движения через шесть основных категорий вопросов, ориентированных на движение, и включает данные, собранные из различных источников, обеспечивая широкое представление видео-контента реального мира. Экспериментальные результаты показывают, что существующие VLM плохо справляются с пониманием мелких движений. Для улучшения способности VLM воспринимать мелкие движения в ограниченной длине последовательности LLM мы проводим обширные эксперименты, рассматривая архитектуры VLM, оптимизированные для сжатия видео-признаков, и предлагаем новый и эффективный метод объединения Through-Encoder (TE) Fusion. Эксперименты показывают, что входы с более высокой частотой кадров и TE Fusion приводят к улучшениям в понимании движения, однако есть еще значительное пространство для улучшения. Наш бенчмарк направлен на руководство и мотивацию разработки более способных моделей понимания видео, подчеркивая важность понимания мелких движений. Страница проекта: https://motion-bench.github.io .

PPTAgent: Генерация и оценка презентаций за пределами текста-слайдов
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Автоматическое создание презентаций из документов представляет собой сложную задачу, требующую балансировки качества контента, визуального дизайна и структурной связности. Существующие методы в основном сосредотачиваются на улучшении и оценке качества контента в изоляции, часто игнорируя визуальный дизайн и структурную связность, что ограничивает их практическую применимость. Для решения этих ограничений мы предлагаем PPTAgent, который всесторонне улучшает создание презентаций через двухэтапный подход на основе редактирования, вдохновленный человеческими рабочими процессами. PPTAgent сначала анализирует образцовые презентации для понимания их структурных шаблонов и схем контента, затем создает конспекты и генерирует слайды с помощью действий кода для обеспечения согласованности и выравнивания. Для всесторонней оценки качества созданных презентаций мы дополнительно представляем PPTEval, фреймворк оценки, который оценивает презентации по трем измерениям: Контент, Дизайн и Связность. Эксперименты показывают, что PPTAgent значительно превосходит традиционные методы автоматического создания презентаций по всем трем измерениям. Код и данные доступны по ссылке https://github.com/icip-cas/PPTAgent.

Диффузия как шейдер: трехмерная видеодиффузия для универсального контроля генерации видео.
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

Модели диффузии продемонстрировали впечатляющую производительность в создании видеороликов высокого качества по текстовым подсказкам или изображениям. Однако точное управление процессом генерации видео, такое как манипуляции с камерой или редактирование контента, остается значительным вызовом. Существующие методы управляемой генерации видео обычно ограничены одним типом управления, лишены гибкости для решения разнообразных требований управления. В данной статье мы представляем Диффузию как Шейдер (DaS), новый подход, который поддерживает несколько задач управления видео в рамках единой архитектуры. Наш ключевой инсайт заключается в том, что для достижения универсального управления видео необходимо использовать 3D сигналы управления, поскольку видео фундаментально являются 2D изображениями динамического 3D контента. В отличие от предыдущих методов, ограниченных 2D сигналами управления, DaS использует отслеживание 3D видео в качестве входных данных управления, что делает процесс диффузии видео внутренне осведомленным о 3D. Эта инновация позволяет DaS достигать широкого спектра управления видео просто путем манипулирования 3D отслеживающими видео. Дополнительным преимуществом использования 3D отслеживающих видео является их способность эффективно связывать кадры, значительно улучшая временную согласованность созданных видео. Просто с помощью 3-дневной доводки на 8 H800 GPU, используя менее 10 тыс. видеороликов, DaS демонстрирует сильные возможности управления в различных задачах, включая генерацию видео из сетки, управление камерой, передачу движения и манипулирование объектами.

OpenOmni: Большие модели языка осуществляют нулевую выравнивание между модальностями через язык с синтезом речи с реальным временем и самосознанием эмоционального контекста.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

В последнее время были достигнуты значительные успехи в области омни-модального обучения в понимании и генерации изображений, текста и речи, хотя главным образом в рамках собственных моделей. Ограниченные омни-модальные наборы данных и сопутствующие сложности, связанные с генерацией речи в реальном времени, препятствовали прогрессу в области открытых исследований. Для решения этих проблем мы предлагаем openomni, метод обучения в два этапа, объединяющий выравнивание омни-модальности и генерацию речи для разработки передовой омни-модальной крупной языковой модели. На этапе выравнивания предварительно обученная модель речи дополнительно обучается на задачах текст-изображение для обобщения от зрения к речи в (почти) нулевом режиме передачи, превосходя модели, обученные на три-модальных наборах данных. На этапе генерации речи легкий декодер облегчает генерацию речи с эмоциональной окраской в реальном времени путем обучения на задачах речи и предпочтениях. Эксперименты показывают, что openomni последовательно улучшает результаты в оценках омни-модальности, зрение-язык и речь-язык, обеспечивая естественные, эмоционально насыщенные диалоги и генерацию речи с эмоциональной окраской в реальном времени.

Дельфин: Замкнутый цикл открытого автоматического исследования через мышление, практику и обратную связь
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

Научная парадигма исследований претерпевает глубокие изменения вследствие развития искусственного интеллекта (ИИ). Недавние работы демонстрируют, что различные методы исследований, поддерживаемые ИИ, могут значительно улучшить эффективность исследований путем улучшения анализа данных, ускорения вычислений и поощрения генерации новых идей. Для того чтобы продвигаться к конечной цели (т.е. автоматическим научным исследованиям), в данной статье мы предлагаем Dolphin - первую замкнутую автоматизированную систему открытого исследования для дальнейшего построения всего процесса человеческих научных исследований. Dolphin способен генерировать идеи для исследований, проводить эксперименты и получать обратную связь по результатам экспериментов для генерации идей более высокого качества. Более конкретно, Dolphin сначала генерирует новые идеи на основе соответствующих статей, которые ранжируются по атрибутам темы и задачи. Затем коды автоматически генерируются и отлаживаются с помощью структуры локального кода, направляемой исключениями и трассировкой. Наконец, Dolphin автоматически анализирует результаты каждой идеи и обратно подает результаты на следующий этап генерации идей. Эксперименты проводятся на стандартных наборах данных по различным темам, и результаты показывают, что Dolphin способен непрерывно генерировать новые идеи и завершать эксперимент в цикле. Мы подчеркиваем, что Dolphin способен автоматически предлагать методы, сравнимые с передовыми методами в некоторых задачах, таких как классификация 2D изображений и классификация 3D точек.

Волшебное зеркало: Генерация видео с сохранением идентификатора в трансформерах видео-диффузии
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

Мы представляем Magic Mirror, фреймворк для создания видео с сохранением личности на уровне кинематографического качества и динамичного движения. В то время как недавние достижения в моделях диффузии видео показали впечатляющие возможности в генерации видео из текста, сохранение последовательной личности при производстве естественного движения остается сложной задачей. Предыдущие методы либо требуют тонкой настройки под конкретного человека, либо борются с балансировкой сохранения личности и разнообразия движения. Основываясь на Video Diffusion Transformers, наш метод вводит три ключевых компонента: (1) двухветвевой извлекатель лицевых признаков, который захватывает как личностные, так и структурные особенности, (2) легкий кросс-модальный адаптер с Условной Адаптивной Нормализацией для эффективной интеграции личности, и (3) двухэтапную стратегию обучения, объединяющую синтетические пары личностей с видеоданными. Обширные эксперименты показывают, что Magic Mirror эффективно балансирует согласованность личности с естественным движением, превосходя существующие методы по нескольким метрикам, требуя минимального добавления параметров. Код и модель будут общедоступны по ссылке: https://github.com/dvlab-research/MagicMirror/

MoDec-GS: Глобальное к Локальному Декомпозиция Движения и Временная Интервальная Коррекция для Компактного Динамического 3D Гауссовского Сплетения
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

3D Гауссово сплетение (3DGS) сделало значительные успехи в представлении сцен и нейронной генерации изображений, с акцентом на адаптацию для динамических сцен. Несмотря на впечатляющее качество и скорость визуализации, существующие методы сталкиваются с проблемами хранения и представления сложных движений в реальном мире. Для решения этих проблем мы предлагаем MoDecGS, эффективную по памяти среду для гауссова сплетения, разработанную для восстановления новых видов в сложных сценариях с динамическими движениями. Мы представляем Глобально-Локальное Декомпозиция Движения (GLMD) для эффективного захвата динамических движений от грубого к тонкому. Этот подход использует Глобальные Канонические Каркасы (Global CS) и Локальные Канонические Каркасы (Local CS), расширяя статическое представление Каркаса до динамической реконструкции видео. Для Global CS мы предлагаем Глобальное Деформирование Якоря (GAD) для эффективного представления глобальной динамики вдоль сложных движений, путем прямого деформирования неявных атрибутов Каркаса, таких как позиция якоря, смещение и локальные контекстные особенности. Затем мы тонко корректируем локальные движения через Локальное Гауссово Деформирование (LGD) Локального CS. Кроме того, мы вводим Регулирование Временного Интервала (TIA) для автоматического контроля временного охвата каждого Локального CS во время обучения, позволяя MoDecGS находить оптимальные интервальные назначения на основе указанного количества временных сегментов. Обширные оценки показывают, что MoDecGS достигает среднего снижения размера модели на 70% по сравнению с передовыми методами для динамических 3D Гауссов из реальных видео с динамическими сценами, сохраняя или даже улучшая качество визуализации.

Сегментация текста и изучение их вознаграждений для улучшения RLHF в языковой модели
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

Обучение с подкреплением на основе обратной связи от человека (RLHF) широко используется для согласования языковых моделей (LMs) с предпочтениями человека. Работы по RLHF ранее обычно применяли бандитскую формулировку, которая, хотя и интуитивно понятна, игнорирует последовательную природу генерации LM и может столкнуться с проблемой разреженного вознаграждения. В то время как недавние работы предлагают плотное обучение RLHF на уровне токенов, обработка каждого токена как действия может быть излишне тонкой для правильного назначения вознаграждения. В данной статье мы стремимся объединить лучшее из обоих подходов, обучая и используя модель вознаграждения на уровне сегмента, которая назначает вознаграждение каждому семантически завершенному текстовому сегменту, охватывающему короткую последовательность токенов. Для обучения вознаграждения наш метод позволяет динамическую сегментацию текста и совместим с обычными наборами данных предпочтений последовательности. Для эффективного обучения LM на основе RL против сегментного вознаграждения мы обобщаем классические нормализаторы вознаграждения бандита скаляра в функции нормализаторов, учитывающих местоположение, и интерполируем сегментное вознаграждение для дальнейшего уплотнения. С учетом этих концепций наш метод демонстрирует конкурентоспособные результаты на трех популярных бенчмарках RLHF для политики LM: AlpacaEval 2.0, Arena-Hard и MT-Bench. Проведены исследования по абляции для дальнейшего демонстрирования нашего метода.

Граф-ориентированное изоморфное внимание для адаптивной динамики в трансформерах
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

Мы представляем подход к модификации архитектур Transformer путем интеграции графоориентированного реляционного рассуждения в механизм внимания, объединяя концепции графовых нейронных сетей и языкового моделирования. Основываясь на внутренней связи между вниманием и теорией графов, мы переформулируем механизм внимания Transformer как графовую операцию и предлагаем Графовое Изоморфное Внимание. Этот метод использует передовые стратегии моделирования графов, включая Графовые Изоморфные Сети (GIN) и Агрегацию Главного Соседства (PNA), для обогащения представления реляционных структур. Наш подход улавливает сложные зависимости и обобщается на различные задачи, что подтверждается уменьшением разрыва обобщения и улучшением производительности обучения. Кроме того, мы расширяем концепцию графового внимания, чтобы представить Разреженное GIN-Внимание, подход к настройке Feinberg, использующий разреженные GIN. Интерпретируя матрицы внимания как разреженные смежные графы, эта техника улучшает адаптивность предварительно обученных базовых моделей с минимальными вычислительными затратами, наделяя их графоориентированными возможностями. Настройка Feinberg с разреженным GIN-Вниманием достигает улучшенной динамики обучения и лучшего обобщения по сравнению с альтернативными методами, такими как адаптация низкого ранга (LoRA). Мы обсуждаем скрытые графоподобные структуры в традиционных механизмах внимания, предлагая новый взгляд на то, как Transformer'ы могут быть поняты. Эволюционируя Transformer'ы как иерархические модели GIN для реляционного рассуждения. Эта перспектива предполагает глубокие последствия для развития базовых моделей, позволяя создавать архитектуры, которые динамически адаптируются как к локальным, так и к глобальным зависимостям. Приложения в биоинформатике, материаловедении, языковом моделировании и за его пределами могли бы извлечь пользу из этого синтеза моделирования реляционных и последовательных данных, заложив основу для интерпретируемых и обобщаемых стратегий моделирования.

MagicFace: Высококачественное редактирование выражений лица с управлением единицами действия
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

Мы решаем проблему редактирования выражения лица, контролируя относительное изменение единиц действия лицевых мышц (AU) у одного и того же человека. Это позволяет нам редактировать выражение этого конкретного человека тонко, непрерывно и интерпретируемо, сохраняя при этом его идентичность, позу, фон и детальные лицевые атрибуты. Ключевым элементом нашей модели, которую мы называем MagicFace, является диффузионная модель, условием которой являются изменения AU, и кодировщик ID для сохранения лицевых деталей с высокой последовательностью. Конкретно, для сохранения лицевых деталей с входной идентичностью мы используем мощь предварительно обученных моделей Stable-Diffusion и разрабатываем кодировщик ID для объединения признаков внешности через самовнимание. Для поддержания согласованности фона и позы мы вводим эффективный контролер атрибутов, явно информируя модель о текущем фоне и позе цели. Внедряя изменения AU в денойзинговую UNet, наша модель может анимировать произвольные идентичности с различными комбинациями AU, обеспечивая превосходные результаты в редактировании выражения с высокой степенью реалистичности по сравнению с другими работами по редактированию выражения лица. Код общедоступен по адресу https://github.com/weimengting/MagicFace.

Обобщенная идентификация происхождения для моделей диффузии изображения-изображение с текстовым управлением
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang

Модели диффузии изображений по текстовому сопровождению превосходно справляются с переводом изображений на основе текстовых подсказок, позволяя осуществлять точные и креативные визуальные модификации. Однако такая мощная техника может быть злоупотреблена для распространения дезинформации, нарушения авторских прав и избегания отслеживания контента. Это мотивирует нас представить задачу идентификации происхождения для моделей диффузии изображений по текстовому сопровождению (ID^2), целью которой является извлечение оригинального изображения по заданному переведенному запросу. Простое решение для ID^2 включает обучение специализированной глубокой модели встраивания для извлечения и сравнения признаков как из запроса, так и из эталонных изображений. Однако из-за визуальных расхождений между поколениями, созданными различными моделями диффузии, такой подход на основе сходства терпит неудачу при обучении на изображениях одной модели и тестировании на тех, которые принадлежат другой, что ограничивает его эффективность в реальных приложениях. Для решения этой проблемы, предложенной задачи ID^2, мы предлагаем первоначальный набор данных и теоретически гарантированный метод, оба акцентирующие обобщаемость. Составленный набор данных, OriPID, содержит обширные Происхождения и направляющие Подсказки, которые могут быть использованы для обучения и тестирования потенциальных моделей идентификации через различные модели диффузии. В разделе методов мы сначала доказываем существование линейного преобразования, которое минимизирует расстояние между предварительно обученными встраиваниями вариационного автокодировщика (VAE) сгенерированных образцов и их происхождения. Впоследствии демонстрируется, что такое простое линейное преобразование может быть обобщено на различные модели диффузии. Экспериментальные результаты показывают, что предложенный метод достигает удовлетворительной обобщаемости, значительно превосходя методы на основе сходства (+31.6% mAP), даже те, которые имеют конструкции для обобщения.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

REINFORCE++: Простой и эффективный подход для выравнивания больших языковых моделей
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

Модельная платформа Cosmos World Foundation для физического искусственного интеллекта.
Cosmos World Foundation Model Platform for Physical AI

Jan 7

LLaVA-Mini: Эффективные модели крупномасштабных мультимодальных изображений и видео с одним токеном видения
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Sa2VA: Совмещение SAM2 с LLaVA для плотного осмысления изображений и видео
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

MotionBench: Тестирование и улучшение понимания мелкозернистого движения видео для моделей языка зрения
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

PPTAgent: Генерация и оценка презентаций за пределами текста-слайдов
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Диффузия как шейдер: трехмерная видеодиффузия для универсального контроля генерации видео.
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

OpenOmni: Большие модели языка осуществляют нулевую выравнивание между модальностями через язык с синтезом речи с реальным временем и самосознанием эмоционального контекста.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

Дельфин: Замкнутый цикл открытого автоматического исследования через мышление, практику и обратную связь
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

Волшебное зеркало: Генерация видео с сохранением идентификатора в трансформерах видео-диффузии
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

MoDec-GS: Глобальное к Локальному Декомпозиция Движения и Временная Интервальная Коррекция для Компактного Динамического 3D Гауссовского Сплетения
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

Сегментация текста и изучение их вознаграждений для улучшения RLHF в языковой модели
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

Граф-ориентированное изоморфное внимание для адаптивной динамики в трансформерах
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

MagicFace: Высококачественное редактирование выражений лица с управлением единицами действия
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

Обобщенная идентификация происхождения для моделей диффузии изображения-изображение с текстовым управлением
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang