Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

MergeVQ: Единая структура для визуальной генерации и представления с разделенным объединением и квантованием токенов
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

Маскированное моделирование изображений (MIM) с векторным квантованием (VQ) достигло значительных успехов как в самоконтролируемом предварительном обучении, так и в генерации изображений. Однако большинство существующих методов сталкиваются с трудностями в поиске баланса в общем латентном пространстве между качеством генерации, обучением представлений и эффективностью. Чтобы расширить границы этой парадигмы, мы предлагаем MergeVQ, который интегрирует методы объединения токенов в генеративные модели на основе VQ, чтобы устранить разрыв между генерацией изображений и обучением визуальных представлений в единой архитектуре. В процессе предварительного обучения MergeVQ разделяет топ-k семантику от латентного пространства с помощью модуля объединения токенов после блоков самовнимания в кодировщике для последующего квантования без поиска (LFQ) и глобального выравнивания, а затем восстанавливает их детализированные характеристики через кросс-внимание в декодере для реконструкции. Что касается второго этапа генерации, мы представляем MergeAR, который выполняет сжатие KV Cache для эффективного прогнозирования в растровом порядке. Многочисленные эксперименты на ImageNet подтверждают, что MergeVQ как генеративная модель с авторегрессией демонстрирует конкурентоспособные результаты как в задачах обучения визуальных представлений, так и в генерации изображений, сохраняя при этом высокую эффективность работы с токенами и скорость вывода. Код и модель будут доступны по адресу https://apexgen-x.github.io/MergeVQ.

AnimeGamer: Бесконечная симуляция аниме-жизни с предсказанием следующего игрового состояния
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

Последние достижения в области синтеза изображений и видео открыли новые перспективы для генеративных игр. Особенно интригующим применением является преобразование персонажей из аниме-фильмов в интерактивные, играбельные сущности. Это позволяет игрокам погрузиться в динамичный мир аниме в роли своих любимых персонажей для симуляции жизни через языковые инструкции. Такие игры определяются как бесконечные, поскольку они устраняют предопределенные границы и фиксированные правила игрового процесса, где игроки могут взаимодействовать с игровым миром через открытые языковые команды и переживать постоянно развивающиеся сюжеты и окружение. Недавно был предложен новаторский подход для бесконечной симуляции жизни в аниме, использующий большие языковые модели (LLM) для преобразования многоходовых текстовых диалогов в языковые инструкции для генерации изображений. Однако этот подход игнорирует исторический визуальный контекст, что приводит к несогласованности игрового процесса. Кроме того, он генерирует только статические изображения, не включая динамику, необходимую для увлекательного игрового опыта. В данной работе мы предлагаем AnimeGamer, который построен на основе мультимодальных больших языковых моделей (MLLM) для генерации каждого игрового состояния, включая динамические анимационные сцены, изображающие движения персонажей и обновления их состояний, как показано на Рисунке 1. Мы вводим новые мультимодальные представления, учитывающие действия, для представления анимационных сцен, которые могут быть декодированы в высококачественные видеоклипы с использованием модели диффузии видео. Используя исторические представления анимационных сцен в качестве контекста и предсказывая последующие представления, AnimeGamer может генерировать игры с контекстуальной согласованностью и удовлетворительной динамикой. Обширные оценки с использованием как автоматизированных метрик, так и человеческих оценок демонстрируют, что AnimeGamer превосходит существующие методы в различных аспектах игрового опыта. Коды и контрольные точки доступны по адресу https://github.com/TencentARC/AnimeGamer.

DreamActor-M1: Целостная, выразительная и устойчивая анимация изображений человека с гибридным управлением
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

Хотя современные методы анимации человека на основе изображений достигают реалистичного синтеза движений тела и лица, остаются существенные пробелы в детализированной целостной управляемости, многоуровневой адаптивности и долгосрочной временной согласованности, что снижает их выразительность и устойчивость. Мы предлагаем основанную на диффузионном трансформере (DiT) архитектуру DreamActor-M1 с гибридным управлением для преодоления этих ограничений. Для управления движением наши гибридные управляющие сигналы, объединяющие неявные представления лица, 3D-сферы головы и 3D-скелеты тела, обеспечивают устойчивый контроль над мимикой и движениями тела, создавая выразительные анимации с сохранением идентичности. Для адаптации к масштабу, чтобы справляться с различными позами тела и масштабами изображений — от портретов до полного обзора тела, — мы используем прогрессивную стратегию обучения на данных с различными разрешениями и масштабами. Для управления внешним видом мы интегрируем паттерны движения из последовательных кадров с дополнительными визуальными ссылками, обеспечивая долгосрочную временную согласованность для невидимых областей во время сложных движений. Эксперименты показывают, что наш метод превосходит современные подходы, демонстрируя выразительные результаты для генерации портретов, верхней части тела и полного обзора тела с устойчивой долгосрочной согласованностью. Страница проекта: https://grisoon.github.io/DreamActor-M1/.

Улучшенное визуально-пространственное мышление с помощью обучения, подобного R1-Zero
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

Все больше внимания уделяется улучшению способностей к рассуждению у многомодальных больших языковых моделей (MLLMs). Как основа для ИИ-агентов, функционирующих в физическом мире, визуально-пространственный интеллект (VSI) на основе видео становится одной из наиболее важных способностей к рассуждению у MLLMs. В данной работе проводится первое глубокое исследование по улучшению визуально-пространственного рассуждения у MLLMs с помощью обучения, подобного R1-Zero. Технически, мы сначала выявляем, что способности к визуально-пространственному рассуждению у моделей Qwen2-VL малого и среднего размера не могут быть активированы с помощью подсказок "Цепочка мыслей" (CoT). Затем мы внедряем обучение GRPO для улучшения визуально-пространственного рассуждения, используя тщательно отобранный набор данных VSI-100k, следуя подходу DeepSeek-R1-Zero. В ходе исследования мы выявляем необходимость сохранения штрафа KL (даже с небольшим значением) в GRPO. Всего за 120 часов работы на GPU наша модель vsGRPO-2B, дообученная на основе Qwen2-VL-2B, превосходит базовую модель на 12.1% и опережает GPT-4o. Кроме того, наша модель vsGRPO-7B, дообученная на основе Qwen2-VL-7B, достигает производительности, сопоставимой с лучшей открытой моделью LLaVA-NeXT-Video-72B. Дополнительно мы сравниваем vsGRPO с базовыми подходами контролируемого дообучения и оптимизации прямых предпочтений и наблюдаем значительное превосходство в производительности. Код и набор данных будут доступны в ближайшее время.

Понимание обучения по типу R1-Zero: критический взгляд
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

DeepSeek-R1-Zero продемонстрировал, что масштабируемое обучение с подкреплением (RL) может напрямую улучшать способности к рассуждению у крупных языковых моделей (LLMs) без контролируемого тонкого настройки. В данной работе мы критически исследуем обучение, подобное R1-Zero, анализируя его два ключевых компонента: базовые модели и RL. Мы изучаем широкий спектр базовых моделей, включая DeepSeek-V3-Base, чтобы понять, как характеристики предварительного обучения влияют на производительность RL. Наш анализ показывает, что DeepSeek-V3-Base уже демонстрируют «момент озарения», в то время как базовые модели Qwen2.5 проявляют сильные способности к рассуждению даже без использования шаблонов подсказок, что указывает на возможные предубеждения в предварительном обучении. Кроме того, мы выявляем оптимизационное смещение в Group Relative Policy Optimization (GRPO), которое искусственно увеличивает длину ответов (особенно для неверных выводов) в процессе обучения. Для решения этой проблемы мы представляем Dr. GRPO — метод оптимизации без смещений, который повышает эффективность использования токенов, сохраняя при этом производительность в рассуждениях. Используя эти инсайты, мы предлагаем минималистичный рецепт R1-Zero, который достигает точности 43,3% на AIME 2024 с базовой моделью на 7B, устанавливая новый эталонный результат. Наш код доступен по адресу https://github.com/sail-sg/understand-r1-zero.

ScholarCopilot: Обучение крупных языковых моделей для академического письма с точным цитированием
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

Академическое письмо требует как связного создания текста, так и точного цитирования соответствующей литературы. Хотя современные системы генерации с использованием извлечения информации (Retrieval-Augmented Generation, RAG) значительно улучшили фактическую точность в генерации текстов общего назначения, их способность адекватно поддерживать профессиональное академическое письмо остается ограниченной. В данной работе мы представляем ScholarCopilot — унифицированную структуру, предназначенную для улучшения существующих крупных языковых моделей в генерации профессиональных академических статей с точными и контекстуально релевантными цитатами. ScholarCopilot динамически определяет, когда необходимо извлекать научные ссылки, генерируя токен извлечения [RET], а затем использует его представление для поиска соответствующих цитат в базе данных. Извлеченные ссылки передаются в модель для улучшения процесса генерации. Мы совместно оптимизируем задачи генерации и цитирования в рамках единой структуры для повышения эффективности. Обучив модель на 500 тысячах статей из arXiv, мы достигли точности извлечения top-1 в 40,1% на нашем оценочном наборе данных, превзойдя базовые модели, такие как E5-Mistral-7B-Instruct (15,0%) и BM25 (9,8%). На наборе данных из 1000 образцов академического письма ScholarCopilot получил оценку 16,2/25 за качество генерации (измеряемое по релевантности, связности, академической строгости, полноте и инновационности), превзойдя модели с в 10 раз большим количеством параметров, такие как Qwen-2.5-72B-Instruct (15,8/25). Человеческие исследования также подтверждают превосходство ScholarCopilot в полноте цитирования, эффективности письма и общем пользовательском опыте, что подтверждает эффективность нашего подхода.

VideoScene: Дистилляция модели диффузии видео для генерации 3D-сцен за один шаг
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

Восстановление 3D-сцен по разреженным видам является сложной задачей из-за её изначально некорректной постановки. Традиционные методы разработали специализированные решения (например, геометрическую регуляризацию или детерминированные модели прямого распространения), чтобы смягчить эту проблему. Однако они всё ещё сталкиваются с ухудшением производительности при минимальном перекрытии входных видов с недостаточной визуальной информацией. К счастью, современные модели генерации видео демонстрируют потенциал в решении этой задачи, так как они способны создавать видеоклипы с правдоподобными 3D-структурами. Благодаря использованию крупных предобученных моделей диффузии видео, некоторые передовые исследования начинают изучать потенциал генеративного приоритета видео и создавать 3D-сцены по разреженным видам. Несмотря на впечатляющие улучшения, они ограничены медленным временем вывода и отсутствием 3D-ограничений, что приводит к неэффективности и артефактам реконструкции, не соответствующим реальной геометрической структуре. В данной статье мы предлагаем VideoScene для дистилляции модели диффузии видео с целью генерации 3D-сцен за один шаг, стремясь создать эффективный инструмент для преодоления разрыва между видео и 3D. В частности, мы разрабатываем стратегию дистилляции 3D-осознанного скачка потока, чтобы пропустить избыточную информацию, требующую времени, и обучаем динамическую сеть политики шумоподавления для адаптивного определения оптимального шага скачка во время вывода. Многочисленные эксперименты демонстрируют, что наш VideoScene достигает более быстрых и качественных результатов генерации 3D-сцен по сравнению с предыдущими моделями диффузии видео, подчеркивая его потенциал как эффективного инструмента для будущих приложений преобразования видео в 3D. Страница проекта: https://hanyang-21.github.io/VideoScene

К созданию физически правдоподобной генерации видео через планирование с использованием языковых моделей (VLM)
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

Модели диффузии видео (VDMs) значительно продвинулись в последние годы, позволяя генерировать высокореалистичные видео и привлекая внимание сообщества своим потенциалом в качестве симуляторов мира. Однако, несмотря на их возможности, VDMs часто не способны создавать физически правдоподобные видео из-за присущего им недостатка понимания физики, что приводит к некорректной динамике и последовательности событий. Чтобы устранить это ограничение, мы предлагаем новую двухэтапную структуру генерации видео из изображений, которая явно учитывает физику. На первом этапе мы используем Vision Language Model (VLM) в качестве грубого планировщика движения, интегрируя цепочку рассуждений и физически осознанное мышление для предсказания примерных траекторий/изменений движения, которые приближают реальную физическую динамику, обеспечивая при этом согласованность между кадрами. На втором этапе мы используем предсказанные траектории/изменения движения для управления генерацией видео с помощью VDM. Поскольку предсказанные траектории/изменения движения являются грубыми, во время вывода добавляется шум, чтобы предоставить VDM свободу в генерации движения с более мелкими деталями. Обширные экспериментальные результаты демонстрируют, что наша структура способна создавать физически правдоподобное движение, а сравнительные оценки подчеркивают заметное превосходство нашего подхода над существующими методами. Дополнительные видео результаты доступны на нашей странице проекта: https://madaoer.github.io/projects/physically_plausible_video_generation.

PaperBench: Оценка способности ИИ воспроизводить исследования в области ИИ
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

Мы представляем PaperBench — эталонный тест, оценивающий способность ИИ-агентов воспроизводить передовые исследования в области искусственного интеллекта. Агенты должны с нуля воспроизвести 20 статей, представленных на ICML 2024 в секциях Spotlight и Oral, включая понимание вклада статей, разработку кодовой базы и успешное выполнение экспериментов. Для объективной оценки мы разработали критерии, которые иерархически разбивают каждую задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. В общей сложности PaperBench содержит 8 316 индивидуально оцениваемых задач. Критерии разрабатываются совместно с авторами каждой статьи ICML для обеспечения точности и реалистичности. Чтобы обеспечить масштабируемую оценку, мы также разработали судью на основе LLM для автоматической оценки попыток воспроизведения в соответствии с критериями, а также оценили производительность нашего судьи, создав отдельный эталонный тест для судей. Мы протестировали несколько передовых моделей на PaperBench и обнаружили, что лучший из протестированных агентов, Claude 3.5 Sonnet (New) с использованием открытого исходного кода, достигает среднего балла за воспроизведение в 21,0\%. Наконец, мы привлекли ведущих аспирантов в области машинного обучения для выполнения части задач PaperBench и выяснили, что модели пока не превосходят человеческий базовый уровень. Мы открываем исходный код на https://github.com/openai/preparedness, чтобы способствовать дальнейшим исследованиям в области понимания инженерных возможностей ИИ-агентов.

Дистилляция артикулированной кинематики из видеодиффузионных моделей
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

Мы представляем Articulated Kinematics Distillation (AKD) — фреймворк для создания высококачественных анимаций персонажей, объединяющий преимущества скелетной анимации и современных генеративных моделей. AKD использует скелетное представление для ригнутых 3D-ассетов, значительно сокращая количество степеней свободы (DoFs) за счёт фокуса на управлении на уровне суставов, что обеспечивает эффективный и согласованный синтез движений. Благодаря Score Distillation Sampling (SDS) с использованием предобученных видео-диффузионных моделей, AKD извлекает сложные, сочленённые движения, сохраняя структурную целостность и преодолевая проблемы, с которыми сталкиваются 4D-нейронные поля деформации в поддержании согласованности формы. Этот подход естественным образом совместим с физически-обоснованной симуляцией, обеспечивая правдоподобные физические взаимодействия. Эксперименты показывают, что AKD достигает превосходной 3D-согласованности и качества движений по сравнению с существующими работами в области генерации текста в 4D. Страница проекта: https://research.nvidia.com/labs/dir/akd/

ILLUME+: Освещение унифицированной MLLM с двойной визуальной токенизацией и диффузионным уточнением
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

Мы представляем ILLUME+, который использует двойную визуальную токенизацию и диффузионный декодер для улучшения как глубокого семантического понимания, так и генерации изображений с высокой точностью. Существующие унифицированные модели сталкиваются с трудностями при одновременной реализации трех фундаментальных возможностей: понимания, генерации и редактирования. Модели, такие как Chameleon и EMU3, используют VQGAN для дискретизации изображений, но из-за недостатка глубокого семантического взаимодействия они отстают от специализированных моделей, таких как LLaVA, в задачах визуального понимания. Чтобы устранить это, LaViT и ILLUME применяют семантические кодировщики для токенизации, но они испытывают трудности с редактированием изображений из-за плохого сохранения текстур. В то же время серия Janus разделяет представление входных и выходных изображений, что ограничивает их способность плавно обрабатывать чередующиеся задачи понимания и генерации изображений и текста. В отличие от них, ILLUME+ представляет унифицированный двойной визуальный токенизатор DualViTok, который сохраняет как мелкозернистые текстуры, так и семантику, согласованную с текстом, и позволяет использовать стратегию представления изображений от грубого к детальному для многомодального понимания и генерации. Дополнительно мы используем диффузионную модель в качестве детокенизатора изображений для повышения качества генерации и эффективного супер-разрешения. ILLUME+ следует схеме непрерывного ввода и дискретного вывода в рамках унифицированной MLLM и применяет прогрессивную процедуру обучения, которая поддерживает динамическое разрешение для визуального токенизатора, MLLM и диффузионного декодера. Этот дизайн позволяет гибко и эффективно выполнять контекстно-зависимое редактирование и генерацию изображений в различных задачах. ILLUME+ (3B) демонстрирует конкурентоспособную производительность по сравнению с существующими унифицированными MLLM и специализированными моделями в многомодальных задачах понимания, генерации и редактирования. Благодаря своей высокой производительности, ILLUME+ предоставляет масштабируемую и универсальную основу для будущих многомодальных приложений. Страница проекта: https://illume-unified-mllm.github.io/.

Улучшите свою модель генерации изображений людей с помощью оптимизации прямых предпочтений на основе обратной связи от ИИ
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

Генерация высококачественных изображений людей с использованием методов преобразования текста в изображение (T2I) является важной, но сложной задачей. В отличие от генерации изображений общего характера, синтез изображений человека должен соответствовать строгим критериям, связанным с позой, анатомией и соответствием текстовым описаниям, что делает достижение реалистичных результатов особенно трудным. Недавние достижения в области T2I-генерации на основе диффузионных моделей показали перспективность, однако остаются проблемы в удовлетворении специфических требований, связанных с изображением человека. В данной статье мы представляем новый подход, специально разработанный для генерации изображений людей с использованием оптимизации прямых предпочтений (Direct Preference Optimization, DPO). В частности, мы предлагаем эффективный метод создания специализированного набора данных DPO для обучения моделей генерации изображений человека без необходимости дорогостоящего сбора обратной связи от людей. Мы также предлагаем модифицированную функцию потерь, которая улучшает процесс обучения DPO, минимизируя артефакты и повышая качество изображений. Наш метод демонстрирует свою универсальность и эффективность в генерации изображений людей, включая персонализированное преобразование текста в изображение. В ходе всесторонних оценок мы показываем, что наш подход значительно продвигает состояние генерации изображений человека, достигая превосходных результатов с точки зрения естественности анатомии, поз и соответствия тексту и изображению.

MegaTTS 3: Трансформер с латентной диффузией и улучшенным разреженным выравниванием для синтеза речи в условиях zero-shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao

Хотя современные модели синтеза речи (TTS) с нулевым обучением значительно улучшили качество и выразительность речи, основные системы по-прежнему сталкиваются с проблемами, связанными с моделированием выравнивания текста и речи: 1) модели без явного моделирования выравнивания демонстрируют меньшую устойчивость, особенно для сложных предложений в практических приложениях; 2) модели, основанные на предопределённом выравнивании, ограничены естественностью принудительного выравнивания. В данной статье представлена MegaTTS 3 — система TTS, использующая инновационный алгоритм разреженного выравнивания, который управляет латентным диффузионным трансформером (DiT). В частности, мы предоставляем MegaTTS 3 границы разреженного выравнивания, чтобы снизить сложность выравнивания, не ограничивая пространство поиска, что позволяет достичь высокой естественности. Кроме того, мы применяем стратегию классификатор-свободного управления с множественными условиями для регулировки интенсивности акцента и используем технику кусочно-линейного исправленного потока для ускорения процесса генерации. Эксперименты показывают, что MegaTTS 3 достигает передового качества речи в задачах TTS с нулевым обучением и поддерживает гибкий контроль над интенсивностью акцента. Примечательно, что наша система способна генерировать высококачественную речь длительностью в одну минуту всего за 8 шагов сэмплирования. Аудиообразцы доступны по ссылке: https://sditdemo.github.io/sditdemo/.

Защита моделей "визуальный язык": снижение уязвимостей к гауссовскому шуму в атаках на основе возмущений
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Apr 2

ByJiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), расширяют возможности крупных языковых моделей (Large Language Models, LLMs), интегрируя визуальную информацию, однако они остаются уязвимыми к атакам jailbreak, особенно при обработке зашумленных или поврежденных изображений. Хотя существующие VLMs используют меры безопасности в процессе обучения для смягчения таких атак, уязвимости, связанные с визуальными данными, усиленными шумом, остаются без внимания. В данной работе мы выявляем, что отсутствие обучения с использованием шума приводит к критическим пробелам в безопасности: многие VLMs подвержены даже простым искажениям, таким как гауссовский шум. Для решения этой проблемы мы предлагаем Robust-VLGuard — мультимодальный набор данных для безопасности, содержащий согласованные / несогласованные пары изображение-текст, в сочетании с тонкой настройкой, усиленной шумом, которая снижает успешность атак, сохраняя функциональность VLM. Для более сильных атак на основе оптимизационных визуальных искажений мы предлагаем DiffPure-VLM, используя диффузионные модели для преобразования враждебных искажений в гауссовский шум, который может быть защищен VLMs с тонкой настройкой безопасности, усиленной шумом. Экспериментальные результаты показывают, что свойство сдвига распределения диффузионной модели хорошо согласуется с нашими тонко настроенными VLMs, значительно смягчая враждебные искажения различной интенсивности. Набор данных и код доступны по адресу https://github.com/JarvisUSTC/DiffPure-RobustVLM.

DASH: Обнаружение и оценка систематических галлюцинаций в визуально-языковых моделях
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Mar 30

ByMaximilian Augustin, Yannic Neuhaus, Matthias Hein

Модели, работающие с визуальными и текстовыми данными (VLMs), склонны к галлюцинациям объектов, когда они ошибочно указывают на наличие определённых объектов на изображении. Существующие бенчмарки оценивают такие галлюцинации с использованием относительно небольших размеченных наборов данных. Однако этот подход i) недостаточен для оценки галлюцинаций, возникающих в условиях открытого мира, где VLMs широко применяются, и ii) не подходит для выявления систематических ошибок в VLMs. Мы предлагаем DASH (Detection and Assessment of Systematic Hallucinations), автоматизированный масштабируемый конвейер, предназначенный для выявления систематических галлюцинаций VLMs на реальных изображениях в условиях открытого мира. Ключевым компонентом является DASH-OPT для поиска на основе изображений, где мы оптимизируем на "многообразии естественных изображений", чтобы генерировать изображения, которые вводят VLM в заблуждение. Результат работы DASH включает кластеры реальных и семантически схожих изображений, для которых VLM галлюцинирует объект. Мы применяем DASH к моделям PaliGemma и двум версиям LLaVA-NeXT для 380 классов объектов и в общей сложности находим более 19 тыс. кластеров с 950 тыс. изображений. Мы изучаем перенос выявленных систематических галлюцинаций на другие VLMs и показываем, что дообучение PaliGemma с использованием специфичных для модели изображений, полученных с помощью DASH, снижает количество галлюцинаций объектов. Код и данные доступны по адресу https://YanNeu.github.io/DASH.

LSNet: Видеть общее, фокусироваться на частном
LSNet: See Large, Focus Small

Mar 29

ByAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

Архитектуры сетей для обработки изображений, включая сверточные нейронные сети и Vision Transformers, значительно продвинули область компьютерного зрения. Однако их сложные вычисления создают трудности для практического применения, особенно в задачах, требующих работы в реальном времени. Для решения этой проблемы исследователи изучили различные облегченные и эффективные архитектуры сетей. Тем не менее, существующие облегченные модели в основном полагаются на механизмы самовнимания и свертки для смешивания токенов. Эта зависимость накладывает ограничения на эффективность и производительность процессов восприятия и агрегации в облегченных сетях, затрудняя достижение баланса между качеством и эффективностью при ограниченных вычислительных ресурсах. В данной работе мы вдохновляемся динамической способностью человеческой зрительной системы к восприятию на различных масштабах и предлагаем стратегию «Видеть крупное, фокусироваться на мелком» для проектирования облегченных сетей обработки изображений. Мы представляем LS-свертку (Large-Small), которая сочетает восприятие с использованием больших ядер и агрегацию с использованием малых ядер. Она позволяет эффективно захватывать широкий спектр перцептивной информации и достигать точной агрегации признаков для динамических и сложных визуальных представлений, обеспечивая профессиональную обработку визуальной информации. На основе LS-свертки мы представляем LSNet — новое семейство облегченных моделей. Многочисленные эксперименты демонстрируют, что LSNet превосходит существующие облегченные сети по производительности и эффективности в различных задачах компьютерного зрения. Коды и модели доступны по адресу https://github.com/jameslahm/lsnet.

Quamba2: Надежная и Масштабируемая Framework для Посттренировочной Квантования Селективных Моделей с Состояниями
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Mar 28

ByHung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu

Модели пространства состояний (SSM) становятся привлекательной альтернативой трансформерам благодаря постоянному использованию памяти и высокой производительности. Однако масштабирование SSM на облачных сервисах или устройствах с ограниченными ресурсами затруднено из-за их требований к хранению и вычислительной мощности. Для решения этой проблемы квантование SSM с использованием форматов данных с низкой разрядностью может уменьшить размер модели и воспользоваться преимуществами аппаратного ускорения. Поскольку SSM подвержены ошибкам, вызванным квантованием, последние исследования сосредоточены на оптимизации конкретной модели или разрядности для повышения эффективности без ущерба для производительности. Тем не менее, различные конфигурации разрядности необходимы для разных сценариев, например, W4A8 для увеличения скорости декодирования при больших пакетах и W4A16 для повышения скорости генерации в приложениях с короткими запросами для одного пользователя. В связи с этим мы представляем Quamba2, совместимый с W8A8, W4A8 и W4A16 для архитектур Mamba1 и Mamba2, что отвечает растущему спросу на развертывание SSM на различных платформах. Основываясь на сохранении порядка каналов и устойчивости активаций в SSM, мы предлагаем оффлайн-подход для квантования входов линейной рекурсии в 8-битном формате путем сортировки и кластеризации для входного вектора x, в сочетании с квантованием по группам состояний для входно-зависимых параметров B и C. Чтобы обеспечить инвариантность вычислений на выходе SSM, мы переупорядочиваем веса оффлайн в соответствии с последовательностью кластеризации. Эксперименты показывают, что Quamba2-8B превосходит несколько современных методов квантования SSM и обеспечивает ускорение в 1.3 раза и 3 раза на этапах предварительного заполнения и генерации соответственно, при этом сокращая использование памяти в 4 раза с потерей точности всего на 1.6%. Оценка на MMLU демонстрирует универсальность и устойчивость нашего фреймворка. Код и квантованные модели будут доступны по адресу: https://github.com/enyac-group/Quamba.

VerifiAgent: унифицированный агент верификации в рассуждениях языковых моделей
VerifiAgent: a Unified Verification Agent in Language Model Reasoning

Apr 1

ByJiuzhou Han, Wray Buntine, Ehsan Shareghi

Крупные языковые модели демонстрируют впечатляющие способности к рассуждению, но часто выдают ненадежные или ошибочные ответы. Существующие методы проверки, как правило, специфичны для конкретных моделей или ограничены определенными областями, требуют значительных вычислительных ресурсов и не обладают масштабируемостью для разнообразных задач рассуждения. Чтобы устранить эти ограничения, мы предлагаем VerifiAgent — унифицированного агента проверки, который интегрирует два уровня верификации: мета-верификацию, которая оценивает полноту и согласованность ответов модели, и инструментальную адаптивную проверку, где VerifiAgent автономно выбирает подходящие инструменты проверки в зависимости от типа рассуждения, включая математические, логические или рассуждения на основе здравого смысла. Такой адаптивный подход обеспечивает как эффективность, так и надежность в различных сценариях проверки. Экспериментальные результаты показывают, что VerifiAgent превосходит базовые методы проверки (например, дедуктивный верификатор, обратный верификатор) во всех задачах рассуждения. Кроме того, он может дополнительно повышать точность рассуждений, используя обратную связь от результатов проверки. VerifiAgent также эффективно применяется для масштабирования вывода, достигая лучших результатов с меньшим количеством сгенерированных образцов и затрат по сравнению с существующими моделями вознаграждения за процесс в области математических рассуждений. Код доступен по адресу: https://github.com/Jiuzhouh/VerifiAgent.

Адаптивное пропусканье слоев в предобученных больших языковых моделях
Adaptive Layer-skipping in Pre-trained LLMs

Mar 31

ByXuan Luo, Weizhi Wang, Xifeng Yan

Были предложены различные методы пропуска слоев для ускорения генерации токенов в больших языковых моделях (LLM). Однако они упускают из виду фундаментальный вопрос: как меняются вычислительные требования в процессе генерации различных токенов? В данной работе мы представляем FlexiDepth — метод, который динамически регулирует количество слоев Transformer, используемых при генерации текста. Благодаря внедрению подключаемого маршрутизатора и адаптера, FlexiDepth позволяет адаптивно пропускать слои в LLM без изменения их исходных параметров. Внедрение FlexiDepth в модель Llama-3-8B позволяет пропускать 8 слоев из 32, при этом сохраняя полную производительность на уровне 100% по эталонным тестам. Экспериментальные результаты с использованием FlexiDepth демонстрируют, что вычислительные требования в LLM значительно варьируются в зависимости от типа токена. В частности, генерация повторяющихся токенов или фиксированных фраз требует меньшего количества слоев, тогда как создание токенов, связанных с вычислениями или высокой неопределенностью, требует большего количества слоев. Интересно, что этот адаптивный паттерн распределения слоев соответствует человеческой интуиции. Для продвижения исследований в этой области мы открыли исходный код FlexiDepth и опубликовали набор данных, фиксирующий паттерны распределения слоев в FlexiDepth, для дальнейшего изучения.

Целеориентированные модели видеодиффузии
Target-Aware Video Diffusion Models

Mar 24

ByTaeksoo Kim, Hanbyul Joo

Мы представляем целенаправленную видео-диффузионную модель, которая генерирует видео на основе входного изображения, где актор взаимодействует с указанной целью, выполняя желаемое действие. Цель задается с помощью маски сегментации, а желаемое действие описывается текстовым запросом. В отличие от существующих управляемых моделей для преобразования изображения в видео, которые часто полагаются на плотные структурные или динамические подсказки для направления движений актора к цели, наша целенаправленная модель требует только простой маски для указания цели, используя обобщающие способности предварительно обученных моделей для создания правдоподобных действий. Это делает наш метод особенно эффективным для сценариев взаимодействия человека с объектом (HOI), где предоставление точных указаний на действия является сложной задачей, и дополнительно позволяет использовать видео-диффузионные модели для высокоуровневого планирования действий в таких приложениях, как робототехника. Мы создаем нашу целенаправленную модель, расширяя базовую модель для включения маски цели в качестве дополнительного входного параметра. Для обеспечения осведомленности о цели мы вводим специальный токен, который кодирует пространственную информацию цели в текстовом запросе. Затем мы дообучаем модель на нашем специально подготовленном наборе данных, используя новую функцию потерь на основе кросс-внимания, которая выравнивает карты кросс-внимания, связанные с этим токеном, с входной маской цели. Для дальнейшего повышения производительности мы выборочно применяем эту функцию потерь к наиболее семантически значимым блокам трансформеров и областям внимания. Экспериментальные результаты показывают, что наша целенаправленная модель превосходит существующие решения в генерации видео, где акторы точно взаимодействуют с указанными целями. Мы также демонстрируем ее эффективность в двух прикладных задачах: создании видеоконтента и синтезе 3D-движений для взаимодействия человека с объектом в условиях нулевого обучения.

Улучшенное обнаружение данных вне распределения через кросс-модальное согласование мультимодальных представлений
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

Mar 24

ByJeonghyeon Kim, Sangheum Hwang

Предыдущие исследования в области обнаружения данных вне распределения (OoDD) в основном были сосредоточены на моделях с одним модальностью. В последнее время с появлением крупномасштабных предобученных моделей, работающих с визуальными и текстовыми данными, таких как CLIP, появились методы OoDD, использующие такие мультимодальные представления через стратегии обучения с нулевым выстрелом (zero-shot) и подсказками (prompt learning). Однако эти методы обычно предполагают либо заморозку предобученных весов, либо их частичную настройку, что может быть неоптимальным для последующих наборов данных. В данной статье мы подчеркиваем, что мультимодальная тонкая настройка (MMFT) может достичь значительных результатов в OoDD. Несмотря на то, что некоторые недавние работы демонстрируют влияние методов тонкой настройки на OoDD, остается значительный потенциал для улучшения производительности. Мы исследуем ограничения наивных методов тонкой настройки, анализируя, почему они не могут полностью использовать предобученные знания. Наш эмпирический анализ предполагает, что эта проблема может быть связана с разрывом модальностей внутри встроений данных из распределения (ID). Для решения этой проблемы мы предлагаем целевую функцию обучения, которая улучшает кросс-модальное выравнивание, регулируя расстояния между вложениями изображений и текстов данных ID. Это изменение помогает лучше использовать предобученную текстовую информацию, более тесно выравнивая схожую семантику из разных модальностей (т.е. текста и изображения) в гиперсферическом пространстве представлений. Мы теоретически показываем, что предложенная регуляризация соответствует оценке максимального правдоподобия энергетической модели на гиперсфере. Используя наборы данных OoD из ImageNet-1k, мы демонстрируем, что наш метод в сочетании с пост-обработочными подходами OoDD, использующими предобученные знания (например, NegLabel), значительно превосходит существующие методы, достигая наилучших показателей OoDD и лидирующей точности на данных ID.

Медицинские большие языковые модели легко отвлекаются.
Medical large language models are easily distracted

Apr 1

ByKrithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann

Крупные языковые модели (LLM) обладают потенциалом для преобразования медицины, однако реальные клинические сценарии содержат избыточную информацию, которая может снижать их эффективность. Появление вспомогательных технологий, таких как автоматическая транскрипция, которая генерирует черновые записи на основе живых взаимодействий с пациентами, может вносить дополнительный шум, что делает критически важным оценку способности LLM фильтровать релевантные данные. Для изучения этого вопроса мы разработали MedDistractQA — эталонный набор, использующий вопросы в стиле USMLE, в которые встроены смоделированные отвлекающие элементы, характерные для реальной практики. Наши результаты показывают, что отвлекающие утверждения (например, многозначные слова с медицинским значением, используемые в немедицинском контексте, или упоминания несвязанных состояний здоровья) могут снижать точность LLM до 17,9%. Часто предлагаемые решения для улучшения производительности моделей, такие как генерация с использованием извлечения данных (RAG) и тонкая настройка на медицинских данных, не устранили этот эффект, а в некоторых случаях даже вносили дополнительные искажения и ухудшали результаты. Наши данные свидетельствуют о том, что LLM изначально не обладают логическими механизмами, необходимыми для различения релевантной и нерелевантной клинической информации, что создает вызовы для их применения в реальных условиях. MedDistractQA и наши результаты подчеркивают необходимость разработки надежных стратегий для повышения устойчивости LLM к избыточной информации.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

MergeVQ: Единая структура для визуальной генерации и представления с разделенным объединением и квантованием токенов
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

AnimeGamer: Бесконечная симуляция аниме-жизни с предсказанием следующего игрового состояния
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

DreamActor-M1: Целостная, выразительная и устойчивая анимация изображений человека с гибридным управлением
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

Улучшенное визуально-пространственное мышление с помощью обучения, подобного R1-Zero
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

Понимание обучения по типу R1-Zero: критический взгляд
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

ScholarCopilot: Обучение крупных языковых моделей для академического письма с точным цитированием
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

VideoScene: Дистилляция модели диффузии видео для генерации 3D-сцен за один шаг
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

К созданию физически правдоподобной генерации видео через планирование с использованием языковых моделей (VLM)
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

PaperBench: Оценка способности ИИ воспроизводить исследования в области ИИ
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

Дистилляция артикулированной кинематики из видеодиффузионных моделей
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

ILLUME+: Освещение унифицированной MLLM с двойной визуальной токенизацией и диффузионным уточнением
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

Улучшите свою модель генерации изображений людей с помощью оптимизации прямых предпочтений на основе обратной связи от ИИ
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

MegaTTS 3: Трансформер с латентной диффузией и улучшенным разреженным выравниванием для синтеза речи в условиях zero-shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao