Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Крупномасштабная языковая модель как агент: обзор методологии, приложений и вызовов
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

ByJunyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang

Эпоха интеллектуальных агентов наступила благодаря революционным достижениям в области больших языковых моделей (LLM). Агенты на основе LLM, обладающие целеориентированным поведением и способностью к динамической адаптации, потенциально представляют собой важный шаг на пути к созданию искусственного общего интеллекта. В данном обзоре систематически анализируются системы LLM-агентов с использованием методологически-ориентированной таксономии, связывающей архитектурные основы, механизмы взаимодействия и эволюционные пути. Мы объединяем разрозненные направления исследований, раскрывая фундаментальные связи между принципами проектирования агентов и их возникающим поведением в сложных средах. Наша работа предлагает единую архитектурную перспективу, рассматривая, как агенты создаются, взаимодействуют и эволюционируют со временем, а также затрагивает методологии оценки, применение инструментов, практические вызовы и разнообразные области применения. Обзор последних достижений в этой быстро развивающейся области предоставляет исследователям структурированную таксономию для понимания LLM-агентов и выделяет перспективные направления для будущих исследований. Коллекция доступна по адресу https://github.com/luo-junyu/Awesome-Agent-Papers.

Video-R1: Усиление видеорассуждений в мультимодальных языковых моделях
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

Вдохновленные успехом DeepSeek-R1 в раскрытии способностей к рассуждению с помощью обучения с подкреплением (RL) на основе правил, мы представляем Video-R1 как первую попытку систематического исследования парадигмы R1 для раскрытия способностей к видео-рассуждению в мультимодальных больших языковых моделях (MLLMs). Однако прямое применение RL-обучения с алгоритмом GRPO для видео-рассуждений сталкивается с двумя основными проблемами: (i) отсутствие временного моделирования для видео-рассуждений и (ii) недостаток высококачественных данных для видео-рассуждений. Для решения этих проблем мы сначала предлагаем алгоритм T-GRPO, который побуждает модели использовать временную информацию в видео для рассуждений. Кроме того, вместо полного reliance на видео-данные, мы включаем в процесс обучения высококачественные данные для рассуждений на основе изображений. Мы создали два набора данных: Video-R1-COT-165k для холодного старта SFT и Video-R1-260k для RL-обучения, оба включающие данные изображений и видео. Экспериментальные результаты показывают, что Video-R1 достигает значительных улучшений на бенчмарках для видео-рассуждений, таких как VideoMMMU и VSI-Bench, а также на общих видео-бенчмарках, включая MVBench и TempCompass и др. Примечательно, что Video-R1-7B достигает точности 35,8% на бенчмарке для пространственных видео-рассуждений VSI-bench, превосходя коммерческую проприетарную модель GPT-4o. Все коды, модели и данные опубликованы.

UI-R1: Улучшение прогнозирования действий агентов графического интерфейса с помощью обучения с подкреплением
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Недавняя модель DeepSeek-R1 продемонстрировала появление способностей к рассуждению в крупных языковых моделях (LLM) благодаря обучению с подкреплением (RL) с использованием правил для начисления наград. Развивая эту идею, мы впервые исследуем, как RL на основе правил может улучшить способности к рассуждению мультимодальных крупных языковых моделей (MLLM) для задач прогнозирования действий в графических пользовательских интерфейсах (GUI). Для этого мы создали небольшой, но высококачественный набор данных, включающий 136 сложных задач, охватывающих пять типов распространенных действий на мобильных устройствах. Мы также вводим унифицированную систему наград для действий на основе правил, что позволяет оптимизировать модель с помощью алгоритмов, основанных на политиках, таких как Group Relative Policy Optimization (GRPO). Результаты экспериментов показывают, что наша предложенная модель, эффективная по данным UI-R1-3B, достигает значительных улучшений как на задачах внутри домена (ID), так и за его пределами (OOD). В частности, на тестовом наборе AndroidControl (ID) точность определения типа действий увеличивается на 15%, а точность локализации — на 10,3% по сравнению с базовой моделью (Qwen2.5-VL-3B). На тестовом наборе ScreenSpot-Pro (OOD) наша модель превосходит базовую на 6,0% и демонстрирует конкурентоспособные результаты с более крупными моделями (например, OS-Atlas-7B), которые обучались с помощью контролируемой тонкой настройки (SFT) на 76 тыс. данных. Эти результаты подчеркивают потенциал обучения с подкреплением на основе правил для улучшения понимания и управления GUI, открывая новые направления для будущих исследований в этой области.

Испытание границ рассуждений: олимпиадный математический бенчмарк для крупных языковых моделей
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

В последние годы стремительное развитие крупных моделей логического вывода привело к насыщению существующих тестовых наборов для оценки математического мышления, что подчеркивает острую необходимость в более сложных и строгих рамках оценки. Для устранения этого пробела мы представляем OlymMATH — новый олимпиадный математический тестовый набор, разработанный для тщательной проверки сложных способностей к логическому выводу у крупных языковых моделей (LLM). OlymMATH включает 200 тщательно отобранных задач, каждая из которых вручную проверена и доступна в параллельных версиях на английском и китайском языках. Задачи систематически организованы в два уровня сложности: (1) задачи уровня AIME (легкие), которые устанавливают базовый уровень для оценки математического мышления, и (2) значительно более сложные задачи (тяжелые), призванные выйти за пределы возможностей современных передовых моделей. В нашем тестовом наборе эти задачи охватывают четыре ключевые области математики, каждая из которых включает проверяемое численное решение для обеспечения объективной, основанной на правилах оценки. Эмпирические результаты подчеркивают значительную сложность OlymMATH, при этом передовые модели, включая DeepSeek-R1 и OpenAI o3-mini, демонстрируют заметно ограниченную точность на сложном подмножестве задач. Кроме того, тестовый набор позволяет проводить всестороннюю двуязычную оценку способностей к математическому мышлению — критический аспект, который остается в значительной степени неохваченным в основных тестовых наборах для оценки математического мышления. Мы публикуем тестовый набор OlymMATH в рамках проекта STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

VBench-2.0: Развитие набора тестов для оценки генерации видео с акцентом на внутреннюю достоверность
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

Генерация видео значительно продвинулась вперед, эволюционировав от создания нереалистичных результатов до генерации видео, которые выглядят визуально убедительными и временно согласованными. Для оценки этих моделей генерации видео были разработаны бенчмарки, такие как VBench, которые измеряют их достоверность, учитывая такие факторы, как эстетика каждого кадра, временная согласованность и базовое соответствие запросу. Однако эти аспекты в основном представляют поверхностную достоверность, которая фокусируется на том, выглядит ли видео визуально убедительным, а не на том, соответствует ли оно принципам реального мира. Хотя современные модели показывают все лучшие результаты по этим метрикам, они по-прежнему сталкиваются с трудностями в создании видео, которые не только визуально правдоподобны, но и фундаментально реалистичны. Для достижения настоящих "моделей мира" через генерацию видео следующая граница заключается в обеспечении внутренней достоверности, чтобы сгенерированные видео соответствовали физическим законам, здравому смыслу, анатомической корректности и композиционной целостности. Достижение такого уровня реализма крайне важно для приложений, таких как создание фильмов с помощью ИИ и моделирование виртуальных миров. Чтобы преодолеть этот разрыв, мы представляем VBench-2.0 — бенчмарк следующего поколения, предназначенный для автоматической оценки моделей генерации видео с точки зрения их внутренней достоверности. VBench-2.0 оценивает пять ключевых аспектов: достоверность человека, управляемость, креативность, физика и здравый смысл, каждый из которых разбит на более детализированные возможности. Наша система оценки, адаптированная для каждого аспекта, интегрирует универсальные инструменты, такие как современные модели обработки визуальных и языковых данных (VLMs и LLMs), и специализированные методы, включая подходы к обнаружению аномалий, предложенные для генерации видео. Мы проводим обширные аннотации, чтобы обеспечить соответствие человеческому суждению. Продвигаясь за пределы поверхностной достоверности к внутренней, VBench-2.0 стремится установить новый стандарт для следующего поколения моделей генерации видео, ориентированных на достижение внутренней достоверности.

ReaRAG: Управляемое знаниями рассуждение повышает фактическую точность крупных моделей рассуждений с использованием итеративного поиска и генерации с расширением данных
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

Модели с расширенными возможностями рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие способности к рассуждениям, но в основном полагаются на параметрические знания, что ограничивает их фактическую точность. Хотя недавние работы оснащают LRMs, основанные на обучении с подкреплением (Reinforcement Learning, RL), возможностями поиска информации, они страдают от избыточного анализа и недостаточной устойчивости в рассуждениях, что снижает их эффективность в задачах ответов на вопросы (Question Answering, QA). Для решения этой проблемы мы предлагаем ReaRAG — модель рассуждений, усиленную с точки зрения фактической точности, которая исследует разнообразные запросы без избыточных итераций. Наше решение включает новую структуру построения данных с верхней границей длины цепочки рассуждений. В частности, мы сначала используем LRM для генерации обдуманных рассуждений, затем выбираем действие из предопределенного пространства действий (Поиск и Завершение). Для действия Поиск запрос выполняется в движке RAG, где результат возвращается как наблюдение для последующего руководства шагами рассуждений. Этот процесс повторяется до тех пор, пока не будет выбрано действие Завершение. Благодаря мощным возможностям рассуждений ReaRAG, наш подход превосходит существующие базовые методы в задачах многошагового QA. Дополнительный анализ подчеркивает её сильную рефлексивную способность распознавать ошибки и корректировать траекторию рассуждений. Наше исследование повышает фактическую точность LRMs, эффективно интегрируя устойчивые рассуждения в генерацию, усиленную поиском (Retrieval-Augmented Generation, RAG).

ChatAnyone: Стилизованная генерация портретного видео в реальном времени с использованием иерархической модели диффузии движения
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

Интерактивные портреты для видеозвонков в реальном времени всё чаще признаются как будущий тренд, особенно благодаря значительному прогрессу в технологиях текстового и голосового общения. Однако существующие методы в основном сосредоточены на генерации движений головы в реальном времени, но испытывают трудности с созданием синхронизированных движений тела, соответствующих этим движениям головы. Кроме того, достижение детального контроля над стилем речи и нюансами мимики остаётся сложной задачей. Для решения этих ограничений мы представляем новую структуру для стилизованной генерации портретных видео в реальном времени, обеспечивающую выразительное и гибкое видеозвонки, расширяющиеся от "говорящей головы" до взаимодействия с верхней частью тела. Наш подход состоит из двух этапов. Первый этап включает эффективные иерархические модели диффузии движений, которые учитывают как явные, так и неявные представления движений на основе аудиовходов, что позволяет генерировать разнообразные выражения лица с контролем стиля и синхронизацией движений головы и тела. Второй этап направлен на создание портретного видео с движениями верхней части тела, включая жесты рук. Мы внедряем явные сигналы управления руками в генератор для создания более детализированных движений рук и дополнительно выполняем уточнение лица для повышения общей реалистичности и выразительности портретного видео. Кроме того, наш подход поддерживает эффективную и непрерывную генерацию портретного видео верхней части тела с максимальным разрешением 512 * 768 и частотой до 30 кадров в секунду на GPU 4090, обеспечивая интерактивные видеозвонки в реальном времени. Экспериментальные результаты демонстрируют способность нашего подхода создавать портретные видео с богатой выразительностью и естественными движениями верхней части тела.

LeX-Art: Переосмысление генерации текста через масштабируемый синтез высококачественных данных
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Мы представляем LeX-Art — комплексный набор инструментов для высококачественного синтеза текста и изображений, который систематически устраняет разрыв между выразительностью запросов и точностью визуализации текста. Наш подход следует парадигме, ориентированной на данные, и включает создание высококачественного конвейера синтеза данных на основе Deepseek-R1 для формирования LeX-10K — набора из 10 000 изображений с высоким разрешением 1024×1024, обладающих эстетической утонченностью. Помимо создания набора данных, мы разработали LeX-Enhancer — мощную модель обогащения запросов, а также обучили две модели для генерации изображений по тексту: LeX-FLUX и LeX-Lumina, достигшие передовых показателей в визуализации текста. Для систематической оценки генерации визуального текста мы представляем LeX-Bench — эталонный тест, оценивающий точность, эстетику и соответствие, дополненный новым метрическим показателем Pairwise Normalized Edit Distance (PNED) для надежной оценки точности текста. Эксперименты демонстрируют значительные улучшения: LeX-Lumina достигает увеличения PNED на 79,81% на CreateBench, а LeX-FLUX превосходит базовые модели по точности цветопередачи (+3,18%), позиционирования (+4,45%) и шрифтов (+3,81%). Наши коды, модели, наборы данных и демонстрация доступны публично.

Embodied-Reasoner: Синергия визуального поиска, рассуждений и действий для интерактивных задач в воплощённых системах
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Последние достижения в области моделей глубокого мышления продемонстрировали выдающиеся способности к рассуждению в математических и программистских задачах. Однако их эффективность в воплощённых доменах, требующих непрерывного взаимодействия с окружением через траектории, чередующие изображения и действия, остаётся в значительной степени неисследованной. Мы представляем Embodied Reasoner — модель, которая расширяет стиль рассуждений o1 на интерактивные задачи воплощённого поиска. В отличие от математического рассуждения, которое в основном опирается на логическую дедукцию, воплощённые сценарии требуют пространственного понимания, временного рассуждения и постоянного самоанализа на основе истории взаимодействий. Для решения этих задач мы синтезируем 9,3 тыс. согласованных траекторий "Наблюдение-Мысль-Действие", содержащих 64 тыс. интерактивных изображений и 90 тыс. разнообразных мыслительных процессов (анализ, пространственное рассуждение, рефлексия, планирование и проверка). Мы разрабатываем трёхэтапный процесс обучения, который постепенно улучшает способности модели через обучение с подражанием, самоисследование с помощью отбраковки выборок и самокоррекцию через настройку рефлексии. Оценка показывает, что наша модель значительно превосходит передовые модели визуального рассуждения, например, она превышает показатели OpenAI o1, o3-mini и Claude-3.7 на +9%, 24% и +13% соответственно. Анализ выявляет, что наша модель демонстрирует меньше повторных поисков и логических несоответствий, с особыми преимуществами в сложных задачах с длительным горизонтом. В реальных средах также наблюдается наше превосходство при меньшем количестве повторных поисков и случаев логической несогласованности.

Lumina-Image 2.0: Унифицированная и эффективная структура для генерации изображений
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ByQi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao

Представляем Lumina-Image 2.0 — усовершенствованную систему генерации изображений по тексту, которая демонстрирует значительный прогресс по сравнению с предыдущей версией, Lumina-Next. Lumina-Image 2.0 основана на двух ключевых принципах: (1) Унификация — она использует унифицированную архитектуру (Unified Next-DiT), которая рассматривает текстовые и визуальные токены как единую последовательность, обеспечивая естественное взаимодействие между модальностями и позволяя легко расширять функциональность. Кроме того, поскольку высококачественные системы описания изображений могут предоставить семантически согласованные пары текст-изображение для обучения, мы внедрили унифицированную систему описания, Unified Captioner (UniCap), специально разработанную для задач генерации изображений по тексту. UniCap превосходно справляется с созданием детальных и точных описаний, ускоряя сходимость обучения и улучшая соответствие генерируемых изображений запросам. (2) Эффективность — для повышения эффективности модели мы разработали многоэтапные стратегии прогрессивного обучения и внедрили методы ускорения вывода без ущерба для качества изображений. Масштабные оценки на академических бенчмарках и публичных платформах для генерации изображений по тексту показывают, что Lumina-Image 2.0 демонстрирует выдающиеся результаты даже при использовании всего 2,6 миллиардов параметров, подчеркивая её масштабируемость и эффективность проектирования. Мы опубликовали детали обучения, код и модели на сайте https://github.com/Alpha-VLLM/Lumina-Image-2.0.

ResearchBench: Оценка возможностей языковых моделей в научных открытиях через декомпозицию задач на основе вдохновения
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

Крупные языковые модели (LLM) продемонстрировали потенциал в оказании помощи научным исследованиям, однако их способность выдвигать качественные исследовательские гипотезы остаётся неизученной из-за отсутствия специализированного бенчмарка. Чтобы устранить этот пробел, мы представляем первый крупномасштабный бенчмарк для оценки LLM, включающий почти полный набор подзадач научного открытия: поиск вдохновения, составление гипотез и их ранжирование. Мы разрабатываем автоматизированную систему, которая извлекает ключевые компоненты — исследовательские вопросы, обзоры литературы, источники вдохновения и гипотезы — из научных статей в 12 дисциплинах, причём точность системы подтверждена экспертной проверкой. Чтобы избежать загрязнения данных, мы сосредоточились исключительно на статьях, опубликованных в 2024 году, что минимизирует их пересечение с данными, использованными для предварительного обучения LLM. Наша оценка показывает, что LLM успешно справляются с поиском вдохновения — задачей, выходящей за пределы их обучающего распределения, что указывает на их способность выявлять новые ассоциации знаний. Это позиционирует LLM как "шахты исследовательских гипотез", способные способствовать автоматизированному научному открытию, генерируя инновационные гипотезы в больших масштабах при минимальном вмешательстве человека.

FinAudio: Бенчмарк для крупных языковых моделей обработки аудио в финансовых приложениях
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie

Аудио-ориентированные большие языковые модели (AudioLLMs) получили широкое внимание и значительно улучшили производительность в задачах, связанных с аудио, таких как диалоги, понимание аудио и автоматическое распознавание речи (ASR). Несмотря на эти достижения, отсутствует эталонный тест для оценки AudioLLMs в финансовых сценариях, где аудиоданные, такие как конференц-звонки о финансовых результатах и выступления генеральных директоров, являются важными ресурсами для финансового анализа и инвестиционных решений. В данной статье мы представляем FinAudio — первый эталонный тест, разработанный для оценки возможностей AudioLLMs в финансовой области. Сначала мы определяем три задачи, основанные на уникальных характеристиках финансовой сферы: 1) ASR для коротких финансовых аудиозаписей, 2) ASR для длинных финансовых аудиозаписей и 3) суммаризация длинных финансовых аудиозаписей. Затем мы создаем два набора данных для коротких и два для длинных аудиозаписей, а также разрабатываем новый набор данных для суммаризации финансовых аудиозаписей, составляющих эталонный тест FinAudio. Далее мы оцениваем семь популярных AudioLLMs на FinAudio. Наша оценка выявляет ограничения существующих AudioLLMs в финансовой области и предлагает рекомендации для их улучшения. Все наборы данных и коды будут опубликованы.

Синтетическое видео повышает физическую достоверность в синтезе видео
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26

ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang

Мы исследуем, как повысить физическую достоверность моделей генерации видео, используя синтетические видео, созданные с помощью графических конвейеров. Эти визуализированные видео соответствуют законам реального мира, например, сохраняют 3D-согласованность, и представляют собой ценный ресурс, который может потенциально улучшить модели генерации видео. Чтобы реализовать этот потенциал, мы предлагаем решение, которое отбирает и интегрирует синтетические данные, одновременно вводя метод передачи их физической реалистичности модели, что значительно снижает нежелательные артефакты. В ходе экспериментов на трех репрезентативных задачах, акцентирующих физическую согласованность, мы демонстрируем эффективность этого подхода в повышении физической достоверности. Хотя наша модель все еще не обладает глубоким пониманием физики, наша работа представляет одно из первых эмпирических доказательств того, что синтетические видео улучшают физическую достоверность в синтезе видео. Веб-сайт: https://kevinz8866.github.io/simulation/

Оптимальный размер шага для сэмплирования диффузии
Optimal Stepsize for Diffusion Sampling

Mar 27

ByJianning Pei, Han Hu, Shuyang Gu

Диффузионные модели демонстрируют выдающееся качество генерации, но сталкиваются с проблемой вычислительно затратного сэмплирования из-за неоптимальной дискретизации шагов. В то время как существующие работы сосредоточены на оптимизации направлений удаления шума, мы предлагаем принципиальный подход к проектированию расписаний шагов. В данной статье представлен метод Оптимальной Дистилляции Шагов — фреймворк динамического программирования, который извлекает теоретически оптимальные расписания, дистиллируя знания из референсных траекторий. Переформулируя оптимизацию шагов как рекурсивную минимизацию ошибки, наш метод гарантирует глобальные границы дискретизации за счет использования оптимальной подструктуры. Важно отметить, что полученные расписания демонстрируют высокую устойчивость к различным архитектурам, решателям ОДУ и расписаниям шума. Эксперименты показывают ускорение генерации текста в изображение в 10 раз при сохранении 99,4% производительности на GenEval. Наш код доступен по адресу https://github.com/bebebe666/OptimalSteps.

Исследование эволюции когнитивного восприятия физики в генерации видео: обзор
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27

ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang

Последние достижения в области генерации видео демонстрируют значительный прогресс, особенно благодаря быстрому развитию диффузионных моделей. Однако их недостатки в физическом восприятии постепенно привлекают всё больше внимания — создаваемый контент часто нарушает фундаментальные законы физики, попадая в ловушку «визуального реализма, но физического абсурда». Исследователи всё чаще осознают важность физической достоверности в генерации видео и пытаются интегрировать эвристическое физическое восприятие, такое как представления движения и физические знания, в генеративные системы для моделирования реальных динамических сценариев. Учитывая отсутствие систематического обзора в этой области, данная работа ставит целью восполнить этот пробел, предоставив всесторонний обзор архитектурных решений и их применений. В частности, мы обсуждаем и систематизируем эволюцию физического восприятия в генерации видео с точки зрения когнитивной науки, предлагая трехуровневую таксономию: 1) базовое восприятие схем для генерации, 2) пассивное восприятие физических знаний для генерации и 3) активное восприятие для моделирования мира, охватывая современные методы, классические парадигмы и бенчмарки. Далее мы подчеркиваем ключевые вызовы в этой области и намечаем потенциальные направления для будущих исследований, способствуя продвижению дискуссии как в академических кругах, так и в индустрии. Благодаря структурированному обзору и междисциплинарному анализу, данная работа стремится предоставить направляющие рекомендации для разработки интерпретируемых, управляемых и физически согласованных парадигм генерации видео, тем самым продвигая генеративные модели от этапа «визуального подражания» к новой фазе «человекоподобного физического понимания».

Feature4X: Преобразование любого моноскопического видео в 4D агентный ИИ с помощью универсальных гауссовых полей признаков
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26

ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi

Последние достижения в области 2D и мультимодальных моделей позволили добиться значительных успехов благодаря масштабному обучению на обширных наборах данных. Однако перенос этих достижений для обеспечения свободного взаимодействия и выполнения семантических операций высокого уровня с комплексными 3D/4D сценами остается сложной задачей. Эта трудность обусловлена ограниченной доступностью крупномасштабных аннотированных 3D/4D или многовидовых наборов данных, которые имеют решающее значение для обобщаемых задач зрения и языка, таких как сегментация на основе открытого словаря и подсказок, редактирование с использованием языка и визуальный вопросно-ответный анализ (VQA). В данной работе мы представляем Feature4X — универсальную структуру, предназначенную для расширения функциональности любой 2D модели базового зрения в 4D пространство, используя только монокулярное видео, которое широко доступно в пользовательском контенте. "X" в Feature4X символизирует его универсальность, позволяя выполнять любую задачу через адаптируемое, обусловленное моделью дистиллирование 4D поля признаков. В основе нашей структуры лежит динамическая стратегия оптимизации, объединяющая несколько возможностей модели в единое представление. Кроме того, насколько нам известно, Feature4X является первым методом, который дистиллирует и переносит признаки моделей базового видео (например, SAM2, InternVideo2) в явное 4D поле признаков с использованием гауссовского разбрызгивания. Наши эксперименты демонстрируют сегментацию любого объекта в новых ракурсах, редактирование геометрии и внешнего вида сцены, а также свободный VQA на всех временных шагах, усиленные использованием больших языковых моделей (LLM) в обратных связях. Эти достижения расширяют область применения агентного ИИ, предоставляя основу для масштабируемых, контекстуально и пространственно-временно осознанных систем, способных к иммерсивному взаимодействию с динамическими 4D сценами.

Адаптация семантической библиотеки: извлечение и слияние LoRA для семантической сегментации с открытым словарем
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27

ByReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi

Модели семантической сегментации с открытым словарем связывают визуальные данные и текст для маркировки пикселей из неопределенного набора классов с использованием текстовых запросов, обеспечивая универсальную производительность на новых наборах данных. Однако значительные различия между обучающими и тестовыми доменами снижают их эффективность, что требует тонкой настройки для успешного применения в реальных условиях. Мы представляем Semantic Library Adaptation (SemLA) — новый фреймворк для адаптации к домену во время тестирования без дополнительного обучения. SemLA использует библиотеку адаптеров на основе LoRA, индексированных с помощью эмбеддингов CLIP, динамически объединяя наиболее релевантные адаптеры на основе близости к целевому домену в пространстве эмбеддингов. Этот подход создает специализированную модель для каждого конкретного входного данных без дополнительного обучения. Наш метод эффективно масштабируется, повышает объяснимость за счет отслеживания вклада адаптеров и обеспечивает защиту конфиденциальности данных, что делает его идеальным для чувствительных приложений. Комплексные эксперименты на бенчмарке из 20 доменов, созданном на основе 10 стандартных наборов данных, демонстрируют превосходную адаптивность и производительность SemLA в различных условиях, устанавливая новый стандарт в адаптации доменов для семантической сегментации с открытым словарем.

Унифицированное мультимодальное дискретное диффузионное моделирование
Unified Multimodal Discrete Diffusion

Mar 26

ByAlexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki

Многомодальные генеративные модели, способные понимать и генерировать данные в различных модальностях, в основном представлены авторегрессивными (AR) подходами, которые обрабатывают токены последовательно слева направо или сверху вниз. Эти модели совместно работают с изображениями, текстом, видео и аудио для решения различных задач, таких как создание подписей к изображениям, ответы на вопросы и генерация изображений. В данной работе мы исследуем дискретные диффузионные модели как унифицированную генеративную формулировку в совместной области текста и изображений, основываясь на их недавних успехах в генерации текста. Дискретные диффузионные модели предлагают несколько преимуществ перед AR-моделями, включая улучшенный контроль над качеством и разнообразием генерируемых образцов, возможность выполнения совместного многомодального восстановления (в областях текста и изображений) и большую управляемость в процессе генерации с использованием направляющих. Используя эти преимущества, мы представляем первую Унифицированную Многомодальную Дискретную Диффузионную модель (UniDisc), которая способна совместно понимать и генерировать текст и изображения для различных задач. Мы сравниваем UniDisc с многомодальными AR-моделями, проводя анализ масштабирования и демонстрируя, что UniDisc превосходит их по производительности, вычислительной эффективности на этапе вывода, улучшенной управляемости, редактируемости, восстановлению и гибкому балансу между временем вывода и качеством генерации. Код и дополнительные визуализации доступны по адресу https://unidisc.github.io.

ZJUKLAB на SemEval-2025, задача 4: Забывание через слияние моделей
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Mar 27

ByHaoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang

В данной статье представлена заявка команды ZJUKLAB на участие в задаче SemEval-2025 Task 4: Удаление чувствительного контента из больших языковых моделей. Цель задачи заключается в избирательном удалении чувствительных знаний из больших языковых моделей, избегая как чрезмерного, так и недостаточного забывания. Мы предлагаем систему удаления, которая использует метод объединения моделей (в частности, TIES-Merging), комбинируя две специализированные модели в более сбалансированную модель с удаленными данными. Наша система демонстрирует конкурентоспособные результаты, занимая второе место среди 26 команд, с онлайн-оценкой 0.944 для Task Aggregate и 0.487 для общего Aggregate. В этой статье мы также проводим локальные эксперименты и выполняем всесторонний анализ процесса удаления, изучая траектории производительности, динамику потерь и перспективы весов, а также несколько дополнительных экспериментов, чтобы понять эффективность нашего метода. Кроме того, мы анализируем недостатки нашего метода и метрик оценки, подчеркивая, что оценки MIA и метрики на основе ROUGE сами по себе недостаточны для полной оценки успешного удаления. Наконец, мы подчеркиваем необходимость более комплексных методик оценки и переосмысления целей удаления в будущих исследованиях. Код доступен по адресу https://github.com/zjunlp/unlearn/tree/main/semeval25.

LLPut: Исследование возможностей больших языковых моделей для генерации входных данных на основе отчетов об ошибках
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Mar 26

ByAlif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman

Входные данные, вызывающие сбои, играют ключевую роль в диагностике и анализе программных ошибок. Отчёты об ошибках обычно содержат такие данные, которые разработчики извлекают для упрощения отладки. Поскольку отчёты об ошибках написаны на естественном языке, предыдущие исследования использовали различные методы обработки естественного языка (Natural Language Processing, NLP) для автоматического извлечения входных данных. С появлением крупных языковых моделей (Large Language Models, LLMs) возникает важный исследовательский вопрос: насколько эффективно генеративные LLM могут извлекать входные данные, вызывающие сбои, из отчётов об ошибках? В данной статье мы предлагаем LLPut — метод для эмпирической оценки производительности трёх открытых генеративных LLM (LLaMA, Qwen и Qwen-Coder) в извлечении релевантных входных данных из отчётов об ошибках. Мы проводим экспериментальную оценку на наборе данных из 206 отчётов об ошибках, чтобы оценить точность и эффективность этих моделей. Наши результаты дают представление о возможностях и ограничениях генеративных LLM в автоматической диагностике ошибок.

Tracktention: Использование отслеживания точек для более быстрого и эффективного анализа видео
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Mar 25

ByZihang Lai, Andrea Vedaldi

Временная согласованность имеет критическое значение в прогнозировании видео для обеспечения того, чтобы выходные данные были последовательными и свободными от артефактов. Традиционные методы, такие как временное внимание и 3D-свертка, могут испытывать трудности с обработкой значительного движения объектов и не всегда способны улавливать долгосрочные временные зависимости в динамических сценах. Для устранения этого пробела мы предлагаем слой Tracktention — новый архитектурный компонент, который явно интегрирует информацию о движении с использованием треков точек, то есть последовательностей соответствующих точек между кадрами. Включая эти сигналы движения, слой Tracktention улучшает временное выравнивание и эффективно справляется со сложными движениями объектов, сохраняя согласованные представления признаков во времени. Наш подход является вычислительно эффективным и может быть легко интегрирован в существующие модели, такие как Vision Transformers, с минимальными изменениями. Он позволяет модернизировать модели, предназначенные только для изображений, до современных моделей для видео, иногда превосходя модели, изначально разработанные для прогнозирования видео. Мы демонстрируем это на примере прогнозирования глубины видео и раскрашивания видео, где модели, дополненные слоем Tracktention, показывают значительно улучшенную временную согласованность по сравнению с базовыми методами.

LOCATEdit: Оптимизация кросс-внимания с использованием графового лапласиана для локализованного редактирования изображений на основе текста
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27

ByAchint Soni, Meet Soni, Sirisha Rambhatla

Редактирование изображений на основе текстовых инструкций направлено на изменение определенных областей изображения в соответствии с естественными языковыми указаниями, сохраняя при этом общую структуру и фоновую достоверность. Существующие методы используют маски, полученные из карт кросс-внимания, сгенерированных моделями диффузии, для идентификации целевых областей, подлежащих изменению. Однако, поскольку механизмы кросс-внимания сосредоточены на семантической релевантности, они испытывают трудности с сохранением целостности изображения. В результате эти методы часто страдают от недостатка пространственной согласованности, что приводит к артефактам и искажениям при редактировании. В данной работе мы устраняем эти ограничения и представляем LOCATEdit, который улучшает карты кросс-внимания с помощью графового подхода, использующего отношения между патчами, полученные из механизмов самовнимания, для поддержания плавного и согласованного внимания между областями изображения. Это гарантирует, что изменения ограничиваются указанными объектами, сохраняя при этом окружающую структуру. \method стабильно и значительно превосходит существующие базовые методы на PIE-Bench, демонстрируя передовую производительность и эффективность в различных задачах редактирования. Код доступен по адресу https://github.com/LOCATEdit/LOCATEdit/.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Крупномасштабная языковая модель как агент: обзор методологии, приложений и вызовов
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

Video-R1: Усиление видеорассуждений в мультимодальных языковых моделях
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

UI-R1: Улучшение прогнозирования действий агентов графического интерфейса с помощью обучения с подкреплением
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Испытание границ рассуждений: олимпиадный математический бенчмарк для крупных языковых моделей
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

VBench-2.0: Развитие набора тестов для оценки генерации видео с акцентом на внутреннюю достоверность
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

ReaRAG: Управляемое знаниями рассуждение повышает фактическую точность крупных моделей рассуждений с использованием итеративного поиска и генерации с расширением данных
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

ChatAnyone: Стилизованная генерация портретного видео в реальном времени с использованием иерархической модели диффузии движения
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

LeX-Art: Переосмысление генерации текста через масштабируемый синтез высококачественных данных
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Embodied-Reasoner: Синергия визуального поиска, рассуждений и действий для интерактивных задач в воплощённых системах
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Lumina-Image 2.0: Унифицированная и эффективная структура для генерации изображений
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ResearchBench: Оценка возможностей языковых моделей в научных открытиях через декомпозицию задач на основе вдохновения
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

FinAudio: Бенчмарк для крупных языковых моделей обработки аудио в финансовых приложениях
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie