Ежедневные статьи | ChatPaper.ai | ChatPaper - ИИ-ассистент обучения: Чат, Конспект и Генерация

Paper2Poster: К автоматизации создания мультимодальных постеров на основе научных статей
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

May 27

ByWei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr

109

Создание академических постеров является важной, но сложной задачей в научной коммуникации, требующей сжатия длинных, переплетенных документов в одну визуально связную страницу. Для решения этой проблемы мы представляем первый эталонный набор данных и набор метрик для генерации постеров, который связывает недавние статьи конференций с постерами, разработанными авторами, и оценивает результаты по следующим критериям: (i) Визуальное качество — семантическое соответствие постерам, созданным людьми; (ii) Текстовая связность — языковая беглость; (iii) Холистическая оценка — шесть детализированных эстетических и информационных критериев, оцениваемых с помощью VLM (визуально-языковой модели) в роли судьи; и, что особенно важно, (iv) PaperQuiz — способность постера передавать основное содержание статьи, измеряемая с помощью VLM, отвечающих на сгенерированные вопросы. На основе этого эталона мы предлагаем PosterAgent, многоагентный процесс с визуальной обратной связью, работающий по принципу "сверху вниз": (a) Парсер извлекает из статьи структурированную библиотеку данных; (b) Планировщик выравнивает текстово-визуальные пары в бинарную древовидную структуру, сохраняя порядок чтения и пространственный баланс; и (c) Цикл "Художник-Комментатор" улучшает каждую панель, выполняя код рендеринга и используя обратную связь от VLM для устранения переполнения и обеспечения соответствия. В нашем всестороннем анализе мы обнаружили, что результаты GPT-4o, хотя и выглядят визуально привлекательно на первый взгляд, часто содержат шумный текст и низкие оценки по PaperQuiz, а также выяснили, что вовлеченность читателя является основным эстетическим ограничением, поскольку постерами, созданными людьми, в значительной степени используются визуальные семантики для передачи смысла. Наши полностью открытые варианты (например, на основе серии Qwen-2.5) превосходят существующие многоагентные системы, управляемые 4o, по почти всем метрикам, при этом используя на 87% меньше токенов. Они преобразуют 22-страничную статью в готовый, но редактируемый .pptx постер — и все это всего за $0.005. Эти результаты указывают четкие направления для следующего поколения полностью автоматизированных моделей генерации постеров. Код и наборы данных доступны по адресу https://github.com/Paper2Poster/Paper2Poster.

ScienceBoard: Оценка мультимодальных автономных агентов в реалистичных научных процессах
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

May 26

ByQiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu

104

Крупные языковые модели (LLM) расширили свое влияние за пределы обработки естественного языка, существенно способствуя развитию междисциплинарных исследований. В последнее время были разработаны различные агенты на основе LLM, которые помогают продвижению научных открытий в различных аспектах и областях. Среди них особое внимание привлекают агенты, способные взаимодействовать с операционными системами так же, как это делают люди, что открывает путь к автоматизации решения научных задач и оптимизации рабочих процессов исследователей. Осознавая преобразующий потенциал таких агентов, мы представляем ScienceBoard, который включает два взаимодополняющих вклада: (i) реалистичную, многодоменную среду, включающую динамические и визуально насыщенные научные рабочие процессы с интегрированным профессиональным программным обеспечением, где агенты могут автономно взаимодействовать через различные интерфейсы для ускорения сложных исследовательских задач и экспериментов; и (ii) сложный бенчмарк из 169 высококачественных, тщательно проверенных реальных задач, охватывающих рабочие процессы научных открытий в таких областях, как биохимия, астрономия и геоинформатика. Обширные оценки агентов с передовыми архитектурами (например, GPT-4o, Claude 3.7, UI-TARS) показывают, что, несмотря на некоторые обнадеживающие результаты, они все еще не способны надежно помогать ученым в сложных рабочих процессах, достигая лишь 15% общего уровня успешности. Глубокий анализ также предоставляет ценные инсайты для преодоления текущих ограничений агентов и разработки более эффективных принципов проектирования, прокладывая путь к созданию более способных агентов для научных открытий. Наш код, среда и бенчмарк доступны по адресу https://qiushisun.github.io/ScienceBoard-Home/.

MME-Reasoning: Комплексный эталон для логического рассуждения в мультимодальных языковых моделях (MLLMs)
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

May 27

ByJiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue

Логическое рассуждение является фундаментальным аспектом человеческого интеллекта и важной способностью для мультимодальных больших языковых моделей (MLLMs). Несмотря на значительный прогресс в области мультимодального рассуждения, существующие эталонные тесты не позволяют всесторонне оценить их способности к рассуждению из-за отсутствия явной классификации типов логического рассуждения и недостаточного понимания самого процесса рассуждения. Для решения этих проблем мы представляем MME-Reasoning — комплексный эталонный тест, разработанный для оценки способности к рассуждению MLLMs, который охватывает все три типа рассуждений (индуктивное, дедуктивное и абдуктивное) в своих вопросах. Мы тщательно отбираем данные, чтобы каждый вопрос эффективно оценивал способность к рассуждению, а не перцептивные навыки или широту знаний, и расширяем протоколы оценки для охвата разнообразных вопросов. Наша оценка выявляет существенные ограничения современных MLLMs при проведении комплексной оценки их логических способностей. Даже самые передовые MLLMs демонстрируют ограниченную производительность в комплексном логическом рассуждении, с заметным дисбалансом производительности между типами рассуждений. Кроме того, мы провели углубленный анализ подходов, таких как «режим мышления» и Rule-based RL, которые, как считается, улучшают способности к рассуждению. Эти результаты подчеркивают критические ограничения и дисбаланс производительности современных MLLMs в различных сценариях логического рассуждения, предоставляя всесторонние и систематические инсайты для понимания и оценки способностей к рассуждению.

SynLogic: Синтез верифицируемых данных для обучения логическим рассуждениям и не только в масштабе
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

May 26

ByJunteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He

Недавние достижения, такие как OpenAI-o1 и DeepSeek R1, продемонстрировали потенциал обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей к рассуждению в больших языковых моделях (Large Language Models, LLMs). Хотя усилия по воспроизведению в открытом исходном коде в основном сосредоточены на математических и программистских областях, методы и ресурсы для развития общих способностей к рассуждению остаются недостаточно изученными. Этот пробел частично связан с трудностью сбора разнообразных и проверяемых данных для рассуждений, подходящих для RL. Мы предполагаем, что логическое рассуждение критически важно для развития общих способностей к рассуждению, поскольку логика является фундаментальным строительным блоком рассуждений. В данной работе мы представляем SynLogic — фреймворк для синтеза данных и набор данных, который генерирует разнообразные логические задачи для рассуждений в масштабе, охватывая 35 различных логических задач. Подход SynLogic позволяет контролируемо синтезировать данные с регулируемой сложностью и количеством. Важно, что все примеры могут быть проверены с помощью простых правил, что делает их идеально подходящими для RL с проверяемыми наградами. В наших экспериментах мы подтверждаем эффективность обучения RL на наборе данных SynLogic на основе моделей с 7B и 32B параметрами. SynLogic демонстрирует наилучшие результаты в логическом рассуждении среди открытых наборов данных, превосходя DeepSeek-R1-Distill-Qwen-32B на 6 баллов по метрике BBEH. Более того, смешивание данных SynLogic с математическими и программистскими задачами повышает эффективность обучения в этих областях и значительно улучшает обобщение рассуждений. Примечательно, что наша модель, обученная на смешанных данных, превосходит DeepSeek-R1-Zero-Qwen-32B по нескольким бенчмаркам. Эти результаты позиционируют SynLogic как ценный ресурс для продвижения более широких способностей к рассуждению в LLMs. Мы открываем исходный код как для конвейера синтеза данных, так и для набора данных SynLogic по адресу https://github.com/MiniMax-AI/SynLogic.

OmniConsistency: Обучение стиле-независимой согласованности на основе парных данных стилизации
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

May 24

ByYiren Song, Cheng Liu, Mike Zheng Shou

Диффузионные модели значительно продвинули стилизацию изображений, однако две ключевые проблемы остаются нерешенными: (1) сохранение согласованной стилизации в сложных сценах, особенно в отношении идентичности, композиции и мелких деталей, и (2) предотвращение деградации стиля в конвейерах "изображение-в-изображение" с использованием стилевых LoRA. Исключительная согласованность стилизации GPT-4o подчеркивает разрыв в производительности между открытыми методами и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем OmniConsistency — универсальный плагин для согласованности, использующий крупномасштабные Диффузионные Трансформеры (DiT). OmniConsistency вносит следующие вклады: (1) фреймворк для обучения согласованности в контексте, тренируемый на выровненных парах изображений для устойчивой генерализации; (2) двухэтапную прогрессивную стратегию обучения, разделяющую изучение стиля и сохранение согласованности для минимизации деградации стиля; и (3) полностью plug-and-play дизайн, совместимый с произвольными стилевыми LoRA в рамках Flux-фреймворка. Многочисленные эксперименты показывают, что OmniConsistency значительно улучшает визуальную согласованность и эстетическое качество, достигая производительности, сопоставимой с коммерческой передовой моделью GPT-4o.

Исследование скрытых возможностей языковых моделей для одношаговой генерации текста
Exploring the Latent Capacity of LLMs for One-Step Text Generation

May 27

ByGleb Mezentsev, Ivan Oseledets

Недавнее исследование показало, что крупные языковые модели (LLM) способны восстанавливать удивительно длинные тексты — до тысяч токенов — с помощью авторегрессивной генерации всего из одного специально обученного входного эмбеддинга. В данной работе мы исследуем, возможно ли такое восстановление без использования авторегрессии. Мы демонстрируем, что замороженные LLM могут генерировать сотни точных токенов всего за один прямой проход, когда им предоставляются только два обученных эмбеддинга. Это раскрывает удивительную и малоизученную способность LLM — генерацию множества токенов без итеративного декодирования. Мы исследуем поведение этих эмбеддингов и даем представление о типе информации, которую они кодируют. Также мы эмпирически показываем, что, хотя эти представления не являются уникальными для заданного текста, они образуют связанные и локальные области в пространстве эмбеддингов — свойство, которое указывает на потенциал обучения специализированного кодировщика в это пространство.

Не усложняйте. Предпочтение более коротких цепочек рассуждений для улучшения логического мышления в языковых моделях.
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

May 23

ByMichael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz

Крупные языковые модели (LLM), выполняющие задачи рассуждения, в значительной степени полагаются на масштабирование вычислительных ресурсов во время тестирования для выполнения сложных задач рассуждения путем генерации длинных цепочек "размышлений". Хотя этот подход демонстрирует впечатляющие результаты, он сопряжен с высокими вычислительными затратами и временем вывода. В данной работе мы ставим под сомнение предположение, что длинные цепочки размышлений приводят к лучшим способностям рассуждения. Сначала мы показываем, что более короткие цепочки рассуждений в рамках отдельных вопросов значительно чаще приводят к правильным ответам — точность может быть выше на 34,5% по сравнению с самой длинной цепочкой, сгенерированной для того же вопроса. На основе этих результатов мы предлагаем short-m@k — новый метод вывода для LLM, выполняющих рассуждения. Наш метод выполняет k независимых генераций параллельно и останавливает вычисления, как только завершаются первые m процессов размышлений. Окончательный ответ выбирается с помощью мажоритарного голосования среди этих m цепочек. Базовый метод short-1@k демонстрирует схожую или даже превосходящую производительность по сравнению со стандартным мажоритарным голосованием в условиях ограниченных вычислительных ресурсов — используя до 40% меньше токенов размышлений. Метод short-3@k, хотя и менее эффективен, чем short-1@k, стабильно превосходит мажоритарное голосование при всех уровнях вычислительных ресурсов, оставаясь при этом значительно быстрее (сокращение времени выполнения до 33%). Вдохновленные нашими результатами, мы дообучаем LLM, используя короткие, длинные и случайно выбранные цепочки рассуждений. Затем мы наблюдаем, что обучение на более коротких цепочках приводит к лучшей производительности. Наши результаты указывают на необходимость пересмотра текущих методов использования вычислительных ресурсов во время тестирования в LLM, выполняющих рассуждения, подчеркивая, что более длительные "размышления" не обязательно приводят к улучшению производительности и могут, вопреки интуиции, ухудшать результаты.

OpenS2V-Nexus: Подробный эталонный тест и масштабный набор данных для генерации видео на основе субъекта
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

May 26

ByShenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan

Генерация видео на основе объекта (Subject-to-Video, S2V) направлена на создание видеороликов, которые точно отражают референсный контент, обеспечивая повышенную гибкость в производстве видео. Для создания инфраструктуры S2V-генерации мы предлагаем OpenS2V-Nexus, состоящий из (i) OpenS2V-Eval, детального бенчмарка, и (ii) OpenS2V-5M, миллионного набора данных. В отличие от существующих S2V-бенчмарков, унаследованных от VBench и ориентированных на глобальную и грубую оценку сгенерированных видео, OpenS2V-Eval фокусируется на способности модели создавать видео с согласованным объектом, естественным внешним видом и сохранением идентичности. Для этих целей OpenS2V-Eval включает 180 промптов из семи основных категорий S2V, которые охватывают как реальные, так и синтетические тестовые данные. Кроме того, для точного согласования человеческих предпочтений с S2V-бенчмарками мы предлагаем три автоматические метрики: NexusScore, NaturalScore и GmeScore, которые отдельно количественно оценивают согласованность объекта, естественность и релевантность текста в сгенерированных видео. На основе этого мы проводим всестороннюю оценку 16 репрезентативных S2V-моделей, выделяя их сильные и слабые стороны в различных типах контента. Более того, мы создаем первый открытый крупномасштабный набор данных для S2V-генерации OpenS2V-5M, который состоит из пяти миллионов высококачественных триплетов "объект-текст-видео" в разрешении 720P. В частности, мы обеспечиваем разнообразие информации об объектах в нашем наборе данных путем (1) сегментации объектов и построения парной информации через кросс-видео ассоциации и (2) использования GPT-Image-1 на исходных кадрах для синтеза многоплановых представлений. С помощью OpenS2V-Nexus мы предоставляем надежную инфраструктуру для ускорения будущих исследований в области S2V-генерации.

Модель графа кода (CGM): Графо-интегрированная большая языковая модель для задач программной инженерии на уровне репозитория
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks

May 22

ByHongyuan Tao, Ying Zhang, Zhenhao Tang, Hongen Peng, Xukun Zhu, Bingchang Liu, Yingguang Yang, Ziyin Zhang, Zhaogui Xu, Haipeng Zhang, Linchao Zhu, Rui Wang, Hang Yu, Jianguo Li, Peng Di

Последние достижения в области больших языковых моделей (LLM) показали перспективность в генерации кода на уровне функций, однако задачи программной инженерии на уровне репозиториев остаются сложными. Современные решения в основном полагаются на проприетарные LLM-агенты, что вносит неопределенность и ограничивает доступность, вызывая опасения относительно конфиденциальности данных и настройки моделей. В данной статье исследуется, могут ли открытые LLM эффективно решать задачи на уровне репозиториев без использования агентных подходов. Мы демонстрируем, что это возможно, позволяя LLM понимать функции и файлы в кодовых базах через их семантическую информацию и структурные зависимости. Для этого мы представляем Code Graph Models (CGM), которые интегрируют структуры графов кода репозиториев в механизм внимания LLM и отображают атрибуты узлов в пространство входных данных LLM с помощью специализированного адаптера. В сочетании с безагентным графовым RAG-фреймворком наш подход достигает показателя разрешения 43,00% на бенчмарке SWE-bench Lite с использованием открытой модели Qwen2.5-72B. Этот результат занимает первое место среди моделей с открытыми весами, второе место среди методов с открытыми системами и восьмое место в общем рейтинге, превосходя предыдущий лучший метод на основе открытых моделей на 12,33%.

Руководствуясь интуицией: эффективное масштабирование во время тестирования с усиленной внутренней уверенностью
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

May 23

ByAmirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu

Методы масштабирования во время тестирования (Test-Time Scaling, TTS) для улучшения рассуждений больших языковых моделей (Large Language Models, LLM) часто связаны с существенными вычислительными затратами, в основном из-за активного использования внешних моделей оценки процесса (Process Reward Models, PRM) или методов выборки, таких как Best-of-N (BoN). В данной статье представлен Guided by Gut (GG) — эффективный самоуправляемый TTS-фреймворк, который достигает уровня производительности PRM без затратных внешних моделей верификации. Наш метод использует легковесный поиск по дереву, управляемый исключительно внутренними сигналами LLM: уверенностью на уровне токенов и новизной шагов. Ключевым нововведением является повышение надежности внутренних оценок уверенности с помощью целевой фазы тонкой настройки с использованием обучения с подкреплением. Эмпирические оценки на сложных бенчмарках математического рассуждения показывают, что GG позволяет меньшим моделям (например, с 1,5 млрд параметров) достигать точности, сопоставимой или превосходящей значительно более крупные модели (например, с 32–70 млрд параметров), при этом сокращая использование памяти GPU до 10 раз. По сравнению с методами на основе PRM, GG достигает сопоставимой точности при 8-кратном увеличении скорости вывода и 4–5-кратном снижении использования памяти. Кроме того, GG сокращает использование памяти KV-кэша примерно на 50% по сравнению со стратегией BoN, что способствует более эффективному и практичному внедрению TTS-техник.

MMMR: Бенчмаркинг задач массового мультимодального анализа
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

May 22

ByGuiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили осуществлять унифицированную обработку языковых, визуальных и структурированных данных, открывая путь к решению сложных задач, таких как логический вывод, пространственное рассуждение и научный анализ. Несмотря на их потенциал, способности к рассуждению MLLMs, особенно тех, которые дополнены промежуточными следами мышления (MLLMs-T), остаются плохо изученными и не имеют стандартизированных критериев оценки. Существующие работы в основном сосредоточены на восприятии или правильности конечного ответа, что дает ограниченное представление о том, как модели рассуждают или ошибаются в различных модальностях. Для устранения этого пробела мы представляем MMMR — новый эталонный тест, разработанный для строгой оценки мультимодального рассуждения с явным мышлением. MMMR включает: 1) набор данных высокой сложности, состоящий из 1083 вопросов, охватывающих шесть различных типов рассуждений с символической глубиной и требованиями многошагового анализа, и 2) модульный конвейер оценки следов рассуждения (RTEP) для оценки качества рассуждений за пределами точности с использованием таких метрик, как релевантность, согласованность и структурированные аннотации ошибок. Эмпирические результаты показывают, что MLLMs-T в целом превосходят модели без следов мышления, но даже ведущие модели, такие как Claude-3.7-Sonnet и Gemini-2.5 Pro, страдают от патологий рассуждения, таких как несогласованность и избыточное мышление. Этот эталонный тест выявляет устойчивые разрывы между точностью и качеством рассуждений и предоставляет практический конвейер оценки для будущей разработки моделей. В целом, MMMR предлагает масштабируемую основу для оценки, сравнения и улучшения следующего поколения мультимодальных систем рассуждения.

Sparse VideoGen2: Ускорение генерации видео с помощью разреженного внимания через семантически осознанную перестановку
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

May 24

ByShuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica

Трансформеры с диффузией (DiTs) играют ключевую роль в генерации видео, но страдают от значительных задержек из-за квадратичной сложности механизма внимания. Вычисление только критических токенов с использованием разреженного внимания снижает вычислительные затраты и предлагает перспективный подход к ускорению. Однако мы выявили, что существующие методы не достигают оптимального качества генерации при том же вычислительном бюджете по двум причинам: (1) Неточное определение критических токенов: текущие методы группируют токены на основе их позиции, а не семантики, что приводит к неточным агрегированным представлениям. (2) Избыточные вычислительные потери: критические токены распределены среди некритических, что приводит к бесполезным вычислениям на GPU, которые оптимизированы для обработки последовательных токенов. В данной работе мы предлагаем SVG2, фреймворк, не требующий обучения, который максимизирует точность идентификации и минимизирует вычислительные потери, достигая Парето-оптимального компромисса между качеством генерации и эффективностью. Основой SVG2 является семантически осознанная перестановка, которая группирует и переупорядочивает токены на основе семантического сходства с использованием k-средних. Этот подход обеспечивает как точное представление кластеров, повышая точность идентификации, так и уплотненное расположение критических токенов, позволяя эффективно выполнять вычисления без заполнения. Кроме того, SVG2 интегрирует динамический контроль бюджета top-p и специализированные реализации ядер, достигая ускорения до 2.30x и 1.89x при сохранении PSNR до 30 и 26 на наборах данных HunyuanVideo и Wan 2.1 соответственно.

VerIPO: Развитие длинных рассуждений в видео-ориентированных языковых моделях с помощью оптимизации политики, управляемой верификатором
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

May 25

ByYunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang

Применение обучения с подкреплением (Reinforcement Learning, RL) к видеомоделям с большим языковым контекстом (Video-LLMs) демонстрирует значительный потенциал для сложного анализа видеоданных. Однако популярные методы тонкой настройки с использованием подкрепления (Reinforcement Fine-Tuning, RFT), такие как оптимизация групповой относительной политики на основе результатов (Group Relative Policy Optimization, GRPO), ограничены проблемами подготовки данных (например, шум или высокая стоимость) и показывают нестабильные улучшения в качестве длинных цепочек рассуждений (chain-of-thoughts, CoTs) и производительности на последующих этапах. Для решения этих ограничений мы предлагаем VerIPO — метод итеративной оптимизации политики с использованием верификатора (Verifier-guided Iterative Policy Optimization), предназначенный для постепенного улучшения способности видеомоделей генерировать глубокие и долгосрочные цепочки рассуждений. Ключевым компонентом является верификатор, учитывающий результаты развертывания (Rollout-Aware Verifier), который располагается между фазами обучения GRPO и оптимизации прямых предпочтений (Direct Preference Optimization, DPO), формируя цикл обучения GRPO-Verifier-DPO. Этот верификатор использует небольшие языковые модели в качестве судьи для оценки логики рассуждений в развертываниях, что позволяет создавать высококачественные контрастные данные, включая рефлексивные и контекстуально согласованные CoTs. Эти тщательно отобранные примеры предпочтений обеспечивают эффективный этап DPO (в 7 раз быстрее, чем GRPO), приводя к заметным улучшениям качества цепочек рассуждений, особенно в плане длины и контекстуальной согласованности. Этот цикл обучения сочетает преимущества широкого поиска GRPO и целенаправленной оптимизации DPO. Экспериментальные результаты показывают: 1) Значительно более быструю и эффективную оптимизацию по сравнению со стандартными вариантами GRPO, что приводит к превосходной производительности; 2) Наши обученные модели превосходят прямое использование крупномасштабных видеомоделей, настроенных на инструкции, генерируя длинные и контекстуально согласованные CoTs в разнообразных задачах анализа видеоданных; и 3) Наша модель с одной итерацией превосходит мощные мультимодальные модели (например, Kimi-VL) и модели для длинных рассуждений (например, Video-R1), подчеркивая её эффективность и стабильность.

MME-VideoOCR: Оценка OCR-возможностей мультимодальных языковых моделей в видеосценариях
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

May 27

ByYang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang

Мультимодальные большие языковые модели (MLLMs) достигли значительной точности в задачах оптического распознавания символов (OCR) на статических изображениях. Однако их эффективность в OCR для видео существенно снижается из-за таких факторов, как размытие в движении, временные вариации и визуальные эффекты, присущие видеоконтенту. Для предоставления более четких рекомендаций по обучению практических MLLMs мы представляем бенчмарк MME-VideoOCR, который охватывает широкий спектр сценариев применения OCR в видео. MME-VideoOCR включает 10 категорий задач, состоящих из 25 отдельных заданий, и охватывает 44 разнообразных сценария. Эти задачи выходят за рамки простого распознавания текста, включая более глубокое понимание и анализ текстового содержания в видео. Бенчмарк состоит из 1 464 видео с различным разрешением, соотношением сторон и длительностью, а также 2 000 тщательно отобранных и вручную аннотированных пар вопросов и ответов. Мы оценили 18 современных MLLMs на MME-VideoOCR, и результаты показали, что даже лучшая модель (Gemini-2.5 Pro) достигает точности всего 73,7%. Детальный анализ показывает, что, хотя существующие MLLMs демонстрируют высокую производительность на задачах, где релевантный текст содержится в одном или нескольких кадрах, их возможности ограничены в эффективном решении задач, требующих целостного понимания видео. Эти ограничения особенно заметны в сценариях, требующих пространственно-временного анализа, интеграции информации между кадрами или устойчивости к языковым предубеждениям. Наши результаты также подчеркивают важность высокого разрешения визуального ввода и достаточного временного охвата для надежного OCR в динамичных видео-сценариях.

UI-Genie: Самообучающийся подход для итеративного улучшения мобильных агентов с графическим интерфейсом на основе мультимодальных языковых моделей
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

May 27

ByHan Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li

В данной статье мы представляем UI-Genie, самообучающуюся структуру, которая решает две ключевые проблемы, связанные с агентами для графических интерфейсов (GUI): сложность проверки результатов траекторий и отсутствие масштабируемых высококачественных обучающих данных. Эти проблемы решаются с помощью модели вознаграждения и самообучающегося конвейера соответственно. Модель вознаграждения, UI-Genie-RM, обладает архитектурой, объединяющей изображения и текст, что позволяет эффективно обрабатывать исторический контекст и объединять вознаграждения на уровне действий и задач. Для поддержки обучения UI-Genie-RM мы разработали специальные стратегии генерации данных, включая проверку на основе правил, контролируемое искажение траекторий и поиск сложных негативных примеров. Для решения второй проблемы самообучающийся конвейер постепенно расширяет набор решаемых сложных задач GUI, улучшая как агента, так и модель вознаграждения через исследование, управляемое вознаграждением, и проверку результатов в динамических средах. Для обучения модели мы создали наборы данных UI-Genie-RM-517k и UI-Genie-Agent-16k, устанавливая первый набор данных, специфичный для вознаграждений в агентах GUI, и демонстрируя генерацию высококачественных синтетических траекторий без ручной аннотации. Результаты экспериментов показывают, что UI-Genie достигает наилучших результатов на нескольких тестах для агентов GUI благодаря трём поколениям самообучения модели и данных. Мы открываем исходный код нашей полной реализации структуры и сгенерированных наборов данных для содействия дальнейшим исследованиям на https://github.com/Euphoria16/UI-Genie.

GraLoRA: Гранулярная низкоранговая адаптация для эффективной настройки параметров
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

May 26

ByYeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park

Low-Rank Adaptation (LoRA) — это популярный метод параметрически эффективной тонкой настройки (PEFT) генеративных моделей, который ценится за свою простоту и эффективность. Несмотря на недавние улучшения, LoRA по-прежнему страдает от фундаментального ограничения: переобучения при увеличении ширины узкого места. Наилучшие результаты достигаются при рангах 32-64, однако точность стагнирует или снижается при более высоких рангах, всё ещё не достигая производительности полной тонкой настройки (FFT). Мы определяем коренную причину как структурное узкое место LoRA, которое вносит запутывание градиентов в несвязанные входные каналы и искажает распространение градиентов. Для решения этой проблемы мы представляем новую структуру — Granular Low-Rank Adaptation (GraLoRA), которая разделяет матрицы весов на подблоки, каждый со своим низкоранговым адаптером. С незначительными вычислительными или затратами на хранение GraLoRA преодолевает ограничения LoRA, эффективно увеличивает репрезентационную способность и более точно приближает поведение FFT. Эксперименты на бенчмарках генерации кода и рассуждений на основе здравого смысла показывают, что GraLoRA стабильно превосходит LoRA и другие базовые методы, достигая абсолютного прироста до +8,5% в Pass@1 на HumanEval+. Эти улучшения сохраняются для различных размеров моделей и настроек рангов, что делает GraLoRA масштабируемым и надежным решением для PEFT. Код, данные и скрипты доступны по адресу https://github.com/SqueezeBits/GraLoRA.git.

SweEval: Действительно ли языковые модели ругаются? Бенчмарк безопасности для тестирования границ применимости в корпоративной среде
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use

May 22

ByHitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae

Корпоративные клиенты всё чаще внедряют крупные языковые модели (LLM) для выполнения важных коммуникационных задач, таких как составление электронных писем, подготовка коммерческих предложений и написание неформальных сообщений. Развёртывание таких моделей в различных регионах требует, чтобы они понимали разнообразные культурные и языковые контексты и генерировали безопасные и уважительные ответы. Для корпоративных приложений крайне важно минимизировать репутационные риски, поддерживать доверие и обеспечивать соответствие требованиям, эффективно выявляя и обрабатывая небезопасный или оскорбительный язык. Для решения этой задачи мы представляем SweEval — бенчмарк, моделирующий реальные сценарии с вариациями тональности (положительной или отрицательной) и контекста (формального или неформального). В запросах явно указывается модели включить определённые нецензурные выражения при выполнении задачи. Этот бенчмарк оценивает, соблюдают ли LLM такие неподходящие инструкции или сопротивляются им, а также проверяет их соответствие этическим принципам, культурным нюансам и способностям понимания языка. Для продвижения исследований в области создания этически выверенных ИИ-систем для корпоративного использования и не только мы публикуем набор данных и код: https://github.com/amitbcp/multilingual_profanity.

rStar-Coder: Масштабирование конкурентного анализа кода с использованием крупномасштабного верифицированного набора данных
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

May 27

ByYifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang

Развитие способностей крупных языковых моделей (LLM) к анализу кода фундаментально ограничено нехваткой наборов данных высокой сложности, особенно тех, которые содержат проверяемые тестовые примеры, необходимые для строгой валидации решений в масштабе. Мы представляем rStar-Coder, который значительно улучшает способности LLM к анализу кода за счет создания крупномасштабного, проверенного набора данных, включающего 418 тысяч задач уровня соревнований, 580 тысяч решений с длинными рассуждениями, а также богатый набор тестовых примеров различной сложности. Это достигнуто благодаря трем ключевым вкладам: (1) мы отбираем задачи из соревновательного программирования и эталонные решения для синтеза новых, решаемых задач; (2) мы внедряем надежный конвейер синтеза тестовых примеров, который разделяет генерацию на трехэтапный метод создания входных данных и механизм взаимной проверки для эффективной маркировки выходных данных; (3) мы дополняем задачи высококачественными решениями с длинными рассуждениями, проверенными тестовыми примерами. Масштабные эксперименты на моделях Qwen (1.5B-14B) на различных бенчмарках анализа кода демонстрируют превосходство набора данных rStar-Coder, достигая лидирующих результатов, сопоставимых с передовыми LLM для рассуждений, при значительно меньших размерах моделей. На LiveCodeBench rStar-Coder улучшает Qwen2.5-7B с 17,4% до впечатляющих 57,3%, а Qwen2.5-14B — с 23,3% до 62,5%, превосходя o3-mini (low) на 3,1%. На более сложном USA Computing Olympiad наша модель 7B достигает средней точности pass@1 в 16,15%, превосходя передовую модель QWQ-32B. Код и набор данных будут опубликованы по адресу https://github.com/microsoft/rStar.

Video-Holmes: Может ли MLLM мыслить как Холмс для сложного анализа видео?
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

May 27

ByJunhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan

Недавние достижения в области рассуждений с использованием цепочек мыслей (CoT) и посттренировочного обучения с подкреплением (RL) были отмечены как улучшающие способности мультимодальных языковых моделей (MLLMs) к анализу видео. Этот прогресс естественным образом поднимает вопрос: могут ли эти модели выполнять сложный анализ видео на уровне, сопоставимом с экспертами-людьми? Однако существующие видеобенчмарки в основном оценивают способности к визуальному восприятию и привязке к контексту, используя вопросы, которые можно ответить на основе явных подсказок или изолированных визуальных сигналов. Такие бенчмарки не полностью отражают сложность реального анализа, где люди должны активно искать, интегрировать и анализировать множество подсказок, прежде чем прийти к выводу. Чтобы решить эту проблему, мы представляем Video-Holmes — бенчмарк, вдохновленный процессом рассуждений Шерлока Холмса, разработанный для оценки способностей MLLMs к сложному анализу видео. Video-Holmes состоит из 1837 вопросов, основанных на 270 вручную аннотированных короткометражных фильмах в жанре саспенса, и охватывает семь тщательно разработанных задач. Каждая задача создается путем сначала выявления ключевых событий и причинно-следственных связей в фильмах, а затем формулирования вопросов, требующих от моделей активного поиска и соединения множества релевантных визуальных подсказок, разбросанных по различным сегментам видео. Наше всестороннее тестирование современных MLLMs показывает, что, хотя эти модели в целом преуспевают в визуальном восприятии, они сталкиваются с существенными трудностями при интеграции информации и часто упускают критически важные подсказки. Например, лучшая модель, Gemini-2.5-Pro, достигает точности всего 45%, при этом большинство моделей показывают результат ниже 40%. Мы надеемся, что Video-Holmes послужит "тестом Холмса" для мультимодального анализа, мотивируя модели рассуждать более по-человечески и подчеркивая текущие вызовы в этой области. Бенчмарк доступен по адресу: https://github.com/TencentARC/Video-Holmes.

Укрепление общего рассуждения без использования верификаторов
Reinforcing General Reasoning without Verifiers

May 27

ByXiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du

Недавний сдвиг парадигмы в сторону обучения крупных языковых моделей (LLM) с использованием обучения с подкреплением (RL) в стиле DeepSeek-R1-Zero на основе проверяемых наград привел к впечатляющим достижениям в области программирования и математического мышления. Однако этот метод ограничен задачами, где возможна проверка ответов на основе правил, и не распространяется естественным образом на реальные области, такие как химия, здравоохранение, инженерия, право, биология, бизнес и экономика. Текущие практические обходные пути используют дополнительную LLM в качестве проверяющей модели; однако это влечет за собой проблемы, такие как зависимость от мощной проверяющей LLM, уязвимость к взлому наград и практические трудности с поддержанием проверяющей модели в памяти во время обучения. Чтобы решить эту проблему и расширить обучение в стиле DeepSeek-R1-Zero на общие области рассуждений, мы предлагаем метод без проверки (VeriFree), который обходит проверку ответов и вместо этого использует RL для непосредственного максимизации вероятности генерации эталонного ответа. Мы сравниваем VeriFree с методами, основанными на проверке, и демонстрируем, что, помимо значительных практических преимуществ и снижения вычислительных требований, VeriFree соответствует и даже превосходит методы с проверкой в обширных оценках на MMLU-Pro, GPQA, SuperGPQA и математических бенчмарках. Более того, мы предоставляем инсайты в этот метод с нескольких точек зрения: как элегантную интеграцию обучения как политики, так и неявной проверяющей модели в единой модели, и как подход вариационной оптимизации. Код доступен по адресу https://github.com/sail-sg/VeriFree.

MetaMind: Моделирование социального мышления человека с помощью метакогнитивных мультиагентных систем
MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

May 25

ByXuanming Zhang, Yuxuan Chen, Min-Hsuan Yeh, Yixuan Li

Социальные взаимодействия людей зависят от способности выявлять невысказанные намерения, эмоции и убеждения других — когнитивного навыка, основанного на психологической концепции Теории Разума (Theory of Mind, ToM). Хотя крупные языковые модели (LLMs) преуспевают в задачах семантического понимания, они сталкиваются с трудностями при работе с неоднозначностью и контекстуальными нюансами, присущими человеческому общению. Чтобы преодолеть этот разрыв, мы представляем MetaMind — мультиагентный фреймворк, вдохновленный психологическими теориями метакогниции, предназначенный для эмуляции человеческого социального мышления. MetaMind разбивает социальное понимание на три совместных этапа: (1) агент Теории Разума генерирует гипотезы о ментальных состояниях пользователя (например, намерениях, эмоциях), (2) доменный агент уточняет эти гипотезы с учетом культурных норм и этических ограничений, и (3) агент ответа генерирует контекстуально уместные ответы, одновременно проверяя их соответствие выявленным намерениям. Наш фреймворк демонстрирует наилучшие результаты на трех сложных тестовых наборах, с улучшением на 35,7% в реальных социальных сценариях и на 6,2% в задачах, связанных с Теорией Разума. Примечательно, что он впервые позволяет LLMs достичь уровня человеческой производительности в ключевых задачах ToM. Абляционные исследования подтверждают необходимость всех компонентов, демонстрируя способность фреймворка балансировать между контекстуальной правдоподобностью, социальной уместностью и адаптацией к пользователю. Эта работа продвигает системы ИИ в направлении человеческого социального интеллекта, с приложениями в эмпатическом диалоге и культурно чувствительных взаимодействиях. Код доступен по адресу https://github.com/XMZhangAI/MetaMind.

HoliTom: Холистическое объединение токенов для ускорения работы крупных языковых моделей в видео
HoliTom: Holistic Token Merging for Fast Video Large Language Models

May 27

ByKele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang

Модели обработки видео на основе больших языковых моделей (video LLMs) демонстрируют высокие результаты в понимании видео, но сталкиваются с существенной вычислительной неэффективностью из-за избыточных видео-токенов. Существующие методы обрезки токенов предлагают решения. Однако подходы, работающие внутри LLM (внутренняя обрезка), такие как FastV, несут внутренние вычислительные накладные расходы на начальных слоях. В то же время методы, выполняющие обрезку токенов до LLM (внешняя обрезка), в основном устраняют пространственную избыточность в пределах отдельных кадров или ограниченных временных окон, игнорируя важные глобальные временные динамики и корреляции в более длинных видео-последовательностях. Это приводит к неоптимальному пространственно-временному сокращению и не полностью использует сжимаемость видео. Ключевым моментом является то, что синергетический потенциал и взаимное влияние комбинации этих стратегий остаются неисследованными. Для дальнейшего сокращения избыточности мы представляем HoliTom — новый фреймворк для объединения токенов, не требующий обучения. HoliTom использует внешнюю обрезку через глобальную временную сегментацию с учетом избыточности, за которой следует пространственно-временное объединение, что позволяет сократить количество визуальных токенов более чем на 90%, значительно снижая вычислительную нагрузку на LLM. Дополняя это, мы предлагаем устойчивый метод внутреннего объединения токенов на основе их сходства, разработанный для превосходной производительности и совместимости с внешней обрезкой. Оценки демонстрируют перспективный баланс эффективности и производительности нашего метода на модели LLaVA-OneVision-7B, сокращая вычислительные затраты до 6,9% от FLOPs при сохранении 99,1% исходной производительности. Кроме того, мы достигаем 2,28-кратного сокращения времени до первого токена (TTFT) и 1,32-кратного ускорения пропускной способности декодирования, подчеркивая практические преимущества нашего интегрированного подхода к обрезке для эффективного вывода видео LLM.

За пределами дистилляции: расширение границ рассуждений медицинских языковых моделей с минималистичным правил-ориентированным обучением с подкреплением
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

May 23

ByChe Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci

Повышение производительности на сложных задачах и обеспечение интерпретируемости принятия решений в больших языковых моделях (LLM), особенно для клинических приложений, требует эффективного рассуждения. Однако это остается сложной задачей без контролируемого тонкого настройки (SFT) на дорогостоящих данных цепочки рассуждений (CoT), извлеченных из закрытых моделей (например, GPT-4o). В данной работе мы представляем AlphaMed — первую медицинскую LLM, которая демонстрирует, что способность к рассуждению может возникать исключительно благодаря обучению с подкреплением (RL), с использованием минималистичных правил на основе наград на публичных наборах данных с множественным выбором (QA), без необходимости в SFT или данных CoT. AlphaMed достигает наилучших результатов на шести медицинских QA-бенчмарках, превосходя модели, обученные с использованием традиционных подходов SFT+RL. На сложных бенчмарках (например, MedXpert) AlphaMed даже превосходит более крупные или закрытые модели, такие как DeepSeek-V3-671B и Claude-3.5-Sonnet. Чтобы понять факторы, стоящие за этим успехом, мы проводим всесторонний анализ, ориентированный на данные, руководствуясь тремя вопросами: (i) Могут ли минималистичные правила на основе RL стимулировать рассуждения без надзора CoT? (ii) Как количество и разнообразие данных влияют на рассуждения? (iii) Как сложность вопросов формирует возникновение и обобщение рассуждений? Наши результаты показывают, что информативность данных является ключевым фактором производительности рассуждений, а минималистичный RL на информативных данных с множественным выбором эффективно стимулирует рассуждения без надзора CoT. Мы также наблюдаем расходящиеся тенденции на разных бенчмарках, что подчеркивает ограничения текущей оценки и необходимость в более сложных, ориентированных на рассуждения медицинских QA-бенчмарках.

MotionPro: Точный контроллер движения для генерации видео из изображений
MotionPro: A Precise Motion Controller for Image-to-Video Generation

May 26

ByZhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei

Анимация изображений с интерактивным управлением движением приобрела популярность в задаче генерации видео из изображений (image-to-video, I2V). Современные подходы обычно полагаются на большие гауссовы ядра для расширения траекторий движения в качестве условия, не определяя явно область перемещения, что приводит к грубому управлению движением и не позволяет разделить движение объекта и камеры. Чтобы устранить эти проблемы, мы представляем MotionPro — точный контроллер движения, который инновационно использует траектории по областям и маску движения для регулирования синтеза детализированного движения и идентификации целевой категории движения (т.е., движение объекта или камеры) соответственно. Технически, MotionPro сначала оценивает карты потоков для каждого обучающего видео с помощью модели отслеживания, а затем выбирает траектории по областям для моделирования сценария вывода. Вместо расширения потоков через большие гауссовы ядра, наш подход с траекториями по областям обеспечивает более точное управление, напрямую используя траектории в локальных областях, тем самым эффективно характеризуя детализированные движения. Одновременно из предсказанных карт потоков выводится маска движения для захвата целостной динамики движения в областях. Для достижения естественного управления движением, MotionPro дополнительно усиливает шумоподавление видео, интегрируя как траектории по областям, так и маску движения через модуляцию признаков. Более того, мы тщательно создали бенчмарк, а именно MC-Bench, содержащий 1.1 тыс. пар изображение-траектория с аннотациями пользователей, для оценки как детализированного, так и объектно-ориентированного управления движением в I2V. Многочисленные эксперименты, проведенные на наборах данных WebVid-10M и MC-Bench, демонстрируют эффективность MotionPro. Дополнительные результаты доступны на странице проекта: https://zhw-zhang.github.io/MotionPro-page/.

NOVA: Бенчмарк для локализации аномалий и клинического анализа в МРТ головного мозга
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

May 20

ByCosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler

Во многих реальных приложениях развернутые модели сталкиваются с входными данными, которые отличаются от данных, наблюдаемых во время обучения. Обнаружение данных, выходящих за пределы распределения (out-of-distribution), определяет, происходит ли входной сигнал из неизвестного распределения, в то время как распознавание в открытом мире (open-world recognition) помечает такие данные, чтобы обеспечить устойчивость системы по мере появления новых, ранее неизвестных категорий, которые необходимо учитывать без переобучения. Фундаментальные и мультимодальные модели предварительно обучаются на больших и разнообразных наборах данных с ожиданием широкого обобщения в различных областях, включая медицинскую визуализацию. Однако тестирование этих моделей на наборах данных с небольшим количеством типичных выбросов неявно сводит оценку к задаче с закрытым набором, скрывая ошибки на редких или действительно новых условиях, встречающихся в клинической практике. Мы представляем NOVA — сложный, ориентированный на реальную жизнь бенчмарк для оценки, состоящий из 900 симуляций МРТ-сканирований мозга, охватывающих 281 редкую патологию и различные протоколы получения данных. Каждый случай включает подробные клинические описания и двойные слепые экспертные аннотации с ограничивающими рамками. Вместе они позволяют проводить совместную оценку локализации аномалий, визуального описания и диагностического анализа. Поскольку NOVA никогда не используется для обучения, он служит экстремальным стресс-тестом для обобщения на данных, выходящих за пределы распределения: модели должны преодолеть разрыв как в визуальном представлении данных, так и в семантическом пространстве. Базовые результаты с ведущими мультимодальными моделями (GPT-4o, Gemini 2.0 Flash и Qwen2.5-VL-72B) показывают значительное снижение производительности по всем задачам, что подтверждает NOVA как строгий тестовый стенд для разработки моделей, способных обнаруживать, локализовать и анализировать действительно неизвестные аномалии.

ImgEdit: Унифицированный набор данных и эталон для редактирования изображений
ImgEdit: A Unified Image Editing Dataset and Benchmark

May 26

ByYang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan

Последние достижения в области генеративных моделей позволили добиться высококачественного преобразования текста в изображение. Однако открытые модели редактирования изображений по-прежнему отстают от своих проприетарных аналогов, главным образом из-за ограниченного объема высококачественных данных и недостаточного количества бенчмарков. Чтобы преодолеть эти ограничения, мы представляем ImgEdit — масштабный высококачественный набор данных для редактирования изображений, содержащий 1,2 миллиона тщательно отобранных пар редактирования, включающих как новые и сложные одношаговые правки, так и сложные многошаговые задачи. Для обеспечения качества данных мы используем многоэтапный процесс, который интегрирует передовую модель обработки изображений и текста, модель детекции, модель сегментации, а также специализированные процедуры восстановления изображений и строгую постобработку. ImgEdit превосходит существующие наборы данных как по новизне задач, так и по качеству данных. Используя ImgEdit, мы обучаем ImgEdit-E1 — модель редактирования, которая применяет Vision Language Model для обработки исходного изображения и текстового запроса. Эта модель превосходит существующие открытые модели в выполнении множества задач, что подчеркивает ценность ImgEdit и дизайна модели. Для всесторонней оценки мы представляем ImgEdit-Bench — бенчмарк, предназначенный для оценки производительности редактирования изображений с точки зрения соответствия инструкциям, качества редактирования и сохранения деталей. Он включает базовый набор тестов, сложный одношаговый набор и специализированный многошаговый набор. Мы оцениваем как открытые, так и проприетарные модели, а также ImgEdit-E1, предоставляя глубокий анализ и практические рекомендации по текущему поведению моделей редактирования изображений. Исходные данные доступны публично по адресу https://github.com/PKU-YuanGroup/ImgEdit.

Как выравнивание улучшает многоязычные способности больших языковых моделей? Взгляд через призму языковых нейронов
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective

May 27

ByShimao Zhang, Zhejian Lai, Xiang Liu, Shuaijie She, Xiao Liu, Yeyun Gong, Shujian Huang, Jiajun Chen

Многоязычное выравнивание представляет собой эффективную и репрезентативную парадигму для улучшения многоязычных возможностей крупных языковых моделей (LLM), которая переносит возможности с языков с большими ресурсами на языки с ограниченными ресурсами. В то же время исследования, посвященные языково-специфичным нейронам, показывают, что в LLM существуют нейроны, которые избирательно активируются при обработке различных языков. Это открывает новую перспективу для более детального анализа и понимания механизмов LLM в многоязычных сценариях. В данной работе мы предлагаем новый, более детализированный алгоритм идентификации нейронов, который обнаруживает языковые нейроны (включая языково-специфичные и языково-связанные нейроны) и языково-независимые нейроны. Кроме того, основываясь на распределительных характеристиках различных типов нейронов, мы разделяем внутренний процесс LLM для многоязычного вывода на четыре части: (1) многоязычное понимание, (2) рассуждение в общем семантическом пространстве, (3) преобразование многоязычного выходного пространства и (4) вывод в словарное пространство. Дополнительно мы систематически анализируем модели до и после выравнивания, уделяя особое внимание различным типам нейронов. Мы также исследуем феномен «Спонтанного многоязычного выравнивания». В целом, наша работа проводит всестороннее исследование, основанное на различных типах нейронов, предоставляя эмпирические результаты и ценные инсайты для лучшего понимания многоязычного выравнивания и многоязычных возможностей LLM.

FinTagging: эталонный набор данных для извлечения и структурирования финансовой информации, готовый для использования с языковыми моделями
FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information

May 27

ByYan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie

Мы представляем FinTagging — первый комплексный бенчмарк, учитывающий таблицы, для оценки возможностей крупных языковых моделей (LLM) в извлечении структурированной информации и семантическом выравнивании в контексте финансовой отчетности на основе XBRL. В отличие от предыдущих бенчмарков, которые упрощают XBRL-тегирование до плоской многоклассовой классификации и сосредотачиваются исключительно на текстовых данных, FinTagging разбивает задачу XBRL-тегирования на две подзадачи: FinNI для извлечения финансовых сущностей и FinCL для выравнивания концепций на основе таксономии. Он требует от моделей совместного извлечения фактов и их сопоставления с полной таксономией US-GAAP, содержащей более 10 тысяч элементов, как в неструктурированном тексте, так и в структурированных таблицах, что позволяет проводить реалистичную и детальную оценку. Мы тестируем разнообразные LLM в условиях zero-shot, систематически анализируя их производительность в обеих подзадачах и общую точность тегирования. Наши результаты показывают, что, хотя LLM демонстрируют сильную обобщающую способность в извлечении информации, они испытывают трудности с детальным выравниванием концепций, особенно в разграничении близких по смыслу элементов таксономии. Эти выводы подчеркивают ограничения существующих LLM в полной автоматизации XBRL-тегирования и указывают на необходимость улучшения семантического анализа и моделирования с учетом схемы для удовлетворения требований точного финансового раскрытия. Код доступен в нашем репозитории на GitHub, а данные — в репозитории на Hugging Face.

DetailFlow: Одномерная генерация изображений от грубого к детальному с авторегрессией через предсказание следующей детали
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

May 27

ByYiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu

В данной статье представлен DetailFlow, метод генерации изображений с использованием грубо-тонкой одномерной авторегрессии (AR), который моделирует изображения через новую стратегию предсказания следующих деталей. Обучая последовательность токенов, учитывающую разрешение, на основе постепенно ухудшающихся изображений, DetailFlow позволяет процессу генерации начинаться с глобальной структуры и постепенно уточнять детали. Эта грубо-тонкая одномерная последовательность токенов хорошо согласуется с механизмом авторегрессивного вывода, предоставляя более естественный и эффективный способ для AR-модели генерировать сложный визуальный контент. Наша компактная одномерная AR-модель достигает высококачественного синтеза изображений с значительно меньшим количеством токенов по сравнению с предыдущими подходами, такими как VAR/VQGAN. Мы также предлагаем механизм параллельного вывода с самокоррекцией, который ускоряет процесс генерации примерно в 8 раз, одновременно уменьшая накопление ошибок выборки, присущих обучению с учителем. На тестовом наборе данных ImageNet 256x256 наш метод достигает значения 2.96 gFID при использовании 128 токенов, превосходя VAR (3.3 FID) и FlexVAR (3.05 FID), которые требуют 680 токенов в своих AR-моделях. Более того, благодаря значительно уменьшенному количеству токенов и механизму параллельного вывода, наш метод работает почти в 2 раза быстрее по сравнению с VAR и FlexVAR. Обширные экспериментальные результаты демонстрируют превосходное качество генерации и эффективность DetailFlow по сравнению с современными методами.

Frame In-N-Out: Неограниченная управляемая генерация видео из изображений
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

May 27

ByBoyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng

Управляемость, временная согласованность и синтез деталей остаются наиболее важными задачами в генерации видео. В данной работе мы сосредоточились на широко используемой, но недостаточно изученной кинематографической технике, известной как "Frame In and Frame Out". В частности, начиная с генерации видео из изображений, пользователи могут управлять объектами на изображении, чтобы они естественно покидали сцену или предоставляли новые идентификационные ссылки для входа в сцену, руководствуясь заданной пользователем траекторией движения. Для поддержки этой задачи мы представляем новый набор данных, созданный полуавтоматически, комплексный протокол оценки, ориентированный на данную задачу, и эффективную архитектуру Diffusion Transformer с сохранением идентичности и управлением движением. Наши результаты оценки показывают, что предложенный подход значительно превосходит существующие базовые методы.

Active-O3: Расширение возможностей мультимодальных больших языковых моделей с активным восприятием через GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

May 27

ByMuzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen

Активное зрение, также известное как активное восприятие, относится к процессу активного выбора того, куда и как смотреть, чтобы собирать информацию, релевантную задаче. Это критически важный компонент эффективного восприятия и принятия решений у людей и продвинутых воплощенных агентов. В последнее время использование мультимодальных больших языковых моделей (MLLMs) в качестве центральных модулей планирования и принятия решений в роботизированных системах привлекает значительное внимание. Однако, несмотря на важность активного восприятия в воплощенном интеллекте, практически отсутствуют исследования того, как MLLMs могут быть оснащены или научиться способностям активного восприятия. В данной работе мы сначала предлагаем систематическое определение задач активного восприятия на основе MLLMs. Мы отмечаем, что недавно предложенная стратегия поиска с увеличением масштаба модели GPT-o3 может рассматриваться как частный случай активного восприятия; однако она все еще страдает от низкой эффективности поиска и неточного выбора областей. Для решения этих проблем мы предлагаем ACTIVE-O3, чисто обучаемую на основе подкрепления структуру, построенную поверх GRPO, предназначенную для оснащения MLLMs способностями активного восприятия. Мы также создаем комплексный набор тестов для оценки ACTIVE-O3 как на общих задачах открытого мира, таких как локализация мелких и плотно расположенных объектов, так и на специализированных сценариях, включая обнаружение мелких объектов в дистанционном зондировании и автономном вождении, а также точную интерактивную сегментацию. Кроме того, ACTIVE-O3 демонстрирует сильные способности к рассуждению в условиях нулевого сэмплинга на тестовом наборе V* Benchmark, не полагаясь на какие-либо явные данные для рассуждений. Мы надеемся, что наша работа предоставит простую кодовую базу и протокол оценки, которые облегчат будущие исследования активного восприятия в MLLMs.

За пределами инженерии промптов: управление устойчивым поведением в больших языковых моделях через целевые атомы
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

May 23

ByMengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang

Точный контроль над генерацией языковых моделей имеет решающее значение для обеспечения безопасности и надежности. Хотя инженерия подсказок и управление поведением моделей широко используются для вмешательства в их работу, огромное количество параметров в моделях часто приводит к сильно переплетенным внутренним представлениям. Эта взаимозависимость может ограничивать точность контроля и иногда приводить к непреднамеренным побочным эффектам. В последних исследованиях изучалось использование разреженных автокодировщиков (SAE) для разделения знаний в высокоразмерных пространствах с целью управления. Однако эти применения ограничивались упрощенными задачами из-за сложности локализации атомарных компонентов знаний. В данной статье мы предлагаем метод Steering Target Atoms (STA), который изолирует и манипулирует разделенными компонентами знаний для повышения безопасности. Комплексные эксперименты демонстрируют эффективность нашего подхода. Дополнительный анализ показывает, что управление демонстрирует превосходную устойчивость и гибкость, особенно в условиях атак. Мы также применяем стратегию управления к крупной модели рассуждений, подтверждая ее эффективность в точном контроле логических процессов.

ViewSpatial-Bench: Оценка многоперспективной пространственной локализации в моделях зрения и языка
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

May 27

ByDingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали выдающиеся способности в понимании и анализе визуального контента, однако значительные трудности сохраняются в задачах, требующих кросс-перспективного понимания и пространственного мышления. Мы выявили ключевое ограничение: современные VLMs преуспевают в основном в эгоцентрическом пространственном мышлении (с точки зрения камеры), но не способны обобщать знания для аллоцентрических перспектив, когда требуется принять пространственную систему отсчета другого объекта. Мы представляем ViewSpatial-Bench — первый всеобъемлющий бенчмарк, разработанный специально для оценки распознавания пространственной локализации с учетом множества перспектив, охватывающий пять различных типов задач и поддерживаемый автоматизированным конвейером 3D-аннотаций, который генерирует точные направленные метки. Комплексная оценка разнообразных VLMs на ViewSpatial-Bench выявила значительный разрыв в производительности: модели демонстрируют приемлемые результаты в задачах с перспективой камеры, но показывают сниженную точность при анализе с точки зрения человека. Благодаря тонкой настройке VLMs на нашем многоперспективном пространственном наборе данных мы достигли общего улучшения производительности на 46,24% по всем задачам, что подчеркивает эффективность нашего подхода. Наша работа устанавливает важный бенчмарк для пространственного интеллекта в воплощенных системах искусственного интеллекта и предоставляет эмпирические доказательства того, что моделирование 3D-пространственных отношений усиливает соответствующие способности VLMs к пространственному пониманию.

Рендеринг-ориентированное обучение с подкреплением для генерации векторной графики
Rendering-Aware Reinforcement Learning for Vector Graphics Generation

May 27

ByJuan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli

Масштабируемая векторная графика (SVG) представляет собой мощный формат для представления визуальных дизайнов в виде интерпретируемого кода. Последние достижения в моделях, объединяющих зрение и язык (VLMs), позволили добиться высококачественной генерации SVG, формулируя задачу как генерацию кода и используя крупномасштабное предварительное обучение. VLMs особенно подходят для этой задачи, так как они захватывают как глобальную семантику, так и детализированные визуальные паттерны, одновременно перенося знания между областями зрения, естественного языка и кода. Однако существующие подходы на основе VLMs часто сталкиваются с трудностями в создании точных и эффективных SVG, поскольку они никогда не наблюдают визуализированные изображения в процессе обучения. Хотя дифференцируемая визуализация для авторегрессивной генерации кода SVG пока недоступна, визуализированные результаты всё же можно сравнивать с исходными изображениями, что позволяет получать оценочную обратную связь, подходящую для обучения с подкреплением (RL). Мы представляем RLRF (Reinforcement Learning from Rendering Feedback) — метод RL, который улучшает генерацию SVG в авторегрессивных VLMs, используя обратную связь от визуализированных SVG-результатов. Для заданного входного изображения модель генерирует последовательности SVG, которые визуализируются и сравниваются с исходным изображением для вычисления награды. Эта обратная связь по визуальной точности направляет модель на создание более точных, эффективных и семантически согласованных SVG. RLRF значительно превосходит контролируемую тонкую настройку, устраняя типичные ошибки и обеспечивая точную, высококачественную генерацию SVG с глубоким пониманием структуры и обобщением.

Thinker: Обучение быстрому и медленному мышлению
Thinker: Learning to Think Fast and Slow

May 27

ByStephen Chung, Wenyu Du, Jie Fu

Недавние исследования показывают, что способности к рассуждению у крупных языковых моделей (LLM) могут быть улучшены за счет применения обучения с подкреплением (RL) к задачам вопросов и ответов (QA) в таких областях, как математика и программирование. При большой длине контекста LLM могут научиться выполнять поиск, что подтверждается наблюдаемым поведением самокоррекции в модели DeepSeek R1. Однако такое поисковое поведение часто оказывается неточным и неуверенным, что приводит к длинным, избыточным ответам и подчеркивает недостатки в интуиции и проверке. Вдохновленные теорией двойного процесса в психологии, мы предлагаем простое изменение задачи QA, включающее четыре этапа: Быстрое мышление, где LLM должна ответить в рамках строгого ограничения на количество токенов; Проверка, где модель оценивает свой первоначальный ответ; Медленное мышление, где она уточняет первоначальный ответ с большей обдуманностью; и Резюмирование, где она выделяет ключевые шаги из уточнения предыдущего этапа. Наша предложенная задача повышает среднюю точность с 24,9% до 27,9% для модели Qwen2.5-1.5B и с 45,9% до 49,8% для модели DeepSeek-R1-Qwen-1.5B. Примечательно, что для Qwen2.5-1.5B режим Быстрого мышления самостоятельно достигает точности 26,8%, используя менее 1000 токенов, что демонстрирует значительное повышение эффективности вывода. Эти результаты указывают на то, что интуиция и обдуманное рассуждение представляют собой различные, но дополняющие друг друга системы, которые выигрывают от целенаправленного обучения.

VisualToolAgent (VisTA): Фреймворк обучения с подкреплением для выбора визуальных инструментов
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

May 26

ByZeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee

Мы представляем VisTA, новый фреймворк обучения с подкреплением, который позволяет визуальным агентам динамически исследовать, выбирать и комбинировать инструменты из разнообразной библиотеки на основе эмпирической производительности. Существующие методы для рассуждений с использованием инструментов либо полагаются на обучение без тренировки (training-free prompting), либо на крупномасштабную тонкую настройку (fine-tuning); оба подхода не предусматривают активного исследования инструментов и обычно предполагают ограниченное разнообразие инструментов, а методы тонкой настройки дополнительно требуют значительного человеческого контроля. В отличие от них, VisTA использует сквозное обучение с подкреплением для итеративного уточнения сложных стратегий выбора инструментов, специфичных для запроса, используя результаты задач в качестве сигналов обратной связи. Благодаря оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO), наш фреймворк позволяет агенту автономно находить эффективные пути выбора инструментов без необходимости явного контроля за рассуждениями. Эксперименты на бенчмарках ChartQA, Geometry3K и BlindTest демонстрируют, что VisTA достигает значительного улучшения производительности по сравнению с базовыми методами без обучения, особенно на примерах, выходящих за пределы распределения данных. Эти результаты подчеркивают способность VisTA улучшать обобщение, адаптивно использовать разнообразные инструменты и прокладывать путь к гибким системам визуального рассуждения, основанным на опыте.

Поиск и уточнение в процессе мышления: автономное рассуждение с расширением поиска в больших языковых моделях
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

May 16

ByYaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению, но их возможности ограничены объемом имеющихся знаний. Подход, основанный на извлечении информации для усиления рассуждений, смягчает это ограничение, позволяя языковым моделям запрашивать внешние ресурсы. Однако существующие методы часто извлекают нерелевантную или зашумленную информацию, что затрудняет точное рассуждение. В данной статье мы предлагаем AutoRefine — фреймворк для пост-обучения с использованием обучения с подкреплением, который реализует новую парадигму «поиск и уточнение в процессе мышления». AutoRefine вводит явные шаги уточнения знаний между последовательными запросами, что позволяет модели итеративно фильтровать, обобщать и организовывать доказательства перед генерацией ответа. Кроме того, мы включаем специализированные вознаграждения, связанные с извлечением информации, наряду с вознаграждениями за правильность ответа, используя оптимизацию групповой относительной политики. Эксперименты на бенчмарках для одношаговых и многошаговых вопросно-ответных задач показывают, что AutoRefine значительно превосходит существующие подходы, особенно в сложных сценариях многошагового рассуждения. Детальный анализ демонстрирует, что AutoRefine выполняет частые и более качественные запросы, а также эффективно синтезирует доказательства.

MMMG: Комплексный и надежный набор для оценки многозадачной мультимодальной генерации
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

May 23

ByJihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu

Автоматическая оценка мультимодальной генерации представляет собой значительную проблему, поскольку автоматизированные метрики часто не могут надежно согласовываться с человеческой оценкой, особенно для сложных задач, включающих несколько модальностей. Для решения этой проблемы мы представляем MMMG — всеобъемлющий и согласованный с человеческой оценкой бенчмарк для мультимодальной генерации, охватывающий 4 комбинации модальностей (изображение, аудио, чередующийся текст и изображение, чередующийся текст и аудио), с акцентом на задачи, которые представляют значительные трудности для моделей генерации, при этом обеспечивая надежную автоматическую оценку с помощью комбинации моделей и программ. MMMG включает 49 задач (в том числе 29 новых), каждая из которых имеет тщательно разработанный конвейер оценки, и 937 инструкций для систематической проверки способностей мультимодальных моделей генерации к рассуждению, управляемости и другим ключевым аспектам. Обширная валидация демонстрирует, что MMMG высоко согласован с человеческой оценкой, достигая среднего уровня согласия 94,3%. Результаты тестирования 24 моделей мультимодальной генерации показывают, что даже самая современная модель, GPT Image, достигает точности 78,3% в генерации изображений, но отстает в мультимодальном рассуждении и чередующейся генерации. Кроме того, результаты указывают на значительный потенциал для улучшения в области генерации аудио, что подчеркивает важное направление для будущих исследований.

Атаки на закрытые многомодальные языковые модели через оптимальное выравнивание признаков
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

May 27

ByXiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu

Мультимодальные большие языковые модели (MLLMs) остаются уязвимыми для переносимых состязательных примеров. Хотя существующие методы обычно достигают целевых атак путем выравнивания глобальных признаков — таких как [CLS]-токен в CLIP — между состязательными и целевыми образцами, они часто упускают из виду богатую локальную информацию, закодированную в токенах патчей. Это приводит к неоптимальному выравниванию и ограниченной переносимости, особенно для моделей с закрытым исходным кодом. Чтобы устранить это ограничение, мы предлагаем метод целевой переносимой состязательной атаки, основанный на оптимальном выравнивании признаков, называемый FOA-Attack, для улучшения способности к переносу состязательных примеров. В частности, на глобальном уровне мы вводим функцию потерь для глобальных признаков, основанную на косинусном сходстве, чтобы выровнять крупнозернистые признаки состязательных образцов с признаками целевых образцов. На локальном уровне, учитывая богатые локальные представления в Transformers, мы используем методы кластеризации для извлечения компактных локальных паттернов, чтобы уменьшить избыточность локальных признаков. Затем мы формулируем выравнивание локальных признаков между состязательными и целевыми образцами как задачу оптимального транспорта (OT) и предлагаем функцию потерь для локальной кластеризации оптимального транспорта, чтобы уточнить мелкозернистое выравнивание признаков. Кроме того, мы предлагаем стратегию динамического взвешивания ансамбля моделей для адаптивного балансирования влияния нескольких моделей в процессе генерации состязательных примеров, что дополнительно улучшает переносимость. Многочисленные эксперименты на различных моделях демонстрируют превосходство предложенного метода, превосходящего современные методы, особенно в переносе на MLLMs с закрытым исходным кодом. Код доступен по адресу https://github.com/jiaxiaojunQAQ/FOA-Attack.

Alita: Универсальный агент, обеспечивающий масштабируемое агентное мышление с минимальной предопределённостью и максимальной самоэволюцией
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

May 26

ByJiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang

Последние достижения в области больших языковых моделей (LLM) позволили агентам автономно выполнять сложные, открытые задачи. Однако многие существующие фреймворки сильно зависят от заранее определенных инструментов и рабочих процессов, что ограничивает их адаптируемость, масштабируемость и обобщаемость в различных областях. В данной работе мы представляем Alita — универсального агента, разработанного в соответствии с принципом «Простота — это высшая степень изощренности», что позволяет масштабировать агентное рассуждение за счет минимальной предопределенности и максимальной самоэволюции. Для минимальной предопределенности Alita оснащена только одним компонентом для прямого решения задач, что делает её значительно проще и лаконичнее по сравнению с предыдущими подходами, которые сильно зависели от тщательно разработанных инструментов и рабочих процессов. Такой чистый дизайн повышает её потенциал для обобщения сложных вопросов, не ограничиваясь инструментами. Для максимальной самоэволюции мы обеспечиваем креативность Alita, предоставляя набор универсальных компонентов для автономного создания, уточнения и повторного использования внешних возможностей путем генерации контекстных протоколов модели (MCP), связанных с задачами, из открытых источников, что способствует масштабируемому агентному рассуждению. Примечательно, что Alita достигает точности 75,15% для pass@1 и 87,27% для pass@3 на валидационном наборе данных GAIA, а также 74,00% и 52,00% для pass@1 на Mathvista и PathVQA соответственно, превосходя многие агентные системы с гораздо большей сложностью. Дополнительные детали будут обновляться на https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.

За пределами марковских моделей: Рефлексивное исследование с помощью байесовской адаптивной RL для рассуждений на основе LLM
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

May 26

ByShenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li

Крупные языковые модели (LLM), обученные с использованием обучения с подкреплением (RL), продемонстрировали мощные способности к рассуждению и проявление рефлексивного поведения, такого как возврат к предыдущим шагам и исправление ошибок. Однако традиционное марковское RL ограничивает исследование только фазой обучения для поиска оптимальной детерминированной политики и зависит от контекста истории исключительно через текущее состояние. Поэтому остается неясным, будет ли рефлексивное рассуждение возникать в процессе марковского RL-обучения и почему оно полезно на этапе тестирования. Чтобы устранить этот пробел, мы переосмысливаем рефлексивное исследование в рамках байесовского адаптивного RL, который явно оптимизирует ожидаемую доходность при апостериорном распределении над марковскими процессами принятия решений. Эта байесовская формулировка по своей сути стимулирует как эксплуатацию, направленную на максимизацию вознаграждения, так и исследование, направленное на сбор информации, через обновление убеждений. Наш алгоритм, BARL, предписывает LLM комбинировать и переключать стратегии на основе наблюдаемых результатов, предлагая принципиальные рекомендации о том, когда и как модель должна рефлексивно исследовать. Эмпирические результаты на синтетических задачах и задачах математического рассуждения показывают, что BARL превосходит стандартные подходы марковского RL на этапе тестирования, достигая превосходной эффективности использования токенов с улучшенной эффективностью исследования. Наш код доступен по адресу https://github.com/shenao-zhang/BARL.

SeePhys: Помогает ли зрение мышлению? — Бенчмаркинг физического мышления на основе визуальных данных
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

May 25

ByKun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang

Мы представляем SeePhys, крупномасштабный мультимодальный бенчмарк для проверки способности языковых моделей к рассуждениям на основе физических вопросов, охватывающих уровень от средней школы до квалификационных экзаменов PhD. Бенчмарк охватывает 7 фундаментальных областей физики и включает 21 категорию высоко гетерогенных диаграмм. В отличие от предыдущих работ, где визуальные элементы в основном выполняли вспомогательную функцию, наш бенчмарк содержит значительную долю задач (75%), для решения которых критически важно извлечение визуальной информации. В ходе масштабной оценки мы обнаружили, что даже самые передовые модели визуального рассуждения (например, Gemini-2.5-pro и o4-mini) демонстрируют точность ниже 60% на нашем бенчмарке. Эти результаты выявляют фундаментальные проблемы в текущих возможностях крупных языковых моделей в области визуального понимания, особенно в: (i) установлении строгой связи между интерпретацией диаграмм и физическими рассуждениями, и (ii) преодолении их устойчивой зависимости от текстовых подсказок как когнитивных сокращений.

Минутные видео с двойным параллелизмом
Minute-Long Videos with Dual Parallelisms

May 27

ByZeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang

Модели генерации видео на основе Diffusion Transformer (DiT) создают высококачественные видео в больших масштабах, но сталкиваются с неприемлемо высокой задержкой обработки и затратами памяти для длинных видео. Чтобы решить эту проблему, мы предлагаем новую стратегию распределенного вывода, названную DualParal. Основная идея заключается в том, что вместо генерации всего видео на одном GPU мы параллелизуем как временные кадры, так и слои модели на нескольких GPU. Однако наивная реализация такого разделения сталкивается с ключевым ограничением: поскольку диффузионные модели требуют синхронизированных уровней шума между кадрами, такая реализация приводит к сериализации изначально параллельных процессов. Мы используем блочную схему удаления шума для решения этой проблемы. А именно, мы обрабатываем последовательность блоков кадров через конвейер с постепенно уменьшающимися уровнями шума. Каждый GPU обрабатывает определенный блок и подмножество слоев, передавая предыдущие результаты следующему GPU, что позволяет асинхронные вычисления и коммуникацию. Для дальнейшей оптимизации производительности мы внедряем два ключевых улучшения. Во-первых, на каждом GPU реализуется кэш признаков для хранения и повторного использования признаков из предыдущего блока в качестве контекста, что минимизирует меж-GPU коммуникацию и избыточные вычисления. Во-вторых, мы применяем согласованную стратегию инициализации шума, обеспечивая глобально согласованную временную динамику за счет совместного использования начальных паттернов шума между GPU без дополнительных затрат ресурсов. В совокупности это позволяет быстрое, артефакт-свободное и бесконечно длинное генерирование видео. Примененный к последнему генератору видео на основе диффузионного трансформера, наш метод эффективно создает видео из 1025 кадров с задержкой до 6.54 раз ниже и затратами памяти до 1.48 раз меньше на 8 GPU RTX 4090.

MMPerspective: Понимают ли MLLM перспективу? Комплексный бенчмарк для оценки восприятия, рассуждений и устойчивости к перспективе
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

May 26

ByYunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu

Понимание перспективы является фундаментальным аспектом человеческого зрительного восприятия, однако степень, в которой мультимодальные большие языковые модели (MLLMs) усваивают геометрию перспективы, остается неясной. Мы представляем MMPerspective — первый бенчмарк, специально разработанный для систематической оценки понимания перспективы MLLMs с помощью 10 тщательно продуманных задач, охватывающих три взаимодополняющих аспекта: восприятие перспективы, рассуждение и устойчивость. Наш бенчмарк включает 2 711 реальных и синтетических изображений с 5 083 парами вопросов и ответов, которые исследуют ключевые способности, такие как восприятие и подсчет точек схода, рассуждение о типах перспективы, понимание отношений линий в трехмерном пространстве, инвариантность к преобразованиям, сохраняющим перспективу, и т.д. В результате всесторонней оценки 43 современных MLLMs мы выявили значительные ограничения: хотя модели демонстрируют компетентность в поверхностных перцептивных задачах, они испытывают трудности с композиционным рассуждением и поддержанием пространственной согласованности при возмущениях. Наш анализ также выявляет интересные закономерности между архитектурой модели, масштабом и способностями к пониманию перспективы, подчеркивая как узкие места в устойчивости, так и преимущества цепочек рассуждений (chain-of-thought prompting). MMPerspective создает ценную основу для диагностики и улучшения пространственного понимания в системах, объединяющих зрение и язык. Ресурсы доступны по адресу: https://yunlong10.github.io/MMPerspective/

Оптимизация обратных предпочтений для выполнения сложных инструкций
Reverse Preference Optimization for Complex Instruction Following

May 28

ByXiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

Следование инструкциям (Instruction Following, IF) является ключевой способностью для крупных языковых моделей (Large Language Models, LLMs). Однако обработка сложных инструкций с множеством ограничений остается сложной задачей. Предыдущие методы обычно выбирают пары предпочтений на основе количества ограничений, которые они удовлетворяют, что вносит шум, поскольку выбранные примеры могут не соответствовать некоторым ограничениям, а отвергнутые примеры могут превосходить выбранные в определенных аспектах. Для решения задачи согласования с множественными предпочтениями мы предлагаем простой, но эффективный метод, называемый Оптимизацией с Обратным Предпочтением (Reverse Preference Optimization, RPO). Он снижает шум в парах предпочтений за счет динамического обращения ограничений в инструкции, чтобы гарантировать, что выбранный ответ является идеальным, уменьшая необходимость в обширной выборке и фильтрации для сбора идеальных ответов. Кроме того, обращение также увеличивает разрыв между выбранными и отвергнутыми ответами, тем самым уточняя направление оптимизации и делая его более устойчивым к шуму. Мы оцениваем RPO на двух многозадачных бенчмарках IF, Sysbench и Multi-IF, демонстрируя средние улучшения по сравнению с базовым методом DPO на 4,6 и 2,5 пункта (на модели Llama-3.1 8B), соответственно. Более того, RPO эффективно масштабируется для моделей разных размеров (от 8B до 70B параметров), причем модель RPO с 70B параметрами превосходит GPT-4o.

Иди, прежде чем бежать! Краткое рассуждение в больших языковых моделях с помощью обучения с подкреплением
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

May 27

ByMingyang Song, Mao Zheng

Поскольку масштабирование во время тестирования становится ключевым направлением исследований в разработке крупных языковых моделей (LLM), современные и передовые методы пост-обучения всё больше сосредотачиваются на увеличении длины генерации длинных цепочек рассуждений (Chain-of-Thought, CoT) для улучшения способностей к рассуждению, приближаясь к уровню производительности DeepSeek R1. Однако последние исследования выявили устойчивое явление "переобдумывания" в современных моделях рассуждений, проявляющееся в избыточной избыточности или повторяющихся паттернах мышления в длинных CoT-ответах. Для решения этой проблемы в данной статье мы предлагаем простую, но эффективную двухэтапную структуру обучения с подкреплением для достижения лаконичности рассуждений в LLM, названную ConciseR. В частности, первый этап, использующий больше шагов обучения, направлен на стимулирование способностей модели к рассуждению с помощью групповой относительной оптимизации политики с компонентами clip-higher и динамической выборки (GRPO++), а второй этап, использующий меньше шагов обучения, явно обеспечивает лаконичность и повышает эффективность с помощью групповой относительной оптимизации политики с учётом длины (L-GRPO). Важно отметить, что ConciseR оптимизирует длину ответа только после того, как все прогоны образца оказываются правильными, следуя принципу "сначала научись ходить, потом бегать". Обширные экспериментальные результаты демонстрируют, что наша модель ConciseR, генерирующая более лаконичные CoT-ответы, превосходит современные модели рассуждений с нулевым обучением с подкреплением на таких тестах, как AIME 2024, MATH-500, AMC 2023, Minerva и олимпиадные бенчмарки.

VideoGameBench: Способны ли модели «визуальный язык» проходить популярные видеоигры?
VideoGameBench: Can Vision-Language Models complete popular video games?

May 23

ByAlex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты на тестах по программированию и математике, которые являются сложными для людей, однако их способность выполнять задачи, естественные для человека, такие как восприятие, пространственная навигация и управление памятью, остается недостаточно изученной. Настоящие видеоигры создаются таким образом, чтобы быть интуитивно понятными для обучения и освоения человеком, используя врожденные индуктивные предубеждения, что делает их идеальной платформой для оценки таких способностей в VLMs. В связи с этим мы представляем VideoGameBench — эталонный набор, состоящий из 10 популярных видеоигр 1990-х годов, с которыми VLMs взаимодействуют в реальном времени. VideoGameBench ставит перед моделями задачу пройти целые игры, имея доступ только к необработанным визуальным данным и высокоуровневому описанию целей и управления, что значительно отличается от существующих подходов, которые полагаются на специфические для игры структуры и вспомогательную информацию. Три игры остаются скрытыми, чтобы стимулировать разработку решений, обобщаемых на неизвестные среды. Наши эксперименты показывают, что передовые модели, объединяющие зрение и язык, с трудом продвигаются дальше начальных этапов каждой игры. Мы выявили, что задержка вывода является основным ограничением передовых моделей в условиях реального времени; поэтому мы вводим VideoGameBench Lite — режим, в котором игра приостанавливается в ожидании следующего действия языковой модели. Лучшая модель, Gemini 2.5 Pro, завершает только 0,48% VideoGameBench и 1,6% VideoGameBench Lite. Мы надеемся, что формализация упомянутых выше человеческих навыков в рамках этого эталонного набора будет способствовать прогрессу в данных направлениях исследований.

Sci-Fi: Симметричное ограничение для интерполяции кадров
Sci-Fi: Symmetric Constraint for Frame Inbetweening

May 27

ByLiuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan

Задача интерполяции кадров заключается в синтезе промежуточных видеопоследовательностей, обусловленных заданными начальным и конечным кадрами. Современные передовые методы в основном расширяют крупномасштабные предобученные модели диффузии "Изображение-в-Видео" (I2V-DMs), добавляя ограничения на конечный кадр через прямое тонкое настраивание или исключая обучение. Мы выявили ключевое ограничение в их конструкции: внедрение ограничения на конечный кадр обычно использует тот же механизм, который изначально накладывал ограничение на начальный кадр (одиночное изображение). Однако, поскольку оригинальные I2V-DMs уже достаточно обучены для условия начального кадра, простое добавление ограничения на конечный кадр тем же механизмом с гораздо меньшим (или даже нулевым) специализированным обучением, вероятно, не позволяет конечному кадру оказывать столь же сильное влияние на промежуточное содержание, как начальному кадру. Эта асимметричная сила контроля двух кадров над промежуточным содержанием, вероятно, приводит к несогласованному движению или коллапсу внешнего вида в сгенерированных кадрах. Для эффективного достижения симметричных ограничений начального и конечного кадров мы предлагаем новую структуру, названную Sci-Fi, которая применяет более сильное внедрение для ограничения с меньшим масштабом обучения. В частности, она обрабатывает ограничение на начальный кадр как прежде, но вводит ограничение на конечный кадр через улучшенный механизм. Новый механизм основан на хорошо спроектированном легковесном модуле, названном EF-Net, который кодирует только конечный кадр и расширяет его во временно адаптивные пофреймовые признаки, внедряемые в I2V-DM. Это делает ограничение на конечный кадр столь же сильным, как и на начальный кадр, позволяя нашему Sci-Fi создавать более гармоничные переходы в различных сценариях. Многочисленные эксперименты подтверждают превосходство нашего Sci-Fi по сравнению с другими базовыми методами.

Масштабирование ввода внешних знаний за пределы контекстных окон больших языковых моделей с помощью мультиагентного взаимодействия
Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration

May 27

ByZijun Liu, Zhennan Wan, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu

С быстрым развитием методов посттренировочной обработки для задач рассуждения и поиска информации крупные языковые модели (LLM) могут интегрировать значительные объемы извлеченных знаний для решения сложных задач. Однако ограниченный размер контекстного окна LLM препятствует масштабированию объема внешних знаний, что сдерживает дальнейшее улучшение, особенно для задач, требующих значительного объема внешней информации. Существующие методы расширения контекстного окна неизбежно приводят к потере информации. Мультиагентные методы на основе LLM появляются как новая парадигма для обработки больших объемов данных распределенным образом, где мы выделяем два ключевых узких места в существующих процессах синхронизации знаний и рассуждения. В данной работе мы разрабатываем мультиагентный фреймворк, ExtAgents, чтобы преодолеть эти узкие места и обеспечить лучшую масштабируемость при интеграции знаний на этапе вывода без необходимости обучения с увеличенным контекстом. Протестированный на нашем улучшенном наборе данных для многошагового ответа на вопросы, $boldsymbol{inftyBench+}$, и других публичных наборах данных, включая генерацию длинных опросов, ExtAgents значительно улучшает производительность по сравнению с существующими методами, не требующими обучения, при том же объеме входных внешних знаний, независимо от того, укладываются ли они в контекстное окно или превышают его. Более того, метод сохраняет высокую эффективность благодаря высокой степени параллелизма. Дальнейшее изучение координации агентов LLM при увеличении объема внешних знаний может принести пользу реальным приложениям.

BiomedSQL: Преобразование текста в SQL для научных рассуждений на базах биомедицинских знаний
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

May 23

ByMathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri

Биомедицинские исследователи всё чаще полагаются на крупномасштабные структурированные базы данных для выполнения сложных аналитических задач. Однако современные системы преобразования текста в SQL часто испытывают трудности с преобразованием качественных научных вопросов в исполняемые SQL-запросы, особенно когда требуется неявное доменное рассуждение. Мы представляем BiomedSQL — первый эталонный набор, специально разработанный для оценки научного рассуждения в генерации SQL из текста на основе реальной биомедицинской базы знаний. BiomedSQL включает 68 000 троек вопрос/SQL-запрос/ответ, основанных на унифицированной базе данных BigQuery, которая интегрирует ассоциации генов и заболеваний, причинно-следственные выводы из омиксных данных и записи об одобрении лекарств. Каждый вопрос требует от моделей вывода доменно-специфических критериев, таких как пороги значимости на уровне генома, направленность эффекта или фильтрация по фазам клинических испытаний, а не просто синтаксического перевода. Мы оцениваем ряд открытых и закрытых языковых моделей (LLM) с использованием различных стратегий запросов и парадигм взаимодействия. Наши результаты выявляют значительный разрыв в производительности: GPT-o3-mini достигает точности выполнения 59,0%, в то время как наш пользовательский многошаговый агент BMSQL достигает 62,6%, что значительно ниже экспертного базового уровня в 90,0%. BiomedSQL предоставляет новую основу для развития систем преобразования текста в SQL, способных поддерживать научные открытия за счёт устойчивого рассуждения над структурированными биомедицинскими базами знаний. Наш набор данных доступен публично по адресу https://huggingface.co/datasets/NIH-CARD/BiomedSQL, а наш код является открытым и доступен на https://github.com/NIH-CARD/biomedsql.

R1-Searcher++: Стимулирование динамического приобретения знаний в языковых моделях с помощью обучения с подкреплением
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

May 22

ByHuatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

Крупные языковые модели (LLM) обладают высокой мощностью, но склонны к галлюцинациям из-за статичности их знаний. Метод генерации с усилением поиском (RAG) помогает, вводя внешнюю информацию, однако текущие подходы часто оказываются затратными, плохо обобщаются или игнорируют внутренние знания модели. В данной работе мы представляем R1-Searcher++ — новый фреймворк, предназначенный для обучения LLM адаптивному использованию как внутренних, так и внешних источников знаний. R1-Searcher++ применяет двухэтапную стратегию обучения: начальный этап SFT Cold-start для предварительного изучения формата, за которым следует этап обучения с подкреплением (RL) для динамического приобретения знаний. На этапе RL используется контроль по результатам для стимулирования исследования, встроен механизм вознаграждения за использование внутренних знаний, а также интегрирован механизм запоминания для непрерывного усвоения извлеченной информации, что обогащает внутренние знания модели. Благодаря использованию внутренних знаний и внешней поисковой системы, модель непрерывно улучшает свои способности, обеспечивая эффективное рассуждение с усилением поиском. Наши эксперименты показывают, что R1-Searcher++ превосходит предыдущие методы RAG и рассуждения, достигая эффективного поиска. Код доступен по адресу https://github.com/RUCAIBox/R1-Searcher-plus.

Курация модальностей: создание универсальных эмбеддингов для расширенного мультимодального поиска информации
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

May 26

ByFanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou

Мультимодальный поиск информации (MIR) сталкивается с внутренними трудностями из-за неоднородности источников данных и сложности кросс-модального согласования. Хотя предыдущие исследования выявили модальные разрывы в пространствах признаков, систематический подход к решению этих проблем остается неисследованным. В данной работе мы представляем UNITE — универсальную структуру, которая решает эти задачи через два критических, но недостаточно изученных аспекта: курацию данных и модально-ориентированные конфигурации обучения. Наша работа предоставляет первый всесторонний анализ того, как специфические для модальности свойства данных влияют на производительность в различных сценариях. Кроме того, мы предлагаем Modal-Aware Masked Contrastive Learning (MAMCL) для смягчения конкурентных отношений между экземплярами разных модальностей. Наша структура достигает современных результатов на нескольких мультимодальных бенчмарках, значительно превосходя существующие методы. Благодаря обширным экспериментам мы демонстрируем, что стратегическая курация модальностей и адаптированные протоколы обучения являются ключевыми для устойчивого кросс-модального обучения представлений. Эта работа не только улучшает производительность MIR, но и предоставляет основу для будущих исследований в мультимодальных системах. Наш проект доступен по адресу https://friedrichor.github.io/projects/UNITE.

MLLM значительно подвержены влиянию модальной предвзятости
MLLMs are Deeply Affected by Modality Bias

May 24

ByXu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали многообещающие результаты в интеграции различных модальностей, таких как тексты и изображения. MLLMs подвержены значительному влиянию модальностного смещения, часто полагаясь на язык и недостаточно используя другие модальности, такие как визуальные данные. В данной позиционной статье утверждается, что MLLMs глубоко подвержены модальностному смещению. Во-первых, мы диагностируем текущее состояние модальностного смещения, выделяя его проявления в различных задачах. Во-вторых, мы предлагаем систематическую дорожную карту исследований, связанных с модальностным смещением в MLLMs. В-третьих, мы определяем ключевые факторы модальностного смещения в MLLMs и предлагаем практические рекомендации для будущих исследований с целью его смягчения. Для подтверждения этих выводов мы проводим эксперименты, демонстрирующие влияние каждого фактора: 1. Характеристики данных: Языковые данные компактны и абстрактны, в то время как визуальные данные избыточны и сложны, что создает внутренний дисбаланс в динамике обучения. 2. Несбалансированные возможности базовых моделей: Доминирование предобученных языковых моделей в MLLMs приводит к чрезмерной зависимости от языка и пренебрежению визуальной информацией. 3. Цели обучения: Текущие цели обучения часто не способствуют сбалансированному кросс-модальному выравниванию, что приводит к обучению с использованием "коротких путей", смещенных в сторону языка. Эти результаты подчеркивают необходимость сбалансированных стратегий обучения и архитектур моделей для более эффективной интеграции множественных модальностей в MLLMs. Мы призываем к междисциплинарным усилиям для решения этих задач и стимулирования инноваций в исследованиях MLLMs. Наша работа предлагает новый взгляд на модальностное смещение в MLLMs и предоставляет идеи для разработки более устойчивых и обобщаемых мультимодальных систем, способствуя прогрессу в направлении Искусственного Общего Интеллекта.

VLM-3R: Модели "Визион-Ленгвидж", усиленные 3D-реконструкцией, согласованной с инструкциями
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

May 26

ByZhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan

Быстрое развитие крупных мультимодальных моделей (LMM) для 2D-изображений и видео стимулировало расширение этих моделей для понимания 3D-сцен, стремясь к достижению человеческого уровня визуально-пространственного интеллекта. Тем не менее, достижение глубокого пространственного понимания, сопоставимого с человеческими способностями, представляет значительные трудности в кодировании моделей и сборе данных. Существующие методы часто зависят от внешних датчиков глубины для захвата геометрии или используют готовые алгоритмы для предварительного построения 3D-карт, что ограничивает их масштабируемость, особенно при работе с распространенными монохромными видео и в приложениях, чувствительных ко времени. В данной работе мы представляем VLM-3R — унифицированную структуру для моделей, объединяющих зрение и язык (VLMs), которая включает настройку на основе 3D-реконструктивных инструкций. VLM-3R обрабатывает кадры монохромного видео, используя геометрический кодировщик для получения неявных 3D-токенов, представляющих пространственное понимание. Благодаря нашему подходу Spatial-Visual-View Fusion и более чем 200 тыс. тщательно отобранных пар вопросов и ответов (QA) для настройки на 3D-реконструктивные инструкции, VLM-3R эффективно связывает реальный пространственный контекст с языковыми инструкциями. Это позволяет осуществлять монохромную 3D-пространственную помощь и воплощенное рассуждение. Для облегчения оценки временного рассуждения мы представляем эталонный тест Vision-Spatial-Temporal Intelligence, содержащий более 138,6 тыс. пар QA по пяти различным задачам, сосредоточенным на изменяющихся пространственных отношениях. Многочисленные эксперименты демонстрируют, что наша модель, VLM-3R, не только способствует устойчивому визуально-пространственному рассуждению, но и позволяет понимать изменения временного 3D-контекста, превосходя по точности и масштабируемости.

Могут ли сжатые языковые модели действительно действовать? Эмпирическая оценка агентских возможностей при сжатии языковых моделей
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

May 26

ByPeijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li

Посттренировочное сжатие снижает вычислительные и затраты на память для больших языковых моделей (LLM), обеспечивая ресурсоэффективное развертывание. Однако существующие бенчмарки сжатия сосредоточены только на языковом моделировании (например, перплексия) и задачах понимания естественного языка (например, точность GLUE), игнорируя агентские возможности — рабочие процессы, использование инструментов/вызов функций, понимание длинного контекста и реальные приложения. Мы представляем бенчмарк Agent Compression Benchmark (ACBench), первый всеобъемлющий бенчмарк для оценки влияния сжатия на агентские способности LLM. ACBench охватывает (1) 12 задач по 4 направлениям (например, WorfBench для генерации рабочих процессов, Needle-in-Haystack для поиска в длинном контексте), (2) квантование (GPTQ, AWQ) и прореживание (Wanda, SparseGPT), а также (3) 15 моделей, включая малые (Gemma-2B), стандартные (Qwen2.5 7B-32B) и дистиллированные модели для рассуждений (DeepSeek-R1-Distill). Наши эксперименты выявляют компромиссы сжатия: 4-битное квантование сохраняет генерацию рабочих процессов и использование инструментов (падение на 1%-3%), но снижает точность в реальных приложениях на 10%-15%. Мы вводим ERank, корреляцию ранжирования Top-k и энергию для систематизации анализа. ACBench предоставляет практические рекомендации для оптимизации сжатия LLM в агентских сценариях. Код доступен по адресу https://github.com/pprp/ACBench.

SoloSpeech: Повышение разборчивости и качества целевой речи с использованием каскадного генеративного конвейера
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

May 25

ByHelin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

Задача выделения целевой речи (Target Speech Extraction, TSE) заключается в изоляции голоса целевого говорящего из смеси нескольких голосов с использованием специфических для говорящего признаков, которые обычно предоставляются в виде вспомогательного аудио (так называемого cue audio). Хотя последние достижения в области TSE в основном основываются на дискриминативных моделях, обеспечивающих высокое перцептивное качество, такие модели часто вносят нежелательные артефакты, снижают естественность звучания и чувствительны к расхождениям между условиями обучения и тестирования. С другой стороны, генеративные модели для TSE отстают по перцептивному качеству и разборчивости. Для решения этих проблем мы представляем SoloSpeech — новый каскадный генеративный подход, который объединяет процессы сжатия, извлечения, восстановления и коррекции. SoloSpeech включает в себя экстрактор целевой речи, не требующий использования эмбеддингов говорящего, который использует условную информацию из латентного пространства cue audio, согласуя его с латентным пространством смешанного аудио, чтобы избежать несоответствий. Протестированный на широко используемом наборе данных Libri2Mix, SoloSpeech достигает нового уровня разборчивости и качества в задачах выделения целевой речи и разделения речи, демонстрируя исключительную обобщаемость на данных из других доменов и в реальных сценариях.

Синтез мультимодальных данных с использованием пространственного графа знаний
Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28

ByYida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) значительно расширили их возможности; однако их способности к пространственному восприятию остаются заметным ограничением. Для решения этой задачи синтез мультимодальных данных предлагает перспективное решение. Тем не менее, обеспечение того, чтобы синтезированные данные соответствовали пространственной логике, является нетривиальной задачей. В данной работе мы представляем SKG2Data — новый подход к мультимодальному синтезу, основанный на пространственных графах знаний и концепции генерации данных на основе знаний. SKG2Data автоматически строит Пространственный Граф Знаний (SKG), имитирующий человеческое восприятие направлений и расстояний, который затем используется для управления синтезом мультимодальных данных. Многочисленные эксперименты показывают, что данные, синтезированные на основе различных типов пространственных знаний, включая направление и расстояние, не только улучшают способности MLLMs к пространственному восприятию и рассуждению, но также демонстрируют сильные обобщающие способности. Мы надеемся, что идея синтеза данных на основе знаний сможет способствовать развитию пространственного интеллекта.

CoreMatching: Совместно адаптируемая структура разреженного вывода с обрезкой токенов и нейронов для комплексного ускорения моделей обработки зрения и языка
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

May 25

ByQinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют выдающиеся результаты в разнообразных задачах, однако сталкиваются с высокими затратами на время и память при выполнении выводов. Разреженность токенов помогает смягчить неэффективность их использования, а разреженность нейронов снижает объем высокоразмерных вычислений, предлагая перспективные решения для повышения эффективности. В последнее время эти две парадигмы разреженности развивались в основном параллельно, что способствовало распространению предположения об их независимом функционировании. Однако остается фундаментальный, но недостаточно изученный вопрос: действительно ли они работают изолированно, или существует более глубокая взаимосвязь, которая еще не раскрыта? В данной статье мы проводим первое всестороннее исследование этого вопроса. Введя и проанализировав механизм соответствия между ключевыми нейронами (Core Neurons) и ключевыми токенами (Core Tokens), мы обнаружили, что ключевые нейроны и токены для вывода взаимно влияют и усиливают друг друга. На основе этого понимания мы предлагаем CoreMatching, коадаптивную разреженную структуру для вывода, которая использует синергию между разреженностью токенов и нейронов для повышения эффективности вывода. Благодаря теоретическому анализу и оценкам эффективности мы демонстрируем, что предложенный метод превосходит современные базовые подходы в десяти задачах понимания изображений и на трех аппаратных устройствах. В частности, на NVIDIA Titan Xp он достиг 5-кратного сокращения FLOPs и 10-кратного общего ускорения. Код доступен по адресу https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.

Закономерности масштабирования на основе возможностей для тестирования на уязвимости языковых моделей
Capability-Based Scaling Laws for LLM Red-Teaming

May 26

ByAlexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping

По мере роста возможностей и автономности крупных языковых моделей выявление уязвимостей с помощью методов "красного командования" становится критически важным для безопасного внедрения. Однако традиционные подходы, основанные на инженерии запросов, могут оказаться неэффективными, когда "красное командование" превращается в задачу "слабый против сильного", где целевые модели превосходят атакующих по возможностям. Чтобы изучить этот сдвиг, мы рассматриваем "красное командование" через призму разрыва в возможностях между атакующим и целью. Мы оцениваем более 500 пар "атакующий-цель", используя атаки на основе LLM, имитирующие действия человека-атакующего, для различных семейств, размеров и уровней возможностей моделей. Выявляются три устойчивые тенденции: (i) более мощные модели лучше справляются с атаками, (ii) успешность атак резко снижается, когда возможности цели превышают возможности атакующего, и (iii) уровень успешности атак коррелирует с высокой производительностью на разделах социальных наук в бенчмарке MMLU-Pro. На основе этих тенденций мы выводим закон масштабирования для взлома, который предсказывает успешность атаки для фиксированной цели в зависимости от разрыва в возможностях между атакующим и целью. Эти результаты свидетельствуют о том, что атакующие с фиксированными возможностями (например, люди) могут стать неэффективными против будущих моделей, растущие возможности моделей с открытым исходным кодом усиливают риски для существующих систем, а разработчики моделей должны точно измерять и контролировать способности моделей к убеждению и манипуляции, чтобы ограничить их эффективность в качестве атакующих.

ComfyMind: К универсальной генерации через древовидное планирование и реактивную обратную связь
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

May 23

ByLitao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen

С быстрым развитием генеративных моделей универсальная генерация привлекает всё больше внимания как перспективный подход для объединения разнообразных задач в рамках одной системы, охватывающей различные модальности. Несмотря на этот прогресс, существующие открытые фреймворки часто остаются хрупкими и испытывают трудности с поддержкой сложных приложений в реальном мире из-за отсутствия структурированного планирования рабочих процессов и обратной связи на уровне выполнения. Чтобы устранить эти ограничения, мы представляем ComfyMind — совместную ИИ-систему, разработанную для обеспечения устойчивой и масштабируемой универсальной генерации, построенную на платформе ComfyUI. ComfyMind предлагает два ключевых нововведения: интерфейс семантического рабочего процесса (Semantic Workflow Interface, SWI), который абстрагирует низкоуровневые графы узлов в вызываемые функциональные модули, описанные на естественном языке, что позволяет осуществлять высокоуровневую композицию и снижает структурные ошибки; механизм планирования с использованием дерева поиска и локальной обратной связи, который моделирует генерацию как иерархический процесс принятия решений и позволяет адаптивно корректировать каждый этап. Вместе эти компоненты повышают стабильность и гибкость сложных генеративных рабочих процессов. Мы оцениваем ComfyMind на трёх публичных бенчмарках: ComfyBench, GenEval и Reason-Edit, которые охватывают задачи генерации, редактирования и логического рассуждения. Результаты показывают, что ComfyMind стабильно превосходит существующие открытые базовые решения и демонстрирует производительность, сопоставимую с GPT-Image-1. ComfyMind прокладывает перспективный путь для разработки открытых универсальных генеративных ИИ-систем. Страница проекта: https://github.com/LitaoGuo/ComfyMind.

DFIR-Metric: Набор данных для оценки крупных языковых моделей в области цифровой криминалистики и реагирования на инциденты
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26

ByBilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi

Цифровая криминалистика и реагирование на инциденты (Digital Forensics and Incident Response, DFIR) включает анализ цифровых доказательств для поддержки юридических расследований. Большие языковые модели (Large Language Models, LLMs) открывают новые возможности в задачах DFIR, таких как анализ логов и криминалистика памяти, но их склонность к ошибкам и галлюцинациям вызывает опасения в контекстах с высокими ставками. Несмотря на растущий интерес, отсутствует всеобъемлющий бенчмарк для оценки LLMs как в теоретических, так и в практических аспектах DFIR. Чтобы устранить этот пробел, мы представляем DFIR-Metric — бенчмарк, состоящий из трех компонентов: (1) Оценка знаний: набор из 700 вопросов с множественным выбором, проверенных экспертами и основанных на отраслевых сертификациях и официальной документации; (2) Реалистичные криминалистические задачи: 150 заданий в стиле Capture the Flag (CTF), проверяющих многошаговое рассуждение и корреляцию доказательств; и (3) Практический анализ: 500 случаев криминалистики дисков и памяти из программы NIST Computer Forensics Tool Testing (CFTT). Мы оценили 14 LLMs с использованием DFIR-Metric, проанализировав как их точность, так и согласованность результатов в нескольких испытаниях. Также мы вводим новый метрический показатель — Task Understanding Score (TUS), предназначенный для более эффективной оценки моделей в сценариях, где они демонстрируют близкую к нулю точность. Этот бенчмарк предлагает строгую и воспроизводимую основу для развития ИИ в области цифровой криминалистики. Все скрипты, артефакты и результаты доступны на сайте проекта: https://github.com/DFIR-Metric.

Обратная виртуальная примерка: генерация изображений стиля продуктов из нескольких категорий на основе одетых людей
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

May 27

ByDavide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe

В то время как системы виртуальной примерки (VTON) направлены на визуализацию одежды на изображении целевого человека, данная статья решает новую задачу виртуального снятия (VTOFF), которая обратна по своей сути: генерация стандартизированных изображений товаров одежды из реальных фотографий одетых людей. В отличие от VTON, где необходимо учитывать разнообразные позы и стили, VTOFF выигрывает от согласованного и четко определенного формата вывода — обычно это плоское изображение одежды в стиле "лежащего" представления, — что делает его перспективным инструментом для генерации данных и улучшения наборов данных. Однако существующие подходы VTOFF сталкиваются с двумя основными ограничениями: (i) сложностью отделения характеристик одежды от перекрытий и сложных поз, что часто приводит к визуальным артефактам, и (ii) ограниченной применимостью к одежде одной категории (например, только верхняя одежда), что снижает обобщаемость. Для решения этих проблем мы представляем Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), новую архитектуру с двойной DiT-основой и модифицированным мультимодальным механизмом внимания для устойчивого извлечения характеристик одежды. Наша архитектура предназначена для получения информации об одежде из нескольких модальностей, таких как изображения, текст и маски, для работы в многокатегорийной среде. Наконец, мы предлагаем дополнительный модуль выравнивания для дальнейшего уточнения сгенерированных визуальных деталей. Эксперименты на наборах данных VITON-HD и Dress Code показывают, что TEMU-VTOFF устанавливает новый эталон в задаче VTOFF, значительно улучшая как визуальное качество, так и соответствие целевой одежде.

Абсолютные координаты упрощают генерацию движений.
Absolute Coordinates Make Motion Generation Easy

May 26

ByZichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang

Современные модели генерации движения из текста опираются на кинематически-осознанное, локально-относительное представление движения, популяризированное HumanML3D, которое кодирует движение относительно таза и предыдущего кадра с встроенной избыточностью. Хотя такой подход упрощает обучение для ранних моделей генерации, он вводит критические ограничения для диффузионных моделей и затрудняет применимость к последующим задачам. В данной работе мы пересматриваем представление движения и предлагаем радикально упрощённую и давно забытую альтернативу для генерации движения из текста: абсолютные координаты суставов в глобальном пространстве. Благодаря систематическому анализу проектных решений мы показываем, что такая формулировка обеспечивает значительно более высокую точность движения, улучшенное соответствие тексту и сильную масштабируемость даже при использовании простой архитектуры Transformer и без вспомогательных кинематически-осознанных функций потерь. Более того, наша формулировка естественным образом поддерживает последующие задачи, такие как управление движением на основе текста и временное/пространственное редактирование, без дополнительной переработки под конкретные задачи и затратной генерации с использованием классификаторного управления на основе управляющих сигналов. Наконец, мы демонстрируем перспективную обобщаемость, позволяющую напрямую генерировать вершины SMPL-H меша в движении из текста, закладывая прочную основу для будущих исследований и приложений, связанных с движением.

AdInject: Реальные атаки методом черного ящика на веб-агентов через доставку рекламы
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

May 27

ByHaowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang

Веб-агенты на основе Vision-Language Model (VLM) представляют собой значительный шаг в направлении автоматизации сложных задач за счет имитации человеческого взаимодействия с веб-сайтами. Однако их развертывание в неконтролируемых веб-средах влечет за собой серьезные уязвимости в области безопасности. Существующие исследования атак с инъекцией враждебного окружения часто основываются на нереалистичных предположениях, таких как прямое манипулирование HTML, знание намерений пользователя или доступ к параметрам модели агента, что ограничивает их практическую применимость. В данной статье мы предлагаем AdInject — новый метод атаки в реальных условиях, работающий в черном ящике, который использует механизмы доставки интернет-рекламы для внедрения вредоносного контента в окружение веб-агента. AdInject функционирует в рамках значительно более реалистичной модели угроз по сравнению с предыдущими работами, предполагая агента в черном ящике, статические ограничения на вредоносный контент и отсутствие конкретных знаний о намерениях пользователя. AdInject включает стратегии разработки вредоносного рекламного контента, направленного на введение агента в заблуждение с целью совершения кликов, а также технику оптимизации рекламного контента на основе VLM, которая выводит потенциальные намерения пользователя из контекста целевого веб-сайта и интегрирует эти намерения в рекламный контент, чтобы он казался более релевантным или критически важным для задачи агента, тем самым повышая эффективность атаки. Экспериментальные оценки демонстрируют эффективность AdInject: показатели успешности атаки превышают 60% в большинстве сценариев и приближаются к 100% в отдельных случаях. Это убедительно доказывает, что распространенные механизмы доставки рекламы представляют собой мощный и реалистичный вектор для атак с инъекцией окружения против веб-агентов. Данная работа выявляет критическую уязвимость в безопасности веб-агентов, возникающую из-за каналов манипуляции окружением в реальных условиях, и подчеркивает необходимость разработки надежных механизмов защиты от подобных угроз. Наш код доступен по адресу https://github.com/NicerWang/AdInject.

R1-ShareVL: Стимулирование способности к рассуждению мультимодальных больших языковых моделей с помощью Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22

ByHuanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang

В данной работе мы стремимся стимулировать способность к рассуждению у мультимодальных больших языковых моделей (MLLMs) с использованием обучения с подкреплением (RL) и разработать эффективный подход, который смягчает проблемы разреженного вознаграждения и исчезновения преимуществ в процессе RL. Для этого мы предлагаем Share-GRPO — новый подход RL, который решает эти проблемы за счет исследования и обмена разнообразными траекториями рассуждений в расширенном пространстве вопросов. В частности, Share-GRPO сначала расширяет пространство вопросов для заданного вопроса с помощью техник преобразования данных, а затем побуждает MLLM активно исследовать разнообразные траектории рассуждений в расширенном пространстве вопросов и делиться обнаруженными траекториями между расширенными вопросами в процессе RL. Кроме того, Share-GRPO также делится информацией о вознаграждении при вычислении преимуществ, оценивая преимущества решений иерархически как между вариантами вопросов, так и внутри них, что позволяет более точно оценивать относительные преимущества и повышать стабильность обучения политики. Обширные оценки на шести широко используемых бенчмарках для рассуждений демонстрируют превосходную производительность нашего метода. Код будет доступен по адресу https://github.com/HJYao00/R1-ShareVL.

SATORI-R1: Стимулирование мультимодального мышления с пространственной привязкой и проверяемыми вознаграждениями
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

May 25

ByChuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng

DeepSeek-R1 продемонстрировал мощные способности к рассуждению в текстовой области благодаря стабильному обучению с подкреплением (RL). В последнее время в мультимодальной области начали напрямую применять RL для генерации свободных рассуждений, подобных R1, в задачах визуального ответа на вопросы (VQA). Однако мультимодальные задачи имеют принципиально иную природу по сравнению с текстовыми, поскольку они в значительной степени зависят от понимания входного изображения для решения задачи. Таким образом, такие свободные рассуждения сталкиваются с двумя критическими ограничениями в задаче VQA: (1) Расширенные цепочки рассуждений отвлекают визуальное внимание от критически важных областей, что снижает точность ответов. (2) Непроверяемые промежуточные шаги увеличивают дисперсию градиента политики и накладные расходы на вычисления. Для решения этих проблем в данной статье мы представляем SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), который разбивает VQA на три проверяемых этапа, включая глобальное описание изображения, локализацию областей и предсказание ответа, каждый из которых предоставляет явные сигналы вознаграждения. Кроме того, мы также представляем VQA-Verify, набор данных объемом 12 тыс. примеров, аннотированных описаниями и ограничивающими рамками, соответствующими ответам, для облегчения обучения. Эксперименты демонстрируют последовательное улучшение производительности на семи тестовых наборах VQA, достигая улучшения точности до 15,7% по сравнению с базовым подходом, подобным R1. Наш анализ карты внимания подтверждает усиление фокуса на критически важных областях, что приводит к повышению точности. Наш код доступен по адресу https://github.com/justairr/SATORI-R1.

PreMoe: Облегчение моделей с экспертами при ограниченной памяти за счет обрезки и извлечения экспертов
PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval

May 23

ByZehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

Архитектуры типа "смесь экспертов" (Mixture-of-Experts, MoE) позволяют масштабировать большие языковые модели (LLM) до огромного количества параметров без пропорционального увеличения вычислительных затрат. Однако значительные требования к памяти крупных моделей MoE затрудняют их развертывание в различных вычислительных средах, от облачных серверов до потребительских устройств. В данном исследовании сначала демонстрируется выраженная специализация активации экспертов в слоях MoE в зависимости от конкретных задач. На основе этого мы представляем PreMoe — новый фреймворк, который обеспечивает эффективное развертывание крупных моделей MoE в средах с ограниченной памятью. PreMoe включает два основных компонента: вероятностное сокращение экспертов (Probabilistic Expert Pruning, PEP) и адаптивное извлечение экспертов для задач (Task-Adaptive Expert Retrieval, TAER). PEP использует новый показатель — ожидаемый балл выбора, обусловленный задачей (Task-Conditioned Expected Selection Score, TCESS), который вычисляется на основе логитов маршрутизатора для количественной оценки важности экспертов для конкретных задач, что позволяет определить минимальный набор критически важных экспертов. TAER использует эти профили важности экспертов для эффективного вывода. Он предварительно вычисляет и сохраняет компактные шаблоны экспертов для различных задач. Когда поступает запрос пользователя, TAER быстро идентифицирует наиболее подходящий сохраненный шаблон задачи и восстанавливает модель, загружая только небольшое подмножество экспертов, критически важных для этой задачи. Такой подход значительно сокращает объем используемой памяти во всех сценариях развертывания. Модель DeepSeek-R1 671B сохраняет точность 97,2% на тесте MATH500 при сокращении до конфигурации 8/128 (сокращение экспертов на 50%) и достигает 72,0% при агрессивном сокращении до 8/32 (сокращение экспертов на 87,5%). Модель Pangu-Ultra-MoE 718B показывает точность 97,15% на MATH500 и 81,3% на AIME24 при сокращении до 8/128, а еще более агрессивное сокращение до 4/64 (390 ГБ памяти) сохраняет точность 96,95% на MATH500. Мы делаем наш код общедоступным по адресу https://github.com/JarvisPei/PreMoe.

Объяснение источников неопределенности в автоматизированной проверке фактов
Explaining Sources of Uncertainty in Automated Fact-Checking

May 23

ByJingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein

Понимание источников неопределенности модели в отношении ее прогнозов имеет решающее значение для эффективного взаимодействия человека и ИИ. Предыдущие работы предлагали использовать числовую неопределенность или оговорки ("Я не уверен, но..."), которые не объясняют неопределенность, возникающую из-за противоречивых данных, оставляя пользователей неспособными разрешить разногласия или полагаться на выводы. Мы представляем CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations) — первую структуру для генерации объяснений неопределенности модели на естественном языке, которая (i) выявляет отношения между фрагментами текста, раскрывающие конфликты или согласованность между утверждениями и доказательствами, которые вызывают неопределенность прогнозов модели, и (ii) генерирует объяснения с помощью промптов и управления вниманием, вербализирующих эти ключевые взаимодействия. На трех языковых моделях и двух наборах данных для проверки фактов мы показываем, что CLUE создает объяснения, которые более точно отражают неопределенность модели и более согласованы с решениями по проверке фактов, чем запросы на объяснения неопределенности без учета взаимодействия фрагментов. Человеческие оценщики считают наши объяснения более полезными, информативными, менее избыточными и более логически согласованными с входными данными, чем этот базовый подход. CLUE не требует тонкой настройки или изменений архитектуры, что делает его готовым к использованию для любой "белой" языковой модели. Явно связывая неопределенность с конфликтами доказательств, она предлагает практическую поддержку для проверки фактов и легко обобщается на другие задачи, требующие рассуждений над сложной информацией.

Тропическое внимание: нейронное алгоритмическое рассуждение для комбинаторных алгоритмов
Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms

May 22

ByBaran Hashemi, Kurt Pasque, Chris Teska, Ruriko Yoshida

Алгоритмы динамического программирования (ДП) для задач комбинаторной оптимизации работают с операциями максимизации, минимизации и классического сложения в своих рекурсивных алгоритмах. Соответствующие функции значений соответствуют выпуклым многогранникам в полукольце max-plus. Однако существующие модели нейронного алгоритмического рассуждения опираются на внимание, основанное на скалярном произведении с нормализацией через softmax, где гладкое экспоненциальное взвешивание размывает эти четкие многогранные структуры и приводит к их коллапсу при оценке на данных, выходящих за пределы распределения (OOD). Мы представляем тропическое внимание — новую функцию внимания, которая работает непосредственно в полукольце max-plus тропической геометрии. Мы доказываем, что тропическое внимание может аппроксимировать тропические схемы алгоритмов ДП-типа для комбинаторных задач. Затем мы предлагаем, что использование тропических трансформеров улучшает эмпирическую производительность на OOD данных как в обобщении по длине, так и в обобщении по значениям, превосходя базовые подходы с softmax, оставаясь устойчивыми к атакам со стороны противника. Мы также вводим обобщение на атаки со стороны противника как третью ось для бенчмаркинга нейронного алгоритмического рассуждения. Наши результаты демонстрируют, что тропическое внимание восстанавливает четкое, масштабно-инвариантное рассуждение, отсутствующее в softmax.

Построение базы знаний для текстового SQL с расширенными знаниями
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL

May 28

ByJinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya

Text-to-SQL ставит своей целью преобразование запросов на естественном языке в SQL-выражения, что является практичным, так как позволяет любому пользователю легко извлекать нужную информацию из баз данных. В последнее время многие существующие подходы решают эту задачу с использованием больших языковых моделей (LLM), используя их мощные возможности в понимании пользовательских запросов и генерации соответствующего SQL-кода. Однако параметрические знания в LLM могут быть ограничены в охвате всех разнообразных и специфичных для доменов запросов, которые требуют привязки к различным схемам баз данных, что зачастую делает сгенерированные SQL-запросы менее точными. Для решения этой проблемы мы предлагаем создать базу знаний для text-to-SQL, фундаментальный источник информации, из которого мы извлекаем и генерируем необходимые знания для заданных запросов. В частности, в отличие от существующих подходов, которые либо вручную аннотируют знания, либо генерируют лишь несколько фрагментов знаний для каждого запроса, наша база знаний является всеобъемлющей. Она строится на основе комбинации всех доступных вопросов, связанных с ними схем баз данных и соответствующей информации, и может быть повторно использована для неизвестных баз данных из различных наборов данных и доменов. Мы проверяем наш подход на нескольких наборах данных для text-to-SQL, учитывая как сценарии с перекрывающимися, так и неперекрывающимися базами данных, где он значительно превосходит соответствующие базовые методы.

Улучшение химического понимания языковых моделей через парсинг SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing

May 22

ByYunhui Jang, Jaehyung Kim, Sungsoo Ahn

Крупные языковые модели (LLM) всё чаще признаются мощным инструментом для научных открытий, особенно в области молекулярных наук. Основным требованием для этих моделей является способность точно понимать молекулярные структуры, которые обычно кодируются в представлении SMILES. Однако современные LLM испытывают трудности с интерпретацией SMILES, даже не справляясь с базовыми задачами, такими как подсчёт молекулярных колец. Чтобы устранить это ограничение, мы представляем CLEANMOL — новый фреймворк, который формулирует парсинг SMILES в виде набора чистых и детерминированных задач, явно разработанных для улучшения понимания молекулярных структур на уровне графов. Эти задачи варьируются от сопоставления подграфов до глобального сопоставления графов, обеспечивая структурированное обучение, согласованное с молекулярными структурными свойствами. Мы создаём молекулярный предобучающий набор данных с адаптивной оценкой сложности и предобучаем открытые LLM на этих задачах. Наши результаты показывают, что CLEANMOL не только улучшает понимание структур, но также демонстрирует наилучшие результаты или конкурирует с базовыми моделями на бенчмарке Mol-Instructions.

Страдают ли системы RAG от позиционного смещения?
Do RAG Systems Suffer From Positional Bias?

May 21

ByFlorin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri

Генерация с усилением поиска повышает точность больших языковых моделей (LLM) за счет добавления фрагментов, извлеченных из внешнего корпуса, в запрос LLM. В данной статье исследуется, как позиционное смещение — склонность LLM по-разному учитывать информацию в зависимости от ее положения в запросе — влияет не только на способность модели эффективно использовать релевантные фрагменты, но и на ее уязвимость к отвлекающим фрагментам. В ходе масштабных экспериментов на трех бенчмарках мы показываем, что современные системы поиска, пытаясь извлечь релевантные фрагменты, систематически выводят на первые позиции высокоотвлекающие фрагменты, причем более чем в 60% запросов хотя бы один такой фрагмент оказывается среди 10 наиболее релевантных. В результате влияние позиционного смещения LLM, которое в контролируемых условиях часто описывается как весьма значительное в работах других авторов, в реальных сценариях оказывается минимальным, поскольку как релевантные, так и отвлекающие фрагменты в равной степени подвергаются "штрафу". Более того, наши результаты показывают, что сложные стратегии, пытающиеся переупорядочить фрагменты с учетом предпочтений LLM, не превосходят случайного перемешивания.

Vision Transformers с самообучаемыми регистрами
Vision Transformers with Self-Distilled Registers

May 27

ByYinjie Chen, Zipeng Yan, Chong Zhou, Bo Dai, Andrew F. Luo

Трансформеры для обработки изображений (Vision Transformers, ViTs) стали доминирующей архитектурой для задач визуальной обработки, демонстрируя превосходную масштабируемость с увеличением объема обучающих данных и размера модели. Однако в последних исследованиях было выявлено появление артефактных токенов в ViTs, которые не соответствуют локальной семантике. Эти аномальные токены ухудшают производительность ViTs в задачах, требующих точной локализации или структурной согласованности. Эффективным способом устранения этой проблемы является добавление регистровых токенов в ViTs, которые неявно "поглощают" артефактные термины в процессе обучения. Учитывая доступность различных крупномасштабных предобученных ViTs, в данной работе мы стремимся оснастить их такими регистровыми токенами без необходимости их повторного обучения с нуля, что нецелесообразно из-за их размера. В частности, мы предлагаем метод Post Hoc Registers (PH-Reg), эффективный метод самодистилляции, который интегрирует регистры в существующий ViT без необходимости дополнительных размеченных данных и полного переобучения. PH-Reg инициализирует как учителя, так и ученика из одного и того же предобученного ViT. Учитель остается замороженным и неизменным, в то время как ученик дополняется случайно инициализированными регистровыми токенами. Применяя аугментацию на этапе тестирования к входам учителя, мы генерируем очищенные плотные эмбеддинги, свободные от артефактов, которые затем используются для оптимизации только небольшого подмножества разблокированных весов ученика. Мы показываем, что наш подход может эффективно сократить количество артефактных токенов, улучшая сегментацию и предсказание глубины ученика ViT в условиях zero-shot и линейного зондирования.

Объяснимая диагностическая система для нейродегенеративных деменций с использованием оптимизированного метода рассуждений на основе языковых моделей и обучения с подкреплением
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning

May 26

ByAndrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe

Дифференциальная диагностика нейродегенеративных деменций представляет собой сложную клиническую задачу, главным образом из-за перекрытия симптоматики и сходства паттернов, наблюдаемых в структурной нейровизуализации. Для повышения эффективности и точности диагностики были предложены методы на основе глубокого обучения, такие как сверточные нейронные сети и трансформеры для изображений, для автоматической классификации МРТ головного мозга. Однако, несмотря на их высокую прогностическую производительность, эти модели находят ограниченное клиническое применение из-за непрозрачности процесса принятия решений. В данной работе мы предлагаем фреймворк, который объединяет два ключевых компонента для повышения прозрачности диагностики. Во-первых, мы представляем модульный конвейер для преобразования 3D T1-взвешенных МРТ головного мозга в текстовые радиологические отчеты. Во-вторых, мы исследуем потенциал современных крупных языковых моделей (LLM) для помощи клиницистам в дифференциальной диагностике между подтипами фронтотемпоральной деменции, болезнью Альцгеймера и нормальным старением на основе сгенерированных отчетов. Чтобы сократить разрыв между прогностической точностью и объяснимостью, мы используем обучение с подкреплением для стимулирования диагностического рассуждения в LLM. Без необходимости в контролируемых траекториях рассуждений или дистилляции из более крупных моделей наш подход позволяет формировать структурированные диагностические обоснования, основанные на данных нейровизуализации. В отличие от постфактумных методов объяснимости, которые ретроспективно обосновывают решения модели, наш фреймворк генерирует диагностические обоснования как часть процесса вывода, создавая причинно обоснованные объяснения, которые информируют и направляют процесс принятия решений модели. Таким образом, наш фреймворк демонстрирует диагностическую производительность, сопоставимую с существующими методами глубокого обучения, при этом предоставляя обоснования, поддерживающие его диагностические выводы.

За пределами простой конкатенации: объективная оценка архитектур языковых моделей для предсказания многоцепочечных белково-белковых взаимодействий
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

May 26

ByHazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar

Взаимодействия белков (PPIs) играют ключевую роль в многочисленных клеточных процессах, и их изучение имеет важное значение для понимания механизмов заболеваний и разработки лекарств. Хотя языковые модели для белков (PLMs) продемонстрировали впечатляющие успехи в предсказании структуры и функции белков, их применение для прогнозирования аффинности связывания PPIs на основе последовательностей остается недостаточно изученным. Этот пробел часто связывают с нехваткой высококачественных, тщательно обработанных наборов данных и использованием простых стратегий для объединения представлений белков. В данной работе мы устраняем эти ограничения. Во-первых, мы представляем тщательно обработанную версию набора данных PPB-Affinity, содержащего 8 207 уникальных записей взаимодействий белков, устраняя несоответствия в аннотациях и дублирующиеся записи для взаимодействий с участием нескольких цепей. Этот набор данных включает строгий порог идентичности последовательностей ≤30%, что обеспечивает надежное разделение на обучающие, валидационные и тестовые наборы, минимизируя утечку данных. Во-вторых, мы предлагаем и систематически оцениваем четыре архитектуры для адаптации PLMs к прогнозированию аффинности связывания PPIs: конкатенация эмбеддингов (EC), конкатенация последовательностей (SC), иерархическое пулирование (HP) и добавление пулированного внимания (PAD). Эти архитектуры были протестированы с использованием двух методов обучения: полного тонкого настройки и облегченного подхода с использованием ConvBERT-головок на замороженных признаках PLM. Наши всесторонние эксперименты с несколькими ведущими PLMs (ProtT5, ESM2, Ankh, Ankh2 и ESM3) показали, что архитектуры HP и PAD стабильно превосходят традиционные методы конкатенации, достигая увеличения коэффициента корреляции Спирмена до 12%. Эти результаты подчеркивают необходимость сложных архитектурных решений для полного раскрытия потенциала PLMs в прогнозировании аффинности связывания PPIs.

Ankh3: Многозадачное предобучение с шумоподавлением и восстановлением последовательностей улучшает представления белков
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

May 26

ByHazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar

Языковые модели для белков (PLMs) стали мощным инструментом для выявления сложных закономерностей в белковых последовательностях. Однако способность PLMs полностью улавливать информацию о белковых последовательностях может быть ограничена из-за фокусировки на единичных задачах предварительного обучения. Хотя добавление дополнительных модальностей данных или контролируемых целей может улучшить производительность PLMs, предварительное обучение часто остается сосредоточенным на восстановлении зашумленных последовательностей. Чтобы расширить возможности PLMs, наше исследование изучило стратегию многозадачного предварительного обучения. Мы разработали Ankh3 — модель, оптимизированную одновременно для двух задач: маскированного языкового моделирования с различными вероятностями маскирования и завершения белковых последовательностей, использующую только белковые последовательности в качестве входных данных. Это многозадачное предварительное обучение показало, что PLMs могут извлекать более богатые и обобщаемые представления исключительно из белковых последовательностей. Результаты продемонстрировали улучшение производительности в таких задачах, как предсказание вторичной структуры, флуоресценция, фитнес GB1 и предсказание контактов. Интеграция нескольких задач позволила модели получить более полное понимание свойств белков, что привело к более надежным и точным предсказаниям.