HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

50 papers found

Технический отчет MiMo-VL
MiMo-VL Technical Report

Jun 4

ByXiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia

Мы открываем исходный код моделей MiMo-VL-7B-SFT и MiMo-VL-7B-RL — двух мощных моделей для работы с визуальными и текстовыми данными, демонстрирующих передовые результаты как в общем понимании визуальной информации, так и в мультимодальных рассуждениях. MiMo-VL-7B-RL превосходит Qwen2.5-VL-7B в 35 из 40 оцениваемых задач и набирает 59.4 балла на OlympiadBench, опережая модели с числом параметров до 78 миллиардов. В задачах, связанных с интерфейсами (GUI), она устанавливает новый стандарт с результатом 56.1 на OSWorld-G, превосходя даже специализированные модели, такие как UI-TARS. Наше обучение сочетает четырехэтапное предварительное обучение (2.4 триллиона токенов) с методом Mixed On-policy Reinforcement Learning (MORL), интегрирующим разнообразные сигналы вознаграждения. Мы подчеркиваем важность включения высококачественных данных для рассуждений с длинными цепочками мыслей (Chain-of-Thought) на этапах предварительного обучения, а также преимущества смешанного обучения с подкреплением, несмотря на сложности одновременной оптимизации в нескольких доменах. Мы также представляем комплексный набор для оценки, охватывающий более 50 задач, чтобы способствовать воспроизводимости и развитию области. Чекпоинты модели и полный набор для оценки доступны по адресу https://github.com/XiaomiMiMo/MiMo-VL.

OpenThoughts: Рецепты данных для моделей рассуждений
OpenThoughts: Data Recipes for Reasoning Models

Jun 4

ByEtash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt

Модели рассуждений достигли значительного прогресса на многих тестовых наборах, связанных с математикой, программированием и наукой. Однако до сих пор остаются открытыми вопросы о наилучших методах обучения для таких моделей, поскольку современные модели часто полагаются на проприетарные наборы данных, информация о которых практически отсутствует в открытом доступе. Для решения этой проблемы проект OpenThoughts ставит своей целью создание открытых наборов данных для обучения моделей рассуждений. После первоначальных исследований наш набор данных OpenThoughts2-1M привел к созданию модели OpenThinker2-32B, которая стала первой моделью, обученной на открытых данных рассуждений и показавшей результаты, сопоставимые с DeepSeek-R1-Distill-32B на стандартных тестах, таких как AIME и LiveCodeBench. Затем мы улучшили наш набор данных, систематически исследуя каждый этап процесса генерации данных с помощью более чем 1000 контролируемых экспериментов, что привело к созданию OpenThoughts3. Масштабирование процесса до 1,2 миллиона примеров и использование модели QwQ-32B в качестве учителя позволило создать модель OpenThinker3-7B, которая демонстрирует передовые результаты: 53% на AIME 2025, 51% на LiveCodeBench 06/24-01/25 и 54% на GPQA Diamond. Все наши наборы данных и модели доступны на сайте https://openthoughts.ai.

Развитие мультимодального мышления: от оптимизированного "холодного старта" до поэтапного обучения с подкреплением
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

Jun 4

ByShuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng

Вдохновленные впечатляющими способностями модели Deepseek-R1 к рассуждениям в сложных текстовых задачах, многие исследования пытаются стимулировать аналогичные возможности в мультимодальных больших языковых моделях (MLLM), напрямую применяя обучение с подкреплением (RL). Однако они по-прежнему сталкиваются с трудностями в активации сложных рассуждений. В данной работе, вместо изолированного рассмотрения мультимодального RL, мы углубляемся в текущие конвейеры обучения и выделяем три ключевых явления: 1) Эффективная инициализация "холодного старта" критически важна для улучшения рассуждений в MLLM. Интересно, что мы обнаружили, что инициализация с использованием тщательно отобранных текстовых данных может привести к результатам, превосходящим многие недавние модели мультимодальных рассуждений, даже до применения мультимодального RL. 2) Стандартный GRPO, применяемый в мультимодальном RL, страдает от застоя градиентов, что ухудшает стабильность и производительность обучения. 3) Последующее обучение RL только на текстовых данных, следующее за фазой мультимодального RL, дополнительно улучшает мультимодальные рассуждения. Такой поэтапный подход к обучению эффективно балансирует развитие перцептивного заземления и когнитивных рассуждений. Включая вышеуказанные инсайты и решая проблемы мультимодального RL, мы представляем ReVisual-R1, достигающую нового уровня передовых результатов среди открытых 7B MLLM на сложных бенчмарках, включая MathVerse, MathVision, WeMath, LogicVista, DynaMath, а также сложные AIME2024 и AIME2025.

AmbiK: Набор данных неоднозначных задач в кухонной среде
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

Jun 4

ByAnastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov

В качестве компонента воплощённого агента, крупные языковые модели (LLMs) обычно используются для планирования поведения на основе естественно-языковых инструкций от пользователя. Однако обработка неоднозначных инструкций в реальных условиях остаётся сложной задачей для LLMs. Были предложены различные методы для обнаружения неоднозначности задач. Однако их сложно сравнивать, так как они тестируются на разных наборах данных, и отсутствует универсальный бенчмарк. По этой причине мы предлагаем AmbiK (Ambiguous Tasks in Kitchen Environment) — полностью текстовый набор данных, содержащий неоднозначные инструкции, адресованные роботу в условиях кухонной среды. AmbiK был собран с помощью LLMs и прошёл проверку людьми. Он включает 1000 пар неоднозначных задач и их однозначных аналогов, классифицированных по типам неоднозначности (человеческие предпочтения, здравый смысл, безопасность), с описаниями среды, уточняющими вопросами и ответами, намерениями пользователя и планами задач, всего 2000 задач. Мы надеемся, что AmbiK позволит исследователям проводить унифицированное сравнение методов обнаружения неоднозначности. AmbiK доступен по адресу https://github.com/cog-model/AmbiK-dataset.

SuperWriter: Рефлексивное создание длинных текстов с использованием крупных языковых моделей
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

Jun 4

ByYuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee

Генерация длинных текстов остается серьезной проблемой для больших языковых моделей (LLM), особенно в поддержании связности, обеспечении логической согласованности и сохранении качества текста по мере увеличения длины последовательности. Для преодоления этих ограничений мы предлагаем SuperWriter-Agent — агентно-ориентированную структуру, предназначенную для повышения качества и согласованности генерации длинных текстов. SuperWriter-Agent вводит явные этапы структурированного мышления, включая планирование и уточнение, в процесс генерации, направляя модель на более осознанный и когнитивно обоснованный процесс, аналогичный процессу профессионального писателя. На основе этой структуры мы создаем набор данных для контролируемого тонкого обучения, чтобы обучить модель SuperWriter-LM объемом 7 миллиардов параметров. Мы также разрабатываем иерархическую процедуру Direct Preference Optimization (DPO), которая использует метод поиска по дереву Монте-Карло (MCTS) для распространения итоговых оценок качества и оптимизации каждого шага генерации. Эмпирические результаты на различных тестовых наборах демонстрируют, что SuperWriter-LM достигает наилучших показателей, превосходя даже более крупные базовые модели как в автоматической, так и в человеческой оценке. Кроме того, всесторонние исследования методом исключения подтверждают эффективность иерархической DPO и подчеркивают ценность включения этапов структурированного мышления для повышения качества генерации длинных текстов.

Контролируемое исследование языковых моделей с длинным контекстом
A Controllable Examination for Long-Context Language Models

Jun 3

ByYijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov

Существующие подходы к оценке языковых моделей с длинным контекстом (LCLM) можно в целом разделить на задачи реального мира и синтетические задачи. Несмотря на их полезность, оба подхода сопровождаются определёнными внутренними ограничениями. Задачи реального мира слишком сложны для интерпретации или характеристики и подвержены проблеме загрязнения данных. В то же время синтетические задачи часто используют формат "иголка в стоге сена" (NIAH), где отсутствие связности между "иголкой" и "стогом сена" ставит под сомнение их валидность как прокси для реалистичных приложений. В ответ на эти вызовы мы утверждаем, что идеальная система оценки длинного контекста должна характеризоваться тремя ключевыми особенностями: бесшовный контекст, контролируемые условия и надёжная оценка. В данном исследовании представлен LongBioBench — новый бенчмарк, использующий искусственно сгенерированные биографии как контролируемую среду для оценки LCLM по параметрам понимания, рассуждения и доверия. Наше экспериментальное исследование, включающее 18 LCLM, показывает, что большинство моделей всё ещё демонстрируют недостатки в семантическом понимании и базовом рассуждении над извлечёнными результатами, а также становятся менее надёжными с увеличением длины контекста. Дополнительный анализ указывает на то, что некоторые дизайнерские решения, используемые в существующих синтетических бенчмарках, такие как отсутствие связности контекста, числовые "иголки" и отсутствие отвлекающих элементов, делают их уязвимыми для тестирования способностей моделей к работе с длинным контекстом. Более того, мы также выяснили, что непрерывное предобучение для длинного контекста в основном адаптирует RoPE-эмбеддинги для работы с увеличенной длиной контекста. В итоге, по сравнению с предыдущими синтетическими бенчмарками, LongBioBench достигает лучшего баланса между отражением аутентичных языковых задач и сохранением контролируемости, а также обладает высокой интерпретируемостью и настраиваемостью.

MMR-V: Что осталось за кадром? Бенчмарк для мультимодального глубокого анализа в видеоматериалах
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

Jun 4

ByKejian Zhu, Zhuoran Jin, Hongbang Yuan, Jiachun Li, Shangqing Tu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Последовательная структура видео создает сложности для способности мультимодальных больших языковых моделей (MLLMs) находить доказательства, распределенные по нескольким кадрам, и проводить мультимодальные рассуждения. Однако существующие видеобенчмарки в основном сосредоточены на задачах понимания, которые требуют от моделей лишь сопоставления кадров, упомянутых в вопросе (далее называемых "вопросными кадрами"), и восприятия нескольких соседних кадров. Чтобы устранить этот пробел, мы предлагаем MMR-V: Бенчмарк для глубокого мультимодального рассуждения в видео. Этот бенчмарк характеризуется следующими особенностями. (1) Долгосрочное, многокадровое рассуждение: модели должны выводить и анализировать доказательства, которые могут находиться далеко от вопросного кадра. (2) Выход за пределы восприятия: вопросы не могут быть решены только через прямое восприятие, но требуют рассуждения над скрытой информацией. (3) Надежность: все задачи вручную аннотированы с учетом обширного понимания реальных пользователей, чтобы соответствовать общим представлениям. (4) Запутанность: тщательно разработанные стратегии аннотации отвлекающих элементов для сокращения использования моделями "коротких путей". MMR-V состоит из 317 видео и 1,257 задач. Наши эксперименты показывают, что современные модели все еще испытывают трудности с мультимодальными рассуждениями; даже лучшая модель, o4-mini, достигает точности лишь 52,5%. Кроме того, текущие стратегии улучшения рассуждений (Chain-of-Thought и масштабирование вычислительных ресурсов на этапе тестирования) приносят ограниченные улучшения. Дополнительный анализ показывает, что CoT, необходимый для мультимодальных рассуждений, отличается от CoT в текстовых рассуждениях, что частично объясняет ограниченные улучшения производительности. Мы надеемся, что MMR-V вдохновит дальнейшие исследования по улучшению мультимодальных способностей к рассуждению.

Voyager: Модель диффузии видео для генерации исследовательских 3D-сцен с поддержкой дальнего действия и согласованности мира
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation

Jun 4

ByTianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo

Реальные приложения, такие как видеоигры и виртуальная реальность, часто требуют возможности моделирования 3D-сцен, которые пользователи могут исследовать по заданным траекториям камеры. Хотя значительный прогресс был достигнут в генерации 3D-объектов из текста или изображений, создание длинных, 3D-согласованных и исследуемых 3D-сцен остается сложной и актуальной задачей. В данной работе мы представляем Voyager — новый фреймворк на основе диффузии видео, который генерирует последовательности 3D-точечных облаков, согласованных в мировом пространстве, из одного изображения с заданной пользователем траекторией камеры. В отличие от существующих подходов, Voyager обеспечивает сквозную генерацию и реконструкцию сцены с внутренней согласованностью между кадрами, устраняя необходимость в использовании 3D-реконструкционных пайплайнов (например, структура из движения или многовидовая стереоскопия). Наш метод объединяет три ключевых компонента: 1) Мирово-согласованная диффузия видео: унифицированная архитектура, которая совместно генерирует выровненные последовательности RGB и глубины, учитывая существующие наблюдения мира для обеспечения глобальной согласованности; 2) Долгосрочное исследование мира: эффективный кэш мира с отсечением точек и авторегрессивный вывод с плавной выборкой видео для итеративного расширения сцены с учетом контекстной согласованности; 3) Масштабируемый механизм данных: пайплайн реконструкции видео, который автоматизирует оценку поз камеры и предсказание метрической глубины для произвольных видео, позволяя создавать крупномасштабные и разнообразные наборы обучающих данных без ручной 3D-аннотации. В совокупности эти решения обеспечивают заметное улучшение визуального качества и геометрической точности по сравнению с существующими методами, открывая широкие возможности для применения.

Установление надежной оценки языковых моделей через анализ нейронов, отвечающих за использование "коротких путей"
Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

Jun 4

ByKejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao

Разработка крупных языковых моделей (LLM) зависит от надежной оценки. Однако большинство текущих оценок опираются на публичные бенчмарки, которые подвержены проблемам загрязнения данных, что значительно снижает справедливость. Предыдущие исследования были сосредоточены на создании динамических бенчмарков для решения проблемы загрязнения. Однако постоянное создание новых бенчмарков является затратным и циклическим процессом. В данной работе мы стремимся решить проблему загрязнения путем анализа механизмов самих загрязненных моделей. В ходе экспериментов мы обнаруживаем, что завышенная оценка загрязненных моделей, вероятно, связана с тем, что параметры приобретают "короткие пути" в процессе обучения. Мы также предлагаем новый метод идентификации нейронов, отвечающих за "короткие пути", с помощью сравнительного и причинно-следственного анализа. На основе этого мы вводим метод оценки, называемый "исправлением нейронов коротких путей", для подавления таких нейронов. Эксперименты подтверждают эффективность нашего подхода в снижении загрязнения. Кроме того, результаты нашей оценки демонстрируют сильную линейную корреляцию с MixEval, недавно выпущенным надежным бенчмарком, достигая коэффициента Спирмена (rho) выше 0,95. Такая высокая корреляция указывает на то, что наш метод точно раскрывает истинные возможности моделей и является надежным. Мы проводим дополнительные эксперименты, чтобы продемонстрировать универсальность нашего метода для различных бенчмарков и настроек гиперпараметров. Код: https://github.com/GaryStack/Trustworthy-Evaluation

VisCoder: Тонкая настройка крупных языковых моделей для генерации исполняемого кода визуализаций на Python
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

Jun 4

ByYuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu Chen

Крупные языковые модели (LLMs) часто испытывают трудности с задачами визуализации, такими как построение диаграмм и графиков, где успех зависит как от корректности кода, так и от визуальной семантики. Существующие наборы данных для настройки инструкций не содержат контроля на основе выполнения и предлагают ограниченную поддержку итеративной коррекции кода, что приводит к хрупкому и ненадежному созданию графиков. Мы представляем VisCode-200K, крупномасштабный набор данных для настройки инструкций, ориентированный на визуализацию и самокоррекцию на Python. Он содержит более 200 тысяч примеров из двух источников: (1) проверенный код для построения графиков из открытых репозиториев, сопряженный с инструкциями на естественном языке и визуализированными графиками; и (2) 45 тысяч многошаговых диалогов коррекции из Code-Feedback, позволяющих моделям исправлять ошибочный код с использованием обратной связи во время выполнения. Мы донастраиваем Qwen2.5-Coder-Instruct на VisCode-200K для создания VisCoder и оцениваем его на PandasPlotBench. VisCoder значительно превосходит сильные открытые базовые модели и приближается к производительности проприетарных моделей, таких как GPT-4o-mini. Мы также применяем протокол самоотладки для оценки итеративного исправления, демонстрируя преимущества обучения на основе обратной связи для генерации исполняемого и визуально точного кода.

Редактирование изображений как программы с использованием диффузионных моделей
Image Editing As Programs with Diffusion Models

Jun 4

ByYujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang

Хотя диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям, они сталкиваются с серьезными трудностями при редактировании изображений на основе инструкций. Наше исследование выявляет ключевую проблему: эти модели особенно плохо справляются с редактированием, требующим структурно несогласованных изменений, связанных с существенными преобразованиями композиции. Для устранения этого пробела мы представляем Image Editing As Programs (IEAP) — унифицированную структуру для редактирования изображений, основанную на архитектуре Diffusion Transformer (DiT). В основе IEAP лежит редукционистский подход, который разбивает сложные инструкции редактирования на последовательности атомарных операций. Каждая операция реализуется через легковесный адаптер, использующий общую основу DiT и специализированный для конкретного типа редактирования. Эти операции, управляемые агентом на основе модели обработки визуальных и языковых данных (VLM), совместно поддерживают произвольные и структурно несогласованные преобразования. Благодаря модульности и последовательности редактирования, IEAP демонстрирует устойчивую обобщаемость для широкого спектра задач — от простых корректировок до значительных структурных изменений. Многочисленные эксперименты показывают, что IEAP значительно превосходит современные методы на стандартных тестах в различных сценариях редактирования. В этих оценках наша структура обеспечивает превосходную точность и семантическую достоверность, особенно для сложных, многошаговых инструкций. Код доступен по адресу https://github.com/YujiaHu1109/IEAP.

IllumiCraft: Унифицированная диффузия геометрии и освещения для управляемой генерации видео
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation

Jun 3

ByYuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Ronald Clark, Ming-Hsuan Yang

Хотя диффузионные модели способны генерировать высококачественные и высокоразрешенные видеопоследовательности на основе текстовых или изображений, они не учитывают явные геометрические подсказки при управлении освещением сцены и визуальным внешним видом между кадрами. Для устранения этого ограничения мы предлагаем IllumiCraft — сквозную диффузионную архитектуру, принимающую три взаимодополняющих входных данных: (1) карты видео с высоким динамическим диапазоном (HDR) для детального управления освещением; (2) синтетически переосвещенные кадры с рандомизированными изменениями освещения (опционально в сочетании со статичным фоновым изображением) для предоставления подсказок по внешнему виду; и (3) треки 3D-точек, фиксирующие точную геометрическую информацию. Интегрируя подсказки по освещению, внешнему виду и геометрии в единую диффузионную архитектуру, IllumiCraft генерирует временно согласованные видео, соответствующие пользовательским запросам. Модель поддерживает переосвещение видео с учетом фона и текста, обеспечивая более высокую точность по сравнению с существующими методами контролируемой генерации видео. Страница проекта: https://yuanze-lin.me/IllumiCraft_page

Малые языковые модели — это будущее агентного искусственного интеллекта.
Small Language Models are the Future of Agentic AI

Jun 2

ByPeter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov

Крупные языковые модели (LLM) часто хвалят за их способность демонстрировать почти человеческий уровень производительности в широком спектре задач и ценят за их умение поддерживать общий диалог. Однако появление агентных систем искусственного интеллекта (ИИ) открывает множество приложений, в которых языковые модели выполняют небольшое количество специализированных задач повторяющимся образом и с минимальными вариациями. В данной работе мы утверждаем, что малые языковые модели (SLM) обладают достаточной мощностью, изначально более подходят и неизбежно более экономичны для многих применений в агентных системах, что делает их будущим агентного ИИ. Наши аргументы основаны на текущем уровне возможностей, демонстрируемых SLM, типичных архитектурах агентных систем и экономике развертывания языковых моделей. Мы также утверждаем, что в ситуациях, где важны универсальные способности к ведению диалога, гетерогенные агентные системы (т.е. системы, использующие несколько различных моделей) являются естественным выбором. Мы обсуждаем потенциальные барьеры для внедрения SLM в агентные системы и предлагаем общий алгоритм преобразования агентов с LLM в SLM. Наша позиция, сформулированная как ценностное утверждение, подчеркивает значимость операционного и экономического воздействия, которое даже частичный переход от LLM к SLM окажет на индустрию агентного ИИ. Мы стремимся стимулировать обсуждение эффективного использования ресурсов ИИ и надеемся способствовать усилиям по снижению затрат на современный ИИ. Призывая как к поддержке, так и к критике нашей позиции, мы обязуемся публиковать всю соответствующую переписку на сайте https://research.nvidia.com/labs/lpr/slm-agents.

TalkingMachines: Видео в стиле FaceTime с управлением звуком в реальном времени с использованием авторегрессивных диффузионных моделей
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Jun 3

ByChetwin Low, Weimin Wang

В данной статье мы представляем TalkingMachines — эффективный фреймворк, который преобразует предобученные модели генерации видео в аниматоры персонажей, управляемые аудио в реальном времени. TalkingMachines обеспечивает естественные разговорные взаимодействия за счет интеграции крупной языковой модели (LLM) для обработки аудио с нашей базовой моделью генерации видео. Наши основные вклады включают: (1) Адаптацию предобученной SOTA модели DiT для преобразования изображений в видео в модель генерации аватаров, управляемую аудио, с 18 миллиардами параметров; (2) Обеспечение бесконечной потоковой передачи видео без накопления ошибок за счет асимметричного дистилляции знаний из двунаправленной модели-учителя в разреженную каузальную авторегрессионную модель-ученика; (3) Разработку высокопроизводительного конвейера вывода с низкой задержкой, включающего несколько ключевых инженерных оптимизаций, таких как: (a) разделение DiT и декодера VAE на разные устройства, (b) эффективное совмещение межсетевого взаимодействия и вычислений с использованием CUDA потоков, (c) устранение избыточных перевычислений для максимизации пропускной способности генерации кадров. Демонстрационные видео доступны по ссылке — https://aaxwaz.github.io/TalkingMachines/.

Раскрытие потенциала рассуждений предварительно обученных больших языковых моделей с помощью тонкой настройки на основе критики одной задачи
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

Jun 3

ByYubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu Chen

Мы наблюдали, что мощные языковые модели, такие как Qwen-Math, MiMo и Phi-4, обладают огромным потенциалом для рассуждений, унаследованным от этапа предварительного обучения. С использованием обучения с подкреплением (RL) эти модели могут значительно улучшить свои способности в задачах, требующих рассуждений. Недавние исследования показали, что даже RL на одной задаче может раскрыть эти возможности моделей. Однако RL не только дорогостоящий, но и нестабильный процесс. Даже одноразовое RL требует сотен часов работы GPU. Это поднимает важный вопрос: существует ли более эффективный способ раскрыть потенциал рассуждений этих мощных базовых языковых моделей? В данной работе мы демонстрируем, что тонкая настройка с использованием критики (Critique Fine-Tuning, CFT) на одной задаче может эффективно раскрыть потенциал рассуждений языковых моделей. Наш метод создает данные для критики, собирая разнообразные решения, сгенерированные моделью для одной задачи, и используя модели-учителя для предоставления детальных критических замечаний. Мы проводим тонкую настройку моделей семейств Qwen и Llama, варьирующихся от 1,5 до 14 миллиардов параметров, на данных CFT и наблюдаем значительное улучшение производительности в различных задачах, требующих рассуждений. Например, всего за 5 часов обучения на GPU, модель Qwen-Math-7B-CFT демонстрирует среднее улучшение на 15% на шести математических тестах и на 16% на трех тестах логического рассуждения. Эти результаты сопоставимы или даже превосходят результаты RL, при этом требуя в 20 раз меньше вычислительных ресурсов. Абляционные исследования подтверждают устойчивость одноразовой CFT к различным задачам. Эти результаты подчеркивают одноразовую CFT как простой, универсальный и вычислительно эффективный подход к раскрытию возможностей рассуждений современных языковых моделей.

SVGenius: Оценка способностей языковых моделей в понимании, редактировании и генерации SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Jun 3

BySiqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang

Крупные языковые модели (LLM) и мультимодальные LLM продемонстрировали перспективные возможности для обработки SVG, однако существующие бенчмарки страдают от ограниченного охвата реальных сценариев, отсутствия стратификации сложности и фрагментированных парадигм оценки. Мы представляем SVGenius — всеобъемлющий бенчмарк, включающий 2 377 запросов по трем прогрессивным направлениям: понимание, редактирование и генерация. Построенный на реальных данных из 24 прикладных областей с систематической стратификацией сложности, SVGenius оценивает модели через 8 категорий задач и 18 метрик. Мы протестировали 22 популярные модели, охватывающие различные масштабы, архитектуры, парадигмы обучения и уровни доступности. Наш анализ показывает, что, хотя проприетарные модели значительно превосходят открытые аналоги, все модели демонстрируют систематическое снижение производительности с увеличением сложности, что указывает на фундаментальные ограничения текущих подходов; однако обучение с усилением рассуждений оказывается более эффективным, чем простое масштабирование, для преодоления этих ограничений, хотя передача стиля остается наиболее сложной задачей для всех типов моделей. SVGenius устанавливает первую систематическую структуру оценки для обработки SVG, предоставляя ключевые инсайты для разработки более мощных моделей векторной графики и продвижения приложений автоматизированного графического дизайна. Приложение и дополнительные материалы (включая все данные и код) доступны по адресу https://zju-real.github.io/SVGenius.

Ψ-Сэмплер: Начальное сэмплирование частиц для выравнивания вознаграждения во время вывода на основе SMC в моделях счёта
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Jun 2

ByTaehoon Yoon, Yunhong Min, Kyeongmin Yeo, Minhyuk Sung

Мы представляем Psi-Sampler — фреймворк на основе Sequential Monte Carlo (SMC), который включает начальную выборку частиц с использованием метода preconditioned Crank-Nicolson Langevin (pCNL) для эффективного согласования вознаграждения на этапе вывода с генеративной моделью на основе оценок. Согласование вознаграждения на этапе вывода с генеративными моделями на основе оценок недавно приобрело значительную популярность, что соответствует более широкому сдвигу парадигмы от предварительного обучения к оптимизации после обучения. В основе этого тренда лежит применение Sequential Monte Carlo (SMC) к процессу удаления шума. Однако существующие методы обычно инициализируют частицы из гауссовского априорного распределения, что недостаточно точно захватывает области, релевантные вознаграждению, и приводит к снижению эффективности выборки. Мы показываем, что инициализация из апостериорного распределения, учитывающего вознаграждение, значительно улучшает производительность согласования. Для обеспечения выборки из апостериорного распределения в высокоразмерных латентных пространствах мы представляем алгоритм preconditioned Crank-Nicolson Langevin (pCNL), который сочетает устойчивые к размерности предложения с динамикой, учитывающей градиенты. Этот подход позволяет эффективно и масштабируемо проводить выборку из апостериорного распределения и последовательно улучшает производительность в различных задачах согласования вознаграждения, включая генерацию изображений на основе макета, генерацию с учетом количества и генерацию с учетом эстетических предпочтений, что подтверждается нашими экспериментами.

DenseDPO: Оптимизация временных предпочтений с высокой детализацией для видео-диффузионных моделей
DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

Jun 4

ByZiyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin

Метод Direct Preference Optimization (DPO) недавно был применен в качестве посттренировочной техники для моделей диффузии текст-видео. Для получения обучающих данных аннотаторам предлагается выразить предпочтения между двумя видео, сгенерированными из независимого шума. Однако такой подход исключает детальные сравнения, и мы отмечаем, что он склоняет аннотаторов к выбору клипов с низкой динамикой, так как они часто содержат меньше визуальных артефактов. В данной работе мы представляем DenseDPO — метод, который устраняет эти недостатки за счет трех ключевых вкладов. Во-первых, мы создаем пары видео для DPO путем денойзинга искаженных копий эталонного видео. Это приводит к выравненным парам с похожими структурами движения, но различающимися в локальных деталях, что эффективно нейтрализует смещение в сторону динамики. Во-вторых, мы используем временное выравнивание для маркировки предпочтений на коротких сегментах, а не на целых клипах, что дает более плотный и точный сигнал для обучения. При использовании лишь трети размеченных данных DenseDPO значительно улучшает генерацию движения по сравнению с базовым DPO, сохраняя при этом сопоставимое качество текстового соответствия, визуального качества и временной согласованности. Наконец, мы показываем, что DenseDPO позволяет автоматизировать аннотацию предпочтений с использованием готовых Vision Language Models (VLMs): GPT точно предсказывает предпочтения на уровне сегментов, аналогично специализированным моделям оценки видео, а DenseDPO, обученный на таких метках, достигает производительности, близкой к использованию человеческих аннотаций.

LayerFlow: Унифицированная модель для генерации видео с учетом слоев
LayerFlow: A Unified Model for Layer-aware Video Generation

Jun 4

BySihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao

Мы представляем LayerFlow — унифицированное решение для генерации видео с учетом слоев. На основе промптов для каждого слоя LayerFlow создает видео для прозрачного переднего плана, чистого фона и смешанной сцены. Он также поддерживает различные варианты, такие как декомпозиция смешанного видео или генерация фона для заданного переднего плана и наоборот. Начиная с трансформера диффузии для генерации видео из текста, мы организуем видео для разных слоев как подклипы и используем слоевые эмбеддинги для различения каждого клипа и соответствующих промптов для слоев. Таким образом, мы плавно поддерживаем упомянутые варианты в одной унифицированной структуре. Из-за отсутствия высококачественных обучающих видео с разделением на слои мы разработали многоэтапную стратегию обучения, адаптированную для статических изображений с качественными слоевыми аннотациями. В частности, сначала мы обучаем модель на данных низкого качества. Затем мы настраиваем LoRA для движения, чтобы сделать модель совместимой со статичными кадрами. После этого мы обучаем LoRA для контента на смеси данных изображений с высококачественными слоевыми изображениями вместе с копированными видео данными. Во время вывода мы удаляем LoRA для движения, что позволяет генерировать плавные видео с желаемыми слоями.

TimeHC-RL: Временнáя иерархическая когнитивная обучение с подкреплением для повышения социального интеллекта больших языковых моделей
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

May 30

ByGuiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu

В последнее время крупные языковые модели (LLM) достигли значительного прогресса в областях, связанных с интеллектуальными задачами, требующими тщательного обдумывания, таких как математика и программирование. Однако улучшение когнитивного развития LLM в социальных областях, особенно с точки зрения посттренировочного подхода, остается недостаточно изученным. Учитывая, что социальный мир следует уникальной временной динамике и требует более богатого сочетания когнитивных режимов (от интуитивных реакций (Система 1) и поверхностного мышления до обдуманного мышления (Система 2)), чем математика, которая в основном опирается на когницию Системы 2 (тщательное, пошаговое рассуждение), мы представляем метод Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) для повышения социального интеллекта LLM. В наших экспериментах мы систематически исследуем улучшение социального интеллекта LLM и подтверждаем эффективность метода TimeHC-RL, сравнивая его с пятью другими посттренировочными парадигмами и двумя парадигмами вмешательства на этапе тестирования на восьми наборах данных с разнообразными паттернами. Результаты экспериментов демонстрируют превосходство предложенного нами метода TimeHC-RL по сравнению с широко используемым методом System 2 RL. Он дает 7B-модели крылья, позволяя ей конкурировать с производительностью передовых моделей, таких как DeepSeek-R1 и OpenAI-O3. Кроме того, систематическое исследование с точки зрения посттренировочных и тестовых вмешательств для улучшения социального интеллекта LLM выявило несколько ценных инсайтов.

Выпрямленное разреженное внимание
Rectified Sparse Attention

Jun 4

ByYutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei

Эффективная генерация длинных последовательностей представляет собой важную задачу для больших языковых моделей. Хотя современные методы разреженного декодирования повышают эффективность, они страдают от проблемы несоответствия кэша ключей и значений (KV cache misalignment), где ошибки аппроксимации накапливаются и ухудшают качество генерации. В данной работе мы предлагаем метод Rectified Sparse Attention (ReSA), простой, но эффективный подход, который сочетает блочно-разреженное внимание с периодической плотной коррекцией. Обновляя кэш ключей и значений через фиксированные интервалы с использованием плотного прямого прохода, ReSA ограничивает накопление ошибок и сохраняет соответствие распределению, полученному при предварительном обучении. Эксперименты в задачах математического рассуждения, языкового моделирования и поиска демонстрируют, что ReSA достигает почти без потерь качества генерации при значительном повышении эффективности. В частности, ReSA обеспечивает ускорение до 2,42 раза при декодировании последовательностей длиной 256K, что делает его практичным решением для масштабируемого вывода в длинных контекстах. Код доступен по адресу https://aka.ms/ReSA-LM.

Orak: Базовый эталон для обучения и оценки агентов на основе больших языковых моделей в разнообразных видеоиграх
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

Jun 4

ByDongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho

Крупные языковые модели (LLM) трансформируют игровую индустрию, особенно в плане создания более интеллектуальных и предпочтительных для человека игровых персонажей. Однако существующие игровые бенчмарки не соответствуют практическим потребностям: они не оценивают разнообразные возможности LLM в различных игровых жанрах, не изучают агентные модули, критически важные для сложного геймплея, и не предоставляют наборов данных для тонкой настройки предварительно обученных LLM в игровых агентов. Чтобы устранить эти пробелы, мы представляем \benchname{}, фундаментальный бенчмарк, разработанный для обучения и оценки LLM-агентов в разнообразных реальных видеоиграх. В отличие от существующих бенчмарков, Orak включает 12 популярных видеоигр, охватывающих все основные жанры, что позволяет проводить всесторонние исследования возможностей LLM и агентных модулей, необходимых для сложных игровых сценариев. Для обеспечения последовательной оценки LLM мы представляем plug-and-play интерфейс на основе Model Context Protocol (MCP), который позволяет LLM легко подключаться к играм и управлять агентными модулями. Кроме того, мы предлагаем набор данных для тонкой настройки, состоящий из траекторий игрового процесса LLM в различных игровых жанрах. Orak предлагает комплексную систему оценки, включающую таблицы лидеров по общему игровому счету, арены для сражений LLM и углубленный анализ визуального входного состояния, агентных стратегий и эффектов тонкой настройки, закладывая основу для создания универсальных игровых агентов. Код доступен по адресу https://github.com/krafton-ai/Orak.

CapSpeech: Включение последующих приложений в синтез речи с учетом стиля в текстовых описаниях
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech

Jun 3

ByHelin Wang, Jiarui Hai, Dading Chong, Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak

Последние достижения в области генеративного искусственного интеллекта значительно преобразовали сферу синтеза речи с описанием стиля (CapTTS). Однако адаптация CapTTS к реальным приложениям остается сложной задачей из-за отсутствия стандартизированных, всеобъемлющих наборов данных и ограниченных исследований по задачам, основанным на CapTTS. Для устранения этих пробелов мы представляем CapSpeech — новый эталонный набор данных, разработанный для серии задач, связанных с CapTTS, включая синтез речи с описанием стиля и звуковых событий (CapTTS-SE), синтез речи с описанием акцента (AccCapTTS), синтез речи с описанием эмоций (EmoCapTTS) и синтез речи для чат-агентов (AgentTTS). CapSpeech включает более 10 миллионов машинно-аннотированных пар аудио-описание и почти 0,36 миллиона человечески-аннотированных пар аудио-описание. Кроме того, мы представляем два новых набора данных, собранных и записанных профессиональным актером озвучивания и опытными звукорежиссерами, специально для задач AgentTTS и CapTTS-SE. Наряду с наборами данных мы проводим всесторонние эксперименты с использованием как авторегрессивных, так и неавторегрессивных моделей на CapSpeech. Наши результаты демонстрируют синтез речи высокой четкости и разборчивости в широком диапазоне стилей речи. Насколько нам известно, CapSpeech является крупнейшим доступным набором данных, предлагающим всеобъемлющие аннотации для задач, связанных с CapTTS. Эксперименты и выводы также предоставляют ценные инсайты в разработку систем CapTTS.

За пределами поверхности: измерение самопредпочтения в суждениях языковых моделей
Beyond the Surface: Measuring Self-Preference in LLM Judgments

Jun 3

ByZhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin

Недавние исследования показывают, что крупные языковые модели (LLM) демонстрируют предвзятость в пользу собственных ответов, когда выступают в роли судей, то есть они склонны отдавать предпочтение своим ответам перед ответами, сгенерированными другими моделями. Существующие методы обычно измеряют эту предвзятость, вычисляя разницу между оценками, которые модель-судья присваивает своим собственным ответам, и теми, которые она присваивает ответам других моделей. Однако такой подход смешивает предвзятость в пользу собственных ответов с качеством ответов, поскольку более качественные ответы модели-судьи также могут приводить к положительным различиям в оценках, даже при отсутствии предвзятости. Чтобы решить эту проблему, мы вводим эталонные оценки (gold judgments) в качестве прокси для фактического качества ответов и предлагаем показатель DBG, который измеряет предвзятость в пользу собственных ответов как разницу между оценками, присвоенными моделью-судьей своим ответам, и соответствующими эталонными оценками. Поскольку эталонные оценки отражают истинное качество ответов, показатель DBG снижает влияние качества ответов на измерение предвзятости. Используя показатель DBG, мы проводим всесторонние эксперименты для оценки предвзятости в пользу собственных ответов у LLM различных версий, размеров и способностей к рассуждению. Кроме того, мы исследуем два фактора, которые влияют на эту предвзятость и помогают её смягчить: стиль текста ответов и данные пост-обучения моделей-судей. Наконец, мы исследуем потенциальные механизмы, лежащие в основе предвзятости в пользу собственных ответов, с точки зрения внимания. Наш код и данные доступны по адресу https://github.com/zhiyuanc2001/self-preference.

BenchHub: Унифицированный набор тестов для комплексной и настраиваемой оценки языковых моделей (LLM)
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31

ByEunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh

По мере того как крупные языковые модели (LLM) продолжают развиваться, необходимость в актуальных и хорошо организованных бенчмарках становится все более критичной. Однако многие существующие наборы данных разрознены, сложны в управлении и затрудняют проведение оценок, адаптированных под конкретные потребности или области, несмотря на растущую важность моделей, ориентированных на конкретные области, такие как математика или программирование. В данной статье мы представляем BenchHub — динамический репозиторий бенчмарков, который позволяет исследователям и разработчикам более эффективно оценивать LLM. BenchHub агрегирует и автоматически классифицирует наборы данных для бенчмарков из различных областей, интегрируя 303 тысячи вопросов из 38 бенчмарков. Он разработан для поддержки непрерывных обновлений и масштабируемого управления данными, что позволяет проводить гибкую и настраиваемую оценку, адаптированную под различные области или сценарии использования. В ходе обширных экспериментов с различными семействами LLM мы демонстрируем, что производительность моделей значительно варьируется в зависимости от предметно-ориентированных подмножеств, подчеркивая важность бенчмаркинга с учетом предметной области. Мы считаем, что BenchHub может способствовать более эффективному повторному использованию наборов данных, более прозрачному сравнению моделей и более легкому выявлению недостаточно представленных областей в существующих бенчмарках, предлагая критически важную инфраструктуру для продвижения исследований в области оценки LLM.

DiffDecompose: Послойная декомпозиция альфа-композитных изображений с использованием трансформеров на основе диффузии
DiffDecompose: Layer-Wise Decomposition of Alpha-Composited Images via Diffusion Transformers

May 24

ByZitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song

Диффузионные модели недавно добились значительных успехов во многих задачах генерации, таких как удаление объектов. Тем не менее, существующие методы декомпозиции изображений сталкиваются с трудностями при разделении полупрозрачных или прозрачных слоев из-за зависимостей от масок, предположений о статичности объектов и отсутствия подходящих наборов данных. В данной статье мы исследуем новую задачу: послойную декомпозицию альфа-композитных изображений, направленную на восстановление составляющих слоев из единого перекрытого изображения в условиях нелинейного перекрытия полупрозрачных/прозрачных альфа-слоев. Для решения проблем неоднозначности слоев, обобщаемости и недостатка данных мы сначала представляем AlphaBlend — первый крупномасштабный и высококачественный набор данных для декомпозиции прозрачных и полупрозрачных слоев, поддерживающий шесть реальных подзадач (например, удаление полупрозрачных бликов, декомпозиция полупрозрачных клеток, декомпозиция стеклянных изделий). На основе этого набора данных мы предлагаем DiffDecompose — фреймворк на основе диффузионных трансформеров, который изучает апостериорное распределение возможных декомпозиций слоев, обусловленных входным изображением, семантическими подсказками и типом смешивания. Вместо прямого регрессирования альфа-масок DiffDecompose выполняет декомпозицию в контексте, позволяя модели предсказывать один или несколько слоев без пошагового контроля, а также вводит клонирование позиционного кодирования слоев для сохранения пиксельной соответственности между слоями. Эксперименты на предложенном наборе данных AlphaBlend и публичном наборе LOGO подтверждают эффективность DiffDecompose. Код и набор данных будут доступны после принятия статьи. Наш код будет доступен по адресу: https://github.com/Wangzt1121/DiffDecompose.

Critique-GRPO: Усовершенствование логического мышления больших языковых моделей с использованием обратной связи на естественном языке и числовых данных
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

Jun 3

ByXiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Последние достижения в области обучения с подкреплением (RL) с числовой обратной связью, такой как скалярные награды, значительно улучшили способности крупных языковых моделей (LLM) к сложным рассуждениям. Однако, несмотря на эти успехи, мы выделяем три ключевые проблемы, с которыми сталкивается RL при использовании исключительно числовой обратной связи: плато производительности, ограниченная эффективность саморефлексии и устойчивые ошибки. Мы показываем, что модели, дообученные с помощью RL, даже после достижения плато производительности, могут генерировать корректные улучшения для задач с устойчивыми ошибками, используя обратную связь в виде критики на естественном языке. На основе этого наблюдения мы предлагаем Critique-GRPO — онлайн-фреймворк RL, который интегрирует как естественно-языковую, так и числовую обратную связь для эффективной оптимизации политик. Critique-GRPO позволяет LLM одновременно обучаться на начальных ответах и улучшениях, направляемых критикой, сохраняя при этом исследовательскую активность. Эксперименты с использованием моделей Qwen2.5-7B-Base и Qwen3-8B-Base демонстрируют, что Critique-GRPO стабильно превосходит подходы, основанные на обучении с учителем и RL, в восьми сложных задачах из области математики, STEM и общего рассуждения, улучшая средние показатели pass@1 примерно на 4,5% и 5% соответственно. Примечательно, что Critique-GRPO превосходит сильный базовый подход, включающий экспертные демонстрации в рамках онлайн RL. Дополнительный анализ выявляет два важных аспекта исследования политик: (1) более высокая энтропия не всегда гарантирует эффективное обучение через исследование, и (2) более длинные ответы не обязательно приводят к более эффективному исследованию.

Video-Skill-CoT: Цепочка рассуждений на основе навыков для адаптивного к домену анализа видео
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

Jun 4

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

Недавние достижения в области цепочечного рассуждения (Chain-of-Thought, CoT) улучшили понимание сложных видеоматериалов, однако существующие методы часто испытывают трудности с адаптацией к доменно-специфическим навыкам (например, обнаружение событий, понимание пространственных отношений, распознавание эмоций) в различных типах видео. Для решения этой проблемы мы предлагаем Video-Skill-CoT (также известный как Video-SKoT) — фреймворк, который автоматически создает и использует CoT-обучение, учитывающее навыки, для адаптивного видеорешения. Во-первых, мы создаем аннотации CoT на основе навыков: извлекаем доменно-релевантные навыки рассуждения из обучающих вопросов, группируем их в общую таксономию навыков и формируем детальные многошаговые обоснования CoT, адаптированные для каждой пары видео-вопрос для обучения. Во-вторых, мы представляем фреймворк экспертного обучения, ориентированного на навыки. Каждый модуль эксперта специализируется на подмножестве навыков рассуждения и обучается с использованием легковесных адаптеров на основе собранных CoT-аннотаций. Мы демонстрируем эффективность предложенного подхода на трех бенчмарках для понимания видео, где Video-SKoT стабильно превосходит сильные базовые методы. Также мы проводим углубленный анализ, сравнивая различные подходы к созданию CoT-аннотаций и изученные навыки в нескольких видеодоменах.

Устойчивость в обеих областях: CLIP требует устойчивого текстового кодировщика
Robustness in Both Domains: CLIP Needs a Robust Text Encoder

Jun 3

ByElias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher

Атаки с использованием враждебных входных данных могут вызывать значительное смещение эмбеддингов CLIP. Это может повлиять на устойчивость моделей, использующих CLIP в своих конвейерах, таких как генеративные модели для преобразования текста в изображения или крупные мультимодальные модели, работающие с текстом и изображениями. Хотя были предприняты усилия для повышения устойчивости кодировщиков изображений CLIP, устойчивость текстовых кодировщиков остается малоизученной. В данной работе мы восполняем этот пробел в литературе. Мы предлагаем LEAF: эффективный метод дообучения для текстовой области, способный масштабироваться на крупные модели CLIP. Наши модели значительно улучшают точность в условиях враждебного шума в текстовой области, сохраняя при этом производительность в области изображений, обеспечиваемую устойчивыми кодировщиками изображений. При использовании в сочетании с диффузионными моделями для генерации изображений из текста мы улучшаем качество генерации в условиях враждебного шума. При применении наших устойчивых кодировщиков CLIP в задачах мультимодального поиска мы повышаем полноту в условиях враждебного шума по сравнению со стандартными моделями CLIP. Наконец, мы показываем, что устойчивые текстовые кодировщики способствуют более точному восстановлению входного текста из его эмбеддинга с помощью прямой оптимизации.

Улучшение дистилляции знаний при неизвестном ковариатном сдвиге с помощью дополнения данных, управляемого уверенностью
Improving Knowledge Distillation Under Unknown Covariate Shift Through Confidence-Guided Data Augmentation

Jun 2

ByNiclas Popp, Kevin Alexander Laube, Matthias Hein, Lukas Schott

Крупные базовые модели, обученные на обширных наборах данных, демонстрируют мощные возможности в задачах zero-shot в различных областях. Чтобы повторить их успех в условиях ограниченных данных и размера модели, дистилляция знаний стала устоявшимся инструментом для передачи знаний от базовых моделей к небольшим студенческим сетям. Однако эффективность дистилляции существенно ограничивается доступными обучающими данными. В данной работе рассматривается распространённая практическая проблема ковариационного сдвига в дистилляции знаний, когда в процессе обучения появляются ложные признаки, которые отсутствуют во время тестирования. Мы задаёмся вопросом: если эти ложные признаки неизвестны, но доступен устойчивый учитель, может ли студент также стать устойчивым к ним? Мы решаем эту проблему, предлагая новую стратегию аугментации данных на основе диффузии, которая генерирует изображения, максимизируя расхождение между учителем и студентом, тем самым создавая сложные примеры, с которыми студент испытывает трудности. Эксперименты показывают, что наш подход значительно улучшает точность в наихудшей и средней группах на наборах данных CelebA и SpuCo Birds, а также spurious mAUC на spurious ImageNet при ковариационном сдвиге, превосходя современные базовые методы аугментации данных на основе диффузии.

POSS: Специалист по позициям создает более качественный черновик для спекулятивного декодирования
POSS: Position Specialist Generates Better Draft for Speculative Decoding

Jun 4

ByLanglin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang

Спекулятивное декодирование ускоряет вывод в больших языковых моделях (LLM) за счет использования небольшой черновой модели для предсказания нескольких токенов и крупной целевой модели для их параллельной проверки. Недавние исследования используют скрытое состояние целевой модели для повышения точности предсказаний черновой модели. Однако существующие методы страдают от снижения качества предсказаний токенов на более поздних позициях из-за накопления ошибок в признаках, генерируемых черновой моделью. В данной статье мы предлагаем подход Position Specialists (PosS), который включает несколько специализированных слоев черновой модели для генерации токенов на назначенных позициях. Специалисты по позициям значительно повышают уровень принятия токенов на более поздних позициях за каждый раунд чернового прогнозирования, так как каждый специалист сосредоточен на обработке определенного уровня отклонений признаков черновой модели. Результаты экспериментов на моделях Llama-3-8B-Instruct и Llama-2-13B-chat на шести наборах данных демонстрируют, что PosS эффективно улучшает базовые показатели по средней длине принятия и коэффициенту ускорения. Наш код доступен по адресу https://github.com/shrango/PosS.

Количественные оценки языковых моделей
Quantitative LLM Judges

Jun 3

ByAishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton

LLM-as-a-judge — это фреймворк, в котором большая языковая модель (LLM) автоматически оценивает выходные данные другой LLM. Мы предлагаем количественных судей на основе LLM, которые согласуют оценки существующих судей-LLM с человеческими оценками в заданной области с использованием регрессионных моделей. Эти модели обучаются для улучшения оценки исходного судьи, используя текстовую оценку и балл судьи. Мы представляем четырех количественных судей для различных типов абсолютной и относительной обратной связи, что демонстрирует универсальность и гибкость нашего фреймворка. Наш фреймворк более вычислительно эффективен, чем контролируемое тонкое настройка, и может быть более статистически эффективным при ограниченном объеме человеческой обратной связи, что ожидается в большинстве приложений нашей работы. Мы эмпирически подтверждаем эти утверждения на четырех наборах данных с использованием двух базовых судей. Наши эксперименты показывают, что количественные судьи могут эффективно улучшать предсказательную способность существующих судей посредством пост-обработки моделей.

Следуйте потоку: Точное определение авторства блок-схем с помощью нейросимволических агентов
Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents

Jun 2

ByManan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Vivek Gupta, Dinesh Manocha

Блок-схемы являются важным инструментом для визуализации процессов принятия решений. Однако их нелинейная структура и сложные визуально-текстовые взаимосвязи затрудняют их интерпретацию с использованием языковых моделей (LLM), так как модели, работающие с визуальными и текстовыми данными, часто генерируют несуществующие связи и пути решений при анализе таких диаграмм. Это снижает надежность автоматизированной обработки блок-схем в критически важных областях, таких как логистика, здравоохранение и инженерия. Мы представляем задачу тонкой атрибуции блок-схем, которая отслеживает конкретные компоненты, на которых основываются ответы LLM, ссылающиеся на блок-схему. Атрибуция блок-схем обеспечивает проверяемость предсказаний LLM и повышает объяснимость, связывая сгенерированные ответы со структурой блок-схемы. Мы предлагаем FlowPathAgent, нейросимволический агент, который выполняет тонкую апостериорную атрибуцию с помощью графового рассуждения. Сначала он сегментирует блок-схему, затем преобразует её в структурированный символический граф и использует агентный подход для динамического взаимодействия с графом с целью генерации путей атрибуции. Кроме того, мы представляем FlowExplainBench, новый эталонный набор данных для оценки атрибуции блок-схем в различных стилях, областях и типах вопросов. Экспериментальные результаты показывают, что FlowPathAgent снижает визуальные галлюцинации в ответах LLM на вопросы по блок-схемам, превосходя сильные базовые модели на 10–14% на нашем предложенном наборе данных FlowExplainBench.

Адаптация перед непрерывным обучением
Adapt before Continual Learning

Jun 4

ByAojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun

Непрерывное обучение (Continual Learning, CL) направлено на то, чтобы нейронные сети могли постепенно приобретать новые знания (пластичность), сохраняя при этом уже имеющиеся (стабильность). Хотя предварительно обученные модели (Pre-trained Models, PTMs) стали ключевым элементом в CL, преобладающие подходы замораживают основу PTM для сохранения стабильности, что ограничивает их пластичность, особенно при столкновении с существенными различиями в доменах в инкрементных задачах. С другой стороны, последовательная донастройка всей PTM рискует привести к катастрофическому забыванию обобщаемых знаний, что подчеркивает критический компромисс между стабильностью и пластичностью. Для решения этой проблемы мы предлагаем адаптацию PTM перед основным процессом CL (Adapting PTMs before the core CL process, ACL) — новый фреймворк, который улучшает основу PTM через фазу адаптации по принципу "подключи и работай" перед изучением каждой новой задачи с использованием существующих подходов CL (например, настройки промптов). ACL повышает пластичность, выравнивая эмбеддинги с их оригинальными прототипами классов и удаляя их от других, что, как показано теоретически и эмпирически, позволяет сбалансировать стабильность и пластичность. Многочисленные эксперименты демонстрируют, что ACL значительно улучшает производительность CL на различных бенчмарках и интегрированных методах, предлагая универсальное решение для CL на основе PTM.

HTSC-2025: Эталонный набор данных высокотемпературных сверхпроводников при атмосферном давлении для прогнозирования критической температуры с использованием искусственного интеллекта
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction

Jun 4

ByXiao-Qi Han, Ze-Feng Gao, Xin-De Wang, Zhenfeng Ouyang, Peng-Jie Guo, Zhong-Yi Lu

Открытие высокотемпературных сверхпроводящих материалов имеет огромное значение для промышленности и повседневной жизни человека. В последние годы исследования, направленные на прогнозирование температур сверхпроводящего перехода с использованием искусственного интеллекта (ИИ), приобрели популярность, причем большинство таких инструментов заявляют о достижении высокой точности. Однако отсутствие общепринятых эталонных наборов данных в этой области серьезно затрудняет справедливое сравнение различных алгоритмов ИИ и препятствует дальнейшему развитию этих методов. В данной работе мы представляем HTSC-2025 — эталонный набор данных по высокотемпературным сверхпроводникам при атмосферном давлении. Этот всеобъемлющий сборник включает теоретически предсказанные сверхпроводящие материалы, обнаруженные теоретическими физиками в период с 2023 по 2025 год на основе теории сверхпроводимости БКШ, включая известную систему X_2YH_6, перовскитную систему MXH_3, систему M_3XH_8, каркасные системы с легированием металлических атомов BCN, полученные в результате структурной эволюции LaH_{10}, а также двумерные системы с гексагональной структурой, развивающиеся из MgB_2. Эталонный набор HTSC-2025 был опубликован в открытом доступе по адресу https://github.com/xqh19970407/HTSC-2025 и будет постоянно обновляться. Этот эталон имеет важное значение для ускорения открытия сверхпроводящих материалов с использованием методов на основе ИИ.

DLP: Динамическое послойное прореживание в крупных языковых моделях
DLP: Dynamic Layerwise Pruning in Large Language Models

May 27

ByYuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang

Обрезка (pruning) в последнее время широко применяется для уменьшения масштаба параметров и повышения эффективности вывода крупных языковых моделей (LLM). Основные методы обрезки часто полагаются на унифицированные послойные стратегии, что может приводить к значительному ухудшению производительности при высоких уровнях разреженности. Учитывая различный вклад разных слоев в LLM, современные исследования сместили фокус на неоднородную послойную обрезку. Однако эти подходы часто основываются на заранее заданных значениях, что может приводить к неоптимальной производительности. Чтобы преодолеть эти ограничения, мы предлагаем новый метод, называемый Динамической Послойной Обрезкой (Dynamic Layerwise Pruning, DLP). Этот подход адаптивно определяет относительную важность каждого слоя, интегрируя веса модели с информацией об активациях входных данных, и назначает соответствующие коэффициенты обрезки. Экспериментальные результаты показывают, что DLP эффективно сохраняет производительность модели при высоких уровнях разреженности для различных LLM. В частности, при 70% разреженности DLP снижает перплексию модели LLaMA2-7B на 7,79 и повышает среднюю точность на 2,7% по сравнению с современными методами. Более того, DLP совместима с различными существующими методами сжатия LLM и может быть легко интегрирована в параметрически эффективную тонкую настройку (Parameter-Efficient Fine-Tuning, PEFT). Мы публикуем код по адресу https://github.com/ironartisan/DLP для содействия дальнейшим исследованиям.

RefEdit: Бенчмарк и метод для улучшения моделей редактирования изображений на основе инструкций с использованием референциальных выражений
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions

Jun 3

ByBimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral

Несмотря на недавние достижения в области инверсии и редактирования изображений на основе инструкций, существующие подходы в основном преуспевают в редактировании отдельных, заметных объектов, но значительно затрудняются при работе со сложными сценами, содержащими множество объектов. Чтобы количественно оценить этот разрыв, мы сначала представляем RefEdit-Bench — строгий бенчмарк, основанный на реальных данных из RefCOCO, где даже базовые модели, обученные на миллионах образцов, показывают низкие результаты. Чтобы преодолеть это ограничение, мы представляем RefEdit — модель редактирования на основе инструкций, обученную на нашем масштабируемом конвейере генерации синтетических данных. Наша модель RefEdit, обученная всего на 20 000 тройках редактирования, превосходит базовые модели на основе Flux/SD3, обученные на миллионах данных. Обширные оценки на различных бенчмарках демонстрируют, что наша модель не только преуспевает в задачах, связанных с референциальными выражениями, но также улучшает производительность на традиционных бенчмарках, достигая результатов, сопоставимых с закрытыми методами. Мы публикуем данные и контрольные точки для обеспечения воспроизводимости.

Раскрытие потенциала обучения на часовых видео для понимания длинных видео-текстовых последовательностей
Unleashing Hour-Scale Video Training for Long Video-Language Understanding

Jun 5

ByJingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum

Недавние бенчмарки для понимания длинных видео и текста стимулировали прогресс в области крупных мультимодальных моделей для видео (Video-LMMs). Однако недостаток хорошо аннотированных длинных видео оставил обучение моделей для часовых видео (Video-LLMs) недостаточно изученным. Чтобы устранить этот пробел, мы представляем VideoMarathon — масштабный набор данных для выполнения инструкций на основе часовых видео. Этот набор включает около 9 700 часов длинных видео из различных областей, продолжительностью от 3 до 60 минут на видео. В частности, он содержит 3,3 миллиона высококачественных пар вопросов и ответов, охватывающих шесть основных тем: временные аспекты, пространственные характеристики, объекты, действия, сцены и события. По сравнению с существующими наборами данных для видеоинструкций, VideoMarathon значительно увеличивает продолжительность обучающих видео до 1 часа и поддерживает 22 разнообразных задачи, требующих как краткосрочного, так и долгосрочного понимания видео. На основе VideoMarathon мы предлагаем Hour-LLaVA — мощную и эффективную Video-LMM для моделирования видео и текста на часовом масштабе. Она позволяет обучаться и выполнять вывод на часовых видео с частотой 1 кадр в секунду благодаря модулю расширения памяти, который адаптивно интегрирует семантику, релевантную вопросам пользователя и информативную в пространственно-временном контексте, из кэшированного полного видео. В наших экспериментах Hour-LLaVA демонстрирует наилучшие результаты на нескольких бенчмарках для длинных видео и текста, что подтверждает высокое качество набора данных VideoMarathon и превосходство модели Hour-LLaVA.

TRiSM для агентного ИИ: Обзор управления доверием, рисками и безопасностью в мультиагентных системах на основе языковых моделей с агентной архитектурой
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems

Jun 4

ByShaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis

Агентные системы ИИ, построенные на основе крупных языковых моделей (LLM) и развернутые в мультиагентных конфигурациях, переопределяют интеллектуальную автономию, сотрудничество и принятие решений в корпоративных и социальных сферах. В данном обзоре представлен структурированный анализ управления доверием, рисками и безопасностью (TRiSM) в контексте агентных мультиагентных систем (AMAS), основанных на LLM. Мы начинаем с изучения концептуальных основ агентного ИИ, его архитектурных отличий от традиционных агентов ИИ и новых системных решений, обеспечивающих масштабируемую автономию с использованием инструментов. TRiSM в рамках агентного ИИ подробно рассматривается через четыре столпа: управление, объяснимость, ModelOps и конфиденциальность/безопасность, каждый из которых адаптирован для агентных LLM. Мы определяем уникальные векторы угроз и представляем всеобъемлющую таксономию рисков для приложений агентного ИИ, подкрепленную кейсами, иллюстрирующими реальные уязвимости. Кроме того, в статье исследуются механизмы построения доверия, методы обеспечения прозрачности и контроля, а также современные стратегии объяснимости в распределенных системах агентов LLM. Также рассматриваются метрики для оценки доверия, интерпретируемости и ориентированной на человека производительности, наряду с открытыми задачами бенчмаркинга. Безопасность и конфиденциальность рассматриваются через призму шифрования, защиты от атак и соответствия развивающимся нормативным требованиям в области ИИ. Статья завершается дорожной картой для ответственного агентного ИИ, предлагая направления исследований для согласования новых мультиагентных систем с надежными принципами TRiSM для безопасного, подотчетного и прозрачного внедрения.

Оптимизация политики на уровне сегментов: эффективное распределение кредитов на уровне сегментов в обучении с подкреплением для больших языковых моделей
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

May 29

ByYiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu

Повышение способности крупных языковых моделей к рассуждению с использованием обучения с подкреплением (RL) остается важной задачей. Существующие подходы в основном используют два контрастных уровня оценки преимуществ: методы на уровне токенов (например, PPO) направлены на предоставление детализированных сигналов преимуществ, но страдают от неточной оценки из-за сложностей в обучении точной модели критика. На другом конце спектра, методы на уровне траекторий (например, GRPO) полагаются исключительно на грубый сигнал преимуществ, основанный на финальной награде, что приводит к неточному распределению заслуг. Для устранения этих ограничений мы предлагаем Segment Policy Optimization (SPO), новый RL-фреймворк, который использует оценку преимуществ на уровне сегментов с промежуточной детализацией, достигая лучшего баланса за счет более точного распределения заслуг по сравнению с методами на уровне траекторий и меньшего количества точек оценки по сравнению с методами на уровне токенов, что позволяет проводить точную оценку преимуществ на основе метода Монте-Карло (MC) без модели критика. SPO включает три компонента с новыми стратегиями: (1) гибкое разделение на сегменты; (2) точная оценка преимуществ сегментов; и (3) оптимизация политики с использованием преимуществ сегментов, включая новую стратегию маскирования вероятностей. Мы также реализуем SPO для двух конкретных сценариев: (1) SPO-chain для коротких цепочек рассуждений (CoT), с использованием нового разделения на основе точек разрыва и оценки преимуществ на основе цепочек, что приводит к улучшению точности на 6-12 процентных пунктов по сравнению с PPO и GRPO на GSM8K. (2) SPO-tree для длинных CoT, с использованием новой оценки преимуществ на основе деревьев, что значительно снижает затраты на оценку MC, обеспечивая улучшение точности на 7-11 процентных пунктов по сравнению с GRPO на MATH500 при оценке в контекстах 2K и 4K. Наш код доступен по адресу https://github.com/AIFrameResearch/SPO.

Переосмысление компромисса между стабильностью и пластичностью в непрерывном обучении с архитектурной точки зрения
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

Jun 4

ByAojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun

Стремление к непрерывному обучению (Continual Learning, CL) направлено на наделение нейронных сетей способностью обучаться и адаптироваться постепенно. Ключевым аспектом этого стремления является решение дилеммы стабильности и пластичности, которая заключается в поиске баланса между двумя противоречивыми целями: сохранением ранее усвоенных знаний и приобретением новых. Хотя многочисленные методы CL направлены на достижение этого компромисса, они часто упускают из виду влияние архитектуры сети на стабильность и пластичность, ограничивая компромисс уровнем параметров. В данной статье мы исследуем конфликт между стабильностью и пластичностью на архитектурном уровне. Мы показываем, что при равном ограничении на количество параметров более глубокие сети демонстрируют лучшую пластичность, тогда как более широкие сети характеризуются превосходной стабильностью. Для решения этой дилеммы на архитектурном уровне мы представляем новый фреймворк под названием Dual-Arch, который служит подключаемым компонентом для CL. Этот фреймворк использует комплементарные преимущества двух различных и независимых сетей: одна ориентирована на пластичность, а другая — на стабильность. Каждая сеть разработана с учетом специализированной и легковесной архитектуры, адаптированной под соответствующую цель. Многочисленные эксперименты демонстрируют, что Dual-Arch улучшает производительность существующих методов CL, при этом сокращая количество параметров до 87%.

CRAWLDoc: Набор данных для устойчивого ранжирования библиографических документов
CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents

Jun 4

ByFabian Karl, Ansgar Scherp

Базы данных публикаций зависят от точного извлечения метаданных из различных веб-источников, однако различия в макетах веб-страниц и форматах данных создают сложности для поставщиков метаданных. В данной статье представлен CRAWLDoc — новый метод контекстного ранжирования связанных веб-документов. Начиная с URL публикации, такого как цифровой идентификатор объекта, CRAWLDoc извлекает целевую страницу и все связанные веб-ресурсы, включая PDF-файлы, профили ORCID и дополнительные материалы. Он объединяет эти ресурсы вместе с текстами ссылок и URL в единое представление. Для оценки CRAWLDoc мы создали новый, вручную размеченный набор данных, содержащий 600 публикаций от шести ведущих издателей в области компьютерных наук. Наш метод CRAWLDoc демонстрирует устойчивое и независимое от макета ранжирование релевантных документов для различных издателей и форматов данных. Он закладывает основу для улучшенного извлечения метаданных из веб-документов с различными макетами и форматами. Наш исходный код и набор данных доступны по адресу https://github.com/FKarl/CRAWLDoc.

Устойчивый нейронный рендеринг в реальных условиях с использованием асимметричного двойного 3D-гауссовского сплатинга
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

Jun 4

ByChengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu

3D-реконструкция по изображениям, полученным в естественных условиях, остается сложной задачей из-за нестабильных условий освещения и временных помех. Существующие методы обычно полагаются на эвристические стратегии для обработки низкокачественных обучающих данных, что часто приводит к нестабильным и несогласованным реконструкциям, сопровождающимся визуальными артефактами. В данной работе мы предлагаем Asymmetric Dual 3DGS — новый фреймворк, который использует стохастическую природу этих артефактов: они имеют тенденцию варьироваться в разных запусках обучения из-за незначительной случайности. В частности, наш метод обучает две модели 3D Gaussian Splatting (3DGS) параллельно, применяя ограничение согласованности, которое способствует сходимости к надежной геометрии сцены, подавляя при этом несогласованные артефакты. Чтобы предотвратить схождение двух моделей в схожие режимы сбоя из-за предвзятости подтверждения, мы вводим стратегию дивергентного маскирования, которая применяет две взаимодополняющие маски: адаптивную маску на основе множества признаков и самообучаемую мягкую маску. Это приводит к асимметричному процессу обучения двух моделей, уменьшая общие ошибки. Кроме того, для повышения эффективности обучения модели мы предлагаем облегченный вариант под названием Dynamic EMA Proxy, который заменяет одну из двух моделей динамически обновляемым прокси-экспоненциальным скользящим средним (EMA) и использует чередующуюся стратегию маскирования для сохранения дивергенции. Эксперименты на сложных наборах реальных данных демонстрируют, что наш метод стабильно превосходит существующие подходы, достигая высокой эффективности. Коды и обученные модели будут опубликованы.

Rex-Thinker: Основанное на объектах указание через цепочку рассуждений
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

Jun 4

ByQing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang

Задача ссылания на объекты заключается в обнаружении всех объектов на изображении, которые соответствуют заданному описанию на естественном языке. Мы утверждаем, что надежная модель для ссылания на объекты должна быть обоснованной, то есть её предсказания должны быть как объяснимыми, так и соответствующими визуальному содержанию. В частности, она должна удовлетворять двум ключевым свойствам: 1) **Проверяемость** — модель должна предоставлять интерпретируемое обоснование, которое подтверждает её предсказания и явно связывает их с визуальными доказательствами; 2) **Достоверность** — модель должна уметь воздерживаться от предсказаний, если в изображении нет объекта, соответствующего заданному описанию. Однако большинство методов рассматривают ссылание как задачу прямого предсказания ограничивающих рамок, что ограничивает интерпретируемость и затрудняет отклонение описаний, не имеющих соответствия в изображении. В данной работе мы предлагаем модель **Rex-Thinker**, которая формулирует задачу ссылания на объекты как явную задачу рассуждения по цепочке мыслей (CoT). Для заданного описания сначала идентифицируются все кандидаты на объекты, соответствующие указанной категории. Затем Rex-Thinker выполняет пошаговое рассуждение для каждого кандидата, чтобы оценить, соответствует ли он заданному описанию, прежде чем сделать окончательное предсказание. Для поддержки этого подхода мы создаем крупномасштабный набор данных в стиле CoT под названием **HumanRef-CoT**, используя GPT-4o для генерации на основе набора данных HumanRef. Каждый след рассуждения следует структурированному формату планирования, действия и обобщения, что позволяет модели изучать декомпозированное и интерпретируемое рассуждение для кандидатов на объекты. Мы обучаем Rex-Thinker в два этапа: начальная фаза контролируемого тонкого настройки для обучения модели структурированному рассуждению, за которой следует обучение с подкреплением на основе GRPO для повышения точности и обобщаемости. Эксперименты показывают, что наш подход превосходит стандартные базовые методы как по точности, так и по интерпретируемости при оценке в рамках домена, а также демонстрирует улучшенную способность отклонять ошибочные предсказания и сильную обобщаемость в условиях вне домена.

FinChain: Символический эталон для проверяемого цепочечного финансового рассуждения
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

Jun 3

ByZhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov

Многошаговое символическое рассуждение имеет ключевое значение для повышения производительности в финансовых задачах. Однако отсутствуют эталонные тесты для систематической оценки этой способности. Существующие наборы данных, такие как FinQA и ConvFinQA, контролируют только итоговые числовые ответы, не оценивая промежуточные шаги рассуждений. Чтобы устранить этот пробел, мы представляем FinChain — первый символический эталонный тест, разработанный для проверяемой цепочки рассуждений (Chain-of-Thought, CoT) в финансовой области. Охватывая 54 темы в 12 финансовых областях, FinChain предлагает пять параметризованных шаблонов для каждой темы, каждый из которых варьируется по сложности рассуждений и требуемому уровню экспертных знаний. Каждый экземпляр набора данных включает исполняемый Python-сценарий, что позволяет автоматически генерировать обширные обучающие данные и легко адаптировать их к другим областям. Мы также представляем ChainEval — новый метрический инструмент для автоматической оценки как итоговых ответов, так и промежуточных рассуждений. Проведя тестирование 30 крупных языковых моделей (LLM) на нашем наборе данных, мы обнаружили, что даже самые передовые модели имеют значительный потенциал для улучшения в области многошагового финансового рассуждения. Все шаблоны и метрики оценки для FinChain доступны по адресу: https://github.com/mbzuai-nlp/finchain.

Решение обратных задач с использованием FLAIR
Solving Inverse Problems with FLAIR

Jun 3

ByJulius Erbach, Dominik Narnhofer, Andreas Dombos, Bernt Schiele, Jan Eric Lenssen, Konrad Schindler

Потоковые латентные генеративные модели, такие как Stable Diffusion 3, способны создавать изображения с выдающимся качеством, включая фотореалистичную генерацию изображений из текста. Их впечатляющая производительность предполагает, что эти модели также могут служить мощными априорными распределениями для обратных задач обработки изображений, однако такой подход пока не привел к сопоставимой точности. Существует несколько ключевых препятствий: (i) кодирование в пространство меньшей размерности делает базовое (прямое) отображение нелинейным; (ii) функция правдоподобия данных обычно является вычислительно сложной; и (iii) обученные генеративные модели испытывают трудности с восстановлением редких, атипичных режимов данных в процессе вывода. Мы представляем FLAIR — новый вариационный фреймворк, не требующий обучения, который использует потоковые генеративные модели в качестве априорного распределения для обратных задач. Для этого мы вводим вариационную целевую функцию для согласования потоков, которая не зависит от типа искажения, и комбинируем её с детерминированными корректировками траекторий для восстановления атипичных режимов. Чтобы обеспечить точное соответствие наблюдаемым данным, мы разделяем оптимизацию терминов точности данных и регуляризации. Кроме того, мы предлагаем временно-зависимую схему калибровки, в которой сила регуляризации модулируется на основе оценок точности, полученных в автономном режиме. Результаты на стандартных бенчмарках обработки изображений демонстрируют, что FLAIR стабильно превосходит существующие методы, основанные на диффузии и потоках, по качеству реконструкции и разнообразию выборок.

VLMs способны агрегировать разрозненные обучающие патчи.
VLMs Can Aggregate Scattered Training Patches

Jun 4

ByZhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu

Один из способов снижения рисков в моделях, объединяющих зрение и язык (VLMs), заключается в удалении опасных образцов из их обучающих данных. Однако такая модерация данных может быть легко обойдена, если вредоносные изображения разделены на небольшие, безобидные на вид фрагменты, распределенные по множеству обучающих образцов. В этом случае VLMs могут научиться собирать эти фрагменты в процессе обучения и генерировать вредоносные ответы на этапе вывода, будь то из полных изображений или текстовых ссылок. Например, если модель обучается на фрагментах изображения кровавой сцены, сопоставленных с описанием "безопасно", она может впоследствии описать полное изображение или текстовую ссылку на эту сцену как "безопасно". Мы определяем ключевую способность VLMs, делающую возможной такую атаку, как визуальное сшивание — способность интегрировать визуальную информацию, распределенную по нескольким обучающим образцам, которые имеют одинаковые текстовые описания. В нашей работе мы сначала демонстрируем способность к визуальному сшиванию в распространенных открытых VLMs на трех наборах данных, где каждое изображение помечено уникальным синтетическим идентификатором (ID): мы разделяем каждую пару (изображение, ID) на пары {(фрагмент, ID)} с разной степенью детализации для дообучения и обнаруживаем, что дообученные модели могут вербализовать правильные ID из полных изображений или текстовых ссылок. На основе этого мы моделируем сценарий вредоносного отравления данных, упомянутый выше, используя фрагменты опасных изображений и заменяя ID текстовыми описаниями, такими как "безопасно" или "опасно", демонстрируя, как вредоносный контент может избежать модерации в виде фрагментов и впоследствии быть восстановлен через визуальное сшивание, создавая серьезные риски для безопасности VLMs. Код доступен по адресу https://github.com/ZHZisZZ/visual-stitching.

Звуковое восприятие объекта: интерактивная генерация аудио на основе изображений с учетом объекта
Sounding that Object: Interactive Object-Aware Image to Audio Generation

Jun 4

ByTingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang

Генерация точных звуков для сложных аудиовизуальных сцен представляет собой сложную задачу, особенно при наличии множества объектов и источников звука. В данной работе мы предлагаем модель {\em интерактивной генерации звука с учетом объектов}, которая основывает генерацию звука на визуальных объектах, выбранных пользователем на изображениях. Наш метод интегрирует объектно-ориентированное обучение в условную модель латентной диффузии, которая учится связывать области изображения с соответствующими звуками через мультимодальное внимание. На этапе тестирования наша модель использует сегментацию изображений, позволяя пользователям интерактивно генерировать звуки на уровне {\em объектов}. Мы теоретически подтверждаем, что наш механизм внимания функционально аппроксимирует маски сегментации на этапе тестирования, обеспечивая соответствие генерируемого звука выбранным объектам. Количественные и качественные оценки показывают, что наша модель превосходит базовые подходы, достигая лучшего соответствия между объектами и связанными с ними звуками. Страница проекта: https://tinglok.netlify.app/files/avobject/

RiOSWorld: Оценка рисков многомодальных агентов для работы с компьютером
RiOSWorld: Benchmarking the Risk of Multimodal Compter-Use Agents

May 31

ByJingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao

С быстрым развитием мультимодальных больших языковых моделей (MLLMs) они всё чаще используются в качестве автономных агентов для работы с компьютером, способных выполнять сложные задачи. Однако возникает актуальный вопрос: могут ли принципы обеспечения безопасности, разработанные и адаптированные для общих MLLM в диалоговых сценариях, быть эффективно перенесены на реальные сценарии использования компьютера? Существующие исследования по оценке рисков безопасности агентов на основе MLLM, используемых для работы с компьютером, страдают от нескольких ограничений: либо они не учитывают реалистичные интерактивные среды, либо сосредоточены на одном или нескольких конкретных типах рисков. Эти ограничения игнорируют сложность, изменчивость и разнообразие реальных сред, что затрудняет всестороннюю оценку рисков для таких агентов. В связи с этим мы представляем RiOSWorld — эталонный набор данных, предназначенный для оценки потенциальных рисков агентов на основе MLLM при выполнении реальных манипуляций с компьютером. Наш набор включает 492 рискованные задачи, охватывающие различные компьютерные приложения, такие как веб-браузеры, социальные сети, мультимедиа, операционные системы, электронная почта и офисные программы. Мы классифицируем эти риски на две основные категории в зависимости от их источника: (i) риски, исходящие от пользователя, и (ii) риски, связанные с окружающей средой. Для оценки мы рассматриваем риски безопасности с двух точек зрения: (i) намерение достижения рискованной цели и (ii) завершение рискованной цели. Многочисленные эксперименты с мультимодальными агентами на RiOSWorld показывают, что современные агенты для работы с компьютером сталкиваются с существенными рисками безопасности в реальных сценариях. Наши результаты подчеркивают необходимость и срочность обеспечения безопасности таких агентов при выполнении реальных манипуляций с компьютером, предоставляя ценные инсайты для разработки надежных агентов. Наш эталонный набор данных доступен по адресу https://yjyddq.github.io/RiOSWorld.github.io/.

Обзор гиперпараметров активного обучения: выводы из масштабного экспериментального исследования
Survey of Active Learning Hyperparameters: Insights from a Large-Scale Experimental Grid

Jun 4

ByJulius Gonsior, Tim Rieß, Anja Reusch, Claudio Hartmann, Maik Thiele, Wolfgang Lehner

Аннотирование данных — это трудоемкая и затратная задача, но она является неотъемлемой частью обучения с учителем в машинном обучении. Активное обучение (Active Learning, AL) — это проверенный метод, который минимизирует усилия по ручной разметке, итеративно выбирая наиболее информативные неразмеченные образцы для экспертной аннотации, тем самым повышая общую производительность классификации. Несмотря на то, что AL известно уже несколько десятилетий, оно до сих пор редко используется в реальных приложениях. Как показали два опроса среди сообщества NLP, посвященных AL, две основные причины продолжают удерживать практиков от его использования: во-первых, сложность настройки AL, а во-вторых, недостаток доверия к его эффективности. Мы предполагаем, что обе причины имеют один и тот же корень: обширное пространство гиперпараметров AL. Это в значительной степени неисследованное пространство гиперпараметров часто приводит к вводящим в заблуждение и невоспроизводимым результатам экспериментов с AL. В данном исследовании мы, во-первых, составили обширную сетку гиперпараметров, включающую более 4,6 миллионов комбинаций, во-вторых, зафиксировали производительность всех комбинаций в самом масштабном на сегодняшний день исследовании AL и, в-третьих, проанализировали влияние каждого гиперпараметра на результаты экспериментов. В заключение мы даем рекомендации относительно влияния каждого гиперпараметра, демонстрируем удивительное влияние конкретной реализации стратегии AL и предлагаем дизайн экспериментального исследования для воспроизводимых экспериментов с AL при минимальных вычислительных затратах, тем самым способствуя более воспроизводимым и надежным исследованиям AL в будущем.