Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы открываем исходный код моделей MiMo-VL-7B-SFT и MiMo-VL-7B-RL — двух мощных моделей для работы с визуальными и текстовыми данными, демонстрирующих передовые результаты как в общем понимании визуальной информации, так и в мультимодальных рассуждениях. MiMo-VL-7B-RL превосходит Qwen2.5-VL-7B в 35 из 40 оцениваемых задач и набирает 59.4 балла на OlympiadBench, опережая модели с числом параметров до 78 миллиардов. В задачах, связанных с интерфейсами (GUI), она устанавливает новый стандарт с результатом 56.1 на OSWorld-G, превосходя даже специализированные модели, такие как UI-TARS. Наше обучение сочетает четырехэтапное предварительное обучение (2.4 триллиона токенов) с методом Mixed On-policy Reinforcement Learning (MORL), интегрирующим разнообразные сигналы вознаграждения. Мы подчеркиваем важность включения высококачественных данных для рассуждений с длинными цепочками мыслей (Chain-of-Thought) на этапах предварительного обучения, а также преимущества смешанного обучения с подкреплением, несмотря на сложности одновременной оптимизации в нескольких доменах. Мы также представляем комплексный набор для оценки, охватывающий более 50 задач, чтобы способствовать воспроизводимости и развитию области. Чекпоинты модели и полный набор для оценки доступны по адресу https://github.com/XiaomiMiMo/MiMo-VL.
Вдохновленные впечатляющими способностями модели Deepseek-R1 к рассуждениям в сложных текстовых задачах, многие исследования пытаются стимулировать аналогичные возможности в мультимодальных больших языковых моделях (MLLM), напрямую применяя обучение с подкреплением (RL). Однако они по-прежнему сталкиваются с трудностями в активации сложных рассуждений. В данной работе, вместо изолированного рассмотрения мультимодального RL, мы углубляемся в текущие конвейеры обучения и выделяем три ключевых явления: 1) Эффективная инициализация "холодного старта" критически важна для улучшения рассуждений в MLLM. Интересно, что мы обнаружили, что инициализация с использованием тщательно отобранных текстовых данных может привести к результатам, превосходящим многие недавние модели мультимодальных рассуждений, даже до применения мультимодального RL. 2) Стандартный GRPO, применяемый в мультимодальном RL, страдает от застоя градиентов, что ухудшает стабильность и производительность обучения. 3) Последующее обучение RL только на текстовых данных, следующее за фазой мультимодального RL, дополнительно улучшает мультимодальные рассуждения. Такой поэтапный подход к обучению эффективно балансирует развитие перцептивного заземления и когнитивных рассуждений. Включая вышеуказанные инсайты и решая проблемы мультимодального RL, мы представляем ReVisual-R1, достигающую нового уровня передовых результатов среди открытых 7B MLLM на сложных бенчмарках, включая MathVerse, MathVision, WeMath, LogicVista, DynaMath, а также сложные AIME2024 и AIME2025.
В качестве компонента воплощённого агента, крупные языковые модели (LLMs) обычно используются для планирования поведения на основе естественно-языковых инструкций от пользователя. Однако обработка неоднозначных инструкций в реальных условиях остаётся сложной задачей для LLMs. Были предложены различные методы для обнаружения неоднозначности задач. Однако их сложно сравнивать, так как они тестируются на разных наборах данных, и отсутствует универсальный бенчмарк. По этой причине мы предлагаем AmbiK (Ambiguous Tasks in Kitchen Environment) — полностью текстовый набор данных, содержащий неоднозначные инструкции, адресованные роботу в условиях кухонной среды. AmbiK был собран с помощью LLMs и прошёл проверку людьми. Он включает 1000 пар неоднозначных задач и их однозначных аналогов, классифицированных по типам неоднозначности (человеческие предпочтения, здравый смысл, безопасность), с описаниями среды, уточняющими вопросами и ответами, намерениями пользователя и планами задач, всего 2000 задач. Мы надеемся, что AmbiK позволит исследователям проводить унифицированное сравнение методов обнаружения неоднозначности. AmbiK доступен по адресу https://github.com/cog-model/AmbiK-dataset.
Модели рассуждений достигли значительного прогресса на многих тестовых наборах, связанных с математикой, программированием и наукой. Однако до сих пор остаются открытыми вопросы о наилучших методах обучения для таких моделей, поскольку современные модели часто полагаются на проприетарные наборы данных, информация о которых практически отсутствует в открытом доступе. Для решения этой проблемы проект OpenThoughts ставит своей целью создание открытых наборов данных для обучения моделей рассуждений. После первоначальных исследований наш набор данных OpenThoughts2-1M привел к созданию модели OpenThinker2-32B, которая стала первой моделью, обученной на открытых данных рассуждений и показавшей результаты, сопоставимые с DeepSeek-R1-Distill-32B на стандартных тестах, таких как AIME и LiveCodeBench. Затем мы улучшили наш набор данных, систематически исследуя каждый этап процесса генерации данных с помощью более чем 1000 контролируемых экспериментов, что привело к созданию OpenThoughts3. Масштабирование процесса до 1,2 миллиона примеров и использование модели QwQ-32B в качестве учителя позволило создать модель OpenThinker3-7B, которая демонстрирует передовые результаты: 53% на AIME 2025, 51% на LiveCodeBench 06/24-01/25 и 54% на GPQA Diamond. Все наши наборы данных и модели доступны на сайте https://openthoughts.ai.
Генерация длинных текстов остается серьезной проблемой для больших языковых моделей (LLM), особенно в поддержании связности, обеспечении логической согласованности и сохранении качества текста по мере увеличения длины последовательности. Для преодоления этих ограничений мы предлагаем SuperWriter-Agent — агентно-ориентированную структуру, предназначенную для повышения качества и согласованности генерации длинных текстов. SuperWriter-Agent вводит явные этапы структурированного мышления, включая планирование и уточнение, в процесс генерации, направляя модель на более осознанный и когнитивно обоснованный процесс, аналогичный процессу профессионального писателя. На основе этой структуры мы создаем набор данных для контролируемого тонкого обучения, чтобы обучить модель SuperWriter-LM объемом 7 миллиардов параметров. Мы также разрабатываем иерархическую процедуру Direct Preference Optimization (DPO), которая использует метод поиска по дереву Монте-Карло (MCTS) для распространения итоговых оценок качества и оптимизации каждого шага генерации. Эмпирические результаты на различных тестовых наборах демонстрируют, что SuperWriter-LM достигает наилучших показателей, превосходя даже более крупные базовые модели как в автоматической, так и в человеческой оценке. Кроме того, всесторонние исследования методом исключения подтверждают эффективность иерархической DPO и подчеркивают ценность включения этапов структурированного мышления для повышения качества генерации длинных текстов.
Существующие подходы к оценке языковых моделей с длинным контекстом (LCLM) можно в целом разделить на задачи реального мира и синтетические задачи. Несмотря на их полезность, оба подхода сопровождаются определёнными внутренними ограничениями. Задачи реального мира слишком сложны для интерпретации или характеристики и подвержены проблеме загрязнения данных. В то же время синтетические задачи часто используют формат "иголка в стоге сена" (NIAH), где отсутствие связности между "иголкой" и "стогом сена" ставит под сомнение их валидность как прокси для реалистичных приложений. В ответ на эти вызовы мы утверждаем, что идеальная система оценки длинного контекста должна характеризоваться тремя ключевыми особенностями: бесшовный контекст, контролируемые условия и надёжная оценка. В данном исследовании представлен LongBioBench — новый бенчмарк, использующий искусственно сгенерированные биографии как контролируемую среду для оценки LCLM по параметрам понимания, рассуждения и доверия. Наше экспериментальное исследование, включающее 18 LCLM, показывает, что большинство моделей всё ещё демонстрируют недостатки в семантическом понимании и базовом рассуждении над извлечёнными результатами, а также становятся менее надёжными с увеличением длины контекста. Дополнительный анализ указывает на то, что некоторые дизайнерские решения, используемые в существующих синтетических бенчмарках, такие как отсутствие связности контекста, числовые "иголки" и отсутствие отвлекающих элементов, делают их уязвимыми для тестирования способностей моделей к работе с длинным контекстом. Более того, мы также выяснили, что непрерывное предобучение для длинного контекста в основном адаптирует RoPE-эмбеддинги для работы с увеличенной длиной контекста. В итоге, по сравнению с предыдущими синтетическими бенчмарками, LongBioBench достигает лучшего баланса между отражением аутентичных языковых задач и сохранением контролируемости, а также обладает высокой интерпретируемостью и настраиваемостью.
Последовательная структура видео создает сложности для способности мультимодальных больших языковых моделей (MLLMs) находить доказательства, распределенные по нескольким кадрам, и проводить мультимодальные рассуждения. Однако существующие видеобенчмарки в основном сосредоточены на задачах понимания, которые требуют от моделей лишь сопоставления кадров, упомянутых в вопросе (далее называемых "вопросными кадрами"), и восприятия нескольких соседних кадров. Чтобы устранить этот пробел, мы предлагаем MMR-V: Бенчмарк для глубокого мультимодального рассуждения в видео. Этот бенчмарк характеризуется следующими особенностями. (1) Долгосрочное, многокадровое рассуждение: модели должны выводить и анализировать доказательства, которые могут находиться далеко от вопросного кадра. (2) Выход за пределы восприятия: вопросы не могут быть решены только через прямое восприятие, но требуют рассуждения над скрытой информацией. (3) Надежность: все задачи вручную аннотированы с учетом обширного понимания реальных пользователей, чтобы соответствовать общим представлениям. (4) Запутанность: тщательно разработанные стратегии аннотации отвлекающих элементов для сокращения использования моделями "коротких путей". MMR-V состоит из 317 видео и 1,257 задач. Наши эксперименты показывают, что современные модели все еще испытывают трудности с мультимодальными рассуждениями; даже лучшая модель, o4-mini, достигает точности лишь 52,5%. Кроме того, текущие стратегии улучшения рассуждений (Chain-of-Thought и масштабирование вычислительных ресурсов на этапе тестирования) приносят ограниченные улучшения. Дополнительный анализ показывает, что CoT, необходимый для мультимодальных рассуждений, отличается от CoT в текстовых рассуждениях, что частично объясняет ограниченные улучшения производительности. Мы надеемся, что MMR-V вдохновит дальнейшие исследования по улучшению мультимодальных способностей к рассуждению.
Разработка крупных языковых моделей (LLM) зависит от надежной оценки. Однако большинство текущих оценок опираются на публичные бенчмарки, которые подвержены проблемам загрязнения данных, что значительно снижает справедливость. Предыдущие исследования были сосредоточены на создании динамических бенчмарков для решения проблемы загрязнения. Однако постоянное создание новых бенчмарков является затратным и циклическим процессом. В данной работе мы стремимся решить проблему загрязнения путем анализа механизмов самих загрязненных моделей. В ходе экспериментов мы обнаруживаем, что завышенная оценка загрязненных моделей, вероятно, связана с тем, что параметры приобретают "короткие пути" в процессе обучения. Мы также предлагаем новый метод идентификации нейронов, отвечающих за "короткие пути", с помощью сравнительного и причинно-следственного анализа. На основе этого мы вводим метод оценки, называемый "исправлением нейронов коротких путей", для подавления таких нейронов. Эксперименты подтверждают эффективность нашего подхода в снижении загрязнения. Кроме того, результаты нашей оценки демонстрируют сильную линейную корреляцию с MixEval, недавно выпущенным надежным бенчмарком, достигая коэффициента Спирмена (rho) выше 0,95. Такая высокая корреляция указывает на то, что наш метод точно раскрывает истинные возможности моделей и является надежным. Мы проводим дополнительные эксперименты, чтобы продемонстрировать универсальность нашего метода для различных бенчмарков и настроек гиперпараметров. Код: https://github.com/GaryStack/Trustworthy-Evaluation
Реальные приложения, такие как видеоигры и виртуальная реальность, часто требуют возможности моделирования 3D-сцен, которые пользователи могут исследовать по заданным траекториям камеры. Хотя значительный прогресс был достигнут в генерации 3D-объектов из текста или изображений, создание длинных, 3D-согласованных и исследуемых 3D-сцен остается сложной и актуальной задачей. В данной работе мы представляем Voyager — новый фреймворк на основе диффузии видео, который генерирует последовательности 3D-точечных облаков, согласованных в мировом пространстве, из одного изображения с заданной пользователем траекторией камеры. В отличие от существующих подходов, Voyager обеспечивает сквозную генерацию и реконструкцию сцены с внутренней согласованностью между кадрами, устраняя необходимость в использовании 3D-реконструкционных пайплайнов (например, структура из движения или многовидовая стереоскопия). Наш метод объединяет три ключевых компонента: 1) Мирово-согласованная диффузия видео: унифицированная архитектура, которая совместно генерирует выровненные последовательности RGB и глубины, учитывая существующие наблюдения мира для обеспечения глобальной согласованности; 2) Долгосрочное исследование мира: эффективный кэш мира с отсечением точек и авторегрессивный вывод с плавной выборкой видео для итеративного расширения сцены с учетом контекстной согласованности; 3) Масштабируемый механизм данных: пайплайн реконструкции видео, который автоматизирует оценку поз камеры и предсказание метрической глубины для произвольных видео, позволяя создавать крупномасштабные и разнообразные наборы обучающих данных без ручной 3D-аннотации. В совокупности эти решения обеспечивают заметное улучшение визуального качества и геометрической точности по сравнению с существующими методами, открывая широкие возможности для применения.
Хотя диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям, они сталкиваются с серьезными трудностями при редактировании изображений на основе инструкций. Наше исследование выявляет ключевую проблему: эти модели особенно плохо справляются с редактированием, требующим структурно несогласованных изменений, связанных с существенными преобразованиями композиции. Для устранения этого пробела мы представляем Image Editing As Programs (IEAP) — унифицированную структуру для редактирования изображений, основанную на архитектуре Diffusion Transformer (DiT). В основе IEAP лежит редукционистский подход, который разбивает сложные инструкции редактирования на последовательности атомарных операций. Каждая операция реализуется через легковесный адаптер, использующий общую основу DiT и специализированный для конкретного типа редактирования. Эти операции, управляемые агентом на основе модели обработки визуальных и языковых данных (VLM), совместно поддерживают произвольные и структурно несогласованные преобразования. Благодаря модульности и последовательности редактирования, IEAP демонстрирует устойчивую обобщаемость для широкого спектра задач — от простых корректировок до значительных структурных изменений. Многочисленные эксперименты показывают, что IEAP значительно превосходит современные методы на стандартных тестах в различных сценариях редактирования. В этих оценках наша структура обеспечивает превосходную точность и семантическую достоверность, особенно для сложных, многошаговых инструкций. Код доступен по адресу https://github.com/YujiaHu1109/IEAP.
Крупные языковые модели (LLMs) часто испытывают трудности с задачами визуализации, такими как построение диаграмм и графиков, где успех зависит как от корректности кода, так и от визуальной семантики. Существующие наборы данных для настройки инструкций не содержат контроля на основе выполнения и предлагают ограниченную поддержку итеративной коррекции кода, что приводит к хрупкому и ненадежному созданию графиков. Мы представляем VisCode-200K, крупномасштабный набор данных для настройки инструкций, ориентированный на визуализацию и самокоррекцию на Python. Он содержит более 200 тысяч примеров из двух источников: (1) проверенный код для построения графиков из открытых репозиториев, сопряженный с инструкциями на естественном языке и визуализированными графиками; и (2) 45 тысяч многошаговых диалогов коррекции из Code-Feedback, позволяющих моделям исправлять ошибочный код с использованием обратной связи во время выполнения. Мы донастраиваем Qwen2.5-Coder-Instruct на VisCode-200K для создания VisCoder и оцениваем его на PandasPlotBench. VisCoder значительно превосходит сильные открытые базовые модели и приближается к производительности проприетарных моделей, таких как GPT-4o-mini. Мы также применяем протокол самоотладки для оценки итеративного исправления, демонстрируя преимущества обучения на основе обратной связи для генерации исполняемого и визуально точного кода.
Хотя диффузионные модели способны генерировать высококачественные и высокоразрешенные видеопоследовательности на основе текстовых или изображений, они не учитывают явные геометрические подсказки при управлении освещением сцены и визуальным внешним видом между кадрами. Для устранения этого ограничения мы предлагаем IllumiCraft — сквозную диффузионную архитектуру, принимающую три взаимодополняющих входных данных: (1) карты видео с высоким динамическим диапазоном (HDR) для детального управления освещением; (2) синтетически переосвещенные кадры с рандомизированными изменениями освещения (опционально в сочетании со статичным фоновым изображением) для предоставления подсказок по внешнему виду; и (3) треки 3D-точек, фиксирующие точную геометрическую информацию. Интегрируя подсказки по освещению, внешнему виду и геометрии в единую диффузионную архитектуру, IllumiCraft генерирует временно согласованные видео, соответствующие пользовательским запросам. Модель поддерживает переосвещение видео с учетом фона и текста, обеспечивая более высокую точность по сравнению с существующими методами контролируемой генерации видео. Страница проекта: https://yuanze-lin.me/IllumiCraft_page
Мы наблюдали, что мощные языковые модели, такие как Qwen-Math, MiMo и Phi-4, обладают огромным потенциалом для рассуждений, унаследованным от этапа предварительного обучения. С использованием обучения с подкреплением (RL) эти модели могут значительно улучшить свои способности в задачах, требующих рассуждений. Недавние исследования показали, что даже RL на одной задаче может раскрыть эти возможности моделей. Однако RL не только дорогостоящий, но и нестабильный процесс. Даже одноразовое RL требует сотен часов работы GPU. Это поднимает важный вопрос: существует ли более эффективный способ раскрыть потенциал рассуждений этих мощных базовых языковых моделей? В данной работе мы демонстрируем, что тонкая настройка с использованием критики (Critique Fine-Tuning, CFT) на одной задаче может эффективно раскрыть потенциал рассуждений языковых моделей. Наш метод создает данные для критики, собирая разнообразные решения, сгенерированные моделью для одной задачи, и используя модели-учителя для предоставления детальных критических замечаний. Мы проводим тонкую настройку моделей семейств Qwen и Llama, варьирующихся от 1,5 до 14 миллиардов параметров, на данных CFT и наблюдаем значительное улучшение производительности в различных задачах, требующих рассуждений. Например, всего за 5 часов обучения на GPU, модель Qwen-Math-7B-CFT демонстрирует среднее улучшение на 15% на шести математических тестах и на 16% на трех тестах логического рассуждения. Эти результаты сопоставимы или даже превосходят результаты RL, при этом требуя в 20 раз меньше вычислительных ресурсов. Абляционные исследования подтверждают устойчивость одноразовой CFT к различным задачам. Эти результаты подчеркивают одноразовую CFT как простой, универсальный и вычислительно эффективный подход к раскрытию возможностей рассуждений современных языковых моделей.
Мы представляем Psi-Sampler — фреймворк на основе Sequential Monte Carlo (SMC), который включает начальную выборку частиц с использованием метода preconditioned Crank-Nicolson Langevin (pCNL) для эффективного согласования вознаграждения на этапе вывода с генеративной моделью на основе оценок. Согласование вознаграждения на этапе вывода с генеративными моделями на основе оценок недавно приобрело значительную популярность, что соответствует более широкому сдвигу парадигмы от предварительного обучения к оптимизации после обучения. В основе этого тренда лежит применение Sequential Monte Carlo (SMC) к процессу удаления шума. Однако существующие методы обычно инициализируют частицы из гауссовского априорного распределения, что недостаточно точно захватывает области, релевантные вознаграждению, и приводит к снижению эффективности выборки. Мы показываем, что инициализация из апостериорного распределения, учитывающего вознаграждение, значительно улучшает производительность согласования. Для обеспечения выборки из апостериорного распределения в высокоразмерных латентных пространствах мы представляем алгоритм preconditioned Crank-Nicolson Langevin (pCNL), который сочетает устойчивые к размерности предложения с динамикой, учитывающей градиенты. Этот подход позволяет эффективно и масштабируемо проводить выборку из апостериорного распределения и последовательно улучшает производительность в различных задачах согласования вознаграждения, включая генерацию изображений на основе макета, генерацию с учетом количества и генерацию с учетом эстетических предпочтений, что подтверждается нашими экспериментами.
Крупные языковые модели (LLM) и мультимодальные LLM продемонстрировали перспективные возможности для обработки SVG, однако существующие бенчмарки страдают от ограниченного охвата реальных сценариев, отсутствия стратификации сложности и фрагментированных парадигм оценки. Мы представляем SVGenius — всеобъемлющий бенчмарк, включающий 2 377 запросов по трем прогрессивным направлениям: понимание, редактирование и генерация. Построенный на реальных данных из 24 прикладных областей с систематической стратификацией сложности, SVGenius оценивает модели через 8 категорий задач и 18 метрик. Мы протестировали 22 популярные модели, охватывающие различные масштабы, архитектуры, парадигмы обучения и уровни доступности. Наш анализ показывает, что, хотя проприетарные модели значительно превосходят открытые аналоги, все модели демонстрируют систематическое снижение производительности с увеличением сложности, что указывает на фундаментальные ограничения текущих подходов; однако обучение с усилением рассуждений оказывается более эффективным, чем простое масштабирование, для преодоления этих ограничений, хотя передача стиля остается наиболее сложной задачей для всех типов моделей. SVGenius устанавливает первую систематическую структуру оценки для обработки SVG, предоставляя ключевые инсайты для разработки более мощных моделей векторной графики и продвижения приложений автоматизированного графического дизайна. Приложение и дополнительные материалы (включая все данные и код) доступны по адресу https://zju-real.github.io/SVGenius.
Мы представляем LayerFlow — унифицированное решение для генерации видео с учетом слоев. На основе промптов для каждого слоя LayerFlow создает видео для прозрачного переднего плана, чистого фона и смешанной сцены. Он также поддерживает различные варианты, такие как декомпозиция смешанного видео или генерация фона для заданного переднего плана и наоборот. Начиная с трансформера диффузии для генерации видео из текста, мы организуем видео для разных слоев как подклипы и используем слоевые эмбеддинги для различения каждого клипа и соответствующих промптов для слоев. Таким образом, мы плавно поддерживаем упомянутые варианты в одной унифицированной структуре. Из-за отсутствия высококачественных обучающих видео с разделением на слои мы разработали многоэтапную стратегию обучения, адаптированную для статических изображений с качественными слоевыми аннотациями. В частности, сначала мы обучаем модель на данных низкого качества. Затем мы настраиваем LoRA для движения, чтобы сделать модель совместимой со статичными кадрами. После этого мы обучаем LoRA для контента на смеси данных изображений с высококачественными слоевыми изображениями вместе с копированными видео данными. Во время вывода мы удаляем LoRA для движения, что позволяет генерировать плавные видео с желаемыми слоями.
Метод Direct Preference Optimization (DPO) недавно был применен в качестве посттренировочной техники для моделей диффузии текст-видео. Для получения обучающих данных аннотаторам предлагается выразить предпочтения между двумя видео, сгенерированными из независимого шума. Однако такой подход исключает детальные сравнения, и мы отмечаем, что он склоняет аннотаторов к выбору клипов с низкой динамикой, так как они часто содержат меньше визуальных артефактов. В данной работе мы представляем DenseDPO — метод, который устраняет эти недостатки за счет трех ключевых вкладов. Во-первых, мы создаем пары видео для DPO путем денойзинга искаженных копий эталонного видео. Это приводит к выравненным парам с похожими структурами движения, но различающимися в локальных деталях, что эффективно нейтрализует смещение в сторону динамики. Во-вторых, мы используем временное выравнивание для маркировки предпочтений на коротких сегментах, а не на целых клипах, что дает более плотный и точный сигнал для обучения. При использовании лишь трети размеченных данных DenseDPO значительно улучшает генерацию движения по сравнению с базовым DPO, сохраняя при этом сопоставимое качество текстового соответствия, визуального качества и временной согласованности. Наконец, мы показываем, что DenseDPO позволяет автоматизировать аннотацию предпочтений с использованием готовых Vision Language Models (VLMs): GPT точно предсказывает предпочтения на уровне сегментов, аналогично специализированным моделям оценки видео, а DenseDPO, обученный на таких метках, достигает производительности, близкой к использованию человеческих аннотаций.
В последнее время крупные языковые модели (LLM) достигли значительного прогресса в областях, связанных с интеллектуальными задачами, требующими тщательного обдумывания, таких как математика и программирование. Однако улучшение когнитивного развития LLM в социальных областях, особенно с точки зрения посттренировочного подхода, остается недостаточно изученным. Учитывая, что социальный мир следует уникальной временной динамике и требует более богатого сочетания когнитивных режимов (от интуитивных реакций (Система 1) и поверхностного мышления до обдуманного мышления (Система 2)), чем математика, которая в основном опирается на когницию Системы 2 (тщательное, пошаговое рассуждение), мы представляем метод Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) для повышения социального интеллекта LLM. В наших экспериментах мы систематически исследуем улучшение социального интеллекта LLM и подтверждаем эффективность метода TimeHC-RL, сравнивая его с пятью другими посттренировочными парадигмами и двумя парадигмами вмешательства на этапе тестирования на восьми наборах данных с разнообразными паттернами. Результаты экспериментов демонстрируют превосходство предложенного нами метода TimeHC-RL по сравнению с широко используемым методом System 2 RL. Он дает 7B-модели крылья, позволяя ей конкурировать с производительностью передовых моделей, таких как DeepSeek-R1 и OpenAI-O3. Кроме того, систематическое исследование с точки зрения посттренировочных и тестовых вмешательств для улучшения социального интеллекта LLM выявило несколько ценных инсайтов.
Эффективная генерация длинных последовательностей представляет собой важную задачу для больших языковых моделей. Хотя современные методы разреженного декодирования повышают эффективность, они страдают от проблемы несоответствия кэша ключей и значений (KV cache misalignment), где ошибки аппроксимации накапливаются и ухудшают качество генерации. В данной работе мы предлагаем метод Rectified Sparse Attention (ReSA), простой, но эффективный подход, который сочетает блочно-разреженное внимание с периодической плотной коррекцией. Обновляя кэш ключей и значений через фиксированные интервалы с использованием плотного прямого прохода, ReSA ограничивает накопление ошибок и сохраняет соответствие распределению, полученному при предварительном обучении. Эксперименты в задачах математического рассуждения, языкового моделирования и поиска демонстрируют, что ReSA достигает почти без потерь качества генерации при значительном повышении эффективности. В частности, ReSA обеспечивает ускорение до 2,42 раза при декодировании последовательностей длиной 256K, что делает его практичным решением для масштабируемого вывода в длинных контекстах. Код доступен по адресу https://aka.ms/ReSA-LM.
Крупные языковые модели (LLM) трансформируют игровую индустрию, особенно в плане создания более интеллектуальных и предпочтительных для человека игровых персонажей. Однако существующие игровые бенчмарки не соответствуют практическим потребностям: они не оценивают разнообразные возможности LLM в различных игровых жанрах, не изучают агентные модули, критически важные для сложного геймплея, и не предоставляют наборов данных для тонкой настройки предварительно обученных LLM в игровых агентов. Чтобы устранить эти пробелы, мы представляем \benchname{}, фундаментальный бенчмарк, разработанный для обучения и оценки LLM-агентов в разнообразных реальных видеоиграх. В отличие от существующих бенчмарков, Orak включает 12 популярных видеоигр, охватывающих все основные жанры, что позволяет проводить всесторонние исследования возможностей LLM и агентных модулей, необходимых для сложных игровых сценариев. Для обеспечения последовательной оценки LLM мы представляем plug-and-play интерфейс на основе Model Context Protocol (MCP), который позволяет LLM легко подключаться к играм и управлять агентными модулями. Кроме того, мы предлагаем набор данных для тонкой настройки, состоящий из траекторий игрового процесса LLM в различных игровых жанрах. Orak предлагает комплексную систему оценки, включающую таблицы лидеров по общему игровому счету, арены для сражений LLM и углубленный анализ визуального входного состояния, агентных стратегий и эффектов тонкой настройки, закладывая основу для создания универсальных игровых агентов. Код доступен по адресу https://github.com/krafton-ai/Orak.
В данной статье мы представляем TalkingMachines — эффективный фреймворк, который преобразует предобученные модели генерации видео в аниматоры персонажей, управляемые аудио в реальном времени. TalkingMachines обеспечивает естественные разговорные взаимодействия за счет интеграции крупной языковой модели (LLM) для обработки аудио с нашей базовой моделью генерации видео. Наши основные вклады включают: (1) Адаптацию предобученной SOTA модели DiT для преобразования изображений в видео в модель генерации аватаров, управляемую аудио, с 18 миллиардами параметров; (2) Обеспечение бесконечной потоковой передачи видео без накопления ошибок за счет асимметричного дистилляции знаний из двунаправленной модели-учителя в разреженную каузальную авторегрессионную модель-ученика; (3) Разработку высокопроизводительного конвейера вывода с низкой задержкой, включающего несколько ключевых инженерных оптимизаций, таких как: (a) разделение DiT и декодера VAE на разные устройства, (b) эффективное совмещение межсетевого взаимодействия и вычислений с использованием CUDA потоков, (c) устранение избыточных перевычислений для максимизации пропускной способности генерации кадров. Демонстрационные видео доступны по ссылке — https://aaxwaz.github.io/TalkingMachines/.
Недавние исследования показывают, что крупные языковые модели (LLM) демонстрируют предвзятость в пользу собственных ответов, когда выступают в роли судей, то есть они склонны отдавать предпочтение своим ответам перед ответами, сгенерированными другими моделями. Существующие методы обычно измеряют эту предвзятость, вычисляя разницу между оценками, которые модель-судья присваивает своим собственным ответам, и теми, которые она присваивает ответам других моделей. Однако такой подход смешивает предвзятость в пользу собственных ответов с качеством ответов, поскольку более качественные ответы модели-судьи также могут приводить к положительным различиям в оценках, даже при отсутствии предвзятости. Чтобы решить эту проблему, мы вводим эталонные оценки (gold judgments) в качестве прокси для фактического качества ответов и предлагаем показатель DBG, который измеряет предвзятость в пользу собственных ответов как разницу между оценками, присвоенными моделью-судьей своим ответам, и соответствующими эталонными оценками. Поскольку эталонные оценки отражают истинное качество ответов, показатель DBG снижает влияние качества ответов на измерение предвзятости. Используя показатель DBG, мы проводим всесторонние эксперименты для оценки предвзятости в пользу собственных ответов у LLM различных версий, размеров и способностей к рассуждению. Кроме того, мы исследуем два фактора, которые влияют на эту предвзятость и помогают её смягчить: стиль текста ответов и данные пост-обучения моделей-судей. Наконец, мы исследуем потенциальные механизмы, лежащие в основе предвзятости в пользу собственных ответов, с точки зрения внимания. Наш код и данные доступны по адресу https://github.com/zhiyuanc2001/self-preference.
По мере того как крупные языковые модели (LLM) продолжают развиваться, необходимость в актуальных и хорошо организованных бенчмарках становится все более критичной. Однако многие существующие наборы данных разрознены, сложны в управлении и затрудняют проведение оценок, адаптированных под конкретные потребности или области, несмотря на растущую важность моделей, ориентированных на конкретные области, такие как математика или программирование. В данной статье мы представляем BenchHub — динамический репозиторий бенчмарков, который позволяет исследователям и разработчикам более эффективно оценивать LLM. BenchHub агрегирует и автоматически классифицирует наборы данных для бенчмарков из различных областей, интегрируя 303 тысячи вопросов из 38 бенчмарков. Он разработан для поддержки непрерывных обновлений и масштабируемого управления данными, что позволяет проводить гибкую и настраиваемую оценку, адаптированную под различные области или сценарии использования. В ходе обширных экспериментов с различными семействами LLM мы демонстрируем, что производительность моделей значительно варьируется в зависимости от предметно-ориентированных подмножеств, подчеркивая важность бенчмаркинга с учетом предметной области. Мы считаем, что BenchHub может способствовать более эффективному повторному использованию наборов данных, более прозрачному сравнению моделей и более легкому выявлению недостаточно представленных областей в существующих бенчмарках, предлагая критически важную инфраструктуру для продвижения исследований в области оценки LLM.
Последние достижения в области генеративного искусственного интеллекта значительно преобразовали сферу синтеза речи с описанием стиля (CapTTS). Однако адаптация CapTTS к реальным приложениям остается сложной задачей из-за отсутствия стандартизированных, всеобъемлющих наборов данных и ограниченных исследований по задачам, основанным на CapTTS. Для устранения этих пробелов мы представляем CapSpeech — новый эталонный набор данных, разработанный для серии задач, связанных с CapTTS, включая синтез речи с описанием стиля и звуковых событий (CapTTS-SE), синтез речи с описанием акцента (AccCapTTS), синтез речи с описанием эмоций (EmoCapTTS) и синтез речи для чат-агентов (AgentTTS). CapSpeech включает более 10 миллионов машинно-аннотированных пар аудио-описание и почти 0,36 миллиона человечески-аннотированных пар аудио-описание. Кроме того, мы представляем два новых набора данных, собранных и записанных профессиональным актером озвучивания и опытными звукорежиссерами, специально для задач AgentTTS и CapTTS-SE. Наряду с наборами данных мы проводим всесторонние эксперименты с использованием как авторегрессивных, так и неавторегрессивных моделей на CapSpeech. Наши результаты демонстрируют синтез речи высокой четкости и разборчивости в широком диапазоне стилей речи. Насколько нам известно, CapSpeech является крупнейшим доступным набором данных, предлагающим всеобъемлющие аннотации для задач, связанных с CapTTS. Эксперименты и выводы также предоставляют ценные инсайты в разработку систем CapTTS.
Диффузионные модели недавно добились значительных успехов во многих задачах генерации, таких как удаление объектов. Тем не менее, существующие методы декомпозиции изображений сталкиваются с трудностями при разделении полупрозрачных или прозрачных слоев из-за зависимостей от масок, предположений о статичности объектов и отсутствия подходящих наборов данных. В данной статье мы исследуем новую задачу: послойную декомпозицию альфа-композитных изображений, направленную на восстановление составляющих слоев из единого перекрытого изображения в условиях нелинейного перекрытия полупрозрачных/прозрачных альфа-слоев. Для решения проблем неоднозначности слоев, обобщаемости и недостатка данных мы сначала представляем AlphaBlend — первый крупномасштабный и высококачественный набор данных для декомпозиции прозрачных и полупрозрачных слоев, поддерживающий шесть реальных подзадач (например, удаление полупрозрачных бликов, декомпозиция полупрозрачных клеток, декомпозиция стеклянных изделий). На основе этого набора данных мы предлагаем DiffDecompose — фреймворк на основе диффузионных трансформеров, который изучает апостериорное распределение возможных декомпозиций слоев, обусловленных входным изображением, семантическими подсказками и типом смешивания. Вместо прямого регрессирования альфа-масок DiffDecompose выполняет декомпозицию в контексте, позволяя модели предсказывать один или несколько слоев без пошагового контроля, а также вводит клонирование позиционного кодирования слоев для сохранения пиксельной соответственности между слоями. Эксперименты на предложенном наборе данных AlphaBlend и публичном наборе LOGO подтверждают эффективность DiffDecompose. Код и набор данных будут доступны после принятия статьи. Наш код будет доступен по адресу: https://github.com/Wangzt1121/DiffDecompose.
Спекулятивное декодирование ускоряет вывод в больших языковых моделях (LLM) за счет использования небольшой черновой модели для предсказания нескольких токенов и крупной целевой модели для их параллельной проверки. Недавние исследования используют скрытое состояние целевой модели для повышения точности предсказаний черновой модели. Однако существующие методы страдают от снижения качества предсказаний токенов на более поздних позициях из-за накопления ошибок в признаках, генерируемых черновой моделью. В данной статье мы предлагаем подход Position Specialists (PosS), который включает несколько специализированных слоев черновой модели для генерации токенов на назначенных позициях. Специалисты по позициям значительно повышают уровень принятия токенов на более поздних позициях за каждый раунд чернового прогнозирования, так как каждый специалист сосредоточен на обработке определенного уровня отклонений признаков черновой модели. Результаты экспериментов на моделях Llama-3-8B-Instruct и Llama-2-13B-chat на шести наборах данных демонстрируют, что PosS эффективно улучшает базовые показатели по средней длине принятия и коэффициенту ускорения. Наш код доступен по адресу https://github.com/shrango/PosS.
Недавние достижения в области цепочечного рассуждения (Chain-of-Thought, CoT) улучшили понимание сложных видеоматериалов, однако существующие методы часто испытывают трудности с адаптацией к доменно-специфическим навыкам (например, обнаружение событий, понимание пространственных отношений, распознавание эмоций) в различных типах видео. Для решения этой проблемы мы предлагаем Video-Skill-CoT (также известный как Video-SKoT) — фреймворк, который автоматически создает и использует CoT-обучение, учитывающее навыки, для адаптивного видеорешения. Во-первых, мы создаем аннотации CoT на основе навыков: извлекаем доменно-релевантные навыки рассуждения из обучающих вопросов, группируем их в общую таксономию навыков и формируем детальные многошаговые обоснования CoT, адаптированные для каждой пары видео-вопрос для обучения. Во-вторых, мы представляем фреймворк экспертного обучения, ориентированного на навыки. Каждый модуль эксперта специализируется на подмножестве навыков рассуждения и обучается с использованием легковесных адаптеров на основе собранных CoT-аннотаций. Мы демонстрируем эффективность предложенного подхода на трех бенчмарках для понимания видео, где Video-SKoT стабильно превосходит сильные базовые методы. Также мы проводим углубленный анализ, сравнивая различные подходы к созданию CoT-аннотаций и изученные навыки в нескольких видеодоменах.
Атаки с использованием враждебных входных данных могут вызывать значительное смещение эмбеддингов CLIP. Это может повлиять на устойчивость моделей, использующих CLIP в своих конвейерах, таких как генеративные модели для преобразования текста в изображения или крупные мультимодальные модели, работающие с текстом и изображениями. Хотя были предприняты усилия для повышения устойчивости кодировщиков изображений CLIP, устойчивость текстовых кодировщиков остается малоизученной. В данной работе мы восполняем этот пробел в литературе. Мы предлагаем LEAF: эффективный метод дообучения для текстовой области, способный масштабироваться на крупные модели CLIP. Наши модели значительно улучшают точность в условиях враждебного шума в текстовой области, сохраняя при этом производительность в области изображений, обеспечиваемую устойчивыми кодировщиками изображений. При использовании в сочетании с диффузионными моделями для генерации изображений из текста мы улучшаем качество генерации в условиях враждебного шума. При применении наших устойчивых кодировщиков CLIP в задачах мультимодального поиска мы повышаем полноту в условиях враждебного шума по сравнению со стандартными моделями CLIP. Наконец, мы показываем, что устойчивые текстовые кодировщики способствуют более точному восстановлению входного текста из его эмбеддинга с помощью прямой оптимизации.
Последние достижения в области обучения с подкреплением (RL) с числовой обратной связью, такой как скалярные награды, значительно улучшили способности крупных языковых моделей (LLM) к сложным рассуждениям. Однако, несмотря на эти успехи, мы выделяем три ключевые проблемы, с которыми сталкивается RL при использовании исключительно числовой обратной связи: плато производительности, ограниченная эффективность саморефлексии и устойчивые ошибки. Мы показываем, что модели, дообученные с помощью RL, даже после достижения плато производительности, могут генерировать корректные улучшения для задач с устойчивыми ошибками, используя обратную связь в виде критики на естественном языке. На основе этого наблюдения мы предлагаем Critique-GRPO — онлайн-фреймворк RL, который интегрирует как естественно-языковую, так и числовую обратную связь для эффективной оптимизации политик. Critique-GRPO позволяет LLM одновременно обучаться на начальных ответах и улучшениях, направляемых критикой, сохраняя при этом исследовательскую активность. Эксперименты с использованием моделей Qwen2.5-7B-Base и Qwen3-8B-Base демонстрируют, что Critique-GRPO стабильно превосходит подходы, основанные на обучении с учителем и RL, в восьми сложных задачах из области математики, STEM и общего рассуждения, улучшая средние показатели pass@1 примерно на 4,5% и 5% соответственно. Примечательно, что Critique-GRPO превосходит сильный базовый подход, включающий экспертные демонстрации в рамках онлайн RL. Дополнительный анализ выявляет два важных аспекта исследования политик: (1) более высокая энтропия не всегда гарантирует эффективное обучение через исследование, и (2) более длинные ответы не обязательно приводят к более эффективному исследованию.
Крупные базовые модели, обученные на обширных наборах данных, демонстрируют мощные возможности в задачах zero-shot в различных областях. Чтобы повторить их успех в условиях ограниченных данных и размера модели, дистилляция знаний стала устоявшимся инструментом для передачи знаний от базовых моделей к небольшим студенческим сетям. Однако эффективность дистилляции существенно ограничивается доступными обучающими данными. В данной работе рассматривается распространённая практическая проблема ковариационного сдвига в дистилляции знаний, когда в процессе обучения появляются ложные признаки, которые отсутствуют во время тестирования. Мы задаёмся вопросом: если эти ложные признаки неизвестны, но доступен устойчивый учитель, может ли студент также стать устойчивым к ним? Мы решаем эту проблему, предлагая новую стратегию аугментации данных на основе диффузии, которая генерирует изображения, максимизируя расхождение между учителем и студентом, тем самым создавая сложные примеры, с которыми студент испытывает трудности. Эксперименты показывают, что наш подход значительно улучшает точность в наихудшей и средней группах на наборах данных CelebA и SpuCo Birds, а также spurious mAUC на spurious ImageNet при ковариационном сдвиге, превосходя современные базовые методы аугментации данных на основе диффузии.
Непрерывное обучение (Continual Learning, CL) направлено на то, чтобы нейронные сети могли постепенно приобретать новые знания (пластичность), сохраняя при этом уже имеющиеся (стабильность). Хотя предварительно обученные модели (Pre-trained Models, PTMs) стали ключевым элементом в CL, преобладающие подходы замораживают основу PTM для сохранения стабильности, что ограничивает их пластичность, особенно при столкновении с существенными различиями в доменах в инкрементных задачах. С другой стороны, последовательная донастройка всей PTM рискует привести к катастрофическому забыванию обобщаемых знаний, что подчеркивает критический компромисс между стабильностью и пластичностью. Для решения этой проблемы мы предлагаем адаптацию PTM перед основным процессом CL (Adapting PTMs before the core CL process, ACL) — новый фреймворк, который улучшает основу PTM через фазу адаптации по принципу "подключи и работай" перед изучением каждой новой задачи с использованием существующих подходов CL (например, настройки промптов). ACL повышает пластичность, выравнивая эмбеддинги с их оригинальными прототипами классов и удаляя их от других, что, как показано теоретически и эмпирически, позволяет сбалансировать стабильность и пластичность. Многочисленные эксперименты демонстрируют, что ACL значительно улучшает производительность CL на различных бенчмарках и интегрированных методах, предлагая универсальное решение для CL на основе PTM.
LLM-as-a-judge — это фреймворк, в котором большая языковая модель (LLM) автоматически оценивает выходные данные другой LLM. Мы предлагаем количественных судей на основе LLM, которые согласуют оценки существующих судей-LLM с человеческими оценками в заданной области с использованием регрессионных моделей. Эти модели обучаются для улучшения оценки исходного судьи, используя текстовую оценку и балл судьи. Мы представляем четырех количественных судей для различных типов абсолютной и относительной обратной связи, что демонстрирует универсальность и гибкость нашего фреймворка. Наш фреймворк более вычислительно эффективен, чем контролируемое тонкое настройка, и может быть более статистически эффективным при ограниченном объеме человеческой обратной связи, что ожидается в большинстве приложений нашей работы. Мы эмпирически подтверждаем эти утверждения на четырех наборах данных с использованием двух базовых судей. Наши эксперименты показывают, что количественные судьи могут эффективно улучшать предсказательную способность существующих судей посредством пост-обработки моделей.
Несмотря на недавние достижения в области инверсии и редактирования изображений на основе инструкций, существующие подходы в основном преуспевают в редактировании отдельных, заметных объектов, но значительно затрудняются при работе со сложными сценами, содержащими множество объектов. Чтобы количественно оценить этот разрыв, мы сначала представляем RefEdit-Bench — строгий бенчмарк, основанный на реальных данных из RefCOCO, где даже базовые модели, обученные на миллионах образцов, показывают низкие результаты. Чтобы преодолеть это ограничение, мы представляем RefEdit — модель редактирования на основе инструкций, обученную на нашем масштабируемом конвейере генерации синтетических данных. Наша модель RefEdit, обученная всего на 20 000 тройках редактирования, превосходит базовые модели на основе Flux/SD3, обученные на миллионах данных. Обширные оценки на различных бенчмарках демонстрируют, что наша модель не только преуспевает в задачах, связанных с референциальными выражениями, но также улучшает производительность на традиционных бенчмарках, достигая результатов, сопоставимых с закрытыми методами. Мы публикуем данные и контрольные точки для обеспечения воспроизводимости.
Крупные языковые модели (LLM) часто хвалят за их способность демонстрировать почти человеческий уровень производительности в широком спектре задач и ценят за их умение поддерживать общий диалог. Однако появление агентных систем искусственного интеллекта (ИИ) открывает множество приложений, в которых языковые модели выполняют небольшое количество специализированных задач повторяющимся образом и с минимальными вариациями. В данной работе мы утверждаем, что малые языковые модели (SLM) обладают достаточной мощностью, изначально более подходят и неизбежно более экономичны для многих применений в агентных системах, что делает их будущим агентного ИИ. Наши аргументы основаны на текущем уровне возможностей, демонстрируемых SLM, типичных архитектурах агентных систем и экономике развертывания языковых моделей. Мы также утверждаем, что в ситуациях, где важны универсальные способности к ведению диалога, гетерогенные агентные системы (т.е. системы, использующие несколько различных моделей) являются естественным выбором. Мы обсуждаем потенциальные барьеры для внедрения SLM в агентные системы и предлагаем общий алгоритм преобразования агентов с LLM в SLM. Наша позиция, сформулированная как ценностное утверждение, подчеркивает значимость операционного и экономического воздействия, которое даже частичный переход от LLM к SLM окажет на индустрию агентного ИИ. Мы стремимся стимулировать обсуждение эффективного использования ресурсов ИИ и надеемся способствовать усилиям по снижению затрат на современный ИИ. Призывая как к поддержке, так и к критике нашей позиции, мы обязуемся публиковать всю соответствующую переписку на сайте https://research.nvidia.com/labs/lpr/slm-agents.
Блок-схемы являются важным инструментом для визуализации процессов принятия решений. Однако их нелинейная структура и сложные визуально-текстовые взаимосвязи затрудняют их интерпретацию с использованием языковых моделей (LLM), так как модели, работающие с визуальными и текстовыми данными, часто генерируют несуществующие связи и пути решений при анализе таких диаграмм. Это снижает надежность автоматизированной обработки блок-схем в критически важных областях, таких как логистика, здравоохранение и инженерия. Мы представляем задачу тонкой атрибуции блок-схем, которая отслеживает конкретные компоненты, на которых основываются ответы LLM, ссылающиеся на блок-схему. Атрибуция блок-схем обеспечивает проверяемость предсказаний LLM и повышает объяснимость, связывая сгенерированные ответы со структурой блок-схемы. Мы предлагаем FlowPathAgent, нейросимволический агент, который выполняет тонкую апостериорную атрибуцию с помощью графового рассуждения. Сначала он сегментирует блок-схему, затем преобразует её в структурированный символический граф и использует агентный подход для динамического взаимодействия с графом с целью генерации путей атрибуции. Кроме того, мы представляем FlowExplainBench, новый эталонный набор данных для оценки атрибуции блок-схем в различных стилях, областях и типах вопросов. Экспериментальные результаты показывают, что FlowPathAgent снижает визуальные галлюцинации в ответах LLM на вопросы по блок-схемам, превосходя сильные базовые модели на 10–14% на нашем предложенном наборе данных FlowExplainBench.
Обрезка (pruning) в последнее время широко применяется для уменьшения масштаба параметров и повышения эффективности вывода крупных языковых моделей (LLM). Основные методы обрезки часто полагаются на унифицированные послойные стратегии, что может приводить к значительному ухудшению производительности при высоких уровнях разреженности. Учитывая различный вклад разных слоев в LLM, современные исследования сместили фокус на неоднородную послойную обрезку. Однако эти подходы часто основываются на заранее заданных значениях, что может приводить к неоптимальной производительности. Чтобы преодолеть эти ограничения, мы предлагаем новый метод, называемый Динамической Послойной Обрезкой (Dynamic Layerwise Pruning, DLP). Этот подход адаптивно определяет относительную важность каждого слоя, интегрируя веса модели с информацией об активациях входных данных, и назначает соответствующие коэффициенты обрезки. Экспериментальные результаты показывают, что DLP эффективно сохраняет производительность модели при высоких уровнях разреженности для различных LLM. В частности, при 70% разреженности DLP снижает перплексию модели LLaMA2-7B на 7,79 и повышает среднюю точность на 2,7% по сравнению с современными методами. Более того, DLP совместима с различными существующими методами сжатия LLM и может быть легко интегрирована в параметрически эффективную тонкую настройку (Parameter-Efficient Fine-Tuning, PEFT). Мы публикуем код по адресу https://github.com/ironartisan/DLP для содействия дальнейшим исследованиям.
Недавние бенчмарки для понимания длинных видео и текста стимулировали прогресс в области крупных мультимодальных моделей для видео (Video-LMMs). Однако недостаток хорошо аннотированных длинных видео оставил обучение моделей для часовых видео (Video-LLMs) недостаточно изученным. Чтобы устранить этот пробел, мы представляем VideoMarathon — масштабный набор данных для выполнения инструкций на основе часовых видео. Этот набор включает около 9 700 часов длинных видео из различных областей, продолжительностью от 3 до 60 минут на видео. В частности, он содержит 3,3 миллиона высококачественных пар вопросов и ответов, охватывающих шесть основных тем: временные аспекты, пространственные характеристики, объекты, действия, сцены и события. По сравнению с существующими наборами данных для видеоинструкций, VideoMarathon значительно увеличивает продолжительность обучающих видео до 1 часа и поддерживает 22 разнообразных задачи, требующих как краткосрочного, так и долгосрочного понимания видео. На основе VideoMarathon мы предлагаем Hour-LLaVA — мощную и эффективную Video-LMM для моделирования видео и текста на часовом масштабе. Она позволяет обучаться и выполнять вывод на часовых видео с частотой 1 кадр в секунду благодаря модулю расширения памяти, который адаптивно интегрирует семантику, релевантную вопросам пользователя и информативную в пространственно-временном контексте, из кэшированного полного видео. В наших экспериментах Hour-LLaVA демонстрирует наилучшие результаты на нескольких бенчмарках для длинных видео и текста, что подтверждает высокое качество набора данных VideoMarathon и превосходство модели Hour-LLaVA.
Агентные системы ИИ, построенные на основе крупных языковых моделей (LLM) и развернутые в мультиагентных конфигурациях, переопределяют интеллектуальную автономию, сотрудничество и принятие решений в корпоративных и социальных сферах. В данном обзоре представлен структурированный анализ управления доверием, рисками и безопасностью (TRiSM) в контексте агентных мультиагентных систем (AMAS), основанных на LLM. Мы начинаем с изучения концептуальных основ агентного ИИ, его архитектурных отличий от традиционных агентов ИИ и новых системных решений, обеспечивающих масштабируемую автономию с использованием инструментов. TRiSM в рамках агентного ИИ подробно рассматривается через четыре столпа: управление, объяснимость, ModelOps и конфиденциальность/безопасность, каждый из которых адаптирован для агентных LLM. Мы определяем уникальные векторы угроз и представляем всеобъемлющую таксономию рисков для приложений агентного ИИ, подкрепленную кейсами, иллюстрирующими реальные уязвимости. Кроме того, в статье исследуются механизмы построения доверия, методы обеспечения прозрачности и контроля, а также современные стратегии объяснимости в распределенных системах агентов LLM. Также рассматриваются метрики для оценки доверия, интерпретируемости и ориентированной на человека производительности, наряду с открытыми задачами бенчмаркинга. Безопасность и конфиденциальность рассматриваются через призму шифрования, защиты от атак и соответствия развивающимся нормативным требованиям в области ИИ. Статья завершается дорожной картой для ответственного агентного ИИ, предлагая направления исследований для согласования новых мультиагентных систем с надежными принципами TRiSM для безопасного, подотчетного и прозрачного внедрения.
Открытие высокотемпературных сверхпроводящих материалов имеет огромное значение для промышленности и повседневной жизни человека. В последние годы исследования, направленные на прогнозирование температур сверхпроводящего перехода с использованием искусственного интеллекта (ИИ), приобрели популярность, причем большинство таких инструментов заявляют о достижении высокой точности. Однако отсутствие общепринятых эталонных наборов данных в этой области серьезно затрудняет справедливое сравнение различных алгоритмов ИИ и препятствует дальнейшему развитию этих методов. В данной работе мы представляем HTSC-2025 — эталонный набор данных по высокотемпературным сверхпроводникам при атмосферном давлении. Этот всеобъемлющий сборник включает теоретически предсказанные сверхпроводящие материалы, обнаруженные теоретическими физиками в период с 2023 по 2025 год на основе теории сверхпроводимости БКШ, включая известную систему X_2YH_6, перовскитную систему MXH_3, систему M_3XH_8, каркасные системы с легированием металлических атомов BCN, полученные в результате структурной эволюции LaH_{10}, а также двумерные системы с гексагональной структурой, развивающиеся из MgB_2. Эталонный набор HTSC-2025 был опубликован в открытом доступе по адресу https://github.com/xqh19970407/HTSC-2025 и будет постоянно обновляться. Этот эталон имеет важное значение для ускорения открытия сверхпроводящих материалов с использованием методов на основе ИИ.
Повышение способности крупных языковых моделей к рассуждению с использованием обучения с подкреплением (RL) остается важной задачей. Существующие подходы в основном используют два контрастных уровня оценки преимуществ: методы на уровне токенов (например, PPO) направлены на предоставление детализированных сигналов преимуществ, но страдают от неточной оценки из-за сложностей в обучении точной модели критика. На другом конце спектра, методы на уровне траекторий (например, GRPO) полагаются исключительно на грубый сигнал преимуществ, основанный на финальной награде, что приводит к неточному распределению заслуг. Для устранения этих ограничений мы предлагаем Segment Policy Optimization (SPO), новый RL-фреймворк, который использует оценку преимуществ на уровне сегментов с промежуточной детализацией, достигая лучшего баланса за счет более точного распределения заслуг по сравнению с методами на уровне траекторий и меньшего количества точек оценки по сравнению с методами на уровне токенов, что позволяет проводить точную оценку преимуществ на основе метода Монте-Карло (MC) без модели критика. SPO включает три компонента с новыми стратегиями: (1) гибкое разделение на сегменты; (2) точная оценка преимуществ сегментов; и (3) оптимизация политики с использованием преимуществ сегментов, включая новую стратегию маскирования вероятностей. Мы также реализуем SPO для двух конкретных сценариев: (1) SPO-chain для коротких цепочек рассуждений (CoT), с использованием нового разделения на основе точек разрыва и оценки преимуществ на основе цепочек, что приводит к улучшению точности на 6-12 процентных пунктов по сравнению с PPO и GRPO на GSM8K. (2) SPO-tree для длинных CoT, с использованием новой оценки преимуществ на основе деревьев, что значительно снижает затраты на оценку MC, обеспечивая улучшение точности на 7-11 процентных пунктов по сравнению с GRPO на MATH500 при оценке в контекстах 2K и 4K. Наш код доступен по адресу https://github.com/AIFrameResearch/SPO.
Задача ссылания на объекты заключается в обнаружении всех объектов на изображении, которые соответствуют заданному описанию на естественном языке. Мы утверждаем, что надежная модель для ссылания на объекты должна быть обоснованной, то есть её предсказания должны быть как объяснимыми, так и соответствующими визуальному содержанию. В частности, она должна удовлетворять двум ключевым свойствам: 1) **Проверяемость** — модель должна предоставлять интерпретируемое обоснование, которое подтверждает её предсказания и явно связывает их с визуальными доказательствами; 2) **Достоверность** — модель должна уметь воздерживаться от предсказаний, если в изображении нет объекта, соответствующего заданному описанию. Однако большинство методов рассматривают ссылание как задачу прямого предсказания ограничивающих рамок, что ограничивает интерпретируемость и затрудняет отклонение описаний, не имеющих соответствия в изображении. В данной работе мы предлагаем модель **Rex-Thinker**, которая формулирует задачу ссылания на объекты как явную задачу рассуждения по цепочке мыслей (CoT). Для заданного описания сначала идентифицируются все кандидаты на объекты, соответствующие указанной категории. Затем Rex-Thinker выполняет пошаговое рассуждение для каждого кандидата, чтобы оценить, соответствует ли он заданному описанию, прежде чем сделать окончательное предсказание. Для поддержки этого подхода мы создаем крупномасштабный набор данных в стиле CoT под названием **HumanRef-CoT**, используя GPT-4o для генерации на основе набора данных HumanRef. Каждый след рассуждения следует структурированному формату планирования, действия и обобщения, что позволяет модели изучать декомпозированное и интерпретируемое рассуждение для кандидатов на объекты. Мы обучаем Rex-Thinker в два этапа: начальная фаза контролируемого тонкого настройки для обучения модели структурированному рассуждению, за которой следует обучение с подкреплением на основе GRPO для повышения точности и обобщаемости. Эксперименты показывают, что наш подход превосходит стандартные базовые методы как по точности, так и по интерпретируемости при оценке в рамках домена, а также демонстрирует улучшенную способность отклонять ошибочные предсказания и сильную обобщаемость в условиях вне домена.
Стремление к непрерывному обучению (Continual Learning, CL) направлено на наделение нейронных сетей способностью обучаться и адаптироваться постепенно. Ключевым аспектом этого стремления является решение дилеммы стабильности и пластичности, которая заключается в поиске баланса между двумя противоречивыми целями: сохранением ранее усвоенных знаний и приобретением новых. Хотя многочисленные методы CL направлены на достижение этого компромисса, они часто упускают из виду влияние архитектуры сети на стабильность и пластичность, ограничивая компромисс уровнем параметров. В данной статье мы исследуем конфликт между стабильностью и пластичностью на архитектурном уровне. Мы показываем, что при равном ограничении на количество параметров более глубокие сети демонстрируют лучшую пластичность, тогда как более широкие сети характеризуются превосходной стабильностью. Для решения этой дилеммы на архитектурном уровне мы представляем новый фреймворк под названием Dual-Arch, который служит подключаемым компонентом для CL. Этот фреймворк использует комплементарные преимущества двух различных и независимых сетей: одна ориентирована на пластичность, а другая — на стабильность. Каждая сеть разработана с учетом специализированной и легковесной архитектуры, адаптированной под соответствующую цель. Многочисленные эксперименты демонстрируют, что Dual-Arch улучшает производительность существующих методов CL, при этом сокращая количество параметров до 87%.
Базы данных публикаций зависят от точного извлечения метаданных из различных веб-источников, однако различия в макетах веб-страниц и форматах данных создают сложности для поставщиков метаданных. В данной статье представлен CRAWLDoc — новый метод контекстного ранжирования связанных веб-документов. Начиная с URL публикации, такого как цифровой идентификатор объекта, CRAWLDoc извлекает целевую страницу и все связанные веб-ресурсы, включая PDF-файлы, профили ORCID и дополнительные материалы. Он объединяет эти ресурсы вместе с текстами ссылок и URL в единое представление. Для оценки CRAWLDoc мы создали новый, вручную размеченный набор данных, содержащий 600 публикаций от шести ведущих издателей в области компьютерных наук. Наш метод CRAWLDoc демонстрирует устойчивое и независимое от макета ранжирование релевантных документов для различных издателей и форматов данных. Он закладывает основу для улучшенного извлечения метаданных из веб-документов с различными макетами и форматами. Наш исходный код и набор данных доступны по адресу https://github.com/FKarl/CRAWLDoc.
Один из способов снижения рисков в моделях, объединяющих зрение и язык (VLMs), заключается в удалении опасных образцов из их обучающих данных. Однако такая модерация данных может быть легко обойдена, если вредоносные изображения разделены на небольшие, безобидные на вид фрагменты, распределенные по множеству обучающих образцов. В этом случае VLMs могут научиться собирать эти фрагменты в процессе обучения и генерировать вредоносные ответы на этапе вывода, будь то из полных изображений или текстовых ссылок. Например, если модель обучается на фрагментах изображения кровавой сцены, сопоставленных с описанием "безопасно", она может впоследствии описать полное изображение или текстовую ссылку на эту сцену как "безопасно". Мы определяем ключевую способность VLMs, делающую возможной такую атаку, как визуальное сшивание — способность интегрировать визуальную информацию, распределенную по нескольким обучающим образцам, которые имеют одинаковые текстовые описания. В нашей работе мы сначала демонстрируем способность к визуальному сшиванию в распространенных открытых VLMs на трех наборах данных, где каждое изображение помечено уникальным синтетическим идентификатором (ID): мы разделяем каждую пару (изображение, ID) на пары {(фрагмент, ID)} с разной степенью детализации для дообучения и обнаруживаем, что дообученные модели могут вербализовать правильные ID из полных изображений или текстовых ссылок. На основе этого мы моделируем сценарий вредоносного отравления данных, упомянутый выше, используя фрагменты опасных изображений и заменяя ID текстовыми описаниями, такими как "безопасно" или "опасно", демонстрируя, как вредоносный контент может избежать модерации в виде фрагментов и впоследствии быть восстановлен через визуальное сшивание, создавая серьезные риски для безопасности VLMs. Код доступен по адресу https://github.com/ZHZisZZ/visual-stitching.
3D-реконструкция по изображениям, полученным в естественных условиях, остается сложной задачей из-за нестабильных условий освещения и временных помех. Существующие методы обычно полагаются на эвристические стратегии для обработки низкокачественных обучающих данных, что часто приводит к нестабильным и несогласованным реконструкциям, сопровождающимся визуальными артефактами. В данной работе мы предлагаем Asymmetric Dual 3DGS — новый фреймворк, который использует стохастическую природу этих артефактов: они имеют тенденцию варьироваться в разных запусках обучения из-за незначительной случайности. В частности, наш метод обучает две модели 3D Gaussian Splatting (3DGS) параллельно, применяя ограничение согласованности, которое способствует сходимости к надежной геометрии сцены, подавляя при этом несогласованные артефакты. Чтобы предотвратить схождение двух моделей в схожие режимы сбоя из-за предвзятости подтверждения, мы вводим стратегию дивергентного маскирования, которая применяет две взаимодополняющие маски: адаптивную маску на основе множества признаков и самообучаемую мягкую маску. Это приводит к асимметричному процессу обучения двух моделей, уменьшая общие ошибки. Кроме того, для повышения эффективности обучения модели мы предлагаем облегченный вариант под названием Dynamic EMA Proxy, который заменяет одну из двух моделей динамически обновляемым прокси-экспоненциальным скользящим средним (EMA) и использует чередующуюся стратегию маскирования для сохранения дивергенции. Эксперименты на сложных наборах реальных данных демонстрируют, что наш метод стабильно превосходит существующие подходы, достигая высокой эффективности. Коды и обученные модели будут опубликованы.
Потоковые латентные генеративные модели, такие как Stable Diffusion 3, способны создавать изображения с выдающимся качеством, включая фотореалистичную генерацию изображений из текста. Их впечатляющая производительность предполагает, что эти модели также могут служить мощными априорными распределениями для обратных задач обработки изображений, однако такой подход пока не привел к сопоставимой точности. Существует несколько ключевых препятствий: (i) кодирование в пространство меньшей размерности делает базовое (прямое) отображение нелинейным; (ii) функция правдоподобия данных обычно является вычислительно сложной; и (iii) обученные генеративные модели испытывают трудности с восстановлением редких, атипичных режимов данных в процессе вывода. Мы представляем FLAIR — новый вариационный фреймворк, не требующий обучения, который использует потоковые генеративные модели в качестве априорного распределения для обратных задач. Для этого мы вводим вариационную целевую функцию для согласования потоков, которая не зависит от типа искажения, и комбинируем её с детерминированными корректировками траекторий для восстановления атипичных режимов. Чтобы обеспечить точное соответствие наблюдаемым данным, мы разделяем оптимизацию терминов точности данных и регуляризации. Кроме того, мы предлагаем временно-зависимую схему калибровки, в которой сила регуляризации модулируется на основе оценок точности, полученных в автономном режиме. Результаты на стандартных бенчмарках обработки изображений демонстрируют, что FLAIR стабильно превосходит существующие методы, основанные на диффузии и потоках, по качеству реконструкции и разнообразию выборок.
Многошаговое символическое рассуждение имеет ключевое значение для повышения производительности в финансовых задачах. Однако отсутствуют эталонные тесты для систематической оценки этой способности. Существующие наборы данных, такие как FinQA и ConvFinQA, контролируют только итоговые числовые ответы, не оценивая промежуточные шаги рассуждений. Чтобы устранить этот пробел, мы представляем FinChain — первый символический эталонный тест, разработанный для проверяемой цепочки рассуждений (Chain-of-Thought, CoT) в финансовой области. Охватывая 54 темы в 12 финансовых областях, FinChain предлагает пять параметризованных шаблонов для каждой темы, каждый из которых варьируется по сложности рассуждений и требуемому уровню экспертных знаний. Каждый экземпляр набора данных включает исполняемый Python-сценарий, что позволяет автоматически генерировать обширные обучающие данные и легко адаптировать их к другим областям. Мы также представляем ChainEval — новый метрический инструмент для автоматической оценки как итоговых ответов, так и промежуточных рассуждений. Проведя тестирование 30 крупных языковых моделей (LLM) на нашем наборе данных, мы обнаружили, что даже самые передовые модели имеют значительный потенциал для улучшения в области многошагового финансового рассуждения. Все шаблоны и метрики оценки для FinChain доступны по адресу: https://github.com/mbzuai-nlp/finchain.
Генерация точных звуков для сложных аудиовизуальных сцен представляет собой сложную задачу, особенно при наличии множества объектов и источников звука. В данной работе мы предлагаем модель {\em интерактивной генерации звука с учетом объектов}, которая основывает генерацию звука на визуальных объектах, выбранных пользователем на изображениях. Наш метод интегрирует объектно-ориентированное обучение в условную модель латентной диффузии, которая учится связывать области изображения с соответствующими звуками через мультимодальное внимание. На этапе тестирования наша модель использует сегментацию изображений, позволяя пользователям интерактивно генерировать звуки на уровне {\em объектов}. Мы теоретически подтверждаем, что наш механизм внимания функционально аппроксимирует маски сегментации на этапе тестирования, обеспечивая соответствие генерируемого звука выбранным объектам. Количественные и качественные оценки показывают, что наша модель превосходит базовые подходы, достигая лучшего соответствия между объектами и связанными с ними звуками. Страница проекта: https://tinglok.netlify.app/files/avobject/
Аннотирование данных — это трудоемкая и затратная задача, но она является неотъемлемой частью обучения с учителем в машинном обучении. Активное обучение (Active Learning, AL) — это проверенный метод, который минимизирует усилия по ручной разметке, итеративно выбирая наиболее информативные неразмеченные образцы для экспертной аннотации, тем самым повышая общую производительность классификации. Несмотря на то, что AL известно уже несколько десятилетий, оно до сих пор редко используется в реальных приложениях. Как показали два опроса среди сообщества NLP, посвященных AL, две основные причины продолжают удерживать практиков от его использования: во-первых, сложность настройки AL, а во-вторых, недостаток доверия к его эффективности. Мы предполагаем, что обе причины имеют один и тот же корень: обширное пространство гиперпараметров AL. Это в значительной степени неисследованное пространство гиперпараметров часто приводит к вводящим в заблуждение и невоспроизводимым результатам экспериментов с AL. В данном исследовании мы, во-первых, составили обширную сетку гиперпараметров, включающую более 4,6 миллионов комбинаций, во-вторых, зафиксировали производительность всех комбинаций в самом масштабном на сегодняшний день исследовании AL и, в-третьих, проанализировали влияние каждого гиперпараметра на результаты экспериментов. В заключение мы даем рекомендации относительно влияния каждого гиперпараметра, демонстрируем удивительное влияние конкретной реализации стратегии AL и предлагаем дизайн экспериментального исследования для воспроизводимых экспериментов с AL при минимальных вычислительных затратах, тем самым способствуя более воспроизводимым и надежным исследованиям AL в будущем.
С быстрым развитием мультимодальных больших языковых моделей (MLLMs) они всё чаще используются в качестве автономных агентов для работы с компьютером, способных выполнять сложные задачи. Однако возникает актуальный вопрос: могут ли принципы обеспечения безопасности, разработанные и адаптированные для общих MLLM в диалоговых сценариях, быть эффективно перенесены на реальные сценарии использования компьютера? Существующие исследования по оценке рисков безопасности агентов на основе MLLM, используемых для работы с компьютером, страдают от нескольких ограничений: либо они не учитывают реалистичные интерактивные среды, либо сосредоточены на одном или нескольких конкретных типах рисков. Эти ограничения игнорируют сложность, изменчивость и разнообразие реальных сред, что затрудняет всестороннюю оценку рисков для таких агентов. В связи с этим мы представляем RiOSWorld — эталонный набор данных, предназначенный для оценки потенциальных рисков агентов на основе MLLM при выполнении реальных манипуляций с компьютером. Наш набор включает 492 рискованные задачи, охватывающие различные компьютерные приложения, такие как веб-браузеры, социальные сети, мультимедиа, операционные системы, электронная почта и офисные программы. Мы классифицируем эти риски на две основные категории в зависимости от их источника: (i) риски, исходящие от пользователя, и (ii) риски, связанные с окружающей средой. Для оценки мы рассматриваем риски безопасности с двух точек зрения: (i) намерение достижения рискованной цели и (ii) завершение рискованной цели. Многочисленные эксперименты с мультимодальными агентами на RiOSWorld показывают, что современные агенты для работы с компьютером сталкиваются с существенными рисками безопасности в реальных сценариях. Наши результаты подчеркивают необходимость и срочность обеспечения безопасности таких агентов при выполнении реальных манипуляций с компьютером, предоставляя ценные инсайты для разработки надежных агентов. Наш эталонный набор данных доступен по адресу https://yjyddq.github.io/RiOSWorld.github.io/.