HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

58 papers found

Gamma-World: Генеративное многоагентное моделирование мира, выходящее за рамки двух игроков
Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

May 27

ByFangfu Liu, Kai He, Tianchang Shen, Tianshi Cao, Sanja Fidler, Yueqi Duan, Jun Gao, Igor Gilitschenski, Zian Wang, Xuanchi Ren

156

Модели мира для интерактивной генерации видео в значительной степени ориентировались на однопользовательские сценарии, где будущие наблюдения порождаются из единственного управляющего сигнала. Однако многие генерируемые среды требуют взаимодействия нескольких агентов: множество игроков, роботов или воплощенных агентов действуют одновременно в общем пространстве. Масштабирование моделей мира на такие условия требует принципиального многопользовательского дизайна: агенты должны оставаться независимо управляемыми, перестановочно-симметричными и поддерживать эффективные вычисления, сохраняя согласованность во времени и с разных точек зрения. В данной статье мы представляем нашу генеративную многопользовательскую модель мира для интерактивной симуляции. Она включает Simplex Rotary Agent Encoding — расширение 3D RoPE без дополнительных параметров, которое представляет агентов как вершины правильного симплекса в пространстве углов поворота. Это дает каждому агенту отдельную фазу, делая всех агентов эквивалентными относительно перестановок, что обеспечивает масштабируемую идентичность агентов без использования изученных идентификаторов для отдельных слотов или фиксированного порядка агентов. Чтобы избежать полного попарного взаимодействия между агентами, мы дополнительно предлагаем Sparse Hub Attention, где обучаемые хабы-токены опосредуют взаимодействие токенов между агентами, снижая стоимость перекрестного внимания с квадратичной до линейной относительно числа агентов. Для работы в реальном времени мы дистиллируем full-context диффузионный учитель в каузального ученика, который последовательно генерирует временные блоки с кэшированием KV, обеспечивая генерацию, реагирующую на действия, со скоростью 24 FPS. Эксперименты в многопользовательских виртуальных средах показывают, что наша модель улучшает качество видео, управляемость действий и согласованность между агентами по сравнению с базовыми подходами на основе слотов и плотного внимания, при этом обобщаясь с двух до четырех игроков без дополнительного обучения.

ProRL: Эффективное обучение с подкреплением для проактивной рекомендации с помощью скорректированной оценки градиента политики
ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

May 27

ByHongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang

Проактивные рекомендательные системы (PRS) стремятся направлять изменение предпочтений пользователя в сторону целевых элементов, генерируя пути промежуточных рекомендаций. Обучение с подкреплением (RL) предоставляет принципиальную основу для оптимизации таких последовательных задач принятия решений, поскольку вознаграждения на пути могут естественным образом учитывать как краткосрочное принятие, так и долгосрочную эффективность направления. Однако наивное применение градиентов политики к PRS приводит к некачественной оценке градиента. Мы выявляем два недостатка: (1) вознаграждения на уровне пути разлагаются на вознаграждения на уровне шага с положительным средним, что создаёт смещение, зависящее от длины, из-за которого градиенты отдают предпочтение удлинению пути, а не осмысленному исследованию; (2) взвешивание каждого шага с помощью всего вознаграждения пути игнорирует структуру разложения, что приводит к высокой дисперсии градиента. Для устранения этих двух недостатков мы предлагаем эффективную структуру RL под названием ProRL с двумя новыми механизмами для проактивной рекомендации. Во-первых, центрирование вознаграждений по шагам (Stepwise Reward Centering) вычитает ожидаемые вознаграждения для нейтрализации смещения, зависящего от длины, гарантируя, что удлинение пути даёт нулевой ожидаемый сигнал градиента. Во-вторых, оценка преимущества, специфичного для позиции (Position-Specific Advantage Estimation), использует структуру разложения вознаграждений для вычисления зависящих от шага базовых линий, снижая дисперсию градиента. Вместе эти механизмы обеспечивают градиенты политики, которые точно нацелены на качество пути. Наши эксперименты на трёх реальных наборах данных демонстрируют, что ProRL значительно превосходит современные PRS. Наш код доступен по адресу https://github.com/hongruhou89/ProRL.

Оптимизация исследовательской политики агента для мультимодального агентного рассуждения
Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

May 27

ByMinki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee

Модели «зрение-язык» с расширенным рассуждением успешно справляются со сложными задачами, однако многие реальные проблемы требуют внешних инструментов, которые одно лишь внутреннее рассуждение часто не может разрешить. Поэтому агентное рассуждение чередует два поведения, обладающих структурной асимметрией: мышление (самодостаточный режим по умолчанию) и использование инструментов (вспомогательное действие с высокой вариативностью). Мы называем эту асимметрию разрывом между мышлением и действием (Thinking-Acting Gap). При стандартных подходах RL, таких как GRPO, этот разрыв проявляется в виде двух диагностических симптомов во время обучения: использование инструментов предпринимается лишь в ~30% разверток, а когда оно предпринимается, то в ~40% вопросов все развертки с использованием инструментов внутри группы оказываются неверными, подавляя обучающий сигнал в тех вызовах инструментов, которые в нём нуждались. Мы предлагаем AXPO (Agent eXplorative Policy Optimization — оптимизация политики с агентным исследованием): для каждой подгруппы с полностью неверным использованием инструментов AXPO фиксирует префикс мышления и повторно выбирает вызов инструмента и его продолжение в сочетании с выбором префикса на основе неопределённости. На девяти мультимодальных бенчмарках и трёх масштабах Qwen3-VL-Thinking SFT+AXPO превосходит SFT+GRPO в среднем (+1,8 процентных пункта по Pass@1 и +1,8 п.п. по Pass@4 для модели 8B в среднем), а модель 8B с SFT+AXPO превосходит базовую модель 32B по Pass@4, имея в 4 раза меньше параметров.

От пикселей к словам — на пути к нативным One-Vision моделям в масштабе
From Pixels to Words -- Towards Native One-Vision Models at Scale

May 27

ByHaiwen Diao, Jiahao Wang, Penghao Wu, Yuhao Dong, Yuwei Niu, Yue Zhu, Zhongang Cai, Weichen Fan, Linjun Dai, Silei Wu, Xuanyu Zheng, Mingxuan Li, Yuanhan Zhang, Bo Li, Hanming Deng, Huchuan Lu, Quan Wang, Lei Yang, Lewei Lu, Dahua Lin, Ziwei Liu

Современные модели зрения-языка (VLM) обычно объединяют отдельные кодировщики изображений и декодеры языка посредством многоэтапного выравнивания — модульной архитектуры, которая неизбежно фрагментирует сигналы на уровне пикселей между кадрами и разобщает ранние взаимодействия пикселей и слов. В то же время нативные VLM, несмотря на впечатляющую производительность на отдельных изображениях, остаются практически неисследованными в задачах множественных изображений, понимания видео и пространственного интеллекта. В связи с этим мы представляем NEO-ov — нативную базовую модель, которая обучает межкадровое соответствие и соответствие между пикселями и словами сквозным образом, без использования внешних кодировщиков, вспомогательных адаптеров или пост-хок слияния. Полностью устраняя границы между модулями, NEO-ov позволяет детализированное и унифицированное пространственно-временное моделирование, возникающее нативно внутри самой модели. Примечательно, что NEO-ov значительно сокращает разрыв с модульными аналогами, превосходя их в восприятии мелких деталей, что подтверждает, что нативные архитектуры «единого зрения» не только осуществимы, но и конкурентоспособны в масштабе. Помимо эмпирической производительности, мы раскрываем систематический анализ архитектур и подробные рецепты обучения, чтобы облегчить последующее нативное мультимодальное моделирование. Наш код и модели общедоступны по адресу: https://github.com/EvolvingLMMs-Lab/NEO.

Самоулучшающиеся языковые модели с двунаправленным эволюционным поиском
Self-Improving Language Models with Bidirectional Evolutionary Search

May 27

ByGuowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du

Поиск был предложен как эффективный метод для самоулучшающихся языковых моделей и агентных систем как для генерации примеров после обучения, так и для инференса. Однако широко используемые методы, такие как best-of-N сэмплирование и поиск по дереву, имеют два фундаментальных ограничения: они направляются разреженными сигналами верификации и формируют кандидаты преимущественно за счёт авторегрессионного расширения, что ограничивает исследование областями со значительной вероятностной массой модели. Для преодоления этих ограничений предлагается двунаправленный эволюционный поиск (BES) — фреймворк поиска, объединяющий прямую эволюцию кандидатов с обратной декомпозицией целей. На этапе прямого поиска BES дополняет стандартное расширение эволюционными операторами, которые рекомбинируют частичные траектории для генерации кандидатов, трудно достижимых при одиночном прогоне модели. На этапе обратного поиска BES рекурсивно разлагает исходную задачу на проверяемые подцели, обеспечивая плотную промежуточную обратную связь, направляющую прямой поиск. Приводится теоретическое обоснование, показывающее, что кандидаты, генерируемые поиском только за счёт расширения, ограничены узкой энтропийной оболочкой, тогда как эволюционные операторы могут её покинуть, а обратный поиск способен экспоненциально сократить количество образцов, необходимых для нахождения правильного ответа. Эксперименты показывают, что на сложных задачах после обучения, где основные алгоритмы пост-обучения не дают улучшений, BES обеспечивает устойчивый прирост, а на трёх открытых бенчмарках решения задач во время инференса BES превосходит существующие open-source фреймворки как по средней, так и по наилучшей производительности. Код и обученные модели доступны по адресу https://github.com/Embodied-Minds-Lab/BES.

ResearchMath-14K: Масштабирование исследовательской математики с помощью агентов
ResearchMath-14K: Scaling Research-Level Mathematics via Agents

May 27

ByGuijin Son, Seungyeop Yi, Minju Gwak, Hyunwoo Ko, Wongi Jang, Youngjae Yu

Передний край математики определяется задачами, решения которых пока неизвестны, однако остается неясным, могут ли языковые модели осмысленно работать с такими задачами без вмешательства человека. Основным препятствием является отсутствие крупномасштабных наборов математических данных исследовательского уровня. Для решения этой проблемы мы представляем ResearchMath-14k — набор из 14 056 задач, собранных из академических источников с помощью многогаентного конвейера, что делает его крупнейшей коллекцией математических задач исследовательского уровня на сегодняшний день. Кроме того, мы создали ResearchMath-Reasoning — 220 тысяч траекторий учителя, полученных от двух открытых моделей, где мы наблюдали повторяющееся избегающее поведение, такое как попытки невыполнения и вымышленные ссылки. Интересно, что среди восьми моделей с открытым весом новые поколения производят в 5,6 раза больше ссылок и в 5,0 раза больше ложных ссылок на трассу. После агентной фильтрации ResearchMath-Reasoning тонкая настройка моделей Qwen3 от 4B до 30B параметров улучшает базовые модели в среднем на 9,2 балла. Это показывает, что отфильтрованные попытки решения открытых задач могут обеспечить полезный контроль даже при отсутствии полностью корректных цепочек рассуждений. Мы делаем ResearchMath-14k общедоступным для будущих работ по математическим рассуждениям исследовательского уровня.

DenoiseRL: бутстрэппинг моделей рассуждений для восстановления после зашумленных префиксов
DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

May 27

ByCaijun Xu, Changyi Xiao, Zhongyuan Peng, Yixin Cao

Обучение с подкреплением стало центральной парадигмой для развития рассуждений в больших языковых моделях, однако большинство существующих методов по-прежнему полагаются на более сильные модели-учителя или тщательно подобранные сложные наборы данных, что ограничивает масштабируемое улучшение возможностей. В этой статье мы представляем DenoiseRL — фреймворк обучения с подкреплением, который заменяет внешнее руководство оптимизацией, ориентированной на восстановление, на основе ошибок слабых моделей. Вместо того чтобы полагаться на более сильное руководство или тщательно подготовленные данные, DenoiseRL учится напрямую на некорректных цепочках рассуждений, превращая их в возможности для улучшения, что делает обучение более масштабируемым и менее зависимым от внешних ресурсов. Это дает более богатый и разнообразный обучающий сигнал, повышая эффективность исследования на основе несовершенного поведения модели. В результате DenoiseRL улучшает производительность рассуждений и общую эффективность обучения, снижая потребность в дорогостоящей курации данных или более сильных моделях-учителях. Эмпирически DenoiseRL стабильно превосходит сильные базовые методы обучения с подкреплением (on-policy) на соревновательных математических и общих бенчмарках для рассуждений, а также способствует более сильному самокорректирующему поведению по мере увеличения сложности обучения, что подчеркивает эффективный и масштабируемый альтернативный путь улучшения рассуждений в больших языковых моделях.

GEM: Генеративное наблюдение помогает воплощённому интеллекту
GEM: Generative Supervision Helps Embodied Intelligence

May 27

ByRuowen Zhao, Bangguo Li, Zuyan Liu, Yinan Liang, Junliang Ye, Fangfu Liu, Diankun Wu, Zhengyi Wang, Xumin Yu, Yongming Rao, Han Hu, Jun Zhu

Воплощенные визуально-языковые модели (VLM) продемонстрировали впечатляющую производительность и способность к обобщению в робототехнике, особенно в рамках архитектур «зрение–язык–действие». Однако между высокоуровневой семантической направленностью стандартных парадигм предварительного обучения на основе текста и низкоуровневыми пространственными и физическими знаниями, критически важными для выполнения задач в воплощенных средах, сохраняется значительный разрыв. В данной статье мы представляем GEM — генеративно-контролируемую воплощенную модель зрения и языка, предназначенную для преодоления этого разрыва. Мы предлагаем интегрировать задачу генерации карт глубины непосредственно в фазу предварительного обучения VLM. Совместное обучение этой генеративной цели с основной моделью приводит к существенному улучшению воплощенного интеллекта, значительно повышая как семантическое понимание, так и способности к физическому выполнению операций. Для поддержки данной парадигмы мы подготовили и опубликовали GEM-4M — крупномасштабный набор данных, включающий смесь данных для понимания, рассуждения и планирования в паре с высококачественным контролем глубины. Обширные эксперименты демонстрируют, что GEM достигает передовых результатов на различных воплощенных эталонах. Кроме того, наша развернутая модель действий GEM-VLA проявляет значительно превосходные способности выполнения задач как в средах симуляции, так и в оценках реального мира. Код, модели и наборы данных доступны по адресу https://zhaorw02.github.io/GEM/.

MemTrace: Трассировка и атрибуция ошибок в системах памяти больших языковых моделей
MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

May 27

ByXinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

Память необходима для обеспечения возможности больших языковых моделей поддерживать долгосрочные рассуждения, однако существующие системы памяти остаются ненадежными и сложными для отладки. Отслеживание динамической эволюции памяти критически важно для понимания того, как информация синтезируется, распространяется или искажается со временем. В данной работе мы изучаем новую проблему трассировки и атрибуции ошибок в системах памяти LLM. Мы предлагаем новый фреймворк, который преобразует конвейеры памяти в исполняемые графы эволюции памяти, обеспечивая детальное отслеживание потока операционной информации. Затем мы создаем MemTraceBench — эталонную базу (бенчмарк), собранную на основе репрезентативных систем памяти, таких как Long-Context, RAG, Mem0 и EverMemOS, для систематического изучения режимов сбоев памяти. Кроме того, мы представляем автоматический метод атрибуции, который итеративно отслеживает операционные подграфы, чтобы точно определить первопричину любого случая сбоя. Наш анализ показывает, что сбои памяти носят систематический характер и возникают из-за проблем на уровне операций, таких как потеря информации и рассогласование при извлечении. Важно отметить, что мы используем эти детальные сигналы атрибуции для управления последующей оптимизацией промптов, создавая замкнутую систему, которая автоматически исправляет ошибки и повышает производительность конечной задачи до 7.62%. Код будет опубликован по адресу https://github.com/zjunlp/MemTrace.

Обучение на слабостях: автоматизированная специализация предметной области для небольших компьютерных агентов
Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

May 27

BySuji Kim, Kangsan Kim, Sung Ju Hwang

Агенты, использующие компьютер (CUA), в последнее время достигли значительного прогресса, однако развертывание отдельного крупного эксперта для каждой программной области остается дорогостоящим. Малые открытые агенты компьютерного использования являются более практичными целями для специализации, но они остаются значительно слабее и демонстрируют неравномерные отказы в конкретных областях. Простым решением является синтез крупномасштабных обучающих данных для целевой области, однако мы обнаружили, что этот наивный подход дает лишь незначительные улучшения. Основываясь на этом наблюдении, мы представляем LearnWeak — фреймворк специализации без разметки для малых агентов компьютерного использования, который использует более сильного эталонного агента для выявления слабых мест ученика в целевой области, синтеза целевых задач и автоматического построения обучения. LearnWeak также вводит целевую функцию специализации, учитывающую ошибки, которая разделяет ошибки планирования и выполнения, что позволяет проводить более точные с поведенческой точки зрения обновления, чем широкое равномерное обучение. На OSWorld LearnWeak достигает среднего прироста в 11,6 и 11,1 процентных пункта относительно EvoCUA-8B и OpenCUA-7B соответственно по восьми доменам. Мы также подтверждаем, что наши подходы к генерации набора данных и обучению с учетом ученика превосходят существующие базовые подходы автономной генерации траекторий и обучения. Наша работа подчеркивает важность учета ученика как при синтезе данных, так и при обучении агентов, указывая на более принципиальный и эффективный путь специализации малых агентов компьютерного использования в различных областях.

ScientistOne: На пути к автономным исследованиям на уровне человека через цепочку доказательств
ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

May 25

ByRui Meng, Bhavana Dalvi Mishra, Jiefeng Chen, Chun-Liang Li, Palash Goyal, Mihir Parmar, Yiwen Song, Yale Song, Rajarishi Sinha, Parthasarathy Ranganathan, Burak Gokturk, Jinsung Yoon, Tomas Pfister

Автономные исследовательские агенты создают конкурентоспособные решения и профессионально оформленные рукописи, однако их результаты содержат ошибки верификации, не обнаруживаемые при поверхностной оценке: сфабрикованные ссылки, невоспроизводимые показатели и описания методов, расходящиеся с реализацией. Мы решаем эту проблему с помощью трех вкладов. Во-первых, «Цепочка доказательств» (Chain-of-Evidence, CoE) — это фреймворк верификации, требующий, чтобы каждое утверждение было прослеживаемо до своего источника доказательств. Во-вторых, ScientistOne — это сквозная автономная исследовательская система, которая по построению поддерживает цепочки доказательств на всех этапах: обзор литературы, поиск решений и написание статьи. В-третьих, CoE Audit — это ретроспективный аудит, чьи четыре проверки целостности — верификация показателей, нарушение спецификации, верификация ссылок и согласованность метода и кода — единообразно применимы ко всем системам. В 75 статьях, охватывающих пять систем и пять передовых исследовательских задач, каждый базовый метод демонстрирует как минимум одну систематическую ошибку: уровень галлюцинированных ссылок достигает 21%, верификация показателей проходит лишь в 42% статей, а согласованность метода и кода варьируется от 20% до 80%. ScientistOne достигает нулевых галлюцинированных ссылок (0/337), безупречной верификации показателей (12/12) и наивысшей согласованности метода и кода (14/15), при этом соответствуя или превосходя результаты экспертов-людей по всем пяти задачам. Кроме того, ScientistOne обобщается на шесть дополнительных задач, охватывающих медицинскую визуализацию, мелкозернистое распознавание, трехмерное восприятие и языковое моделирование, достигая передовых результатов на Parameter Golf и золотых медалей на задачах MLE-Bench, где базовые методы терпят полную неудачу.

Исследовательские агенты ИИ сужают научный поиск.
AI Research Agents Narrow Scientific Exploration

May 27

ByYixuan Tang, Yi Yang

Исследовательские агенты на основе ИИ теперь способны генерировать научные идеи, разрабатывать эксперименты, запускать код и составлять проекты статей, что открывает возможность для масштабной научной деятельности с поддержкой искусственного интеллекта. Многие современные архитектуры агентов явно поощряют генерацию новых и высокоэффективных идей. Тем не менее, остается неясным, расширяет ли такая AI-поддерживаемая генерация идей область научных исследований или же в основном концентрируется вокруг существующих работ. Мы изучаем исследовательские AI-агенты как системы научного поиска. Используя четыре архитектуры исследовательских AI-агентов и шесть больших языковых моделей, мы генерируем 37 802 научные идеи на основе общей исходной литературы в определенных по цитированиям областях исследований в области ИИ и машинного обучения. Затем мы сравниваем полученные AI-идеи со статьями, написанными людьми из тех же исследовательских областей, с последующими человеческими исследованиями, развивающимися из той же исходной литературы, и с самой исходной литературой. В ходе экспериментов выявляются четыре устойчивые закономерности. Во-первых, AI-идеи существенно более сконцентрированы, чем статьи, написанные людьми, из тех же исследовательских областей. Во-вторых, AI-идеи остаются гораздо ближе к исходной литературе, чем последующие человеческие работы. В-третьих, статьи, наиболее похожие на AI-идеи, как правило, получают более низкое последующее цитирование. В-четвертых, когда AI-идеи отличаются от предшествующих работ, эти различия возникают в основном из-за рекомбинирования существующих технических методов, а не внедрения принципиально новых исследовательских вопросов. В целом, современные исследовательские AI-агенты, по-видимому, лучше подходят для локальной детализации, чем для расширения научных исследований.

Переосмысление памяти как непрерывно эволюционирующей коннективности
Rethinking Memory as Continuously Evolving Connectivity

May 27

ByJizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang

Существующие агенты LLM с дополненной памятью часто рассматривают память как статическое хранилище с предопределенными представлениями и фиксированными конвейерами извлечения, что оказывается ненадежным в динамических агентных средах, где обратная связь, изменение задач и гетерогенные сигналы непрерывно изменяют то, что должно запоминаться и как это должно быть связано. Для решения этой проблемы мы предлагаем FluxMem — фреймворк памяти с эволюционирующей связностью, который моделирует память как гетерогенный граф и постепенно уточняет его топологию через три этапа: начальное формирование связей, уточнение на основе обратной связи и долгосрочная консолидация. В процессе выполнения FluxMem восстанавливает отсутствующие связи, устраняет интерференцию, выравнивает гранулярность абстракций и дистиллирует повторяющиеся успешные траектории в многократно используемые процедурные цепочки, руководствуясь единой метрикой обобщаемости памяти и эволюционной зрелости. На трех принципиально различных бенчмарках, включая LoCoMo, Mind2Web и GAIA, FluxMem демонстрирует стабильно высокую производительность, показывая сильную адаптацию и обобщение в сложных агентных средах. Код будет опубликован в открытом доступе по адресу https://github.com/zjunlp/LightMem.

Триплет-блок диффузионный RWKV
Triplet-Block Diffusion RWKV

May 25

ByKe Lin, Yiyang Luo, Zhaolong Su, Yunya Song, Anyi Rao

Каузальные трансформерные языковые модели страдают от строго последовательного декодирования и квадратичной стоимости внимания на каждом шаге. Хотя каузальные модели с линейным временем и дискретные диффузионные модели по отдельности устраняют эти недостатки, их интеграция остается внутренне противоречивой: диффузия требует двунаправленного внимания, тогда как каузальные модели являются однонаправленными. Чтобы унифицировать эти архитектуры, мы предлагаем B³D-RWKV — вариант диффузионного RWKV, объединяющий эффективность инференса O(L) модели с параллельной двунаправленной дискретной диффузией с помощью метода триплетно-блочной компоновки. B³D-RWKV-7.2B достигает сопоставимой точности на наборе из восьми задач по сравнению с существующими моделями, при этом значительно превосходит базовые модели по пропускной способности декодирования, демонстрируя среднее ускорение в 1,6 раза.

SkillGrad: Оптимизация навыков агента подобно градиентному спуску
SkillGrad: Optimizing Agent Skills Like Gradient Descent

May 26

ByHanyu Wang, Yifan Lan, Bochuan Cao, Lu Lin, Jinghui Chen

Навыки агентов предоставляют легковесный способ адаптации LLM-агентов к специализированным доменам путем хранения повторно используемых процедурных знаний в структурированных файлах. Однако, независимо от того, загружены ли такие навыки от третьих лиц или сгенерированы самостоятельно, они часто оказываются ненадежными, неполными или устаревшими. Существующие методы эволюции навыков обычно устраняют эти недостатки с помощью эвристических рефлексий без явной формулировки оптимизации. В данной работе мы предлагаем SkillGrad — фреймворк, вдохновленный градиентным спуском, для оптимизации навыков агентов. SkillGrad рассматривает пакет навыков как структурированный параметр, оптимизируемый в стиле градиентного спуска: выполнение задач предоставляет потери на уровне траекторий, затем автоматическая диагностика генерирует текстовые градиенты, указывающие направления коррекции. Для стабилизации оптимизации между итерациями агент с моментумом накапливает повторяющиеся диагностические паттерны в персистентном наложении памяти. Наконец, патчер на основе LLM выполняет обновление параметра, применяя послойные правки к пакету навыков. В оценке на SpreadsheetBench Verified и WikiTableQuestions SkillGrad последовательно превосходит baseline-методы эволюции навыков, основанные на обучении, на двух базовых LLM, улучшая сильнейший baseline, основанный на обучении, в среднем на 6,7 процентных пункта. Абляционные эксперименты дополнительно показывают, что и механизм моментума, и контрастная диагностика вносят вклад в итоговое качество навыков.

OSP-Next: Эффективная высококачественная генерация видео с использованием разреженного параллелизма последовательностей, квантования HiF8 и обучения с подкреплением
OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

May 27

ByYunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan

Диффузионные трансформеры обеспечивают высокое качество генерации видео, однако квадратичная стоимость полного внимания ограничивает эффективность. Мы представляем OSP-Next — эффективную модель генерации видео по текстовому описанию, которая объединяет разреженное внимание, параллелизм, квантование и обучение с подкреплением. OSP-Next использует гибридную архитектуру полного/разреженного внимания, где разреженный компонент реализован с помощью Skiparse-2D Attention. Этот механизм с фиксированным шаблоном применяет потоковое и групповое разреженное внимание вдоль пространственных размерностей, используя локальность при сохранении нативной совместимости с ядрами FlashAttention. Основываясь на локальной эквивалентности перестановки в Skiparse-2D Attention, мы дополнительно предлагаем Разреженную последовательную параллельность (Sparse Sequence Parallelism, SSP), которая разделяет подпоследовательности между рангами и переключает разреженные шаблоны с помощью одной связи типа "все-ко-всем". По сравнению с Ulysses Sequence Parallelism (SP), SSP обеспечивает нативную параллельную стратегию для разреженного внимания и сокращает объем коммуникаций на 75%. OSP-Next также включает квантование HiF8 для обеспечения стабильного совместного обучения с 8-битным квантованием и разреженной тонкой настройкой, а также применяет пост-тренировку Mix-GRPO для улучшения производительности разреженной модели. Эксперименты показывают, что OSP-Next достигает общего балла VBench 83,73%, превосходя базовый уровень Wan2.1. При настройках 5-секундного 720P и 5-секундного 768P OSP-Next достигает ускорения до 1,64× на одной GPU и более 1,52× на восьми GPU на графических процессорах NVIDIA H200. Кроме того, при падении общего балла VBench всего на 0,4% OSP-Next-HiF8 достигает ускорения в 1,69× и 2,27× в двух настройках на одном Ascend 950PR, что демонстрирует эффективность и производительность OSP-Next на различных аппаратных платформах.

GUI-CIDER: Промежуточное обучение GUI-агентов с помощью каузальной интернализации и повторного выбора примеров с учетом плотности
GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

May 27

ByZheng Wu, Chengcheng Han, Zhengxi Lu, Tianjie Ju, Yanyu Chen, Qi Gu, Xunliang Cai, Zhuosheng Zhang

Несмотря на стремительный прогресс мультимодальных больших языковых моделей в создании агентов графического пользовательского интерфейса (GUI), выполнение ими реальных задач принципиально ограничено отсутствием знаний о мире в отношении операций GUI. Существующие решения обычно опираются на дорогостоящую многолетнюю структуру или традиционные парадигмы пост-обучения, такие как контролируемая точная настройка (SFT) и обучение с подкреплением (RL). Однако пост-обучение позволяет агентам лишь неявно усваивать знания о мире через аннотации действий или сигналы вознаграждения, что приводит к неэффективному запоминанию траекторий вместо подлинного понимания. Поэтому необходим подход, обеспечивающий явное изучение этих знаний. С этой целью мы предлагаем GUI-CIDER — метод промежуточного обучения, который явно интернализует знания о мире GUI посредством каузальной интернализации и повторного отбора примеров с учетом плотности. GUI-CIDER работает в три этапа: (1) синтез данных, который извлекает из траекторий GUI статическое планирование и динамические каузальные знания в текст; (2) повторный отбор примеров, который фильтрует корпус, вознаграждая каузальные структуры и штрафуя семантическую избыточность; и (3) промежуточное обучение, в ходе которого уточненные данные используются для встраивания приобретенных знаний. Обширные эксперименты на двух эталонных тестах знаний GUI и трех эталонных тестах выполнения задач показывают, что GUI-CIDER последовательно улучшает как понимание агентом операций GUI, так и показатели успешности выполнения задач. Коды доступны по адресу https://github.com/Wuzheng02/GUI-CIDER.

Да здравствует баланс: Оптимизация политики на основе деревьев, управляемая информационным узким местом
Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

May 27

ByHao Jiang, Shurui Li, Tianpeng Bu, Bowen Xu, Xin Liu, Qihua Chen, Hongtao Duan, Lulu Hu, Bin Yang, Minying Zhang

Недавние достижения в области онлайн-обучения с подкреплением (RL) для больших языковых моделей (LLM) продемонстрировали многообещающие результаты в сложных задачах рассуждения. Однако они часто демонстрируют несбалансированный компромисс между исследованием и эксплуатацией, что приводит к нестабильной оптимизации и неоптимальной производительности. Мы представляем IB-Score — новую метрику, основанную на теории информационного узкого места (Information Bottleneck), которая оценивает баланс между исследованием и эксплуатацией политики, количественно определяя компромисс между разнообразием рассуждений на уровне шагов и взаимной информацией, разделяемой с правильным ответом. Анализ на основе IB-Score показывает, что популярные онлайн-подходы RL (например, GRPO) с распространёнными регуляризаторами неспособны последовательно поддерживать баланс в процессе обучения, что приводит к неоптимальным результатам. Для решения этой проблемы мы предлагаем древовидную оптимизацию политики на основе информационного узкого места (IB-TPO) — принципиальный фреймворк, который формулирует IB-Score как целевой показатель мелкозернистой оптимизации и использует новую стратегию древовидной выборки с направляющей IB, что не только повышает эффективность онлайн-выборки на 50% больше траекторий при том же бюджете токенов, но и повторно использует древовидную структуру для эффективной оценки Монте-Карло IB-Score. Обширные эксперименты на стандартных эталонных тестах показывают, что наш метод значительно превосходит базовую модель GRPO на 2.9%–3.6%, а также превосходит другие передовые онлайн-подходы RL. Наш код доступен по адресу https://github.com/alibaba/EfficientRL.

Fast-dDrive: Эффективная блочно-диффузионная VLM для автономного вождения
Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

May 25

ByKewei Zhang, Jin Wang, Sensen Gao, Chengyue Wu, Yulong Cao, Songyang Han, Boris Ivanovic, Langechuan Liu, Marco Pavone, Song Han, Daquan Zhou, Enze Xie

Сквозное автономное вождение с использованием моделей Vision-Language-Action (VLA) требует хрупкого баланса между высокоточным планированием траектории и эффективным выводом. Существующие парадигмы, как правило, не соответствуют требованиям: авторегрессионные (AR) VLA ограничены пропускной способностью памяти на граничных устройствах и подвержены дрейфу смещения экспозиции, в то время как диффузионные модели полных последовательностей исключают повторное использование KV-кэша и страдают от «логической утечки», нарушающей фундаментальную причинно-следственную связь «восприятие-затем-планирование». Мы представляем Fast-dDrive, блочно-диффузионную VLA, которая выполняет двунаправленное уточнение внутри семантических единиц, обеспечивая при этом строгую причинно-следственную упорядоченность между ними. Используя наблюдение, что VLA для вождения часто генерируют структурированные выходные данные в JSON-подобном формате, Fast-dDrive фиксирует структурные токены в каркасе разделов и применяет рецепт обучения с учетом разделов, который отдает приоритет критически важному для безопасности планированию. Кроме того, мы вводим Scaffold Speculative Decoding для достижения качества, эквивалентного AR, при значительно более высокой пропускной способности. Наконец, мы предлагаем схему масштабирования во время тестирования с низкими накладными расходами: путем разветвления N стохастических развертываний траектории из одного общего KV-кэша с общим префиксом и их усреднения мы эффективно подавляем дисперсию прогнозов при незначительных вычислительных затратах. Эмпирические результаты демонстрируют, что Fast-dDrive переопределяет границу скорости и точности для агентов вождения. На тестовом наборе WOD-E2E Fast-dDrive достигает SOTA ADE@3s и ADE@5s, а также самого высокого RFS среди диффузионных VLA; на nuScenes он снижает среднюю ошибку L2 до 0,32 м (улучшение на 22%). При интеграции с SGLang наша платформа обеспечивает 12-кратное ускорение пропускной способности по сравнению с AR-базовым уровнем, сокращая разрыв между высокоемкими VLA и требованиями к эффективности развертывания в реальном времени на транспортных средствах.

Ваши агенты тоже стареют: Инженерия срока жизни агентов для развернутых систем
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

May 25

ByJianing Zhu, Yeonju Ro, John Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang Wang

Долгоживущие ИИ-агенты всё чаще разворачиваются как постоянные операционные системы, но их по-прежнему оценивают так, словно они являются свежеинициализированными моделями. Однодневные бенчмарки упускают из виду фундаментальный системный вопрос: как долго агент остаётся надёжным после развёртывания? Даже при фиксированных весах модели эффективное состояние агента непрерывно меняется по мере сжатия истории взаимодействий, извлечения данных из растущего хранилища памяти, пересмотра фактов после обновлений и проведения планового обслуживания. Таким образом, надёжность становится свойством жизненного цикла всей обвязки агента, а не только моментальным снимком базовой модели. Мы представляем AgingBench — лонгитюдный бенчмарк надёжности для инженерии жизненного цикла агентов, который измеряет не только то, деградируют ли развёрнутые агенты, но и какую форму принимает эта деградация, и где следует проводить исправления. AgingBench организует старение агентов по четырём механизмам: старение из-за сжатия, старение из-за интерференции, старение из-за ревизии и старение из-за обслуживания. Для диагностики этих сбоев AgingBench использует графы временных зависимостей и парные контрфактические зонды, которые формируют диагностические профили для этапов записи, извлечения и использования в конвейере памяти. На 7 сценариях, 14 моделях, нескольких политиках управления памятью, а также на управляемых исполнителем и автономных агентах в ходе примерно 400 прогонов, охватывающих от 8 до 200 сессий, было показано, что старение агентов не является одномерным: поведенческие тесты могут оставаться чистыми, в то время как точность фактов снижается; отслеживание производного состояния может резко коллапсировать внутри одной модели; и один и тот же неверный ответ может требовать разных исправлений в зависимости от того, на что указывает диагностический профиль. Эти результаты свидетельствуют о том, что для надёжного развёртывания агентов необходимы оценка срока службы, диагностика на уровне механизмов и целевое исправление на соответствующих этапах, а не только более сильные однодневные модели.

GE-Sim 2.0: Дорожная карта к созданию комплексных замкнутых симуляторов видеомира для роботизированного манипулирования
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26

ByBoxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren

Мы представляем GE-Sim 2.0 (Genie Envisioner World Simulator 2.0) — симулятор видеомира с обратной связью для роботизированных манипуляций. Построенный на основе обусловленного действиями создания видеокадров в Genie Envisioner, GE-Sim 2.0 заново обучен на тысячах часов реальных роботизированных данных, включающих телеуправление, контактное взаимодействие и развертывание политик на роботе, что значительно повышает точность следования действиям и покрытие траекторий. На этой основе три новых модуля замыкают цикл от видеосимуляции до обучения политик: эксперт по состояниям, который декодирует проприоцептивное состояние из скрытых представлений видео для поддержки прогнозирования следующего блока нижестоящими VLA-политиками; мировой судья, который оценивает сгенерированные прогоны на соответствие инструкциям задачи, выдавая машинно-верифицируемые сигналы успеха и вознаграждения вместо ручной проверки; и механизм ускорения, обеспечивающий прогон из 25 кадров за 2,3 секунды на одном H100, с возможностью пропуска до 4 кадров при выводе для оценки на длинных горизонтах. GE-Sim 2.0 занимает первое место в публичном рейтинге WorldArena всего с 2 миллиардами параметров, превосходя как специализированные роботизированные мировые модели, так и закрытые генераторы общего видео, а политики, обученные на его прогонах и вознаграждениях, демонстрируют измеримые реальные улучшения, что утверждает GE-Sim 2.0 в качестве практичной платформы для масштабируемой оценки и обучения с замкнутым циклом политик манипуляций.

Направление инженерии данных пост-обучения LLM с использованием внутренних состояний модели из разреженных автоэнкодеров
Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

May 26

ByYi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang

Внутренние состояния модели кодируют богатую информацию о том, как большая языковая модель (LLM) обрабатывает свои обучающие данные; однако инженерия данных после обучения в значительной степени полагается на внешние сигналы и игнорирует богатые внутренние сигналы, заложенные в этих состояниях. Мы предлагаем SAERL — фреймворк для инженерии данных при обучении с подкреплением (RL) больших языковых моделей. Он моделирует три внутренних свойства данных: разнообразие, сложность и качество, используя внутренние состояния модели, извлечённые с помощью разреженного автоэнкодера (Sparse Autoencoder, SAE) — продвинутого инструмента механистической интерпретируемости. Каждое свойство обосновывает конкретную операцию инженерии данных: кластеризацию в пространстве SAE с умеренным смешиванием батчей для контроля разнообразия батчей, прокси сложности для упорядочивания по принципу «от простого к сложному» (easy-to-hard curriculum ordering) и классификатор качества для фильтрации данных. SAERL повышает среднюю точность на 3,00% по сравнению с обычным GRPO и достигает целевой точности с сокращением числа шагов обучения на 20% на модели Qwen2.5-Math-1.5B, демонстрируя устойчивый прирост при различных масштабах моделей и алгоритмах RL. Эксперименты показывают, что SAE эффективно переносится между семействами и масштабами моделей, выступая в качестве лёгкого и многократно используемого инструмента инженерии данных. Эти результаты свидетельствуют о том, что внутренние состояния модели являются мощным и практичным источником сигналов для инженерии данных на этапе после обучения.

LiveBrowseComp: Ищут ли поисковые агенты или просто проверяют то, что уже знают?
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

May 27

ByHuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

Используют ли поисковые агенты на основе LLM действительно поиск или же обращаются к вебу для верификации того, что им уже известно? Мы изучаем этот вопрос на примере BrowseComp с помощью трёх диагностических методов. Наш анализ выявляет зависимость от внутренних знаний (Intrinsic Knowledge Dependence, IKD): даже имея доступ к инструментам, агенты часто полагаются на внутренние знания — информацию, закодированную в модели до поиска, — вместо внешних свидетельств. Агенты отвечают на 44.5% вопросов BrowseComp без использования инструментов, генерируют более половины своих поисковых запросов на основе внутренне сформированных гипотез, а не на основе найденных подсказок, и показывают результаты хуже, чем базовые модели без доступа к инструментам (closed-book baselines), когда из набора удаляются подтверждающие ответ свидетельства. Эти результаты позволяют предположить, что статические поисковые бенчмарки могут поощрять верификацию, основанную на памяти, а не на выявлении фактов через поиск, смешивая то, что агенты уже знают, с тем, что они могут найти. Затем мы представляем LiveBrowseComp — бенчмарк глубинного поиска, разработанный для оценки агентов за пределами их внутреннего покрытия. Он содержит 335 вопросов, составленных людьми, ответы на которые зависят от фактов, опубликованных в течение 90 дней, предшествующих созданию бенчмарка; эти факты извлечены из шести обновляемых источников и отфильтрованы для исключения глобально значимых событий. На LiveBrowseComp все оценённые агенты демонстрируют точность в режиме closed-book ниже 2%, а показатели с использованием поиска падают на 25–40 баллов по сравнению с BrowseComp, при этом прежние рейтинги моделей больше не позволяют надёжно предсказывать их производительность. LiveBrowseComp доступен по адресу https://huggingface.co/datasets/Forival/LiveBrowseComp.

HRBench: Бенчмаркинг и понимание стратегий переключения режимов мышления в LLM с гибридным рассуждением
HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

May 27

ByYansong Ning, Mianpeng Liu, Jingwen Ye, Weidong Zhang, Hao Liu

Гибридные языковые модели большого объема (LLM) предоставляют явный контроль над затратами на рассуждение, позволяя пользователям или системам балансировать качество ответов и стоимость вывода. Однако существующие методы адаптивного выбора режима мышления обычно оцениваются с использованием различных моделей, наборов данных и предположений о реализации, что затрудняет сравнение их практического поведения. Мы представляем HRBench — унифицированную систему оценки для изучения переключения режимов мышления в гибридных LLM. HRBench организует пространство проектирования по двум осям: три семейства стратегий переключения (выбор на основе подсказок, внешняя маршрутизация и спекулятивное выполнение) и четыре режима обучения (без обучения, SFT, офлайн и онлайн RL), что дает 12 контролируемых настроек оценки. Мы оцениваем эти настройки на 6 LLM (от Qwen3.5-2B до Kimi-K2.5-1.1T) и 5 тестах рассуждения, охватывающих математику, науку и код, при этом повторно реализуя 12+ репрезентативных предыдущих методов в рамках одного пайплайна. Наш анализ показывает, как различные стратегии переключения занимают разные области компромисса между эффективностью и результативностью: методы на основе подсказок часто обеспечивают благоприятный компромисс между токенами и точностью, методы маршрутизации предлагают более стабильное снижение затрат, а спекулятивные методы, как правило, повышают точность при более высоких затратах токенов. Кроме того, мы обнаружили, что обучение влияет на стратегии по-разному, и что предпочитаемая стратегия варьируется в зависимости от масштаба модели и предметной области задачи. HRBench предоставляет эталонные реализации и унифицированную платформу оценки для поддержки более контролируемых исследований эффективного рассуждения в гибридных LLM. Наши данные, код и репозиторий доступны по адресу https://github.com/usail-hkust/HRBench.

Меньше значит больше: ранняя остановка развертывания для дистилляции по политике
Less is More: Early Stopping Rollout for On-Policy Distillation

May 26

ByZhou Ziheng, Jiaqi Li, Huacong Tang, Ying Nian Wu, Demetri Terzopoulos

Недавно политико-зависимая дистилляция (on-policy distillation) стала многообещающей альтернативой стандартной имитации на уровне последовательностей, обучая студента путем оценки его собственных разверток (rollouts) с помощью модели-учителя. Однако мы наблюдаем проблему «затухания учителя вне политики» (Off-policy Teacher Decay) в этой парадигме: для поздних токенов, когда контекст более ранней траектории студента является внеполитическим по отношению к учителю, способность учителя генерировать корректирующую оценку снижается и может вернуться к поведению завершения токенов, изученному на этапе предварительного обучения. Мы эмпирически подтверждаем эту проблему и предлагаем метод ранней остановки развертки (Early Stopping Rollout, ESR) для ее решения: простую, но эффективную стратегию дистилляции, которая ограничивает генерацию развертки первыми токенами ответа. Мы показываем, что ESR превосходит производительность полной развертки OPD по размеру модели, семейству, задачам и режиму обучения, а также демонстрирует гораздо более высокую эффективность использования GPU и стабильность обучения, особенно в сценариях с разными семействами моделей. Мы дополнительно исследуем механизм, лежащий в основе этой удивительной производительности, и обнаруживаем эффекты «каскадного выравнивания» (Cascading Alignment) и «приверженности суб-режиму» (Sub-mode Commitment), которые могут объяснить, почему ESR работает эффективно и иногда даже превосходит производительность модели-учителя. Кроме того, мы показываем, что эта стратегия выбора токенов на основе позиции не может быть полностью объяснена сигналами расхождения KL и энтропии.

Переосмысление запоминания: за пределами атомарных фактов в долговременной памяти агента на основе языковой модели
Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory

May 19

ByJingwei Sun, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han

Для обеспечения надежного долгосрочного взаимодействия агенты на основе больших языковых моделей требуют системы памяти, способной точно хранить, эффективно извлекать и глубоко анализировать накопленную историю диалога. Большинство существующих методов используют парадигму на основе извлеченных фактов: вручную создаваемые статические промпты сжимают исходные диалоги в атомарные факты, которые затем сохраняются, сопоставляются и внедряются в последующий вывод. Однако такие подходы, ориентированные на факты, неизбежно теряют детали мелкой зернистости исходных диалогов и не поддерживают глубокий анализ разрозненных изолированных фактов. Кроме того, статические промпты не могут обеспечить постоянную гранулярность извлечения для различных стилей диалога. Для преодоления этих ограничений мы предлагаем TriMem, который поддерживает три сосуществующие гранулярности представления: сырые сегменты диалога, привязанные к идентификаторам источников для точности хранения; извлеченные атомарные факты для эффективного поиска в памяти; синтезированные профили, агрегирующие разрозненные факты в целостное семантическое понимание для глубокого анализа. Мы также применяем оптимизацию промптов на основе TextGrad, которая итеративно улучшает промпты для извлечения и профилирования на основе обратной связи по качеству ответов, обеспечивая пожизненную эволюцию без обновления параметров. Обширные эксперименты на LoCoMo и PerLTQA с различными бэкендами LLM показывают, что TriMem последовательно превосходит сильные базовые модели памяти. Код доступен по адресу https://TMLR-TriMem.github.io .

Потерянные в выборке: Оценка лексической достижимости в больших языковых моделях с помощью показателя покрытия слов (WCS)
Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

May 26

BySamer Awad, Javier Conde, Carlos Arriaga, Tairan Fu, Javier Coronado-Blázquez, Pedro Reviriego

Современные большие языковые модели (Large Language Models, LLM) часто критикуют за генерацию повторяющегося и однородного текста, несмотря на наличие у них обширного скрытого словарного запаса. В то время как предыдущие исследования были сосредоточены на знании модели и обучающих данных, мы изучаем роль механизмов декодирования в подавлении языкового разнообразия. Мы вводим Показатель покрытия слов (Word Coverage Score, WCS) — метрику, которая количественно оценивает степень, в которой контекстуально уместный человеческий словарь математически отсекается стандартными фильтрами семплирования (например, Top-p, Top-k и Min-p). Вместо оценки статического знания WCS измеряет коэффициент выживаемости лексики для низкочастотных, информативно насыщенных человеческих слов как функцию параметров семплирования. Анализируя модели с открытыми весами на фрагментах корпусов, созданных людьми, мы выявляем логически обоснованные лексические варианты, которые становятся недоступными для декодера, даже если они присутствуют в пространстве вероятностей. Наши результаты предоставляют количественные доказательства того, что стандартные настройки семплирования, принятые в индустрии, действуют как непреднамеренные механизмы цензуры, сглаживая уникальные текстуры человеческого выражения до гомогенизированного дискурса. WCS предлагает строгую методологическую основу для оптимизации компромисса между связностью текста и лексическим богатством, являясь диагностическим инструментом для сохранения разнообразия человеческого языка в генеративных моделях.

GradSentry: Градиентная спектральная энтропия для фильтрации бэкдор-образцов при дообучении больших языковых моделей
GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning

May 26

ByHaodong Zhao, Tianyi Xu, Tianhang Zhao, Zhuosheng Zhang, Gongshen Liu

Тонкая настройка больших языковых моделей с использованием ненадежных данных делает модели уязвимыми для атак типа «бэкдор», при которых отравленные образцы вызывают целевое некорректное поведение. Существующие методы защиты на основе фильтрации образцов опираются на кластеризацию, что требует достаточного объема данных и может оказаться неэффективным при экстремальных пропорциях отравленных образцов. Мы предлагаем GradSentry ({Grad}ient {Sentry}) — метод фильтрации бэкдор-образцов, основанный на спектральной энтропии градиентов на каждый образец. Наше ключевое наблюдение заключается в том, что отравленные образцы порождают градиенты с более высокой спектральной энтропией по сравнению с чистыми образцами. GradSentry выявляет сигнатуры бэкдор-атак, изменяющие выходные данные, используя спектры градиентов на каждый образец, что позволяет избежать попарного сравнения образцов и кластеризации при построении признаков. Важно, что наш метод не зависит от метода обучения: он работает как для эффективной по параметрам тонкой настройки (например, LoRA), так и для полной настройки параметров, поскольку анализ градиентов выполняется независимо от того, какие параметры обновляются в процессе обучения. GradSentry не требует кластеризации, эффективно работает при всех пропорциях отравленных образцов (от 1% до 90%) и вносит минимальные вычислительные накладные расходы (20–50 мс на образец для модели с 7 млрд параметров). Оценка на четырех наборах данных для вопросно-ответных систем и четырех типах атак демонстрирует эффективность спектральной энтропии для обнаружения бэкдор-атак. Код доступен по адресу https://github.com/dongdongzhaoUP/GradSentry.

CubePart: 3D-генератор с открытым словарём и управлением по частям
CubePart: An Open-Vocabulary Part-Controllable 3D Generator

May 27

ByYiheng Zhu, Kangle Deng, Jean-Philippe Fauconnier, Inaki Navarro, Daiqing Li, Ava Pun, Yinan Zhang, Peiye Zhuang, Xiaoxia Sun, Maneesh Agrawala, Kiran Bhat, Tinghui Zhou

Интерактивные 3D-активы, используемые в играх и симуляциях, обычно декомпозируются на конкретные семантические части для поддержки анимации, физики и скриптового поведения, однако большинство генеративных 3D-моделей создают либо монолитные сетки, либо произвольные декомпозиции на части, которые невозможно согласовать с требованиями конкретных приложений. Мы представляем CubePart — генеративный фреймворк для создания 3D-мешей с открытым словарём и управляемыми частями, который предоставляет структуру частей в качестве явного управляющего сигнала на этапе инференса. Имея глобальный текстовый промпт и заданную пользователем схему частей, выраженную в виде открытого списка имён частей, наш метод генерирует набор мешей — по одному на каждый элемент схемы, — которые собираются в связный объект, соблюдая заданную семантическую структуру. Для реализации этой возможности мы представляем масштабируемый конвейер данных для построения большого 3D-датасета с открытым словарём и размеченными частями, а также двухэтапную генеративную архитектуру, разделяющую синтез глобальной формы и декодирование на уровне частей. Мы демонстрируем, что полученные активы можно напрямую интегрировать в игровые движки и управлять с помощью скриптов анимации и поведения без ручной постобработки. Страница проекта: https://cubepart.github.io/

VibeSearchBench: Бенчмаркинг долгосрочного проактивного поиска в реальных условиях
VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

May 27

ByXiaohongshu Inc

LLM-агенты показывают высокие результаты на поисковых бенчмарках, однако реальные пользователи неизменно находят результаты неудовлетворительными, что выявляет устойчивый разрыв между оценкой и опытом использования. Мы объясняем этот разрыв опорой существующих бенчмарков на избыточно специфицированные запросы, одношаговые взаимодействия и оценку по фиксированной схеме — ни один из этих элементов не отражает реальное поисковое поведение, при котором пользователи и агенты совместно уточняют расплывчатые намерения в ходе многошагового диалога. Мы называем эту парадигму VibeSearch и представляем VibeSearchBench — бенчмарк, включающий 200 вручную составленных двуязычных (китайский и английский) заданий по 20 областям, разделённых на подмножества VibeSearch-Pro (профессиональные) и VibeSearch-Daily (повседневные). Каждое задание сопоставляет профиль пользователя с графом знаний истинности, не привязанным к схеме, и оценивается с помощью пользовательского симулятора с постепенным раскрытием информации и структуры оценки на основе сопоставления графов. Мы тестируем семь передовых моделей как в рамках ReAct-фреймворка, так и с использованием обвязки агента OpenClaw. Результаты показывают, что все модели существенно неадекватны для VibeSearch (лучший F1: 30,30), что подчёркивает необходимость фундаментальных продвижений в рассуждении в длинном контексте, проактивном выявлении намерений и структурированном построении знаний.

OmniVerifier-M1: Мультимодальный мета-верификатор с явной структурированной перекалибровкой
OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

May 27

ByXinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang

Визуальные результаты становятся все более центральными для мультимодальных больших языковых моделей, что делает надежную и детальную верификацию необходимой для масштабирования фундаментальных моделей общего назначения. В данной работе мы исследуем мультимодальную мета-верификацию, которая использует обоснования, генерируемые верификатором, а не только сигналы принятия решений, и изучаем, как эффективно интегрировать обратную связь мета-верификации в обучение мультимодального верификатора. Мы выявляем два ключевых вывода. Во-первых, символьные выходные данные верификатора (например, ограничивающие рамки) превосходят текстовые объяснения в качестве обоснований мета-верификации, позволяя получать эффективные вознаграждения на основе правил в подкрепляющем обучении, избегая при этом зависимости от вознаграждений на основе модели со стороны вспомогательных моделей-судей. Во-вторых, разделение целей подкрепляющего обучения для бинарного суждения и мета-верификации значительно превосходит совместную оптимизацию вознаграждения из-за внутренних различий в структуре вывода и динамике обучения. Основываясь на этих выводах, мы обучаем OmniVerifier-M1 — универсальный визуальный верификатор, использующий символьную мета-верификацию и разделенное подкрепляющее обучение. OmniVerifier-M1 обеспечивает надежную верификацию и детальную локализацию ошибок, а также позволяет реализовать M1-TTS — систему агентной генерации, управляемую верификатором, которая достигает динамической самокоррекции на уровне областей. Данный подход открывает путь к более надежной, интерпретируемой и детальной мультимодальной верификации, поддерживая более безопасное и контролируемое развертывание фундаментальных моделей.

Хрупкость мониторинга цепочки рассуждений на типологически разнообразных языках
The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

May 27

ByEric Onyame, Runtao Zhou, Kowshik Thopalli, Bhavya Kailkhura, Chirag Agarwal

Мониторинг цепи мыслей (Chain-of-thought, CoT) предлагается в качестве перспективного механизма безопасности для выявления несоответствующего поведения больших языковых моделей. Однако его надёжность остаётся практически неизученной за пределами английского языка и в различных семействах моделей. Мы представляем первую крупномасштабную оценку мониторируемости CoT на 13 различных языках и семи передовых семействах моделей, включающих 16 моделей. Используя оценки с adversarial-подсказками, требующими явных промежуточных вычислений, а также анализ вероятностей внутренних ответных токенов, мы последовательно обнаруживаем неверность CoT во всех языках и типах подсказок, при среднем показателе 95,9% для моделей с размером параметров от 8B до 120B. Мы находим, что передовые модели систематически прибегают к стратегическим манипуляциям, включая смену ответа, пост-хок рационализацию и процедурную эксплуатацию подсказок, что затрудняет внешним мониторам выявление обмана. Мы показываем, что передовые модели часто следуют несоответствующему сигналу в своих латентных активациях в течение первых 15% генерации, даже когда CoT выглядит правдивым. Удивительно, но эти обманчивые паттерны остаются на 100% в языках с низкими ресурсами, что выявляет фундаментальные ограничения текущего надзора на основе CoT. Наши результаты показывают, что мониторинг CoT принципиально хрупок при лингвистическом сдвиге распределения, обеспечивая существенно более слабый сигнал безопасности, чем предполагают исследования, ограниченные английским языком. Эти выводы подчёркивают острую необходимость в разработке надёжных мониторов CoT и ускорении исследований в области техник белого ящика, особенно для улучшения мониторируемости CoT в языках со средними и низкими ресурсами. Наш код доступен здесь: https://multilingual-cot-monitoring.github.io/{синий{here}}.

Всё на каждом масштабе: масштабно-инвариантная диффузия с непрерывным сверхразрешением
Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

May 25

ByZixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

Создание изображений из шума — это генерация изображений; восстановление мелких деталей по грубым входным данным — это суперразрешение. Несмотря на практические различия, оба процесса можно понимать как обращение потери информации на разных масштабах. Мы представляем SKILD — масштабно-инвариантную диффузионную модель обучения изображений в K-пространстве (Scale-invariant K-Space Image Learning Diffusion model), которая объединяет генерацию и непрерывное суперразрешение в едином безусловном фреймворке. Как естественные изображения, так и критические физические системы проявляют масштабную инвариантность, и мы используем это для разработки прямого процесса, который ослабляет содержимое изображения от мелких к крупным масштабам, одновременно впрыскивая согласованный по спектру гауссовский шум, делая масштаб явной координатой диффузионной динамики. Тот же обученный обратный процесс выполняет генерацию и непрерывное суперразрешение, изменяя только начальный временной шаг: без архитектуры, специфичной для задачи, без ветви обусловливания, без управления без классификатора (classifier-free guidance), без переобучения для каждого коэффициента масштабирования. Эмпирически SKILD достигает FID 2,65 и индекса Инцепции (Inception Score) 9,63 на безусловном CIFAR-10, выполняет суперразрешение с коэффициентами от 2× до 8× на ImageNet с использованием единственной безусловной контрольной точки, превосходя при этом условные модели по перцептивным метрикам, и реконструирует критические модели Изинга, чьи связанные четырехточечные корреляционные функции точно соответствуют истинным значениям.

PEFT-Arena: понимание параметро-эффективной тонкой настройки с позиции стабильности-пластичности
PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

May 27

ByYangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu

Параметро-эффективная донастройка (PEFT) стала стандартным подходом к адаптации больших языковых моделей, однако при оценке основное внимание уделяется точности на целевых задачах, при этом упускается сохранение предобученных способностей. Мы утверждаем, что PEFT следует оценивать через призму дилеммы стабильности-пластичности: компромисса между адаптацией к целевой задаче и устойчивостью к забыванию. Мы представляем PEFT-Arena — бенчмарк, который совместно измеряет производительность на целевых задачах и сохранение общих способностей. Для различных методов обнаружены характерные профили стабильности-пластичности; при сопоставимых бюджетах параметров ортогональная донастройка достигает наиболее благоприятной границы Парето. Чтобы объяснить эти различия, мы анализируем обновления PEFT с двух геометрических точек зрения. В пространстве весов спектральный анализ раскрывает, как параметризации взаимодействуют с предобученной структурой сингулярных значений. В пространстве активаций метрики сохранения показывают, сохраняет ли донастройка представления общих способностей или искажает их, причем забывание связано с неизометрическим искажением представлений. Наконец, анализ показывает, что финальные контрольные точки SFT часто «перелетают» оптимальную рабочую точку по шкале сохранения. Вдохновленные этим, мы представляем примеры апостериорного улучшения с помощью отката по траектории.

Как и что воображать? Визуальное мышление в единых мультимодальных моделях для межракурсного пространственного рассуждения
How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning

May 26

ByQian Yang, Ankur Sikarwar, Huy Le, Le Zhang, Zhuan Shi, Perouz Taslakian, Aishwarya Agrawal

Пространственное рассуждение между видами остаётся слабым местом зрительно-языковых моделей (VLM): они часто рассуждают на уровне языка и теряют детальную геометрию, необходимую для задачи. Рассуждение с помощью изображений направлено на решение этой проблемы путём генерации промежуточного мысленного образа, однако недавние работы показывают, что модели часто игнорируют визуальные свидетельства в этих следах. Поэтому мы ставим вопрос: как сделать визуальное мышление значимым и какой тип визуального мышления работает лучше всего. Мы исследуем эти вопросы в рамках унифицированных мультимодальных моделей (UMM), которые изначально поддерживают генерацию перемежающихся изображений и текста. Для первого вопроса мы предлагаем View Dropout (VDrop) — метод вмешательства на этапе обучения, который скрывает части одного входного вида из пространства ответа, оставляя их видимыми для токенов мысленного образа. Это побуждает модель использовать мысленный образ при ответе, вместо того чтобы полагаться только на входные виды. После того как мысленный образ используется для прогнозирования ответа, мы изучаем, какой тип визуального мышления наиболее эффективен. Мы формулируем это как компромисс между обучаемостью и информативностью и сравниваем три варианта мысленных образов: рендеринг сверху вниз, панорамный и с сопоставлением точек. Обученные на синтетических сценах и оценённые на пяти реальных внедоменных эталонных наборах данных, панорамное визуальное мышление с VDrop является единственной конфигурацией, которая одновременно информативна и обучаема, и она демонстрирует наилучшее обобщение на внедоменных данных.

AgensFlow: Субстрат для политик координации в мультиагентных системах
AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

May 26

ByNicole Koenigstein

Мультиагентные системы, построенные на больших языковых моделях (LLM), требуют множества координационных решений, которые трудно определить априори: какой протокол навыков вызывать, какую роль агента должна выполнять подзадачу, какую модель привязать к каждой роли, как роли должны взаимодействовать, когда использовать поиск или верификацию, а когда вовсе пропустить шаг. Эти решения взаимодействуют с режимом задачи и операционными ограничениями, поэтому статические конвейеры и разовые сравнения моделей дают лишь ограниченное представление о пространстве проектирования. В данной статье представлен AgensFlow — фреймворк с открытым исходным кодом, который рассматривает мультиагентную координацию как задачу онлайн-обучения политике в условиях частичной наблюдаемости. Фреймворк делает координационные решения наблюдаемыми и обучаемыми на основе повторяющихся траекторий, а не рассматривает навык, роль, модель, топологию и оценочные решения как фиксированную конструкцию конвейера. AgensFlow оценивается на двух корпусах: задачах инцидентов распределенных систем и задачах, связанных с рекомендациями по безопасности. Оценка показывает три основных результата: обученная маршрутизация достигает более высокого качества работы по сравнению с фиксированным конвейером в классах с высокой координацией; skip:X выделяет сжатие топологии как значимую часть платформы; а теплый старт графов политик может снизить затраты на исследование, сохраняя качество плато. В целом, результаты подтверждают, что обучаемая и аудируемая маршрутизация может улучшить мультиагентные рабочие процессы с высокой координацией по сравнению со статической проводкой.

Совместное обучение предсказанию нескольких токенов в обучении с подкреплением посредством оптимальной калибровки коэффициентов
Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

May 27

ByZili Wang, Jiajun Chai, Lin Chen, Xiaohan Wang, Shiming Xiang, Guojun Yin

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало стандартной парадигмой для улучшения способности к рассуждению больших языковых моделей, в то время как многотокенное предсказание (MTP) является широко используемым модулем в предварительном обучении. Их объединение — естественный подход, однако существующие практики RL отделяют градиенты MTP, поскольку совместное обучение снижает производительность. Мы пересматриваем эту неудачу с точки зрения оптимизации. Мы показываем, что пошаговый эффект MTP на целевую функцию RL может быть разложен на два слагаемых: корреляцию первого порядка и штраф за возмущение второго порядка. Это разложение объединяет три режима обучения MTP: Detach, кросс-энтропийную потерю и потерю политики, и объясняет, почему каждый из них успешен или неудачен. Дальнейший анализ потери политики показывает, что, хотя она соответствует интуиции, производительность все равно снижается: член корреляции затухает, в то время как квадратичный штраф сохраняется. Руководствуясь анализом, мы предлагаем оптимальную калибровку коэффициентов (OCC) — адаптивную схему, которая отслеживает оптимальный коэффициент в онлайн-режиме через прокси логарифмической вероятности с незначительными затратами. На шести бенчмарках математических рассуждений уровня соревнований OCC последовательно соответствует или превосходит базовый уровень Detach, обеспечивая улучшенную производительность совместного обучения MTP-RL.

Модели, знающие, как устроены оценки, дают более безопасные результаты
Models That Know How Evaluations Are Designed Score Safer

May 27

ByKatharina Deckenbach, Haritz Puerto, Jonas Geiping, Sahar Abdelnabi

Достоверность оценок безопасности ИИ зависит от согласованности поведения моделей в контролируемых условиях и при развертывании. Предыдущие работы выявили, что контекстуальные сигналы во время тестирования, такие как гипотетические сценарии, являются источником вербализованной осведомленности об оценке и последующего изменения поведения. В данной статье мы исследуем возможное объяснение этого феномена: мета-знание об оценке, определяемое как параметрическое знание структурных признаков, характеризующих оценки. Подобно загрязнению наборов данных, когда знакомство с бенчмарками приводит к повышению производительности за счет запоминания, мы выдвигаем гипотезу, что модели, обученные на текстах, описывающих практики оценивания, могут неявно научиться распознавать и реагировать на контексты, напоминающие оценки, например, через знакомство с научными статьями или постами в социальных сетях о бенчмаркинге ИИ. Для проверки этой гипотезы мы дообучаем модели на синтетических документах, описывающих признаки оценок, такие как верифицируемые структуры или моральные дилеммы. Оценивая эту дообученную модель на шести бенчмарках безопасности, мы обнаруживаем, что она значительно безопаснее базовой модели и контрольной модели. Этот поведенческий сдвиг сохраняется даже при ограничении анализа ответами, не содержащими явной вербализации осведомленности об оценке. Наши результаты демонстрируют, что мета-знание об оценке может завышать показатели безопасности на бенчмарках, вводя новый конфaундер, который не зависит от явного запоминания или вербализованной осведомленности об оценке и, следовательно, трудно обнаружим. Эти выводы имеют важные последствия для разработки и интерпретации оценок безопасности ИИ. Наш код и модели доступны по адресу https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.

Chartographer: контрфактическая генерация диаграмм для оценки визуально-языковых моделей
Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

May 26

ByYifan Jiang, Dae Yon Hwang, Jesse C. Cresswell, Freda Shi

Бенчмарки вопросно-ответных систем (QA) по диаграммам ставят своей целью формулирование вопросов, требующих визуального рассуждения для правильного ответа, однако модели часто могут находить решения через shortcuts или предварительное знакомство с диаграммой, основанное на собственном фоновом знании. Для строгой оценки визуального рассуждения мы предлагаем контрфактические диаграммы, в которых задача «диаграмма–вопрос» остаётся фиксированной, а базовая диаграмма и соответствующий ответ варьируются. Мы представляем Chartographer — фреймворк для обратного проектирования диаграмм в исполняемый код, валидации точности реконструкции, генерации контрфактических вариантов с контролем начального зерна и получения новых ответов на основе исполнимой логики QA. Мы применяем этот фреймворк к существующим наборам данных QA по диаграммам и оцениваем проприетарные и открытые визуально-языковые модели (VLM), измеряя чувствительность к вариациям и обобщаемость. Контрфактические диаграммы выявляют ошибки, скрытые производительностью на одной диаграмме: VLM часто не в состоянии обобщить после правильного ответа на исходную диаграмму. Мы обнаруживаем, что ошибки наиболее распространены, когда обновлённые диаграммы требуют новых путей визуального рассуждения.

Автоучёные: самоорганизующиеся команды агентов для долговременных научных экспериментов
AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

May 27

ByShanghua Gao, Ada Fang, Marinka Zitnik

Научные исследования осуществляются через итерационные циклы генерации гипотез, планирования экспериментов, их выполнения и последующей корректировки. Агенты ИИ могут автоматизировать части этого процесса, однако существующие подходы, как правило, следуют одному исследовательскому направлению или координируются через централизованный планировщик с фиксированными целями. В результате они с трудом поддерживают параллельное исследование, адаптируются к изменениям экспериментальных данных или сохраняют знания о неудачных направлениях в ходе длительных экспериментов. Мы представляем AutoScientists — децентрализованную команду агентов ИИ для долгосрочных вычислительных научных экспериментов. Агенты интерпретируют общее экспериментальное состояние, самоорганизуются в команды вокруг перспективных гипотез, критикуют предложения до использования вычислительных ресурсов эксперимента, а также делятся успехами и неудачами для сокращения избыточных исследований. При сопоставимых экспериментальных бюджетах AutoScientists превосходит предыдущих агентов ИИ в области биомедицинского машинного обучения, оптимизации обучения языковых моделей и предсказания пригодности белков. На платформе BioML-Bench, охватывающей биомедицинскую визуализацию, белковую инженерию, одноклеточную омику и открытие лекарств, AutoScientists достигает среднего перцентиля лидерборда 74,4% по 24 задачам, что на 8,33% лучше самого сильного агента ИИ. При оптимизации обучения GPT AutoScientists достигает целевого показателя битов на байт на валидационном наборе в 1,9 раза быстрее, чем Autoresearch, и продолжает находить улучшения, начиная с исходного «чемпиона», где одноагентный подход не обнаруживает ни одного (7 принятых улучшений против 0). При предсказании пригодности белков на ProteinGym AutoScientists находит метод связывания ACE2-спайка, который улучшает текущую модель наилучшего уровня на 12,5% по корреляции Спирмена. При применении без модификации ко всем 217 анализам ProteinGym тот же метод улучшает предыдущий наилучший результат на 6,5% (корреляция Спирмена).

ESC-Skills: Обнаружение и саморазвитие навыков для разговоров эмоциональной поддержки
ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

May 27

ByJie Zhu, Huaixia Dou, Shuo Jiang, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang, Fang Kong

Существующие системы эмоциональной поддержки в диалогах (ESC) в основном основаны на сквозной генерации ответов или грубом контроле стратегий, что обеспечивает ограниченную интерпретируемость и слабую поддержку систематического улучшения навыков. Мы предлагаем ESC-Skills — фреймворк, ориентированный на навыки, который обнаруживает и саморазвивает исполнимые навыки эмоциональной поддержки. Сначала мы моделируем локализованные взаимодействия поддержки как интервенционные единицы (Intervention Units, IUs), которые отражают динамику состояние–действие–результат между состояниями ищущего поддержку, вмешательствами поддержки и эмоциональными изменениями после ответа. На основе IU, извлеченных как из успешных, так и из неудачных диалогов ESC, мы строим Банк навыков ESC-Skills — репозиторий исполнимых навыков эмоциональной поддержки, содержащий руководство по вмешательству, условия применимости, ожидаемые результаты и потенциальные риски. Для дальнейшего повышения устойчивости мы вводим многопрофильный самоэволюционный фреймворк уточнения, в котором агент ESC взаимодействует с разнообразными моделируемыми профилями ищущих поддержку в рамках оценки SAGE. Полученные следы взаимодействия анализируются для выявления отсутствующих навыков, небезопасных вмешательств и профильно-специфических паттернов неудач, которые затем используются для уточнения Банка навыков посредством верификации на основе симуляции. Экспериментальные результаты показывают, что ESC-Skills улучшает как качество на уровне отдельных ответов, так и эмоциональные результаты на уровне диалога, обеспечивая при этом более интерпретируемое и контролируемое поведение поддержки. Мы опубликуем код, промпты и Банк навыков ESC-Skills по адресу https://github.com/aliyun/qwen-dianjin.

Verus-SpecGym: агентная среда для оценки автоформализации спецификаций
Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

May 26

ByAnmol Agarwal, Natalie Neamtu, Pranjal Aggarwal, Seungone Kim, Jannis Limperg, Cedric Flamant, Kanna Shimizu, Bryan Parno, Sean Welleck

AI-агенты для написания кода всё чаще используются для создания реального программного обеспечения, однако обеспечение корректности их выходных данных остаётся фундаментальной задачей. Формальная верификация предлагает многообещающий подход: агент генерирует код вместе с машинно-проверяемым доказательством, гарантирующим, что код удовлетворяет формальной спецификации. Однако нет гарантии, что сама формальная спецификация соответствует намерениям пользователя. В данной работе мы исследуем автоформализацию спецификаций: способность LLM-агентов переводить неформальные задачи по программированию в точные формальные спецификации. Мы представляем Verus-SpecBench — набор тестов из 581 задачи на написание спецификаций, полученных из задач Codeforces и ориентированных на Verus (верификатор для Rust), а также Verus-SpecGym — агентную среду, в которой модели взаимодействуют с Verus, bash и файловой системой для разработки этих спецификаций. Ключевая проблема заключается в оценке: написание эталонных спецификаций экспертами требует больших затрат, а LLM-судьи могут упускать тонкие ошибки. Мы решаем эту проблему, (a) расширяя механизм exec_spec в Verus, чтобы сгенерированные спецификации могли выполняться как код на Rust, и (b) проверяя их на официальных тестах Codeforces и adversarial-примерах, извлечённых из «взломов» Codeforces (граничных случаев, написанных участниками для опровержения некорректных решений). На Verus-SpecBench самая сильная модель — Gemini 3.1 Pro — решает 77,8% задач, другие передовые модели — 51,1–57,8%, а модели с открытым исходным кодом достигают лишь 21,5–25,5%. Анализ типов сбоев показывает, что сгенерированные моделями спецификации могут упускать важные предположения о входных данных, принимать некорректные выходные данные и отклонять корректные. Мы также обнаружили, что оценка с помощью LLM-судьи пропускает 26% сбоев, которые выявляет наш метод оценки. В целом, наши результаты показывают, что автоформализация спецификаций достижима для передовых агентов, но остаётся ненадёжной даже для задач, где они уже могут генерировать корректный код. Код, данные и журналы доступны по адресу https://github.com/formal-verif-is-cool/verus-spec-gym.

AgentFugue: Масштабирование агентов для долгосрочных задач через коллективное рассуждение
AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

May 23

ByYuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Tong Zhao, Xiaoxi Li, Zheng Liu, Zhicheng Dou

Недавний прогресс в решении долгосрочных агентных задач был в значительной степени обусловлен масштабированием отдельных агентов за счет более сильных моделей, лучших инструментов и более эффективного структурирования. Напротив, гораздо меньше известно о масштабировании вширь: может ли множество равноправных агентов, нацеленных на одну и ту же задачу, стать дополнительным источником возможностей без явной специализации ролей или оркестровки рабочих процессов. Мы изучаем этот вопрос и предлагаем AgentFugue — структуру коллективного рассуждения, построенную вокруг общего центра рассуждений. Пока равноправные агенты параллельно исследуют одну и ту же задачу, центр записывает краткие заметки о том, что каждый агент установил, попробовал или исключил, и позволяет каждому агенту выборочно получать доступ к открытиям других агентов в форме, полезной для его текущего поиска. Такая конструкция превращает изолированные траектории в связанную экосистему многократно используемых промежуточных рассуждений без необходимости централизованного планирования. Мы реализуем центр как подключаемый коммуникационный слой, обученный с помощью контролируемой тонкой настройки и сквозного обучения с подкреплением. В сложных долгосрочных сценариях, которые мы изучаем, AgentFugue превосходит сильные базовые модели. Наши результаты показывают, что коллективное рассуждение может превратить масштабирование вширь систем равноправных агентов в отдельный источник прироста возможностей, а не просто в способ увеличения вычислительных затрат.

AgentHijack: бенчмаркинг устойчивости компьютерных агентов к распространенным искажениям среды
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

May 25

ByJingwei Sun, Jianing Zhu, Yuanyi Li, Tongliang Liu, Xia HU, Bo Han

Автономные агенты компьютерного использования, работающие на основе мультимодальных больших языковых моделей (MLLM), становятся способными помощниками для выполнения сложных цифровых рабочих процессов. Однако реальные среды выполнения далеки от идеала: всплывающие окна, изменения разрешения и конкурирующие приложения часто нарушают восприятие и управление агента. Мы представляем AgentHijack — эталонный тест, предназначенный для оценки устойчивости агентов компьютерного использования при распространенных нарушениях, где неопределенности в динамической среде нарушают поток выполнения без прямого враждебного намерения. В частности, AgentHijack вводит 9 настраиваемых распространенных нарушений для воспроизведения реалистичных несовершенных сценариев. Мы оцениваем множество задач на рабочем столе, использующих агентов на основе MLLM, и обнаруживаем, что даже незначительные случаи нарушений могут привести к существенному снижению производительности, что подчеркивает хрупкость агентов и необходимость оценки устойчивости. После этого мы предлагаем AgentHijack-Agent — структуру, которая объединяет генератор действий с расширенными возможностями привязки и наблюдателя, ответственного за обобщение поведения и проверку среды. Обширные эксперименты подтверждают его эффективность. Наш код, среда, базовые модели и данные общедоступны по адресу: https://AgentHijack.github.io.

Развитие творческого физического интеллекта в больших мультимодальных моделях
Advancing Creative Physical Intelligence in Large Multimodal Models

May 25

ByCheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Emre Can Acikgoz, Bingxuan Li, Kunlun Zhu, Jiateng Liu, Aditi Tiwari, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Heng Ji

Большие мультимодальные модели (БММ) быстро продвинулись в восприятии и рассуждении; однако остается неясным, обобщаются ли эти способности на обнаружение визуально обоснованных решений в открытых средах, выходящих за рамки распознавания образов. В таких условиях интеллект требует большего, чем ответов на корректно поставленные вопросы: он включает в себя идентификацию того, как элементы сцены могут быть перепрофилированы неочевидным, но физически осуществимым образом. Эта форма творческого решения проблем является ключевой для человеческого интеллекта, но остается в значительной степени непроверенной в современных бенчмарках. Для оценки этой способности мы представляем MM-CreativityBench — бенчмарк для творческого использования инструментов, основанного на аффордансах, в визуально насыщенных, физически ограниченных средах. Каждый пример содержит сценарий со структурированными видами сущностей-кандидатов и их частей, что позволяет детально и интерактивно оценивать, как модели итеративно исследуют сцену, выявляют релевантные аффордансы и составляют визуально и физически обоснованные решения. Наши эксперименты показывают, что современные БММ часто не справляются, причем не из-за отсутствия генеративных способностей, а из-за того, что они не поддерживают обоснованное исследование. Модели часто упускают из виду релевантные сущности, недостаточно изучают критические части или галлюцинируют атрибуты, не подтвержденные изображением. Мотивированные этим типом сбоя, мы предлагаем выравнивание на основе аффордансов, которое рассматривает творческое использование инструментов как задачу обучения предпочтениям. Используя прямую оптимизацию предпочтений, мы стимулируем модели предпочитать рассуждения об атрибутах и аффордансах, основанные на визуальных свидетельствах, а не на галлюцинированных альтернативах. Кроме того, мы включаем контроль, полученный из базы знаний об аффордансах, для направления более широкого исследования сущностей и многопланового планирования. Наши результаты демонстрируют последовательное улучшение в выборе правильных сущностей и частей, при значительном сокращении ошибок, связанных с галлюцинациями и обоснованием.

Рост нейронной сети в ширину, глубину и время
Growing a Neural Network in Breadth, Depth, and Time

May 24

ByEivinas Butkus, Kedar Garzón Gupta, Nikolaus Kriegeskorte

Пространственные и временные ресурсные ограничения критически важны как для биологических, так и для искусственных интеллектуальных систем. В данной работе мы определяем дифференцируемые члены затрат для ширины, глубины и времени в рекуррентной сверточной нейронной сети, рассматриваемой как конечное подмножество бесконечной решетки. Мы оптимизируем эти затраты совместно с ошибками выполнения задачи с помощью обратного распространения ошибки. Устанавливая различное давление на ширину, глубину и время, мы добиваемся того, что в процессе обучения органически возникают разнообразные вычислительные графы. Мы обнаружили, что все три ресурса могут быть взаимно скомпенсированы для достижения заданного уровня точности. Сети растут по всем трем измерениям с увеличением сложности задачи и спонтанно выполняют больше рекуррентных шагов при окклюзии входных данных. Удивительно, что время, используемое моделью, коррелирует со временем реакции человека в задаче распознавания объектов. Наш подход предлагает нормативное объяснение того, как ресурсные ограничения формируют нейронные архитектуры, затрагивая вопросы организации мозга в нейронауке и, возможно, способствуя пониманию разнообразия нейронных решений, встречающихся в природе.

Эффективное и масштабируемое отслеживание происхождения для фрагментов кода, сгенерированных LLM
Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

May 27

ByAndrea Gurioli, Davide D'Ascenzo, Federico Pennino, Maurizio Gabbrielli, Stefano Zacchiroli

Крупные языковые модели (LLM) для дополнения и генерации кода всё шире применяются в разработке программного обеспечения, однако они могут воспроизводить примеры из обучающих данных дословно и без указания авторства, что вызывает юридические и этические опасения в отношении плагиата и соблюдения лицензий. Классические детекторы плагиата на основе отпечатков, такие как Winnowing, остаются высокоэффективными, однако проверка требует сравнения фрагментов кода со всем обучающим набором, а их линейная временная сложность делает их непрактичными для корпусов объёмом в миллиарды примеров, используемых для обучения современных LLM для кода. Чтобы устранить этот разрыв, мы представляем SOURCETRACKER — кодировщик с 300M параметров, специализированный для поиска кода, а также гибридный двухэтапный конвейер отслеживания происхождения HYBRIDSOURCETRACKER (HST). HST сначала сужает множество кандидатов до небольшого набора фрагментов с помощью векторного поиска, а затем переранжирует этих кандидатов, используя Winnowing по точным отпечаткам. Мы обучаем и оцениваем нашу систему на подмножестве из 10M фрагментов набора данных THESTACKV2, используя как дословные, так и адаптированные фрагменты, имитирующие реалистичное переименование идентификаторов. На _in vitro_ пространстве поиска из 100k фрагментов с адаптированными запросами наш гибридный подход достигает среднего взаимного ранга, сопоставимого с Winnowing для фрагментов из 30 токенов. Затем, начиная с окон размером >= 60 токенов, он стабильно превосходит его на величину до 5,4%, сохраняя при этом логарифмическую временную сложность запроса. В дополнительной оценке с использованием судьи на основе LLM мы обнаруживаем, что многие извлечённые фрагменты, не помеченные как эталонные, всё равно оказываются высоко похожими на ожидаемые источники, особенно при использовании более длинных контекстных окон, и поэтому остаются полезными для конечных пользователей. В целом, наши результаты показывают, что интеграция векторного поиска с анализом отпечатков позволяет осуществлять масштабируемое и высокоточное отслеживание происхождения кода, порождённого LLM.

BatteryMFormer: многоуровневое обучение для прогнозирования траектории деградации батарей
BatteryMFormer: Multi-level Learning for Battery Degradation Trajectory Forecasting

May 26

ByRuifeng Tan, Jintao Dong, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang

Прогнозирование траектории деградации батареи на ранней стадии (BDTF), которое предсказывает полный жизненный цикл траектории состояния здоровья на основе ранних эксплуатационных данных, имеет решающее значение для оптимизации, производства и развертывания батарей. Данные о деградации батарей имеют две ключевые особенности. Во-первых, данные о деградации демонстрируют многоуровневую структуру, включая закономерности, общие для условий старения, и шаблоны траекторий, общие для разных батарей. Во-вторых, связанные с деградацией изменения в профилях напряжения и тока часто локализованы в определенных интервалах состояния заряда (SOC). Существующие подходы часто не моделируют эти характеристики явно. Для устранения этого пробела мы предлагаем BatteryMFormer — многоуровневый Трансформер для раннего BDTF. BatteryMFormer интегрирует (1) декодер, учитывающий условия старения, который вводит априорные данные об условиях старения через запросы, информированные об условиях старения, и внимание, учитывающее условия старения; (2) память мета-шаблонов деградации, которая изучает и извлекает прототипы траекторий для прогнозирования на длительном горизонте; и (3) двухракурсный энкодер, который совместно фиксирует временную динамику и локализованные по SOC изменения из временных рядов напряжения и тока. Обширные эксперименты на четырех доменах батарей показывают, что BatteryMFormer последовательно превосходит эталонные базовые подходы, что представляет собой значительный шаг к надежному BDTF. Наш код доступен по адресу https://github.com/Ruifeng-Tan/BatteryMFormer.

Выявление алгоритмических дедуктивных схем для логического рассуждения
Revealing Algorithmic Deductive Circuits for Logical Reasoning

May 27

ByPhuong Minh Nguyen, Tien Huu Dang, Naoya Inoue

Недавние исследования показали, что большие языковые модели (LLM) могут достигать высокой производительности в рассуждениях за счет включения функциональных символьных представлений, которые абстрактно описывают алгоритмы обхода графов и пошаговые рассуждения в условиях обучения с несколькими примерами. Однако остается неясным, каким образом LLM действительно понимают абстрактный смысл каждого шага рассуждения и общий алгоритм на основе лишь ограниченного числа демонстраций. Данная работа направлена на локализацию голов внимания, ответственных за отдельные шаги рассуждения, и характеристику типов информации, передаваемой между ними. Мы сначала соотносим составные шаги рассуждения с соответствующими логитами токенов в рамках символьной подсказки с цепочкой мыслей (CoT). Наш анализ показывает, что позиции токенов, направляющие процесс рассуждения, связаны с низкими показателями уверенности, вызванными ограничениями на удовлетворение шаблонов поведения рассуждения в демонстрациях. Затем мы применяем методы анализа причинно-следственной медиации для идентификации голов внимания, ответственных за эти шаблоны. Кроме того, наши результаты показывают, что LLM извлекают фактические и основанные на правилах данные для отдельных подзадач рассуждения через специализированные головы внимания (примерно 3% всех голов), тогда как более высокие слои в основном способствуют интеграции информации и появлению глобальных стратегий рассуждения (например, алгоритмов обхода графов), которые координируют несколько промежуточных шагов рассуждения для решения общей задачи.

ЛАКУНА: Безопасные агенты как рекурсивные программные дыры
LACUNA: Safe Agents as Recursive Program Holes

May 27

ByYaoyu Zhao, Yichen Xu, Oliver Bračevac, Cao Nguyen Pham, Frank Zhengqing Wu, Martin Odersky

LLM-агенты все чаще действуют, создавая код, однако сохраняется разрыв между средой выполнения, управляющей агентом, и кодом, который пишет модель. Среда выполнения контролирует цикл, контекст и поток управления, и модель практически не влияет ни на один из них. Позволить написанному моделью коду формировать саму среду выполнения сделало бы агентов более выразительными, но также обострило бы проблемы безопасности. Модель может быть отвлечена промпт-инъекцией, вызвать неверный инструмент или завершиться с ошибкой на полпути, оставив несогласованное состояние, и каждый такой сбой имеет более серьезные последствия, когда код формирует среду выполнения, по сравнению со случаем, когда он выражает единичное действие. Мы представляем LACUNA — модель программирования для агентов, которая устраняет этот разрыв, сохраняя безопасность. Каждое действие агента — это типизированный вызов agent[T](task), который LLM заполняет кодом по достижении точки выполнения, а код проверяется на соответствие типам относительно окружающей программы до его запуска. Поскольку каждое действие принимается или отклоняется как единое целое, отклоненное действие оставляет среду нетронутой, а диагностика компилятора используется для повторной попытки. Та же проверка также ограничивает, какие инструменты и данные может использовать действие и как они передаются. Наш примитив выражает циклы ReAct, под-агентов, навыки, параллельное декомпозицию и многомодельное планирование как обычный поток управления. Мы оцениваем LACUNA на наборе тестовых примеров, BrowseComp-Plus и τ²-bench. На BrowseComp-Plus 8.6% генераций отклоняются до выполнения, в среднем 0.7 повторных попыток на запрос, а агент достигает точности 27.1%. На τ²-bench LACUNA решает 76.0% из 392 задач в четырех областях с помощью способной модели, что сопоставимо с базовым агентом.

Не гадай, просто спроси: Разрешение неоднозначности в референциальной сегментации с помощью многораундового уточнения
Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification

May 24

ByYuting Yang, Haichao Jiang, Tianming Liang, Quan Zhang, Jian-Fang Hu

Референтная сегментация направлена на выделение целевых объектов на изображениях или видео на основе текстового запроса. Несмотря на значительный прогресс за последние годы, существующие работы всегда исходят из предположения, что предоставляемые пользователем запросы уже точны и однозначны. Однако это предположение непрактично. В реальных сценариях нереалистично ожидать, что все пользователи тщательно изучат визуальное содержимое и внимательно обеспечат уникальность и однозначность своих запросов. В таких случаях существующие модели сегментации склонны произвольно угадывать предпочтения пользователя, что часто приводит к нежелательным результатам. Для устранения этого ограничения мы предлагаем IC-Seg — новый агентный фреймворк, который активно выясняет намерения пользователя посредством многопоточного диалога перед сегментацией. Для эффективного стимулирования этой способности мы дополнительно вводим Hi-GRPO — новую иерархическую стратегию оптимизации, которая внедряет плотные и информативные сигналы контроля на уровнях траектории, поворота и шага. Эта стратегия способствует эффективному уточнению намерений, устраняя избыточные взаимодействия и повышая общее качество диалога. Для оценки мы создали Ambi-RVOS — эталонный набор данных для референтной видеосегментации с неоднозначными пользовательскими запросами. Обширные эксперименты показывают, что IC-Seg не только с большим отрывом превосходит существующие методы в разрешении неоднозначных запросов, но и сохраняет передовую производительность на стандартных бенчмарках сегментации с рассуждением. Код и данные будут опубликованы по адресу https://github.com/iSEE-Laboratory/IC-Seg.

Трехмерное соответствие на уровне категории в пространстве камеры с помощью морфируемых объектных априоров
Category-Level 3D Correspondence in Camera Space via Morphable Object Priors

May 27

ByLeonhard Sommer, Artur Jesslen, Basavaraj Sunagad, Adam Kortylewski

Понимание трехмерных объектов по изображениям является фундаментальной задачей для робототехники и приложений AR/VR. Хотя недавние работы достигли прогресса в оценивании позы на уровне категорий, существующие представления не позволяют улавливать детальную семантику, необходимую для рассуждений о частях объектов, их функциях и взаимодействиях. В данной работе мы исследуем категорийное трехмерное соответствие в пространстве камеры — предсказание по одному изображению трехмерных точек, согласованных между экземплярами внутри категории, — и показываем, что такое соответствие может возникать без явного обучения на основе меток соответствия, благодаря изучению общего морфируемого априорного представления объекта. Для содействия исследованиям в этом направлении мы представляем HouseCorr3D — первый крупномасштабный бенчмарк для монокулярного категорийного трехмерного соответствия, содержащий 178 тыс. изображений из 50 категорий бытовых объектов, 280 уникальных экземпляров и аннотации трехмерных ключевых точек непосредственно на CAD-моделях. Важно, что HouseCorr3D предоставляет амодальные метки соответствия для окклюдированных областей и явные аннотации симметрии, что устраняет ключевые ограничения существующих наборов данных. Кроме того, мы предлагаем метод Morpheus, который обучает морфируемые категорийные априорные представления формы путем разделения канонической формы, деформации и позы объекта. Благодаря этой общей канонической основе неявно возникают семантически значимые трехмерные соответствия в пространстве камеры. Эти возникающие трехмерные соответствия устанавливают новый передовой уровень на бенчмарке HouseCorr3D, демонстрируя, что семантическое понимание трехмерных объектов может возникать без прямого обучения на основе меток соответствия. Данные и код доступны по адресу https://github.com/GenIntel/HouseCorr3D.

Хэш Кларка: безсостоянийное разреженное квантование Джонсона-Линденштрауса для нейронных эмбеддингов
Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings

May 27

ByStanislav Kirdey, Clark Labs Inc

Clark Hash — это компактный метод хранения нейронных эмбеддингов с меньшим объемом памяти. Он нормализует каждый вектор базы данных, применяет детерминированную разреженную знаковую проекцию Джонсона-Линденштрауса, обрезает результат и сохраняет код фиксированной ширины со скалярным квантованием. Запросы остаются в формате с плавающей запятой и оцениваются по сохраненным скетчам. В стандартной конфигурации с 384-мерными эмбеддингами предложений Clark Hash хранит вектор для косинусного поиска в 48 байтах вместо 1536 байт для плотного хранения f32. Это в 32 раза меньше. Метод не требует этапа обучения, изученных кодовых книг, поворотов или статистики корпуса перед сохранением новых векторов. Мы описываем кодек, реализацию на Rust и оценку многоязычного сходства предложений на 9 304 размеченных парах из 29 подмножеств. С многоязычным кодировщиком MiniLM 48-байтовые скетчи достигли макрокорреляции Пирсона 0,910 и 0,946 с плотными косинусными оценками на STS17 и STS22. Clark Hash не является новой теоремой Джонсона-Линденштрауса и не заменяет индексы приближенного поиска ближайших соседей. Это простой кодек без сохранения состояния для компактного хранения эмбеддингов.

Есть секрет? LLM-агенты не умеют хранить тайны: оценка конфиденциальности в многоагентных системах
Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

May 26

ByAman Priyanshu, Supriti Vijay, Esha Pahwa

Оценки безопасности LLM преимущественно тестируют модели в изоляции, однако развернутые ИИ-агенты все чаще действуют в устойчивых социальных средах вместе с другими агентами. Мы представляем симуляционную платформу в стиле Moltbook, где тысячи LLM-агентов взаимодействуют в сообществах в течение смоделированного месяца, и используем ее для оценки конфиденциальности как последующей проблемы безопасности в условиях разной степени социального давления. Мы обнаружили, что переход от одношаговой к многошаговой социальной оценке усиливает нарушения конфиденциальности (CIMemories 19.95% до Ours 45.30% для моделей OpenAI), что утечка является социально заразной, причем агенты в 8 раз чаще раскрывают конфиденциальную информацию после наблюдения за таким действием сверстника, и что явные инструкции по конфиденциальности уменьшают, но не устраняют этот эффект, оставляя уровень утечки выше 37,8% даже при наличии средств защиты. Наши результаты показывают, что статические чат-ориентированные бенчмарки безопасности систематически недооценивают риски при развертывании агентов, и что одного социального контекста достаточно для получения конфиденциальных раскрытий, которые одношаговые оценки никогда бы не выявили.

Насколько точны модели качества видео для суперразрешения видео на основе диффузии?
How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?

May 25

ByBenjamin Herb, Steve Göring, Alexander Raake, Rakesh Rao Ramachandra Rao

Современные подходы к сверхвысокому разрешению видео (VSR) используют глубокие нейронные сети для улучшения качества входных видеопотоков с низким разрешением и восстановления визуальных деталей. Методы, основанные на диффузии, в частности, демонстрируют многообещающие результаты. В данной работе мы исследуем, можно ли использовать существующие модели качества видео для оценки производительности этих диффузионных методов VSR, сравнивая прогнозы моделей с результатами субъективного тестирования. В исследовании сравниваются шесть методов повышения разрешения (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini), применённых как к сжатым (AV1 и DCVC-RT), так и к несжатым видеороликам низкого разрешения, с учётом воспроизведения на экране UHD-1/4K. Для оценки применимости к данному новому типу ухудшения качества используется ряд полно- и безэталонных моделей качества с акцентом на производительность внутри последовательности. Результаты показывают, что полные эталонные модели на основе свёрточных нейронных сетей, такие как LPIPS, DISTS и CVQA-FR, демонстрируют значительно более высокие коэффициенты корреляции по сравнению как с традиционными полными эталонными, так и с протестированными безэталонными моделями. Большинство моделей переоценивают чрезмерно резкие результаты SCST, причём VMAF в основном даёт сбои из-за пространственных несоответствий, вносимых Starlight Mini. Ни одна из протестированных моделей качества видео не достигает достаточной точности, чтобы заменить дополнительное субъективное тестирование. Эталонные, ухудшенные и увеличенные видеоролики, а также пользовательские оценки и значения моделей доступны вместе со статьёй в виде открытых данных по адресу https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR.

Разрывая оковы вероятности: нейтрософская логика как новая основа для эпистемической неопределенности в больших языковых моделях
Breaking the Chains of Probability: Neutrosophic Logic as a New Framework for Epistemic Uncertainty in Large Language Models

May 22

ByMaikel Yelandi Leyva-Vázquez, Florentin Smarandache

Большие языковые модели (БЯМ) преимущественно управляются вероятностными рамками, в которых сумма вероятностей исходов ограничена единицей. Это архитектурное ограничение, часто накладываемое слоями Softmax, приводит к коллапсу неопределенности, что затрудняет различение эпистемической неопределенности, парадокса и нечеткости. Мы представляем эмпирическое исследование применения нейтрософской логики — подхода, рассматривающего Истину (И), Неопределенность (Н) и Ложь (Л) как три независимых измерения, — для моделирования эпистемических состояний в БЯМ. Мы провели эксперименты на семействе из четырех моделей OpenAI GPT в рамках пяти лингвистических явлений: логические парадоксы, эпистемическое незнание, нечеткость, этические противоречия и будущие контингенции, — при трех стратегиях подсказок: нейтрософской, вероятностной и энтропийной. Наши результаты показывают, что нейтрософский подход, допускающий И+Н+Л > 1 — состояние, которое мы называем гипер-истиной, — обеспечивает более богатое представление внутреннего состояния модели. В 35% оценок гипер-истина возникала спонтанно, преимущественно при этических противоречиях и логических парадоксах. Мы демонстрируем, что этот подход сохраняет истинностные значения в нечетких контекстах и предлагает надежный метод для выявления и количественной оценки внутреннего конфликта модели. Мы заключаем, что интеграция нейтрософских оценочных слоев является критическим шагом на пути к более прозрачным, надежным и этически осознанным системам искусственного интеллекта.

PEAM: Параметрическая память воплощённого агента через контрастную интернализацию опыта в Minecraft
PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

May 26

ByYuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su

Мы представляем PEAM — фреймворк параметрической воплощённой памяти агента (Parametric Embodied Agent Memory) для Minecraft, который трансформирует память агента из извлечения во время инференса в параметрически встроенные навыки, интернализируемые через опыт. PEAM объединяет медленный deliberative-LLM для открытого рассуждения с быстрым параметрическим модулем для рефлекторного выполнения консолидированных навыков. Быстрый модуль представляет собой мультимодальную архитектуру LoRA на основе смеси экспертов (Mixture-of-Experts) с физически изолированными адаптерами для каждой категории, что обеспечивает непрерывное обучение на уровне параметров без катастрофического забывания. Мы рассматриваем неудачу как первостепенный обучающий сигнал: пары «неудача–коррекция» интернализируются через совместную целевую функцию поведенческого клонирования и контрастивного обучения, так что агент узнаёт не только успешные действия, но и то, чем скорректированные действия отличаются от неудачных. Для управления консолидацией PEAM вводит оценку пригодности к параметризации (parameterization-worthiness score), определяющую, какой опыт следует интернализировать, и механизм самоинициируемой консолидации без масштабирования (scale-free self-triggered consolidation), решающий, когда проводить интернализацию без ручной настройки порогов под конкретные задачи. Благодаря этому агент становится саморазвивающимся, а триггер переносится между распределениями задач без перенастройки. Эксперименты в Minecraft показывают, что PEAM улучшает производительность на долгосрочных задачах, снижает забывание ранее консолидированных навыков и повышает эффективность параметрического подхода по сравнению с извлечением как для воплощённых агентов на основе поиска, так и для вариантов параметрической памяти.

Контрастивное согласование распределений для амортизированного последовательного метода Монте-Карло в дискретной диффузии
Contrastive Distribution Matching for Amortized Sequential Monte Carlo in Discrete Diffusion

May 22

ByJaihoon Kim, Taehoon Yoon, Prin Phunyaphibarn, Seungjun Kim, Morteza Mardani, Minhyuk Sung

Дискретные диффузионные модели стали мощными инструментами для генерации структурированных категориальных данных. Однако эффективная выборка из распределений, смещённых по вознаграждению, остаётся фундаментальной задачей. Хотя скрученный последовательный метод Монте-Карло (SMC) обеспечивает асимптотическую точность для этой задачи, оценка оптимальной функции скручивания в дискретных пространствах состояний требует дорогостоящих аппроксимаций методом Монте-Карло, что приводит к серьёзному вычислительному узкому месту на этапе инференса. Чтобы преодолеть это ограничение, мы предлагаем контрастивное согласование распределений (CDM) — новый подход, который амортизирует вычислительные затраты SMC-инференса путём обучения параметризованной функции скручивания на положительных и отрицательных примерах. Для эффективного обучения мы переформулируем оценку градиента, используя замкнутые прямые ядра дискретных диффузионных моделей. На практике вычисление обученной функции скручивания приводит к дополнительным вычислительным затратам менее 5% по сравнению с однократным прямым проходом базовой модели. На основе обширных эмпирических экспериментов мы демонстрируем, что CDM стабильно превосходит существующие базовые методы при одинаковом астрономическом времени. Мы подтверждаем эффективность и универсальность нашего подхода в различных приложениях, включая генерацию токсичных текстов, дизайн регуляторных последовательностей ДНК, проектируемость белков и согласование больших языковых моделей на основе диффузии.