Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели мира для интерактивной генерации видео в значительной степени ориентировались на однопользовательские сценарии, где будущие наблюдения порождаются из единственного управляющего сигнала. Однако многие генерируемые среды требуют взаимодействия нескольких агентов: множество игроков, роботов или воплощенных агентов действуют одновременно в общем пространстве. Масштабирование моделей мира на такие условия требует принципиального многопользовательского дизайна: агенты должны оставаться независимо управляемыми, перестановочно-симметричными и поддерживать эффективные вычисления, сохраняя согласованность во времени и с разных точек зрения. В данной статье мы представляем нашу генеративную многопользовательскую модель мира для интерактивной симуляции. Она включает Simplex Rotary Agent Encoding — расширение 3D RoPE без дополнительных параметров, которое представляет агентов как вершины правильного симплекса в пространстве углов поворота. Это дает каждому агенту отдельную фазу, делая всех агентов эквивалентными относительно перестановок, что обеспечивает масштабируемую идентичность агентов без использования изученных идентификаторов для отдельных слотов или фиксированного порядка агентов. Чтобы избежать полного попарного взаимодействия между агентами, мы дополнительно предлагаем Sparse Hub Attention, где обучаемые хабы-токены опосредуют взаимодействие токенов между агентами, снижая стоимость перекрестного внимания с квадратичной до линейной относительно числа агентов. Для работы в реальном времени мы дистиллируем full-context диффузионный учитель в каузального ученика, который последовательно генерирует временные блоки с кэшированием KV, обеспечивая генерацию, реагирующую на действия, со скоростью 24 FPS. Эксперименты в многопользовательских виртуальных средах показывают, что наша модель улучшает качество видео, управляемость действий и согласованность между агентами по сравнению с базовыми подходами на основе слотов и плотного внимания, при этом обобщаясь с двух до четырех игроков без дополнительного обучения.
Проактивные рекомендательные системы (PRS) стремятся направлять изменение предпочтений пользователя в сторону целевых элементов, генерируя пути промежуточных рекомендаций. Обучение с подкреплением (RL) предоставляет принципиальную основу для оптимизации таких последовательных задач принятия решений, поскольку вознаграждения на пути могут естественным образом учитывать как краткосрочное принятие, так и долгосрочную эффективность направления. Однако наивное применение градиентов политики к PRS приводит к некачественной оценке градиента. Мы выявляем два недостатка: (1) вознаграждения на уровне пути разлагаются на вознаграждения на уровне шага с положительным средним, что создаёт смещение, зависящее от длины, из-за которого градиенты отдают предпочтение удлинению пути, а не осмысленному исследованию; (2) взвешивание каждого шага с помощью всего вознаграждения пути игнорирует структуру разложения, что приводит к высокой дисперсии градиента. Для устранения этих двух недостатков мы предлагаем эффективную структуру RL под названием ProRL с двумя новыми механизмами для проактивной рекомендации. Во-первых, центрирование вознаграждений по шагам (Stepwise Reward Centering) вычитает ожидаемые вознаграждения для нейтрализации смещения, зависящего от длины, гарантируя, что удлинение пути даёт нулевой ожидаемый сигнал градиента. Во-вторых, оценка преимущества, специфичного для позиции (Position-Specific Advantage Estimation), использует структуру разложения вознаграждений для вычисления зависящих от шага базовых линий, снижая дисперсию градиента. Вместе эти механизмы обеспечивают градиенты политики, которые точно нацелены на качество пути. Наши эксперименты на трёх реальных наборах данных демонстрируют, что ProRL значительно превосходит современные PRS. Наш код доступен по адресу https://github.com/hongruhou89/ProRL.
Модели «зрение-язык» с расширенным рассуждением успешно справляются со сложными задачами, однако многие реальные проблемы требуют внешних инструментов, которые одно лишь внутреннее рассуждение часто не может разрешить. Поэтому агентное рассуждение чередует два поведения, обладающих структурной асимметрией: мышление (самодостаточный режим по умолчанию) и использование инструментов (вспомогательное действие с высокой вариативностью). Мы называем эту асимметрию разрывом между мышлением и действием (Thinking-Acting Gap). При стандартных подходах RL, таких как GRPO, этот разрыв проявляется в виде двух диагностических симптомов во время обучения: использование инструментов предпринимается лишь в ~30% разверток, а когда оно предпринимается, то в ~40% вопросов все развертки с использованием инструментов внутри группы оказываются неверными, подавляя обучающий сигнал в тех вызовах инструментов, которые в нём нуждались. Мы предлагаем AXPO (Agent eXplorative Policy Optimization — оптимизация политики с агентным исследованием): для каждой подгруппы с полностью неверным использованием инструментов AXPO фиксирует префикс мышления и повторно выбирает вызов инструмента и его продолжение в сочетании с выбором префикса на основе неопределённости. На девяти мультимодальных бенчмарках и трёх масштабах Qwen3-VL-Thinking SFT+AXPO превосходит SFT+GRPO в среднем (+1,8 процентных пункта по Pass@1 и +1,8 п.п. по Pass@4 для модели 8B в среднем), а модель 8B с SFT+AXPO превосходит базовую модель 32B по Pass@4, имея в 4 раза меньше параметров.
Современные модели зрения-языка (VLM) обычно объединяют отдельные кодировщики изображений и декодеры языка посредством многоэтапного выравнивания — модульной архитектуры, которая неизбежно фрагментирует сигналы на уровне пикселей между кадрами и разобщает ранние взаимодействия пикселей и слов. В то же время нативные VLM, несмотря на впечатляющую производительность на отдельных изображениях, остаются практически неисследованными в задачах множественных изображений, понимания видео и пространственного интеллекта. В связи с этим мы представляем NEO-ov — нативную базовую модель, которая обучает межкадровое соответствие и соответствие между пикселями и словами сквозным образом, без использования внешних кодировщиков, вспомогательных адаптеров или пост-хок слияния. Полностью устраняя границы между модулями, NEO-ov позволяет детализированное и унифицированное пространственно-временное моделирование, возникающее нативно внутри самой модели. Примечательно, что NEO-ov значительно сокращает разрыв с модульными аналогами, превосходя их в восприятии мелких деталей, что подтверждает, что нативные архитектуры «единого зрения» не только осуществимы, но и конкурентоспособны в масштабе. Помимо эмпирической производительности, мы раскрываем систематический анализ архитектур и подробные рецепты обучения, чтобы облегчить последующее нативное мультимодальное моделирование. Наш код и модели общедоступны по адресу: https://github.com/EvolvingLMMs-Lab/NEO.
Поиск был предложен как эффективный метод для самоулучшающихся языковых моделей и агентных систем как для генерации примеров после обучения, так и для инференса. Однако широко используемые методы, такие как best-of-N сэмплирование и поиск по дереву, имеют два фундаментальных ограничения: они направляются разреженными сигналами верификации и формируют кандидаты преимущественно за счёт авторегрессионного расширения, что ограничивает исследование областями со значительной вероятностной массой модели. Для преодоления этих ограничений предлагается двунаправленный эволюционный поиск (BES) — фреймворк поиска, объединяющий прямую эволюцию кандидатов с обратной декомпозицией целей. На этапе прямого поиска BES дополняет стандартное расширение эволюционными операторами, которые рекомбинируют частичные траектории для генерации кандидатов, трудно достижимых при одиночном прогоне модели. На этапе обратного поиска BES рекурсивно разлагает исходную задачу на проверяемые подцели, обеспечивая плотную промежуточную обратную связь, направляющую прямой поиск. Приводится теоретическое обоснование, показывающее, что кандидаты, генерируемые поиском только за счёт расширения, ограничены узкой энтропийной оболочкой, тогда как эволюционные операторы могут её покинуть, а обратный поиск способен экспоненциально сократить количество образцов, необходимых для нахождения правильного ответа. Эксперименты показывают, что на сложных задачах после обучения, где основные алгоритмы пост-обучения не дают улучшений, BES обеспечивает устойчивый прирост, а на трёх открытых бенчмарках решения задач во время инференса BES превосходит существующие open-source фреймворки как по средней, так и по наилучшей производительности. Код и обученные модели доступны по адресу https://github.com/Embodied-Minds-Lab/BES.
Передний край математики определяется задачами, решения которых пока неизвестны, однако остается неясным, могут ли языковые модели осмысленно работать с такими задачами без вмешательства человека. Основным препятствием является отсутствие крупномасштабных наборов математических данных исследовательского уровня. Для решения этой проблемы мы представляем ResearchMath-14k — набор из 14 056 задач, собранных из академических источников с помощью многогаентного конвейера, что делает его крупнейшей коллекцией математических задач исследовательского уровня на сегодняшний день. Кроме того, мы создали ResearchMath-Reasoning — 220 тысяч траекторий учителя, полученных от двух открытых моделей, где мы наблюдали повторяющееся избегающее поведение, такое как попытки невыполнения и вымышленные ссылки. Интересно, что среди восьми моделей с открытым весом новые поколения производят в 5,6 раза больше ссылок и в 5,0 раза больше ложных ссылок на трассу. После агентной фильтрации ResearchMath-Reasoning тонкая настройка моделей Qwen3 от 4B до 30B параметров улучшает базовые модели в среднем на 9,2 балла. Это показывает, что отфильтрованные попытки решения открытых задач могут обеспечить полезный контроль даже при отсутствии полностью корректных цепочек рассуждений. Мы делаем ResearchMath-14k общедоступным для будущих работ по математическим рассуждениям исследовательского уровня.
Обучение с подкреплением стало центральной парадигмой для развития рассуждений в больших языковых моделях, однако большинство существующих методов по-прежнему полагаются на более сильные модели-учителя или тщательно подобранные сложные наборы данных, что ограничивает масштабируемое улучшение возможностей. В этой статье мы представляем DenoiseRL — фреймворк обучения с подкреплением, который заменяет внешнее руководство оптимизацией, ориентированной на восстановление, на основе ошибок слабых моделей. Вместо того чтобы полагаться на более сильное руководство или тщательно подготовленные данные, DenoiseRL учится напрямую на некорректных цепочках рассуждений, превращая их в возможности для улучшения, что делает обучение более масштабируемым и менее зависимым от внешних ресурсов. Это дает более богатый и разнообразный обучающий сигнал, повышая эффективность исследования на основе несовершенного поведения модели. В результате DenoiseRL улучшает производительность рассуждений и общую эффективность обучения, снижая потребность в дорогостоящей курации данных или более сильных моделях-учителях. Эмпирически DenoiseRL стабильно превосходит сильные базовые методы обучения с подкреплением (on-policy) на соревновательных математических и общих бенчмарках для рассуждений, а также способствует более сильному самокорректирующему поведению по мере увеличения сложности обучения, что подчеркивает эффективный и масштабируемый альтернативный путь улучшения рассуждений в больших языковых моделях.
Воплощенные визуально-языковые модели (VLM) продемонстрировали впечатляющую производительность и способность к обобщению в робототехнике, особенно в рамках архитектур «зрение–язык–действие». Однако между высокоуровневой семантической направленностью стандартных парадигм предварительного обучения на основе текста и низкоуровневыми пространственными и физическими знаниями, критически важными для выполнения задач в воплощенных средах, сохраняется значительный разрыв. В данной статье мы представляем GEM — генеративно-контролируемую воплощенную модель зрения и языка, предназначенную для преодоления этого разрыва. Мы предлагаем интегрировать задачу генерации карт глубины непосредственно в фазу предварительного обучения VLM. Совместное обучение этой генеративной цели с основной моделью приводит к существенному улучшению воплощенного интеллекта, значительно повышая как семантическое понимание, так и способности к физическому выполнению операций. Для поддержки данной парадигмы мы подготовили и опубликовали GEM-4M — крупномасштабный набор данных, включающий смесь данных для понимания, рассуждения и планирования в паре с высококачественным контролем глубины. Обширные эксперименты демонстрируют, что GEM достигает передовых результатов на различных воплощенных эталонах. Кроме того, наша развернутая модель действий GEM-VLA проявляет значительно превосходные способности выполнения задач как в средах симуляции, так и в оценках реального мира. Код, модели и наборы данных доступны по адресу https://zhaorw02.github.io/GEM/.
Память необходима для обеспечения возможности больших языковых моделей поддерживать долгосрочные рассуждения, однако существующие системы памяти остаются ненадежными и сложными для отладки. Отслеживание динамической эволюции памяти критически важно для понимания того, как информация синтезируется, распространяется или искажается со временем. В данной работе мы изучаем новую проблему трассировки и атрибуции ошибок в системах памяти LLM. Мы предлагаем новый фреймворк, который преобразует конвейеры памяти в исполняемые графы эволюции памяти, обеспечивая детальное отслеживание потока операционной информации. Затем мы создаем MemTraceBench — эталонную базу (бенчмарк), собранную на основе репрезентативных систем памяти, таких как Long-Context, RAG, Mem0 и EverMemOS, для систематического изучения режимов сбоев памяти. Кроме того, мы представляем автоматический метод атрибуции, который итеративно отслеживает операционные подграфы, чтобы точно определить первопричину любого случая сбоя. Наш анализ показывает, что сбои памяти носят систематический характер и возникают из-за проблем на уровне операций, таких как потеря информации и рассогласование при извлечении. Важно отметить, что мы используем эти детальные сигналы атрибуции для управления последующей оптимизацией промптов, создавая замкнутую систему, которая автоматически исправляет ошибки и повышает производительность конечной задачи до 7.62%. Код будет опубликован по адресу https://github.com/zjunlp/MemTrace.
Агенты, использующие компьютер (CUA), в последнее время достигли значительного прогресса, однако развертывание отдельного крупного эксперта для каждой программной области остается дорогостоящим. Малые открытые агенты компьютерного использования являются более практичными целями для специализации, но они остаются значительно слабее и демонстрируют неравномерные отказы в конкретных областях. Простым решением является синтез крупномасштабных обучающих данных для целевой области, однако мы обнаружили, что этот наивный подход дает лишь незначительные улучшения. Основываясь на этом наблюдении, мы представляем LearnWeak — фреймворк специализации без разметки для малых агентов компьютерного использования, который использует более сильного эталонного агента для выявления слабых мест ученика в целевой области, синтеза целевых задач и автоматического построения обучения. LearnWeak также вводит целевую функцию специализации, учитывающую ошибки, которая разделяет ошибки планирования и выполнения, что позволяет проводить более точные с поведенческой точки зрения обновления, чем широкое равномерное обучение. На OSWorld LearnWeak достигает среднего прироста в 11,6 и 11,1 процентных пункта относительно EvoCUA-8B и OpenCUA-7B соответственно по восьми доменам. Мы также подтверждаем, что наши подходы к генерации набора данных и обучению с учетом ученика превосходят существующие базовые подходы автономной генерации траекторий и обучения. Наша работа подчеркивает важность учета ученика как при синтезе данных, так и при обучении агентов, указывая на более принципиальный и эффективный путь специализации малых агентов компьютерного использования в различных областях.
Автономные исследовательские агенты создают конкурентоспособные решения и профессионально оформленные рукописи, однако их результаты содержат ошибки верификации, не обнаруживаемые при поверхностной оценке: сфабрикованные ссылки, невоспроизводимые показатели и описания методов, расходящиеся с реализацией. Мы решаем эту проблему с помощью трех вкладов. Во-первых, «Цепочка доказательств» (Chain-of-Evidence, CoE) — это фреймворк верификации, требующий, чтобы каждое утверждение было прослеживаемо до своего источника доказательств. Во-вторых, ScientistOne — это сквозная автономная исследовательская система, которая по построению поддерживает цепочки доказательств на всех этапах: обзор литературы, поиск решений и написание статьи. В-третьих, CoE Audit — это ретроспективный аудит, чьи четыре проверки целостности — верификация показателей, нарушение спецификации, верификация ссылок и согласованность метода и кода — единообразно применимы ко всем системам. В 75 статьях, охватывающих пять систем и пять передовых исследовательских задач, каждый базовый метод демонстрирует как минимум одну систематическую ошибку: уровень галлюцинированных ссылок достигает 21%, верификация показателей проходит лишь в 42% статей, а согласованность метода и кода варьируется от 20% до 80%. ScientistOne достигает нулевых галлюцинированных ссылок (0/337), безупречной верификации показателей (12/12) и наивысшей согласованности метода и кода (14/15), при этом соответствуя или превосходя результаты экспертов-людей по всем пяти задачам. Кроме того, ScientistOne обобщается на шесть дополнительных задач, охватывающих медицинскую визуализацию, мелкозернистое распознавание, трехмерное восприятие и языковое моделирование, достигая передовых результатов на Parameter Golf и золотых медалей на задачах MLE-Bench, где базовые методы терпят полную неудачу.
Исследовательские агенты на основе ИИ теперь способны генерировать научные идеи, разрабатывать эксперименты, запускать код и составлять проекты статей, что открывает возможность для масштабной научной деятельности с поддержкой искусственного интеллекта. Многие современные архитектуры агентов явно поощряют генерацию новых и высокоэффективных идей. Тем не менее, остается неясным, расширяет ли такая AI-поддерживаемая генерация идей область научных исследований или же в основном концентрируется вокруг существующих работ. Мы изучаем исследовательские AI-агенты как системы научного поиска. Используя четыре архитектуры исследовательских AI-агентов и шесть больших языковых моделей, мы генерируем 37 802 научные идеи на основе общей исходной литературы в определенных по цитированиям областях исследований в области ИИ и машинного обучения. Затем мы сравниваем полученные AI-идеи со статьями, написанными людьми из тех же исследовательских областей, с последующими человеческими исследованиями, развивающимися из той же исходной литературы, и с самой исходной литературой. В ходе экспериментов выявляются четыре устойчивые закономерности. Во-первых, AI-идеи существенно более сконцентрированы, чем статьи, написанные людьми, из тех же исследовательских областей. Во-вторых, AI-идеи остаются гораздо ближе к исходной литературе, чем последующие человеческие работы. В-третьих, статьи, наиболее похожие на AI-идеи, как правило, получают более низкое последующее цитирование. В-четвертых, когда AI-идеи отличаются от предшествующих работ, эти различия возникают в основном из-за рекомбинирования существующих технических методов, а не внедрения принципиально новых исследовательских вопросов. В целом, современные исследовательские AI-агенты, по-видимому, лучше подходят для локальной детализации, чем для расширения научных исследований.
Существующие агенты LLM с дополненной памятью часто рассматривают память как статическое хранилище с предопределенными представлениями и фиксированными конвейерами извлечения, что оказывается ненадежным в динамических агентных средах, где обратная связь, изменение задач и гетерогенные сигналы непрерывно изменяют то, что должно запоминаться и как это должно быть связано. Для решения этой проблемы мы предлагаем FluxMem — фреймворк памяти с эволюционирующей связностью, который моделирует память как гетерогенный граф и постепенно уточняет его топологию через три этапа: начальное формирование связей, уточнение на основе обратной связи и долгосрочная консолидация. В процессе выполнения FluxMem восстанавливает отсутствующие связи, устраняет интерференцию, выравнивает гранулярность абстракций и дистиллирует повторяющиеся успешные траектории в многократно используемые процедурные цепочки, руководствуясь единой метрикой обобщаемости памяти и эволюционной зрелости. На трех принципиально различных бенчмарках, включая LoCoMo, Mind2Web и GAIA, FluxMem демонстрирует стабильно высокую производительность, показывая сильную адаптацию и обобщение в сложных агентных средах. Код будет опубликован в открытом доступе по адресу https://github.com/zjunlp/LightMem.
Каузальные трансформерные языковые модели страдают от строго последовательного декодирования и квадратичной стоимости внимания на каждом шаге. Хотя каузальные модели с линейным временем и дискретные диффузионные модели по отдельности устраняют эти недостатки, их интеграция остается внутренне противоречивой: диффузия требует двунаправленного внимания, тогда как каузальные модели являются однонаправленными. Чтобы унифицировать эти архитектуры, мы предлагаем B³D-RWKV — вариант диффузионного RWKV, объединяющий эффективность инференса O(L) модели с параллельной двунаправленной дискретной диффузией с помощью метода триплетно-блочной компоновки. B³D-RWKV-7.2B достигает сопоставимой точности на наборе из восьми задач по сравнению с существующими моделями, при этом значительно превосходит базовые модели по пропускной способности декодирования, демонстрируя среднее ускорение в 1,6 раза.
Навыки агентов предоставляют легковесный способ адаптации LLM-агентов к специализированным доменам путем хранения повторно используемых процедурных знаний в структурированных файлах. Однако, независимо от того, загружены ли такие навыки от третьих лиц или сгенерированы самостоятельно, они часто оказываются ненадежными, неполными или устаревшими. Существующие методы эволюции навыков обычно устраняют эти недостатки с помощью эвристических рефлексий без явной формулировки оптимизации. В данной работе мы предлагаем SkillGrad — фреймворк, вдохновленный градиентным спуском, для оптимизации навыков агентов. SkillGrad рассматривает пакет навыков как структурированный параметр, оптимизируемый в стиле градиентного спуска: выполнение задач предоставляет потери на уровне траекторий, затем автоматическая диагностика генерирует текстовые градиенты, указывающие направления коррекции. Для стабилизации оптимизации между итерациями агент с моментумом накапливает повторяющиеся диагностические паттерны в персистентном наложении памяти. Наконец, патчер на основе LLM выполняет обновление параметра, применяя послойные правки к пакету навыков. В оценке на SpreadsheetBench Verified и WikiTableQuestions SkillGrad последовательно превосходит baseline-методы эволюции навыков, основанные на обучении, на двух базовых LLM, улучшая сильнейший baseline, основанный на обучении, в среднем на 6,7 процентных пункта. Абляционные эксперименты дополнительно показывают, что и механизм моментума, и контрастная диагностика вносят вклад в итоговое качество навыков.
Диффузионные трансформеры обеспечивают высокое качество генерации видео, однако квадратичная стоимость полного внимания ограничивает эффективность. Мы представляем OSP-Next — эффективную модель генерации видео по текстовому описанию, которая объединяет разреженное внимание, параллелизм, квантование и обучение с подкреплением. OSP-Next использует гибридную архитектуру полного/разреженного внимания, где разреженный компонент реализован с помощью Skiparse-2D Attention. Этот механизм с фиксированным шаблоном применяет потоковое и групповое разреженное внимание вдоль пространственных размерностей, используя локальность при сохранении нативной совместимости с ядрами FlashAttention. Основываясь на локальной эквивалентности перестановки в Skiparse-2D Attention, мы дополнительно предлагаем Разреженную последовательную параллельность (Sparse Sequence Parallelism, SSP), которая разделяет подпоследовательности между рангами и переключает разреженные шаблоны с помощью одной связи типа "все-ко-всем". По сравнению с Ulysses Sequence Parallelism (SP), SSP обеспечивает нативную параллельную стратегию для разреженного внимания и сокращает объем коммуникаций на 75%. OSP-Next также включает квантование HiF8 для обеспечения стабильного совместного обучения с 8-битным квантованием и разреженной тонкой настройкой, а также применяет пост-тренировку Mix-GRPO для улучшения производительности разреженной модели. Эксперименты показывают, что OSP-Next достигает общего балла VBench 83,73%, превосходя базовый уровень Wan2.1. При настройках 5-секундного 720P и 5-секундного 768P OSP-Next достигает ускорения до 1,64× на одной GPU и более 1,52× на восьми GPU на графических процессорах NVIDIA H200. Кроме того, при падении общего балла VBench всего на 0,4% OSP-Next-HiF8 достигает ускорения в 1,69× и 2,27× в двух настройках на одном Ascend 950PR, что демонстрирует эффективность и производительность OSP-Next на различных аппаратных платформах.
Несмотря на стремительный прогресс мультимодальных больших языковых моделей в создании агентов графического пользовательского интерфейса (GUI), выполнение ими реальных задач принципиально ограничено отсутствием знаний о мире в отношении операций GUI. Существующие решения обычно опираются на дорогостоящую многолетнюю структуру или традиционные парадигмы пост-обучения, такие как контролируемая точная настройка (SFT) и обучение с подкреплением (RL). Однако пост-обучение позволяет агентам лишь неявно усваивать знания о мире через аннотации действий или сигналы вознаграждения, что приводит к неэффективному запоминанию траекторий вместо подлинного понимания. Поэтому необходим подход, обеспечивающий явное изучение этих знаний. С этой целью мы предлагаем GUI-CIDER — метод промежуточного обучения, который явно интернализует знания о мире GUI посредством каузальной интернализации и повторного отбора примеров с учетом плотности. GUI-CIDER работает в три этапа: (1) синтез данных, который извлекает из траекторий GUI статическое планирование и динамические каузальные знания в текст; (2) повторный отбор примеров, который фильтрует корпус, вознаграждая каузальные структуры и штрафуя семантическую избыточность; и (3) промежуточное обучение, в ходе которого уточненные данные используются для встраивания приобретенных знаний. Обширные эксперименты на двух эталонных тестах знаний GUI и трех эталонных тестах выполнения задач показывают, что GUI-CIDER последовательно улучшает как понимание агентом операций GUI, так и показатели успешности выполнения задач. Коды доступны по адресу https://github.com/Wuzheng02/GUI-CIDER.
Недавние достижения в области онлайн-обучения с подкреплением (RL) для больших языковых моделей (LLM) продемонстрировали многообещающие результаты в сложных задачах рассуждения. Однако они часто демонстрируют несбалансированный компромисс между исследованием и эксплуатацией, что приводит к нестабильной оптимизации и неоптимальной производительности. Мы представляем IB-Score — новую метрику, основанную на теории информационного узкого места (Information Bottleneck), которая оценивает баланс между исследованием и эксплуатацией политики, количественно определяя компромисс между разнообразием рассуждений на уровне шагов и взаимной информацией, разделяемой с правильным ответом. Анализ на основе IB-Score показывает, что популярные онлайн-подходы RL (например, GRPO) с распространёнными регуляризаторами неспособны последовательно поддерживать баланс в процессе обучения, что приводит к неоптимальным результатам. Для решения этой проблемы мы предлагаем древовидную оптимизацию политики на основе информационного узкого места (IB-TPO) — принципиальный фреймворк, который формулирует IB-Score как целевой показатель мелкозернистой оптимизации и использует новую стратегию древовидной выборки с направляющей IB, что не только повышает эффективность онлайн-выборки на 50% больше траекторий при том же бюджете токенов, но и повторно использует древовидную структуру для эффективной оценки Монте-Карло IB-Score. Обширные эксперименты на стандартных эталонных тестах показывают, что наш метод значительно превосходит базовую модель GRPO на 2.9%–3.6%, а также превосходит другие передовые онлайн-подходы RL. Наш код доступен по адресу https://github.com/alibaba/EfficientRL.
Сквозное автономное вождение с использованием моделей Vision-Language-Action (VLA) требует хрупкого баланса между высокоточным планированием траектории и эффективным выводом. Существующие парадигмы, как правило, не соответствуют требованиям: авторегрессионные (AR) VLA ограничены пропускной способностью памяти на граничных устройствах и подвержены дрейфу смещения экспозиции, в то время как диффузионные модели полных последовательностей исключают повторное использование KV-кэша и страдают от «логической утечки», нарушающей фундаментальную причинно-следственную связь «восприятие-затем-планирование». Мы представляем Fast-dDrive, блочно-диффузионную VLA, которая выполняет двунаправленное уточнение внутри семантических единиц, обеспечивая при этом строгую причинно-следственную упорядоченность между ними. Используя наблюдение, что VLA для вождения часто генерируют структурированные выходные данные в JSON-подобном формате, Fast-dDrive фиксирует структурные токены в каркасе разделов и применяет рецепт обучения с учетом разделов, который отдает приоритет критически важному для безопасности планированию. Кроме того, мы вводим Scaffold Speculative Decoding для достижения качества, эквивалентного AR, при значительно более высокой пропускной способности. Наконец, мы предлагаем схему масштабирования во время тестирования с низкими накладными расходами: путем разветвления N стохастических развертываний траектории из одного общего KV-кэша с общим префиксом и их усреднения мы эффективно подавляем дисперсию прогнозов при незначительных вычислительных затратах. Эмпирические результаты демонстрируют, что Fast-dDrive переопределяет границу скорости и точности для агентов вождения. На тестовом наборе WOD-E2E Fast-dDrive достигает SOTA ADE@3s и ADE@5s, а также самого высокого RFS среди диффузионных VLA; на nuScenes он снижает среднюю ошибку L2 до 0,32 м (улучшение на 22%). При интеграции с SGLang наша платформа обеспечивает 12-кратное ускорение пропускной способности по сравнению с AR-базовым уровнем, сокращая разрыв между высокоемкими VLA и требованиями к эффективности развертывания в реальном времени на транспортных средствах.
Долгоживущие ИИ-агенты всё чаще разворачиваются как постоянные операционные системы, но их по-прежнему оценивают так, словно они являются свежеинициализированными моделями. Однодневные бенчмарки упускают из виду фундаментальный системный вопрос: как долго агент остаётся надёжным после развёртывания? Даже при фиксированных весах модели эффективное состояние агента непрерывно меняется по мере сжатия истории взаимодействий, извлечения данных из растущего хранилища памяти, пересмотра фактов после обновлений и проведения планового обслуживания. Таким образом, надёжность становится свойством жизненного цикла всей обвязки агента, а не только моментальным снимком базовой модели. Мы представляем AgingBench — лонгитюдный бенчмарк надёжности для инженерии жизненного цикла агентов, который измеряет не только то, деградируют ли развёрнутые агенты, но и какую форму принимает эта деградация, и где следует проводить исправления. AgingBench организует старение агентов по четырём механизмам: старение из-за сжатия, старение из-за интерференции, старение из-за ревизии и старение из-за обслуживания. Для диагностики этих сбоев AgingBench использует графы временных зависимостей и парные контрфактические зонды, которые формируют диагностические профили для этапов записи, извлечения и использования в конвейере памяти. На 7 сценариях, 14 моделях, нескольких политиках управления памятью, а также на управляемых исполнителем и автономных агентах в ходе примерно 400 прогонов, охватывающих от 8 до 200 сессий, было показано, что старение агентов не является одномерным: поведенческие тесты могут оставаться чистыми, в то время как точность фактов снижается; отслеживание производного состояния может резко коллапсировать внутри одной модели; и один и тот же неверный ответ может требовать разных исправлений в зависимости от того, на что указывает диагностический профиль. Эти результаты свидетельствуют о том, что для надёжного развёртывания агентов необходимы оценка срока службы, диагностика на уровне механизмов и целевое исправление на соответствующих этапах, а не только более сильные однодневные модели.
Мы представляем GE-Sim 2.0 (Genie Envisioner World Simulator 2.0) — симулятор видеомира с обратной связью для роботизированных манипуляций. Построенный на основе обусловленного действиями создания видеокадров в Genie Envisioner, GE-Sim 2.0 заново обучен на тысячах часов реальных роботизированных данных, включающих телеуправление, контактное взаимодействие и развертывание политик на роботе, что значительно повышает точность следования действиям и покрытие траекторий. На этой основе три новых модуля замыкают цикл от видеосимуляции до обучения политик: эксперт по состояниям, который декодирует проприоцептивное состояние из скрытых представлений видео для поддержки прогнозирования следующего блока нижестоящими VLA-политиками; мировой судья, который оценивает сгенерированные прогоны на соответствие инструкциям задачи, выдавая машинно-верифицируемые сигналы успеха и вознаграждения вместо ручной проверки; и механизм ускорения, обеспечивающий прогон из 25 кадров за 2,3 секунды на одном H100, с возможностью пропуска до 4 кадров при выводе для оценки на длинных горизонтах. GE-Sim 2.0 занимает первое место в публичном рейтинге WorldArena всего с 2 миллиардами параметров, превосходя как специализированные роботизированные мировые модели, так и закрытые генераторы общего видео, а политики, обученные на его прогонах и вознаграждениях, демонстрируют измеримые реальные улучшения, что утверждает GE-Sim 2.0 в качестве практичной платформы для масштабируемой оценки и обучения с замкнутым циклом политик манипуляций.
Внутренние состояния модели кодируют богатую информацию о том, как большая языковая модель (LLM) обрабатывает свои обучающие данные; однако инженерия данных после обучения в значительной степени полагается на внешние сигналы и игнорирует богатые внутренние сигналы, заложенные в этих состояниях. Мы предлагаем SAERL — фреймворк для инженерии данных при обучении с подкреплением (RL) больших языковых моделей. Он моделирует три внутренних свойства данных: разнообразие, сложность и качество, используя внутренние состояния модели, извлечённые с помощью разреженного автоэнкодера (Sparse Autoencoder, SAE) — продвинутого инструмента механистической интерпретируемости. Каждое свойство обосновывает конкретную операцию инженерии данных: кластеризацию в пространстве SAE с умеренным смешиванием батчей для контроля разнообразия батчей, прокси сложности для упорядочивания по принципу «от простого к сложному» (easy-to-hard curriculum ordering) и классификатор качества для фильтрации данных. SAERL повышает среднюю точность на 3,00% по сравнению с обычным GRPO и достигает целевой точности с сокращением числа шагов обучения на 20% на модели Qwen2.5-Math-1.5B, демонстрируя устойчивый прирост при различных масштабах моделей и алгоритмах RL. Эксперименты показывают, что SAE эффективно переносится между семействами и масштабами моделей, выступая в качестве лёгкого и многократно используемого инструмента инженерии данных. Эти результаты свидетельствуют о том, что внутренние состояния модели являются мощным и практичным источником сигналов для инженерии данных на этапе после обучения.
Используют ли поисковые агенты на основе LLM действительно поиск или же обращаются к вебу для верификации того, что им уже известно? Мы изучаем этот вопрос на примере BrowseComp с помощью трёх диагностических методов. Наш анализ выявляет зависимость от внутренних знаний (Intrinsic Knowledge Dependence, IKD): даже имея доступ к инструментам, агенты часто полагаются на внутренние знания — информацию, закодированную в модели до поиска, — вместо внешних свидетельств. Агенты отвечают на 44.5% вопросов BrowseComp без использования инструментов, генерируют более половины своих поисковых запросов на основе внутренне сформированных гипотез, а не на основе найденных подсказок, и показывают результаты хуже, чем базовые модели без доступа к инструментам (closed-book baselines), когда из набора удаляются подтверждающие ответ свидетельства. Эти результаты позволяют предположить, что статические поисковые бенчмарки могут поощрять верификацию, основанную на памяти, а не на выявлении фактов через поиск, смешивая то, что агенты уже знают, с тем, что они могут найти. Затем мы представляем LiveBrowseComp — бенчмарк глубинного поиска, разработанный для оценки агентов за пределами их внутреннего покрытия. Он содержит 335 вопросов, составленных людьми, ответы на которые зависят от фактов, опубликованных в течение 90 дней, предшествующих созданию бенчмарка; эти факты извлечены из шести обновляемых источников и отфильтрованы для исключения глобально значимых событий. На LiveBrowseComp все оценённые агенты демонстрируют точность в режиме closed-book ниже 2%, а показатели с использованием поиска падают на 25–40 баллов по сравнению с BrowseComp, при этом прежние рейтинги моделей больше не позволяют надёжно предсказывать их производительность. LiveBrowseComp доступен по адресу https://huggingface.co/datasets/Forival/LiveBrowseComp.
Гибридные языковые модели большого объема (LLM) предоставляют явный контроль над затратами на рассуждение, позволяя пользователям или системам балансировать качество ответов и стоимость вывода. Однако существующие методы адаптивного выбора режима мышления обычно оцениваются с использованием различных моделей, наборов данных и предположений о реализации, что затрудняет сравнение их практического поведения. Мы представляем HRBench — унифицированную систему оценки для изучения переключения режимов мышления в гибридных LLM. HRBench организует пространство проектирования по двум осям: три семейства стратегий переключения (выбор на основе подсказок, внешняя маршрутизация и спекулятивное выполнение) и четыре режима обучения (без обучения, SFT, офлайн и онлайн RL), что дает 12 контролируемых настроек оценки. Мы оцениваем эти настройки на 6 LLM (от Qwen3.5-2B до Kimi-K2.5-1.1T) и 5 тестах рассуждения, охватывающих математику, науку и код, при этом повторно реализуя 12+ репрезентативных предыдущих методов в рамках одного пайплайна. Наш анализ показывает, как различные стратегии переключения занимают разные области компромисса между эффективностью и результативностью: методы на основе подсказок часто обеспечивают благоприятный компромисс между токенами и точностью, методы маршрутизации предлагают более стабильное снижение затрат, а спекулятивные методы, как правило, повышают точность при более высоких затратах токенов. Кроме того, мы обнаружили, что обучение влияет на стратегии по-разному, и что предпочитаемая стратегия варьируется в зависимости от масштаба модели и предметной области задачи. HRBench предоставляет эталонные реализации и унифицированную платформу оценки для поддержки более контролируемых исследований эффективного рассуждения в гибридных LLM. Наши данные, код и репозиторий доступны по адресу https://github.com/usail-hkust/HRBench.
Недавно политико-зависимая дистилляция (on-policy distillation) стала многообещающей альтернативой стандартной имитации на уровне последовательностей, обучая студента путем оценки его собственных разверток (rollouts) с помощью модели-учителя. Однако мы наблюдаем проблему «затухания учителя вне политики» (Off-policy Teacher Decay) в этой парадигме: для поздних токенов, когда контекст более ранней траектории студента является внеполитическим по отношению к учителю, способность учителя генерировать корректирующую оценку снижается и может вернуться к поведению завершения токенов, изученному на этапе предварительного обучения. Мы эмпирически подтверждаем эту проблему и предлагаем метод ранней остановки развертки (Early Stopping Rollout, ESR) для ее решения: простую, но эффективную стратегию дистилляции, которая ограничивает генерацию развертки первыми токенами ответа. Мы показываем, что ESR превосходит производительность полной развертки OPD по размеру модели, семейству, задачам и режиму обучения, а также демонстрирует гораздо более высокую эффективность использования GPU и стабильность обучения, особенно в сценариях с разными семействами моделей. Мы дополнительно исследуем механизм, лежащий в основе этой удивительной производительности, и обнаруживаем эффекты «каскадного выравнивания» (Cascading Alignment) и «приверженности суб-режиму» (Sub-mode Commitment), которые могут объяснить, почему ESR работает эффективно и иногда даже превосходит производительность модели-учителя. Кроме того, мы показываем, что эта стратегия выбора токенов на основе позиции не может быть полностью объяснена сигналами расхождения KL и энтропии.
Для обеспечения надежного долгосрочного взаимодействия агенты на основе больших языковых моделей требуют системы памяти, способной точно хранить, эффективно извлекать и глубоко анализировать накопленную историю диалога. Большинство существующих методов используют парадигму на основе извлеченных фактов: вручную создаваемые статические промпты сжимают исходные диалоги в атомарные факты, которые затем сохраняются, сопоставляются и внедряются в последующий вывод. Однако такие подходы, ориентированные на факты, неизбежно теряют детали мелкой зернистости исходных диалогов и не поддерживают глубокий анализ разрозненных изолированных фактов. Кроме того, статические промпты не могут обеспечить постоянную гранулярность извлечения для различных стилей диалога. Для преодоления этих ограничений мы предлагаем TriMem, который поддерживает три сосуществующие гранулярности представления: сырые сегменты диалога, привязанные к идентификаторам источников для точности хранения; извлеченные атомарные факты для эффективного поиска в памяти; синтезированные профили, агрегирующие разрозненные факты в целостное семантическое понимание для глубокого анализа. Мы также применяем оптимизацию промптов на основе TextGrad, которая итеративно улучшает промпты для извлечения и профилирования на основе обратной связи по качеству ответов, обеспечивая пожизненную эволюцию без обновления параметров. Обширные эксперименты на LoCoMo и PerLTQA с различными бэкендами LLM показывают, что TriMem последовательно превосходит сильные базовые модели памяти. Код доступен по адресу https://TMLR-TriMem.github.io .
Современные большие языковые модели (Large Language Models, LLM) часто критикуют за генерацию повторяющегося и однородного текста, несмотря на наличие у них обширного скрытого словарного запаса. В то время как предыдущие исследования были сосредоточены на знании модели и обучающих данных, мы изучаем роль механизмов декодирования в подавлении языкового разнообразия. Мы вводим Показатель покрытия слов (Word Coverage Score, WCS) — метрику, которая количественно оценивает степень, в которой контекстуально уместный человеческий словарь математически отсекается стандартными фильтрами семплирования (например, Top-p, Top-k и Min-p). Вместо оценки статического знания WCS измеряет коэффициент выживаемости лексики для низкочастотных, информативно насыщенных человеческих слов как функцию параметров семплирования. Анализируя модели с открытыми весами на фрагментах корпусов, созданных людьми, мы выявляем логически обоснованные лексические варианты, которые становятся недоступными для декодера, даже если они присутствуют в пространстве вероятностей. Наши результаты предоставляют количественные доказательства того, что стандартные настройки семплирования, принятые в индустрии, действуют как непреднамеренные механизмы цензуры, сглаживая уникальные текстуры человеческого выражения до гомогенизированного дискурса. WCS предлагает строгую методологическую основу для оптимизации компромисса между связностью текста и лексическим богатством, являясь диагностическим инструментом для сохранения разнообразия человеческого языка в генеративных моделях.
Тонкая настройка больших языковых моделей с использованием ненадежных данных делает модели уязвимыми для атак типа «бэкдор», при которых отравленные образцы вызывают целевое некорректное поведение. Существующие методы защиты на основе фильтрации образцов опираются на кластеризацию, что требует достаточного объема данных и может оказаться неэффективным при экстремальных пропорциях отравленных образцов. Мы предлагаем GradSentry ({Grad}ient {Sentry}) — метод фильтрации бэкдор-образцов, основанный на спектральной энтропии градиентов на каждый образец. Наше ключевое наблюдение заключается в том, что отравленные образцы порождают градиенты с более высокой спектральной энтропией по сравнению с чистыми образцами. GradSentry выявляет сигнатуры бэкдор-атак, изменяющие выходные данные, используя спектры градиентов на каждый образец, что позволяет избежать попарного сравнения образцов и кластеризации при построении признаков. Важно, что наш метод не зависит от метода обучения: он работает как для эффективной по параметрам тонкой настройки (например, LoRA), так и для полной настройки параметров, поскольку анализ градиентов выполняется независимо от того, какие параметры обновляются в процессе обучения. GradSentry не требует кластеризации, эффективно работает при всех пропорциях отравленных образцов (от 1% до 90%) и вносит минимальные вычислительные накладные расходы (20–50 мс на образец для модели с 7 млрд параметров). Оценка на четырех наборах данных для вопросно-ответных систем и четырех типах атак демонстрирует эффективность спектральной энтропии для обнаружения бэкдор-атак. Код доступен по адресу https://github.com/dongdongzhaoUP/GradSentry.
Интерактивные 3D-активы, используемые в играх и симуляциях, обычно декомпозируются на конкретные семантические части для поддержки анимации, физики и скриптового поведения, однако большинство генеративных 3D-моделей создают либо монолитные сетки, либо произвольные декомпозиции на части, которые невозможно согласовать с требованиями конкретных приложений. Мы представляем CubePart — генеративный фреймворк для создания 3D-мешей с открытым словарём и управляемыми частями, который предоставляет структуру частей в качестве явного управляющего сигнала на этапе инференса. Имея глобальный текстовый промпт и заданную пользователем схему частей, выраженную в виде открытого списка имён частей, наш метод генерирует набор мешей — по одному на каждый элемент схемы, — которые собираются в связный объект, соблюдая заданную семантическую структуру. Для реализации этой возможности мы представляем масштабируемый конвейер данных для построения большого 3D-датасета с открытым словарём и размеченными частями, а также двухэтапную генеративную архитектуру, разделяющую синтез глобальной формы и декодирование на уровне частей. Мы демонстрируем, что полученные активы можно напрямую интегрировать в игровые движки и управлять с помощью скриптов анимации и поведения без ручной постобработки. Страница проекта: https://cubepart.github.io/
LLM-агенты показывают высокие результаты на поисковых бенчмарках, однако реальные пользователи неизменно находят результаты неудовлетворительными, что выявляет устойчивый разрыв между оценкой и опытом использования. Мы объясняем этот разрыв опорой существующих бенчмарков на избыточно специфицированные запросы, одношаговые взаимодействия и оценку по фиксированной схеме — ни один из этих элементов не отражает реальное поисковое поведение, при котором пользователи и агенты совместно уточняют расплывчатые намерения в ходе многошагового диалога. Мы называем эту парадигму VibeSearch и представляем VibeSearchBench — бенчмарк, включающий 200 вручную составленных двуязычных (китайский и английский) заданий по 20 областям, разделённых на подмножества VibeSearch-Pro (профессиональные) и VibeSearch-Daily (повседневные). Каждое задание сопоставляет профиль пользователя с графом знаний истинности, не привязанным к схеме, и оценивается с помощью пользовательского симулятора с постепенным раскрытием информации и структуры оценки на основе сопоставления графов. Мы тестируем семь передовых моделей как в рамках ReAct-фреймворка, так и с использованием обвязки агента OpenClaw. Результаты показывают, что все модели существенно неадекватны для VibeSearch (лучший F1: 30,30), что подчёркивает необходимость фундаментальных продвижений в рассуждении в длинном контексте, проактивном выявлении намерений и структурированном построении знаний.
Визуальные результаты становятся все более центральными для мультимодальных больших языковых моделей, что делает надежную и детальную верификацию необходимой для масштабирования фундаментальных моделей общего назначения. В данной работе мы исследуем мультимодальную мета-верификацию, которая использует обоснования, генерируемые верификатором, а не только сигналы принятия решений, и изучаем, как эффективно интегрировать обратную связь мета-верификации в обучение мультимодального верификатора. Мы выявляем два ключевых вывода. Во-первых, символьные выходные данные верификатора (например, ограничивающие рамки) превосходят текстовые объяснения в качестве обоснований мета-верификации, позволяя получать эффективные вознаграждения на основе правил в подкрепляющем обучении, избегая при этом зависимости от вознаграждений на основе модели со стороны вспомогательных моделей-судей. Во-вторых, разделение целей подкрепляющего обучения для бинарного суждения и мета-верификации значительно превосходит совместную оптимизацию вознаграждения из-за внутренних различий в структуре вывода и динамике обучения. Основываясь на этих выводах, мы обучаем OmniVerifier-M1 — универсальный визуальный верификатор, использующий символьную мета-верификацию и разделенное подкрепляющее обучение. OmniVerifier-M1 обеспечивает надежную верификацию и детальную локализацию ошибок, а также позволяет реализовать M1-TTS — систему агентной генерации, управляемую верификатором, которая достигает динамической самокоррекции на уровне областей. Данный подход открывает путь к более надежной, интерпретируемой и детальной мультимодальной верификации, поддерживая более безопасное и контролируемое развертывание фундаментальных моделей.
Мониторинг цепи мыслей (Chain-of-thought, CoT) предлагается в качестве перспективного механизма безопасности для выявления несоответствующего поведения больших языковых моделей. Однако его надёжность остаётся практически неизученной за пределами английского языка и в различных семействах моделей. Мы представляем первую крупномасштабную оценку мониторируемости CoT на 13 различных языках и семи передовых семействах моделей, включающих 16 моделей. Используя оценки с adversarial-подсказками, требующими явных промежуточных вычислений, а также анализ вероятностей внутренних ответных токенов, мы последовательно обнаруживаем неверность CoT во всех языках и типах подсказок, при среднем показателе 95,9% для моделей с размером параметров от 8B до 120B. Мы находим, что передовые модели систематически прибегают к стратегическим манипуляциям, включая смену ответа, пост-хок рационализацию и процедурную эксплуатацию подсказок, что затрудняет внешним мониторам выявление обмана. Мы показываем, что передовые модели часто следуют несоответствующему сигналу в своих латентных активациях в течение первых 15% генерации, даже когда CoT выглядит правдивым. Удивительно, но эти обманчивые паттерны остаются на 100% в языках с низкими ресурсами, что выявляет фундаментальные ограничения текущего надзора на основе CoT. Наши результаты показывают, что мониторинг CoT принципиально хрупок при лингвистическом сдвиге распределения, обеспечивая существенно более слабый сигнал безопасности, чем предполагают исследования, ограниченные английским языком. Эти выводы подчёркивают острую необходимость в разработке надёжных мониторов CoT и ускорении исследований в области техник белого ящика, особенно для улучшения мониторируемости CoT в языках со средними и низкими ресурсами. Наш код доступен здесь: https://multilingual-cot-monitoring.github.io/{синий{here}}.
Создание изображений из шума — это генерация изображений; восстановление мелких деталей по грубым входным данным — это суперразрешение. Несмотря на практические различия, оба процесса можно понимать как обращение потери информации на разных масштабах. Мы представляем SKILD — масштабно-инвариантную диффузионную модель обучения изображений в K-пространстве (Scale-invariant K-Space Image Learning Diffusion model), которая объединяет генерацию и непрерывное суперразрешение в едином безусловном фреймворке. Как естественные изображения, так и критические физические системы проявляют масштабную инвариантность, и мы используем это для разработки прямого процесса, который ослабляет содержимое изображения от мелких к крупным масштабам, одновременно впрыскивая согласованный по спектру гауссовский шум, делая масштаб явной координатой диффузионной динамики. Тот же обученный обратный процесс выполняет генерацию и непрерывное суперразрешение, изменяя только начальный временной шаг: без архитектуры, специфичной для задачи, без ветви обусловливания, без управления без классификатора (classifier-free guidance), без переобучения для каждого коэффициента масштабирования. Эмпирически SKILD достигает FID 2,65 и индекса Инцепции (Inception Score) 9,63 на безусловном CIFAR-10, выполняет суперразрешение с коэффициентами от 2× до 8× на ImageNet с использованием единственной безусловной контрольной точки, превосходя при этом условные модели по перцептивным метрикам, и реконструирует критические модели Изинга, чьи связанные четырехточечные корреляционные функции точно соответствуют истинным значениям.
Параметро-эффективная донастройка (PEFT) стала стандартным подходом к адаптации больших языковых моделей, однако при оценке основное внимание уделяется точности на целевых задачах, при этом упускается сохранение предобученных способностей. Мы утверждаем, что PEFT следует оценивать через призму дилеммы стабильности-пластичности: компромисса между адаптацией к целевой задаче и устойчивостью к забыванию. Мы представляем PEFT-Arena — бенчмарк, который совместно измеряет производительность на целевых задачах и сохранение общих способностей. Для различных методов обнаружены характерные профили стабильности-пластичности; при сопоставимых бюджетах параметров ортогональная донастройка достигает наиболее благоприятной границы Парето. Чтобы объяснить эти различия, мы анализируем обновления PEFT с двух геометрических точек зрения. В пространстве весов спектральный анализ раскрывает, как параметризации взаимодействуют с предобученной структурой сингулярных значений. В пространстве активаций метрики сохранения показывают, сохраняет ли донастройка представления общих способностей или искажает их, причем забывание связано с неизометрическим искажением представлений. Наконец, анализ показывает, что финальные контрольные точки SFT часто «перелетают» оптимальную рабочую точку по шкале сохранения. Вдохновленные этим, мы представляем примеры апостериорного улучшения с помощью отката по траектории.
Пространственное рассуждение между видами остаётся слабым местом зрительно-языковых моделей (VLM): они часто рассуждают на уровне языка и теряют детальную геометрию, необходимую для задачи. Рассуждение с помощью изображений направлено на решение этой проблемы путём генерации промежуточного мысленного образа, однако недавние работы показывают, что модели часто игнорируют визуальные свидетельства в этих следах. Поэтому мы ставим вопрос: как сделать визуальное мышление значимым и какой тип визуального мышления работает лучше всего. Мы исследуем эти вопросы в рамках унифицированных мультимодальных моделей (UMM), которые изначально поддерживают генерацию перемежающихся изображений и текста. Для первого вопроса мы предлагаем View Dropout (VDrop) — метод вмешательства на этапе обучения, который скрывает части одного входного вида из пространства ответа, оставляя их видимыми для токенов мысленного образа. Это побуждает модель использовать мысленный образ при ответе, вместо того чтобы полагаться только на входные виды. После того как мысленный образ используется для прогнозирования ответа, мы изучаем, какой тип визуального мышления наиболее эффективен. Мы формулируем это как компромисс между обучаемостью и информативностью и сравниваем три варианта мысленных образов: рендеринг сверху вниз, панорамный и с сопоставлением точек. Обученные на синтетических сценах и оценённые на пяти реальных внедоменных эталонных наборах данных, панорамное визуальное мышление с VDrop является единственной конфигурацией, которая одновременно информативна и обучаема, и она демонстрирует наилучшее обобщение на внедоменных данных.
Мультиагентные системы, построенные на больших языковых моделях (LLM), требуют множества координационных решений, которые трудно определить априори: какой протокол навыков вызывать, какую роль агента должна выполнять подзадачу, какую модель привязать к каждой роли, как роли должны взаимодействовать, когда использовать поиск или верификацию, а когда вовсе пропустить шаг. Эти решения взаимодействуют с режимом задачи и операционными ограничениями, поэтому статические конвейеры и разовые сравнения моделей дают лишь ограниченное представление о пространстве проектирования. В данной статье представлен AgensFlow — фреймворк с открытым исходным кодом, который рассматривает мультиагентную координацию как задачу онлайн-обучения политике в условиях частичной наблюдаемости. Фреймворк делает координационные решения наблюдаемыми и обучаемыми на основе повторяющихся траекторий, а не рассматривает навык, роль, модель, топологию и оценочные решения как фиксированную конструкцию конвейера. AgensFlow оценивается на двух корпусах: задачах инцидентов распределенных систем и задачах, связанных с рекомендациями по безопасности. Оценка показывает три основных результата: обученная маршрутизация достигает более высокого качества работы по сравнению с фиксированным конвейером в классах с высокой координацией; skip:X выделяет сжатие топологии как значимую часть платформы; а теплый старт графов политик может снизить затраты на исследование, сохраняя качество плато. В целом, результаты подтверждают, что обучаемая и аудируемая маршрутизация может улучшить мультиагентные рабочие процессы с высокой координацией по сравнению со статической проводкой.
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало стандартной парадигмой для улучшения способности к рассуждению больших языковых моделей, в то время как многотокенное предсказание (MTP) является широко используемым модулем в предварительном обучении. Их объединение — естественный подход, однако существующие практики RL отделяют градиенты MTP, поскольку совместное обучение снижает производительность. Мы пересматриваем эту неудачу с точки зрения оптимизации. Мы показываем, что пошаговый эффект MTP на целевую функцию RL может быть разложен на два слагаемых: корреляцию первого порядка и штраф за возмущение второго порядка. Это разложение объединяет три режима обучения MTP: Detach, кросс-энтропийную потерю и потерю политики, и объясняет, почему каждый из них успешен или неудачен. Дальнейший анализ потери политики показывает, что, хотя она соответствует интуиции, производительность все равно снижается: член корреляции затухает, в то время как квадратичный штраф сохраняется. Руководствуясь анализом, мы предлагаем оптимальную калибровку коэффициентов (OCC) — адаптивную схему, которая отслеживает оптимальный коэффициент в онлайн-режиме через прокси логарифмической вероятности с незначительными затратами. На шести бенчмарках математических рассуждений уровня соревнований OCC последовательно соответствует или превосходит базовый уровень Detach, обеспечивая улучшенную производительность совместного обучения MTP-RL.
Достоверность оценок безопасности ИИ зависит от согласованности поведения моделей в контролируемых условиях и при развертывании. Предыдущие работы выявили, что контекстуальные сигналы во время тестирования, такие как гипотетические сценарии, являются источником вербализованной осведомленности об оценке и последующего изменения поведения. В данной статье мы исследуем возможное объяснение этого феномена: мета-знание об оценке, определяемое как параметрическое знание структурных признаков, характеризующих оценки. Подобно загрязнению наборов данных, когда знакомство с бенчмарками приводит к повышению производительности за счет запоминания, мы выдвигаем гипотезу, что модели, обученные на текстах, описывающих практики оценивания, могут неявно научиться распознавать и реагировать на контексты, напоминающие оценки, например, через знакомство с научными статьями или постами в социальных сетях о бенчмаркинге ИИ. Для проверки этой гипотезы мы дообучаем модели на синтетических документах, описывающих признаки оценок, такие как верифицируемые структуры или моральные дилеммы. Оценивая эту дообученную модель на шести бенчмарках безопасности, мы обнаруживаем, что она значительно безопаснее базовой модели и контрольной модели. Этот поведенческий сдвиг сохраняется даже при ограничении анализа ответами, не содержащими явной вербализации осведомленности об оценке. Наши результаты демонстрируют, что мета-знание об оценке может завышать показатели безопасности на бенчмарках, вводя новый конфaундер, который не зависит от явного запоминания или вербализованной осведомленности об оценке и, следовательно, трудно обнаружим. Эти выводы имеют важные последствия для разработки и интерпретации оценок безопасности ИИ. Наш код и модели доступны по адресу https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Бенчмарки вопросно-ответных систем (QA) по диаграммам ставят своей целью формулирование вопросов, требующих визуального рассуждения для правильного ответа, однако модели часто могут находить решения через shortcuts или предварительное знакомство с диаграммой, основанное на собственном фоновом знании. Для строгой оценки визуального рассуждения мы предлагаем контрфактические диаграммы, в которых задача «диаграмма–вопрос» остаётся фиксированной, а базовая диаграмма и соответствующий ответ варьируются. Мы представляем Chartographer — фреймворк для обратного проектирования диаграмм в исполняемый код, валидации точности реконструкции, генерации контрфактических вариантов с контролем начального зерна и получения новых ответов на основе исполнимой логики QA. Мы применяем этот фреймворк к существующим наборам данных QA по диаграммам и оцениваем проприетарные и открытые визуально-языковые модели (VLM), измеряя чувствительность к вариациям и обобщаемость. Контрфактические диаграммы выявляют ошибки, скрытые производительностью на одной диаграмме: VLM часто не в состоянии обобщить после правильного ответа на исходную диаграмму. Мы обнаруживаем, что ошибки наиболее распространены, когда обновлённые диаграммы требуют новых путей визуального рассуждения.
Научные исследования осуществляются через итерационные циклы генерации гипотез, планирования экспериментов, их выполнения и последующей корректировки. Агенты ИИ могут автоматизировать части этого процесса, однако существующие подходы, как правило, следуют одному исследовательскому направлению или координируются через централизованный планировщик с фиксированными целями. В результате они с трудом поддерживают параллельное исследование, адаптируются к изменениям экспериментальных данных или сохраняют знания о неудачных направлениях в ходе длительных экспериментов. Мы представляем AutoScientists — децентрализованную команду агентов ИИ для долгосрочных вычислительных научных экспериментов. Агенты интерпретируют общее экспериментальное состояние, самоорганизуются в команды вокруг перспективных гипотез, критикуют предложения до использования вычислительных ресурсов эксперимента, а также делятся успехами и неудачами для сокращения избыточных исследований. При сопоставимых экспериментальных бюджетах AutoScientists превосходит предыдущих агентов ИИ в области биомедицинского машинного обучения, оптимизации обучения языковых моделей и предсказания пригодности белков. На платформе BioML-Bench, охватывающей биомедицинскую визуализацию, белковую инженерию, одноклеточную омику и открытие лекарств, AutoScientists достигает среднего перцентиля лидерборда 74,4% по 24 задачам, что на 8,33% лучше самого сильного агента ИИ. При оптимизации обучения GPT AutoScientists достигает целевого показателя битов на байт на валидационном наборе в 1,9 раза быстрее, чем Autoresearch, и продолжает находить улучшения, начиная с исходного «чемпиона», где одноагентный подход не обнаруживает ни одного (7 принятых улучшений против 0). При предсказании пригодности белков на ProteinGym AutoScientists находит метод связывания ACE2-спайка, который улучшает текущую модель наилучшего уровня на 12,5% по корреляции Спирмена. При применении без модификации ко всем 217 анализам ProteinGym тот же метод улучшает предыдущий наилучший результат на 6,5% (корреляция Спирмена).
Существующие системы эмоциональной поддержки в диалогах (ESC) в основном основаны на сквозной генерации ответов или грубом контроле стратегий, что обеспечивает ограниченную интерпретируемость и слабую поддержку систематического улучшения навыков. Мы предлагаем ESC-Skills — фреймворк, ориентированный на навыки, который обнаруживает и саморазвивает исполнимые навыки эмоциональной поддержки. Сначала мы моделируем локализованные взаимодействия поддержки как интервенционные единицы (Intervention Units, IUs), которые отражают динамику состояние–действие–результат между состояниями ищущего поддержку, вмешательствами поддержки и эмоциональными изменениями после ответа. На основе IU, извлеченных как из успешных, так и из неудачных диалогов ESC, мы строим Банк навыков ESC-Skills — репозиторий исполнимых навыков эмоциональной поддержки, содержащий руководство по вмешательству, условия применимости, ожидаемые результаты и потенциальные риски. Для дальнейшего повышения устойчивости мы вводим многопрофильный самоэволюционный фреймворк уточнения, в котором агент ESC взаимодействует с разнообразными моделируемыми профилями ищущих поддержку в рамках оценки SAGE. Полученные следы взаимодействия анализируются для выявления отсутствующих навыков, небезопасных вмешательств и профильно-специфических паттернов неудач, которые затем используются для уточнения Банка навыков посредством верификации на основе симуляции. Экспериментальные результаты показывают, что ESC-Skills улучшает как качество на уровне отдельных ответов, так и эмоциональные результаты на уровне диалога, обеспечивая при этом более интерпретируемое и контролируемое поведение поддержки. Мы опубликуем код, промпты и Банк навыков ESC-Skills по адресу https://github.com/aliyun/qwen-dianjin.
AI-агенты для написания кода всё чаще используются для создания реального программного обеспечения, однако обеспечение корректности их выходных данных остаётся фундаментальной задачей. Формальная верификация предлагает многообещающий подход: агент генерирует код вместе с машинно-проверяемым доказательством, гарантирующим, что код удовлетворяет формальной спецификации. Однако нет гарантии, что сама формальная спецификация соответствует намерениям пользователя. В данной работе мы исследуем автоформализацию спецификаций: способность LLM-агентов переводить неформальные задачи по программированию в точные формальные спецификации. Мы представляем Verus-SpecBench — набор тестов из 581 задачи на написание спецификаций, полученных из задач Codeforces и ориентированных на Verus (верификатор для Rust), а также Verus-SpecGym — агентную среду, в которой модели взаимодействуют с Verus, bash и файловой системой для разработки этих спецификаций. Ключевая проблема заключается в оценке: написание эталонных спецификаций экспертами требует больших затрат, а LLM-судьи могут упускать тонкие ошибки. Мы решаем эту проблему, (a) расширяя механизм exec_spec в Verus, чтобы сгенерированные спецификации могли выполняться как код на Rust, и (b) проверяя их на официальных тестах Codeforces и adversarial-примерах, извлечённых из «взломов» Codeforces (граничных случаев, написанных участниками для опровержения некорректных решений). На Verus-SpecBench самая сильная модель — Gemini 3.1 Pro — решает 77,8% задач, другие передовые модели — 51,1–57,8%, а модели с открытым исходным кодом достигают лишь 21,5–25,5%. Анализ типов сбоев показывает, что сгенерированные моделями спецификации могут упускать важные предположения о входных данных, принимать некорректные выходные данные и отклонять корректные. Мы также обнаружили, что оценка с помощью LLM-судьи пропускает 26% сбоев, которые выявляет наш метод оценки. В целом, наши результаты показывают, что автоформализация спецификаций достижима для передовых агентов, но остаётся ненадёжной даже для задач, где они уже могут генерировать корректный код. Код, данные и журналы доступны по адресу https://github.com/formal-verif-is-cool/verus-spec-gym.
Недавний прогресс в решении долгосрочных агентных задач был в значительной степени обусловлен масштабированием отдельных агентов за счет более сильных моделей, лучших инструментов и более эффективного структурирования. Напротив, гораздо меньше известно о масштабировании вширь: может ли множество равноправных агентов, нацеленных на одну и ту же задачу, стать дополнительным источником возможностей без явной специализации ролей или оркестровки рабочих процессов. Мы изучаем этот вопрос и предлагаем AgentFugue — структуру коллективного рассуждения, построенную вокруг общего центра рассуждений. Пока равноправные агенты параллельно исследуют одну и ту же задачу, центр записывает краткие заметки о том, что каждый агент установил, попробовал или исключил, и позволяет каждому агенту выборочно получать доступ к открытиям других агентов в форме, полезной для его текущего поиска. Такая конструкция превращает изолированные траектории в связанную экосистему многократно используемых промежуточных рассуждений без необходимости централизованного планирования. Мы реализуем центр как подключаемый коммуникационный слой, обученный с помощью контролируемой тонкой настройки и сквозного обучения с подкреплением. В сложных долгосрочных сценариях, которые мы изучаем, AgentFugue превосходит сильные базовые модели. Наши результаты показывают, что коллективное рассуждение может превратить масштабирование вширь систем равноправных агентов в отдельный источник прироста возможностей, а не просто в способ увеличения вычислительных затрат.
Автономные агенты компьютерного использования, работающие на основе мультимодальных больших языковых моделей (MLLM), становятся способными помощниками для выполнения сложных цифровых рабочих процессов. Однако реальные среды выполнения далеки от идеала: всплывающие окна, изменения разрешения и конкурирующие приложения часто нарушают восприятие и управление агента. Мы представляем AgentHijack — эталонный тест, предназначенный для оценки устойчивости агентов компьютерного использования при распространенных нарушениях, где неопределенности в динамической среде нарушают поток выполнения без прямого враждебного намерения. В частности, AgentHijack вводит 9 настраиваемых распространенных нарушений для воспроизведения реалистичных несовершенных сценариев. Мы оцениваем множество задач на рабочем столе, использующих агентов на основе MLLM, и обнаруживаем, что даже незначительные случаи нарушений могут привести к существенному снижению производительности, что подчеркивает хрупкость агентов и необходимость оценки устойчивости. После этого мы предлагаем AgentHijack-Agent — структуру, которая объединяет генератор действий с расширенными возможностями привязки и наблюдателя, ответственного за обобщение поведения и проверку среды. Обширные эксперименты подтверждают его эффективность. Наш код, среда, базовые модели и данные общедоступны по адресу: https://AgentHijack.github.io.
Большие мультимодальные модели (БММ) быстро продвинулись в восприятии и рассуждении; однако остается неясным, обобщаются ли эти способности на обнаружение визуально обоснованных решений в открытых средах, выходящих за рамки распознавания образов. В таких условиях интеллект требует большего, чем ответов на корректно поставленные вопросы: он включает в себя идентификацию того, как элементы сцены могут быть перепрофилированы неочевидным, но физически осуществимым образом. Эта форма творческого решения проблем является ключевой для человеческого интеллекта, но остается в значительной степени непроверенной в современных бенчмарках. Для оценки этой способности мы представляем MM-CreativityBench — бенчмарк для творческого использования инструментов, основанного на аффордансах, в визуально насыщенных, физически ограниченных средах. Каждый пример содержит сценарий со структурированными видами сущностей-кандидатов и их частей, что позволяет детально и интерактивно оценивать, как модели итеративно исследуют сцену, выявляют релевантные аффордансы и составляют визуально и физически обоснованные решения. Наши эксперименты показывают, что современные БММ часто не справляются, причем не из-за отсутствия генеративных способностей, а из-за того, что они не поддерживают обоснованное исследование. Модели часто упускают из виду релевантные сущности, недостаточно изучают критические части или галлюцинируют атрибуты, не подтвержденные изображением. Мотивированные этим типом сбоя, мы предлагаем выравнивание на основе аффордансов, которое рассматривает творческое использование инструментов как задачу обучения предпочтениям. Используя прямую оптимизацию предпочтений, мы стимулируем модели предпочитать рассуждения об атрибутах и аффордансах, основанные на визуальных свидетельствах, а не на галлюцинированных альтернативах. Кроме того, мы включаем контроль, полученный из базы знаний об аффордансах, для направления более широкого исследования сущностей и многопланового планирования. Наши результаты демонстрируют последовательное улучшение в выборе правильных сущностей и частей, при значительном сокращении ошибок, связанных с галлюцинациями и обоснованием.
Пространственные и временные ресурсные ограничения критически важны как для биологических, так и для искусственных интеллектуальных систем. В данной работе мы определяем дифференцируемые члены затрат для ширины, глубины и времени в рекуррентной сверточной нейронной сети, рассматриваемой как конечное подмножество бесконечной решетки. Мы оптимизируем эти затраты совместно с ошибками выполнения задачи с помощью обратного распространения ошибки. Устанавливая различное давление на ширину, глубину и время, мы добиваемся того, что в процессе обучения органически возникают разнообразные вычислительные графы. Мы обнаружили, что все три ресурса могут быть взаимно скомпенсированы для достижения заданного уровня точности. Сети растут по всем трем измерениям с увеличением сложности задачи и спонтанно выполняют больше рекуррентных шагов при окклюзии входных данных. Удивительно, что время, используемое моделью, коррелирует со временем реакции человека в задаче распознавания объектов. Наш подход предлагает нормативное объяснение того, как ресурсные ограничения формируют нейронные архитектуры, затрагивая вопросы организации мозга в нейронауке и, возможно, способствуя пониманию разнообразия нейронных решений, встречающихся в природе.
Крупные языковые модели (LLM) для дополнения и генерации кода всё шире применяются в разработке программного обеспечения, однако они могут воспроизводить примеры из обучающих данных дословно и без указания авторства, что вызывает юридические и этические опасения в отношении плагиата и соблюдения лицензий. Классические детекторы плагиата на основе отпечатков, такие как Winnowing, остаются высокоэффективными, однако проверка требует сравнения фрагментов кода со всем обучающим набором, а их линейная временная сложность делает их непрактичными для корпусов объёмом в миллиарды примеров, используемых для обучения современных LLM для кода. Чтобы устранить этот разрыв, мы представляем SOURCETRACKER — кодировщик с 300M параметров, специализированный для поиска кода, а также гибридный двухэтапный конвейер отслеживания происхождения HYBRIDSOURCETRACKER (HST). HST сначала сужает множество кандидатов до небольшого набора фрагментов с помощью векторного поиска, а затем переранжирует этих кандидатов, используя Winnowing по точным отпечаткам. Мы обучаем и оцениваем нашу систему на подмножестве из 10M фрагментов набора данных THESTACKV2, используя как дословные, так и адаптированные фрагменты, имитирующие реалистичное переименование идентификаторов. На _in vitro_ пространстве поиска из 100k фрагментов с адаптированными запросами наш гибридный подход достигает среднего взаимного ранга, сопоставимого с Winnowing для фрагментов из 30 токенов. Затем, начиная с окон размером >= 60 токенов, он стабильно превосходит его на величину до 5,4%, сохраняя при этом логарифмическую временную сложность запроса. В дополнительной оценке с использованием судьи на основе LLM мы обнаруживаем, что многие извлечённые фрагменты, не помеченные как эталонные, всё равно оказываются высоко похожими на ожидаемые источники, особенно при использовании более длинных контекстных окон, и поэтому остаются полезными для конечных пользователей. В целом, наши результаты показывают, что интеграция векторного поиска с анализом отпечатков позволяет осуществлять масштабируемое и высокоточное отслеживание происхождения кода, порождённого LLM.
Прогнозирование траектории деградации батареи на ранней стадии (BDTF), которое предсказывает полный жизненный цикл траектории состояния здоровья на основе ранних эксплуатационных данных, имеет решающее значение для оптимизации, производства и развертывания батарей. Данные о деградации батарей имеют две ключевые особенности. Во-первых, данные о деградации демонстрируют многоуровневую структуру, включая закономерности, общие для условий старения, и шаблоны траекторий, общие для разных батарей. Во-вторых, связанные с деградацией изменения в профилях напряжения и тока часто локализованы в определенных интервалах состояния заряда (SOC). Существующие подходы часто не моделируют эти характеристики явно. Для устранения этого пробела мы предлагаем BatteryMFormer — многоуровневый Трансформер для раннего BDTF. BatteryMFormer интегрирует (1) декодер, учитывающий условия старения, который вводит априорные данные об условиях старения через запросы, информированные об условиях старения, и внимание, учитывающее условия старения; (2) память мета-шаблонов деградации, которая изучает и извлекает прототипы траекторий для прогнозирования на длительном горизонте; и (3) двухракурсный энкодер, который совместно фиксирует временную динамику и локализованные по SOC изменения из временных рядов напряжения и тока. Обширные эксперименты на четырех доменах батарей показывают, что BatteryMFormer последовательно превосходит эталонные базовые подходы, что представляет собой значительный шаг к надежному BDTF. Наш код доступен по адресу https://github.com/Ruifeng-Tan/BatteryMFormer.
Недавние исследования показали, что большие языковые модели (LLM) могут достигать высокой производительности в рассуждениях за счет включения функциональных символьных представлений, которые абстрактно описывают алгоритмы обхода графов и пошаговые рассуждения в условиях обучения с несколькими примерами. Однако остается неясным, каким образом LLM действительно понимают абстрактный смысл каждого шага рассуждения и общий алгоритм на основе лишь ограниченного числа демонстраций. Данная работа направлена на локализацию голов внимания, ответственных за отдельные шаги рассуждения, и характеристику типов информации, передаваемой между ними. Мы сначала соотносим составные шаги рассуждения с соответствующими логитами токенов в рамках символьной подсказки с цепочкой мыслей (CoT). Наш анализ показывает, что позиции токенов, направляющие процесс рассуждения, связаны с низкими показателями уверенности, вызванными ограничениями на удовлетворение шаблонов поведения рассуждения в демонстрациях. Затем мы применяем методы анализа причинно-следственной медиации для идентификации голов внимания, ответственных за эти шаблоны. Кроме того, наши результаты показывают, что LLM извлекают фактические и основанные на правилах данные для отдельных подзадач рассуждения через специализированные головы внимания (примерно 3% всех голов), тогда как более высокие слои в основном способствуют интеграции информации и появлению глобальных стратегий рассуждения (например, алгоритмов обхода графов), которые координируют несколько промежуточных шагов рассуждения для решения общей задачи.
LLM-агенты все чаще действуют, создавая код, однако сохраняется разрыв между средой выполнения, управляющей агентом, и кодом, который пишет модель. Среда выполнения контролирует цикл, контекст и поток управления, и модель практически не влияет ни на один из них. Позволить написанному моделью коду формировать саму среду выполнения сделало бы агентов более выразительными, но также обострило бы проблемы безопасности. Модель может быть отвлечена промпт-инъекцией, вызвать неверный инструмент или завершиться с ошибкой на полпути, оставив несогласованное состояние, и каждый такой сбой имеет более серьезные последствия, когда код формирует среду выполнения, по сравнению со случаем, когда он выражает единичное действие. Мы представляем LACUNA — модель программирования для агентов, которая устраняет этот разрыв, сохраняя безопасность. Каждое действие агента — это типизированный вызов agent[T](task), который LLM заполняет кодом по достижении точки выполнения, а код проверяется на соответствие типам относительно окружающей программы до его запуска. Поскольку каждое действие принимается или отклоняется как единое целое, отклоненное действие оставляет среду нетронутой, а диагностика компилятора используется для повторной попытки. Та же проверка также ограничивает, какие инструменты и данные может использовать действие и как они передаются. Наш примитив выражает циклы ReAct, под-агентов, навыки, параллельное декомпозицию и многомодельное планирование как обычный поток управления. Мы оцениваем LACUNA на наборе тестовых примеров, BrowseComp-Plus и τ²-bench. На BrowseComp-Plus 8.6% генераций отклоняются до выполнения, в среднем 0.7 повторных попыток на запрос, а агент достигает точности 27.1%. На τ²-bench LACUNA решает 76.0% из 392 задач в четырех областях с помощью способной модели, что сопоставимо с базовым агентом.
Референтная сегментация направлена на выделение целевых объектов на изображениях или видео на основе текстового запроса. Несмотря на значительный прогресс за последние годы, существующие работы всегда исходят из предположения, что предоставляемые пользователем запросы уже точны и однозначны. Однако это предположение непрактично. В реальных сценариях нереалистично ожидать, что все пользователи тщательно изучат визуальное содержимое и внимательно обеспечат уникальность и однозначность своих запросов. В таких случаях существующие модели сегментации склонны произвольно угадывать предпочтения пользователя, что часто приводит к нежелательным результатам. Для устранения этого ограничения мы предлагаем IC-Seg — новый агентный фреймворк, который активно выясняет намерения пользователя посредством многопоточного диалога перед сегментацией. Для эффективного стимулирования этой способности мы дополнительно вводим Hi-GRPO — новую иерархическую стратегию оптимизации, которая внедряет плотные и информативные сигналы контроля на уровнях траектории, поворота и шага. Эта стратегия способствует эффективному уточнению намерений, устраняя избыточные взаимодействия и повышая общее качество диалога. Для оценки мы создали Ambi-RVOS — эталонный набор данных для референтной видеосегментации с неоднозначными пользовательскими запросами. Обширные эксперименты показывают, что IC-Seg не только с большим отрывом превосходит существующие методы в разрешении неоднозначных запросов, но и сохраняет передовую производительность на стандартных бенчмарках сегментации с рассуждением. Код и данные будут опубликованы по адресу https://github.com/iSEE-Laboratory/IC-Seg.
Понимание трехмерных объектов по изображениям является фундаментальной задачей для робототехники и приложений AR/VR. Хотя недавние работы достигли прогресса в оценивании позы на уровне категорий, существующие представления не позволяют улавливать детальную семантику, необходимую для рассуждений о частях объектов, их функциях и взаимодействиях. В данной работе мы исследуем категорийное трехмерное соответствие в пространстве камеры — предсказание по одному изображению трехмерных точек, согласованных между экземплярами внутри категории, — и показываем, что такое соответствие может возникать без явного обучения на основе меток соответствия, благодаря изучению общего морфируемого априорного представления объекта. Для содействия исследованиям в этом направлении мы представляем HouseCorr3D — первый крупномасштабный бенчмарк для монокулярного категорийного трехмерного соответствия, содержащий 178 тыс. изображений из 50 категорий бытовых объектов, 280 уникальных экземпляров и аннотации трехмерных ключевых точек непосредственно на CAD-моделях. Важно, что HouseCorr3D предоставляет амодальные метки соответствия для окклюдированных областей и явные аннотации симметрии, что устраняет ключевые ограничения существующих наборов данных. Кроме того, мы предлагаем метод Morpheus, который обучает морфируемые категорийные априорные представления формы путем разделения канонической формы, деформации и позы объекта. Благодаря этой общей канонической основе неявно возникают семантически значимые трехмерные соответствия в пространстве камеры. Эти возникающие трехмерные соответствия устанавливают новый передовой уровень на бенчмарке HouseCorr3D, демонстрируя, что семантическое понимание трехмерных объектов может возникать без прямого обучения на основе меток соответствия. Данные и код доступны по адресу https://github.com/GenIntel/HouseCorr3D.
Clark Hash — это компактный метод хранения нейронных эмбеддингов с меньшим объемом памяти. Он нормализует каждый вектор базы данных, применяет детерминированную разреженную знаковую проекцию Джонсона-Линденштрауса, обрезает результат и сохраняет код фиксированной ширины со скалярным квантованием. Запросы остаются в формате с плавающей запятой и оцениваются по сохраненным скетчам. В стандартной конфигурации с 384-мерными эмбеддингами предложений Clark Hash хранит вектор для косинусного поиска в 48 байтах вместо 1536 байт для плотного хранения f32. Это в 32 раза меньше. Метод не требует этапа обучения, изученных кодовых книг, поворотов или статистики корпуса перед сохранением новых векторов. Мы описываем кодек, реализацию на Rust и оценку многоязычного сходства предложений на 9 304 размеченных парах из 29 подмножеств. С многоязычным кодировщиком MiniLM 48-байтовые скетчи достигли макрокорреляции Пирсона 0,910 и 0,946 с плотными косинусными оценками на STS17 и STS22. Clark Hash не является новой теоремой Джонсона-Линденштрауса и не заменяет индексы приближенного поиска ближайших соседей. Это простой кодек без сохранения состояния для компактного хранения эмбеддингов.
Оценки безопасности LLM преимущественно тестируют модели в изоляции, однако развернутые ИИ-агенты все чаще действуют в устойчивых социальных средах вместе с другими агентами. Мы представляем симуляционную платформу в стиле Moltbook, где тысячи LLM-агентов взаимодействуют в сообществах в течение смоделированного месяца, и используем ее для оценки конфиденциальности как последующей проблемы безопасности в условиях разной степени социального давления. Мы обнаружили, что переход от одношаговой к многошаговой социальной оценке усиливает нарушения конфиденциальности (CIMemories 19.95% до Ours 45.30% для моделей OpenAI), что утечка является социально заразной, причем агенты в 8 раз чаще раскрывают конфиденциальную информацию после наблюдения за таким действием сверстника, и что явные инструкции по конфиденциальности уменьшают, но не устраняют этот эффект, оставляя уровень утечки выше 37,8% даже при наличии средств защиты. Наши результаты показывают, что статические чат-ориентированные бенчмарки безопасности систематически недооценивают риски при развертывании агентов, и что одного социального контекста достаточно для получения конфиденциальных раскрытий, которые одношаговые оценки никогда бы не выявили.
Современные подходы к сверхвысокому разрешению видео (VSR) используют глубокие нейронные сети для улучшения качества входных видеопотоков с низким разрешением и восстановления визуальных деталей. Методы, основанные на диффузии, в частности, демонстрируют многообещающие результаты. В данной работе мы исследуем, можно ли использовать существующие модели качества видео для оценки производительности этих диффузионных методов VSR, сравнивая прогнозы моделей с результатами субъективного тестирования. В исследовании сравниваются шесть методов повышения разрешения (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini), применённых как к сжатым (AV1 и DCVC-RT), так и к несжатым видеороликам низкого разрешения, с учётом воспроизведения на экране UHD-1/4K. Для оценки применимости к данному новому типу ухудшения качества используется ряд полно- и безэталонных моделей качества с акцентом на производительность внутри последовательности. Результаты показывают, что полные эталонные модели на основе свёрточных нейронных сетей, такие как LPIPS, DISTS и CVQA-FR, демонстрируют значительно более высокие коэффициенты корреляции по сравнению как с традиционными полными эталонными, так и с протестированными безэталонными моделями. Большинство моделей переоценивают чрезмерно резкие результаты SCST, причём VMAF в основном даёт сбои из-за пространственных несоответствий, вносимых Starlight Mini. Ни одна из протестированных моделей качества видео не достигает достаточной точности, чтобы заменить дополнительное субъективное тестирование. Эталонные, ухудшенные и увеличенные видеоролики, а также пользовательские оценки и значения моделей доступны вместе со статьёй в виде открытых данных по адресу https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR.
Большие языковые модели (БЯМ) преимущественно управляются вероятностными рамками, в которых сумма вероятностей исходов ограничена единицей. Это архитектурное ограничение, часто накладываемое слоями Softmax, приводит к коллапсу неопределенности, что затрудняет различение эпистемической неопределенности, парадокса и нечеткости. Мы представляем эмпирическое исследование применения нейтрософской логики — подхода, рассматривающего Истину (И), Неопределенность (Н) и Ложь (Л) как три независимых измерения, — для моделирования эпистемических состояний в БЯМ. Мы провели эксперименты на семействе из четырех моделей OpenAI GPT в рамках пяти лингвистических явлений: логические парадоксы, эпистемическое незнание, нечеткость, этические противоречия и будущие контингенции, — при трех стратегиях подсказок: нейтрософской, вероятностной и энтропийной. Наши результаты показывают, что нейтрософский подход, допускающий И+Н+Л > 1 — состояние, которое мы называем гипер-истиной, — обеспечивает более богатое представление внутреннего состояния модели. В 35% оценок гипер-истина возникала спонтанно, преимущественно при этических противоречиях и логических парадоксах. Мы демонстрируем, что этот подход сохраняет истинностные значения в нечетких контекстах и предлагает надежный метод для выявления и количественной оценки внутреннего конфликта модели. Мы заключаем, что интеграция нейтрософских оценочных слоев является критическим шагом на пути к более прозрачным, надежным и этически осознанным системам искусственного интеллекта.
Мы представляем PEAM — фреймворк параметрической воплощённой памяти агента (Parametric Embodied Agent Memory) для Minecraft, который трансформирует память агента из извлечения во время инференса в параметрически встроенные навыки, интернализируемые через опыт. PEAM объединяет медленный deliberative-LLM для открытого рассуждения с быстрым параметрическим модулем для рефлекторного выполнения консолидированных навыков. Быстрый модуль представляет собой мультимодальную архитектуру LoRA на основе смеси экспертов (Mixture-of-Experts) с физически изолированными адаптерами для каждой категории, что обеспечивает непрерывное обучение на уровне параметров без катастрофического забывания. Мы рассматриваем неудачу как первостепенный обучающий сигнал: пары «неудача–коррекция» интернализируются через совместную целевую функцию поведенческого клонирования и контрастивного обучения, так что агент узнаёт не только успешные действия, но и то, чем скорректированные действия отличаются от неудачных. Для управления консолидацией PEAM вводит оценку пригодности к параметризации (parameterization-worthiness score), определяющую, какой опыт следует интернализировать, и механизм самоинициируемой консолидации без масштабирования (scale-free self-triggered consolidation), решающий, когда проводить интернализацию без ручной настройки порогов под конкретные задачи. Благодаря этому агент становится саморазвивающимся, а триггер переносится между распределениями задач без перенастройки. Эксперименты в Minecraft показывают, что PEAM улучшает производительность на долгосрочных задачах, снижает забывание ранее консолидированных навыков и повышает эффективность параметрического подхода по сравнению с извлечением как для воплощённых агентов на основе поиска, так и для вариантов параметрической памяти.
Дискретные диффузионные модели стали мощными инструментами для генерации структурированных категориальных данных. Однако эффективная выборка из распределений, смещённых по вознаграждению, остаётся фундаментальной задачей. Хотя скрученный последовательный метод Монте-Карло (SMC) обеспечивает асимптотическую точность для этой задачи, оценка оптимальной функции скручивания в дискретных пространствах состояний требует дорогостоящих аппроксимаций методом Монте-Карло, что приводит к серьёзному вычислительному узкому месту на этапе инференса. Чтобы преодолеть это ограничение, мы предлагаем контрастивное согласование распределений (CDM) — новый подход, который амортизирует вычислительные затраты SMC-инференса путём обучения параметризованной функции скручивания на положительных и отрицательных примерах. Для эффективного обучения мы переформулируем оценку градиента, используя замкнутые прямые ядра дискретных диффузионных моделей. На практике вычисление обученной функции скручивания приводит к дополнительным вычислительным затратам менее 5% по сравнению с однократным прямым проходом базовой модели. На основе обширных эмпирических экспериментов мы демонстрируем, что CDM стабильно превосходит существующие базовые методы при одинаковом астрономическом времени. Мы подтверждаем эффективность и универсальность нашего подхода в различных приложениях, включая генерацию токсичных текстов, дизайн регуляторных последовательностей ДНК, проектируемость белков и согласование больших языковых моделей на основе диффузии.