Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем ABot-Earth 0.5 — генеративную 3D-структуру, предназначенную для синтеза обширных, непрерывных трёхмерных сред на основе повсеместно доступных, географически привязанных спутниковых снимков. Для этого мы предлагаем новую генеративную модель, сформулированную непосредственно в рамках представления 3D-гауссового разбрызгивания (3DGS). Модель обучается на разнообразном корпусе существующих реконструкций реальных городских ландшафтов, осваивая генерацию реалистичной геометрии и текстур. На этапе вывода она синтезирует новые трёхмерные сцены, используя только спутниковые изображения в качестве условия, с масштабируемой скоростью менее 10 минут на квадратный километр, демонстрируя при этом исключительную реалистичность. Структура разработана с учётом доступности: в неё интегрированы иерархические структуры уровней детализации (LOD), обеспечивающие интерактивную визуализацию в реальном времени на веб-картографических движках. Этот высокореалистичный имитационный полигон эффективно устраняет разрыв между симуляцией и реальностью, обеспечивая поддержку критически важных приложений воплощённого ИИ, таких как навигация беспилотных летательных аппаратов по замкнутому контуру. Предлагая сверхрентабельное и высокоэффективное решение, ABot-Earth 0.5 значительно снижает технические и финансовые барьеры для крупномасштабной трёхмерной реконструкции и открывает новые возможности для будущего глобальной визуализации цифровой Земли.
Мы представляем Kwai Keye-VL-2.0-30B-A3B — открытую мультимодальную фундаментальную модель, основанную на архитектуре «Смесь экспертов» (MoE), предназначенную для продвижения понимания длинных видео и агентного интеллекта. Чтобы решить проблемы сверхдлинных контекстов, избыточности информации и непомерно высоких вычислительных затрат, присущих видео длительностью в часы, Keye-VL-2.0 первой адаптирует разреженное внимание DeepSeek (DSA) для мультимодальных архитектур на основе GQA, обеспечивая обработку контекста до 256K без потерь с одновременным захватом ключевых кадров и долгосрочных временных зависимостей. Эта архитектура поддерживается высокооптимизированной инфраструктурой обучения и вывода, включая масштабируемый ввод-вывод видео, гетерогенный параллелизм ViT-LM и пользовательские ядра DSA, которые максимально увеличивают пропускную способность и минимизируют вычислительные накладные расходы. Кроме того, чтобы преодолеть алгоритмическую дилемму катастрофического забывания при многозадачном согласовании, мы вводим кросс-модальную многопедагогическую дистилляцию на политике (MOPD) в сочетании с Context-RL и Video-RL. Путем дистилляции плотной обратной связи учителя на уровне токенов из прогонов на политике обратно в основу MoE, которая активирует только 3 миллиарда параметров, Keye-VL-2.0 изначально обеспечивает продвинутое агентное сотрудничество в сценариях кода, инструментов и поиска с мультимодальной самокоррекцией. Обширные оценки в задачах понимания видео, временной локализации, рассуждения, STEM и агентных бенчмарках показывают, что Keye-VL-2.0-30B-A3B достигает передовой производительности среди моделей аналогичного масштаба, особенно преуспевая в точной временной локализации на TimeLens и понимании длинных видео на Video-MME-v2 и LongVideoBench. Мы публикуем контрольные точки нашей модели, чтобы ускорить прогресс сообщества в направлении масштабируемых и надежных мультимодальных агентных приложений.
Хотя агенты на основе больших языковых моделей (LLM) демонстрируют высокую производительность при решении сложных задач, их обучение часто ограничивается неэффективной обратной связью при взаимодействии и статическими средами обучения, что препятствует широкому обобщению. Для преодоления этих ограничений в данной статье предлагается Role-Agent — фреймворк, который использует единую LLM для одновременного выполнения ролей как агента, так и среды, обеспечивая загрузочную совместную эволюцию. Role-Agent состоит из двух синергетических компонентов: «Мир-в-Агенте» (World-In-Agent, WIA) и «Агент-в-Мире» (Agent-In-World, AIW). В WIA LLM выступает в роли агента и предсказывает будущие состояния после каждого действия; соответствие между предсказанными и фактическими состояниями затем используется как процессное вознаграждение, способствуя рассуждениям с учётом среды. В AIW LLM анализирует сценарии отказов из неудачных траекторий и извлекает задачи с аналогичными паттернами отказов, тем самым изменяя распределение обучающих данных для целенаправленной практики. Эксперименты на нескольких бенчмарках показывают, что Role-Agent стабильно улучшает производительность, достигая среднего прироста более чем на 4% по сравнению с сильными базовыми моделями.
AI-агенты полагаются на оснастку из навыков, инструментов и рабочих процессов для решения сложных задач. Постоянное улучшение этой оснастки необходимо для адаптации к новым задачам. Однако существующие методы оптимизации обычно требуют эталонных валидационных наборов, но такие размеченные данные трудно получить в условиях практического развертывания. Для решения этой проблемы мы представляем метод ретроспективной оптимизации оснастки (Retrospective Harness Optimization, RHO) — самонастраиваемый метод, который оптимизирует оснастку агента, используя только прошлые траектории. В частности, RHO выбирает разнообразное компактное подмножество сложных задач из прошлых траекторий и решает их заново параллельно. Агент анализирует эти прогоны с помощью самопроверки и самосогласованности, затем генерирует кандидатные обновления оснастки и выбирает наиболее эффективное на основе собственного попарного самопредпочтения. Мы оцениваем RHO в трех различных областях, охватывающих разработку программного обеспечения, техническую работу и интеллектуальный труд. Примечательно, что один раунд оптимизации повышает процент успешных прохождений на SWE-Bench Pro с 59% до 78% без какого-либо внешнего оценивания. Кроме того, наш анализ демонстрирует, что RHO эффективно нацеливается на предыдущие режимы отказов. В результате оптимизированная оснастка изменяет поведенческие паттерны агента и поддерживает более высокую точность в ходе длительных сеансов.
Ожидается, что большие языковые модели все чаще будут справляться со сложными, долгосрочными реальными задачами, контекстные требования которых могут расти без ограничений, однако контекстные окна моделей остаются по своей природе конечными. Недавние работы исследуют парадигму, в которой главный агент разбивает задачи и распределяет подзадачи между подчиненными агентами, которые выполняют их и возвращают только обобщенные результаты, экономя контекстный бюджет главного агента. Однако для эффективного выполнения этого требуется интеллект делегирования: способность разбивать сложные задачи, определять, когда и что делегировать, и интегрировать возвращенные результаты в текущий рабочий процесс. Обучающие данные для этой способности редко встречаются в естественных текстах, и, насколько нам известно, вопрос синтеза таких данных и обучения моделей для приобретения этой способности остается в значительной степени неисследованным в сообществе открытого исходного кода. Чтобы восполнить этот пробел, мы представляем предварительное исследование, нацеленное на глубокое исследование (deep research) — репрезентативную долгосрочную задачу для агента. В частности, мы разрабатываем обвязку, которая направляет модель на высококачественное разбиение задач и делегирование, при этом ограничивая подчиненных агентов таким образом, чтобы они правильно возвращали результаты для поддержки рабочего процесса главного агента. Траектории, направляемые обвязкой, естественным образом кодируют правильные решения о делегировании, которые мы используем в качестве данных для контролируемой тонкой настройки, чтобы интернализировать интеллект делегирования в веса модели. Наша итоговая модель SearchSwarm-30B-A3B достигает 68,1 балла на BrowseComp и 73,3 балла на BrowseComp-ZH, что является лучшими результатами среди всех моделей сопоставимого масштаба. Мы опубликуем нашу обвязку, веса модели и обучающие данные для содействия будущим исследованиям.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало стандартным подходом для улучшения рассуждений больших языковых моделей. Однако существующие механизмы доверительной области в стиле PPO остаются позиционно-агностическими, применяя единые пороговые значения ко всем токенам независимо. Эта поточечная обработка противоречит авторегрессивной генерации по двум критическим причинам. Во-первых, единые пороги игнорируют авторегрессивную асимметрию. Отклонения на ранних этапах вызывают накапливающийся дрейф на уровне последовательности, что приводит к недостаточному регулированию ранних расхождений и излишнему ограничению исследования на поздних этапах. Во-вторых, оценка расхождения на уровне токена в изоляции упускает из виду совокупный дрейф префикса, предоставляя одинаковый допуск на расхождение независимо от того, насколько далеко история обусловливания отклонилась от политики развертывания. Для устранения этого ограничения мы предлагаем CPPO (оптимизация политики с совокупной префиксной дивергенцией) — правило маскировки на уровне токенов, которое согласует обновления с границей улучшения политики с конечным горизонтом через два взаимосвязанных механизма. Во-первых, позиционно-взвешенный порог накладывает более строгие ограничения на ранние позиции, чьи эффекты сохраняются дольше, ослабляя ограничения для токенов на поздних этапах. Во-вторых, совокупный префиксный бюджет отслеживает исторические отклонения, динамически ограничивая дальнейшее отклонение на уровне токенов для предотвращения накопления ошибок вдоль префикса. Эмпирически CPPO повышает стабильность обучения и значительно улучшает точность рассуждений на различных масштабах моделей.
Современные визуально-языковые модели испытывают трудности при работе с видео продолжительностью в несколько часов, поскольку обработка полных визуальных последовательностей приводит к взрывному росту числа токенов и размыванию внимания. Для преодоления этой проблемы мы представляем MemDreamer, который разделяет восприятие и рассуждение, переводя понимание длинных видео в агентный процесс исследования. Будучи подключаемой архитектурой, он инкрементально обрабатывает видеопотоки для построения иерархической графовой памяти — трехуровневой архитектуры нисходящего типа для семантической абстракции, основанной на фундаментальном графе, фиксирующем пространственно-временные и причинно-следственные связи. Во время инференса модель рассуждения применяет агентный поиск с инструментальным расширением, перемещаясь по иерархиям, осуществляя поиск узлов и обходя логические ребра посредством цикла «Наблюдение – Рассуждение – Действие». Эксперименты показывают, что MemDreamer достигает результатов на уровне SOTA на четырех основных эталонных тестах, сокращая разрыв с экспертами-людьми до всего 3,7 балла. Он ограничивает окно контекста рассуждений лишь 2% от объема полного контекста, одновременно обеспечивая абсолютный прирост точности на 12,5 балла. Кроме того, статистический анализ выявляет сильную положительную линейную корреляцию между производительностью ВЯМ в задачах логического рассуждения и понимания длинных видео, что обосновывает масштабирование агентных способностей как новую парадигму мультимодального восприятия.
Недавние работы показали, что онлайн-обучение с подкреплением (RL) может существенно улучшить качество и согласованность моделей потокового согласования (flow matching) для генерации изображений и видео. Методы, такие как Flow-GRPO и CPS, представляют процесс шумоподавления как марковский процесс принятия решений и применяют клиппирование отношения в стиле PPO для соблюдения доверительной области. Однако мы утверждаем, что клиппирование отношения структурно не подходит для потоковых моделей: отношение вероятностей между новой и старой политиками представляет собой зашумленную оценку истинного расхождения политик на основе одного образца, что приводит к излишним ограничениям в одних областях траектории и недостаточным — в других. Мы предлагаем Flow-DPPO (Flow Divergence Proximal Policy Optimization), который заменяет клиппирование отношения проксимальным ограничением расхождения. Ключевое наблюдение заключается в том, что пошаговая политика в потоковых моделях является гауссовой, что позволяет точно и эффективно вычислять KL-дивергенцию между старой и новой политиками. Flow-DPPO использует асимметричную маску расхождения, которая блокирует градиентные обновления только в том случае, когда они одновременно выходят за пределы доверительной области и нарушают порог расхождения. Эксперименты показывают, что Flow-DPPO достигает более высоких вознаграждений с лучшей проксимальной эффективностью по KL-дивергенции, уменьшает катастрофическое забывание, способствует сбалансированной многокритериальной оптимизации и обеспечивает стабильное многопериодное обучение, при котором клиппирование отношения ухудшается. Код и модели доступны по адресу https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.
Управляемая анимация персонажей требует переноса движения из ведущей последовательности на эталонного персонажа. Предыдущие работы в значительной степени опирались на промежуточные представления, включая скелеты поз для представления движения или маскированный фон для представления окружения, что неизбежно приводит к потере информации. Для решения этой проблемы мы представляем SCAIL-2 — framework, который обходит эти промежуточные звенья и обеспечивает сквозную анимацию персонажей. Путем прямой конкатенации ведущих видео с последовательностью модель может получить всю необходимую визуальную информацию из входного видео. Для устранения нехватки сквозных данных мы унифицируем подзадачи анимации персонажей с развязанными условиями, а затем разрабатываем конвейер для синтеза набора данных MotionPair-60K — сквозного набора для переноса движения, содержащего разнородные задачи анимации персонажей. Для достижения унификации мы используем внутриконтекстное маскирование условий и привязку RoPE, специфичную для режима, в качестве мягкого руководства в дополнение к текстовым инструкциям и исходной визуальной информации. Для устранения синтетических расхождений в детализированных областях мы предлагаем Bias-Aware DPO для построения элементов предпочтения, чтобы уменьшить ошибки. Обширные эксперименты демонстрируют, что наш метод значительно превосходит существующие передовые подходы в различных задачах анимации персонажей. Большая часть синтетических данных, а также веса модели будут опубликованы на странице нашего проекта: https://teal024.github.io/SCAIL-2/.
Диффузионные модели синхронизации губ обеспечивают высокое визуальное качество и аудиовизуальное соответствие, однако полное двунаправленное внимание и большое количество шагов шумоподавления делают их непрактичными для вывода в реальном времени. Мы представляем Lip Forcing — первый, насколько нам известно, авторегрессивный диффузионный метод для синхронизации губ по видео (V2V), который дистиллирует двунаправленного видео-диффузионного учителя с аудиоусловием в 14B параметров в каузальных студентов. На этапе вывода студенты генерируют каждый фрагмент всего за два шага шумоподавления без применения CFG во время вывода, что обеспечивает синхронизацию губ в реальном времени. Анализ траекторий учителя, специфичный для синхронизации губ, выявляет компромисс между точностью и синхронностью CFG: предсказания без CFG отдают предпочтение точности эталона, тогда как предсказания с CFG склоняются к синхронизации в средней части траектории. Lip Forcing преобразует этот вывод в три компонента, полученные в результате анализа: Sync-Window DMD, двухшаговый график вывода и вознаграждение на основе SyncNet. Мы проверяем Lip Forcing в двух масштабах студентов, оба дистиллированы от учителя с 14B параметров. Студент с 1.3B параметров достигает потоковой передачи в реальном времени со скоростью 31 кадр/с, что в 17,6 раза быстрее, чем его двунаправленная модель того же масштаба. Студент с 14B параметров, крупнейшая диффузионная модель из описанных для синхронизации губ V2V, работает в 39,8 раза быстрее своего учителя при сопоставимой точности эталона. Время до появления первого кадра составляет менее миллисекунды в обоих масштабах, что значительно ниже всех диффузионных базовых показателей.
Мы представляем WorldOlympiad — бенчмарк для диагностики видеомоделей мира по таким аспектам, как физическая достоверность, геометрическая согласованность и точность взаимодействия. В то время как существующие бенчмарки часто фокусируются на визуальном качестве, семантическом соответствии или краткосрочной временной согласованности, они дают ограниченное представление о том, следуют ли сгенерированные видео физическим законам, сохраняют ли когерентную 3D-структуру и поддерживают ли управляемые взаимодействия на длинных горизонтах. Для устранения этого пробела WorldOlympiad разбивает оценку моделей мира на три взаимодополняющих измерения. Физический трек использует сегментацию объектов и MLLM-судью для оценки того, следуют ли сгенерированные видео интерпретируемым правилам в механике, тепловых явлениях и свойствах материалов. Геометрический трек реконструирует сгенерированные видео с помощью гауссовского сплаттинга и оценивает структурную согласованность, межвидовую когерентность и согласованность траекторий камеры. Интеракционный трек оценивает, следуют ли сгенерированные развертывания сложным подсказкам действий и поддерживают ли плавные, когерентные переходы между последовательными видеофрагментами. WorldOlympiad также охватывает три основных сценария применения, включая игры, робототехнику и общие видеоролики реального мира, отражая разнообразные задачи от интерактивного управления и воплощенных манипуляций до динамики движения в открытых доменах и камерной динамики. В совокупности эти треки и сценарии образуют масштабируемый и интерпретируемый набор для оценки, который выявляет режимы отказов, выходящие за рамки общего качества видео. Эксперименты с передовыми моделями демонстрируют существенные пробелы в физическом мышлении, трехмерной согласованности и взаимодействии на длинных горизонтах, подчеркивая необходимость более структурированных протоколов оценки для генеративных моделей мира.
Обучение с подкреплением (RL) стало ключевым компонентом пост-обучения больших языковых моделей (LLM). На практике RL для LLM часто является вне-политическим (off-policy) из-за несоответствия между обучением и выводом (training-inference mismatch) и устаревания политики (policy staleness), что делает контроль доверительной области (trust-region control) необходимым для стабильной оптимизации. Основные методы, такие как PPO и GRPO, аппроксимируют этот контроль с помощью механизма обрезания отношения (ratio-clipping), однако отношение важности (importance ratio) может быть плохим показателем сдвига распределения (distributional shift) в длиннохвостых словарях (long-tailed vocabularies). Недавняя работа, такая как DPPO, решает это несоответствие, заменяя обрезание на основе отношения на маску на основе расхождения (divergence-based mask), что создает доверительную область, определяемую абсолютным сдвигом вероятности (absolute probability shift) выбранного токена. Однако DPPO по-прежнему полагается на жесткую маску (hard mask): как только токен пересекает границу доверительной области в вредном направлении, его градиент отбрасывается, а не корректируется. Чтобы решить эту проблему, мы предлагаем Divergence Regularized Policy Optimization (DRPO), который заменяет жесткую маску гладким квадратичным регуляризатором, взвешенным по преимуществу (advantage-weighted quadratic regularizer), на сдвиг политики (policy shift). DRPO сохраняет ту же геометрию доверительной области, что и DPPO, при этом вводя ограниченные, непрерывные веса градиента (bounded, continuous gradient weights), которые ослабляют расходящиеся обновления (diverging updates) и предоставляют корректирующие сигналы (corrective signals) за пределами границы. Эксперименты с разными масштабами моделей, архитектурами и настройками точности показывают, что DRPO повышает стабильность и эффективность обучения RL для LLM.
В данной работе мы представляем EEVEE — первую платформу для обучения на промптах в момент тестирования для LLM-агентов, работающую с несколькими наборами данных и обеспечивающую адаптацию промптов в реальных потоках задач. Существующие методы в основном рассчитаны на однодатасетные сценарии, тогда как реальные приложения требуют от моделей обработки гетерогенных входных потоков, формируемых из различных наборов данных, доменов и распределений задач, что ограничивает их практическую применимость. Для снижения межнаборной интерференции EEVEE вводит маршрутизатор, который разделяет входящие данные на кластеры задач и назначает им соответствующие конфигурации промптов. Эта конструкция оптимизируется за счёт стратегии совместной эволюции маршрутизатора и промптов, использующей чередующиеся фазы обучения маршрутизатора и промптов для преодоления их взаимной зависимости. Эксперименты на нескольких наборах данных показывают, что предложенная платформа повышает устойчивость к гетерогенным потокам данных, сохраняя при этом способность к обучению на отдельных бенчмарках и эффективность. В частности, EEVEE улучшает средние показатели по нескольким бенчмаркам на 10,38 и 24,32 пункта по сравнению с Qwen3-4B-Instruct и DeepSeek-V3.2, превосходя современные методы GEPA и ACE на величину до 37,2% и 48,2% соответственно.
Данная статья представляет ARM — авторегрессионную модель на основе дискретных представлений, объединяющую понимание, генерацию и редактирование изображений в рамках фреймворка предсказания следующего токена. В основе ARM лежат три направления: во-первых, обучение дискретного семантического визуального токенизатора, преобразующего изображения в компактные последовательности токенов. Токенизатор обучается с помощью множества целевых функций, совместно обеспечивающих семантическую различимость, согласованность с языком и достоверную реконструкцию, что позволяет поддерживать разнообразные задачи в общем латентном пространстве. Затем мы обучаем авторегрессионную модель с 7 млрд параметров на крупномасштабных последовательностях текстовых и графических токенов, органично развивая способности к визуально-языковому восприятию и генерации. Наконец, для улучшения согласованного с предпочтениями поведения при генерации изображений по текстовому описанию и редактировании по инструкциям ARM применяет обучение с подкреплением (RL) для оптимизации целей на уровне задач, таких как визуальное качество, следование инструкциям и согласованность редактирования. Удивительно, но результаты показывают, что RL не только существенно повышает производительность в целевых задачах (например, улучшение WISE overall с 0,50 до 0,56, GEdit-Bench-EN G_O с 5,75 до 6,68), но и вызывает кросс-функциональный синергизм между генерацией изображений по тексту и редактированием. В совокупности эти результаты подчеркивают, что авторегрессионное моделирование в сочетании с сильными представлениями и оптимизацией предпочтений является масштабируемой основой для мультимодального интеллекта. Код: https://github.com/wdrink/ARM.
В последние годы наблюдается стремительная эволюция AI-агентов, направленная на решение всё более сложных задач в реальном мире. Однако существующие бенчмарки редко оценивают способность агентов работать с графическими интерфейсами пользователя для выполнения долгосрочных, высокоценных профессиональных рабочих процессов в различных областях. Современные бенчмарки для графических интерфейсов по-прежнему в основном ориентированы на программное обеспечение общего назначения, относительно простые приложения и краткосрочные задачи, что оставляет в значительной степени невыясненным вопрос, могут ли современные агенты следовать инструкциям пользователя для автономной работы с профессиональным специализированным программным обеспечением и выполнения экономически ценной работы сквозным образом. Для устранения этого пробела мы представляем Workflow-GYM — бенчмарк для долгосрочных задач с графическим интерфейсом, ориентированный на профессиональные области и специализированные программные среды. В ходе обширных экспериментов с современными моделями мы обнаружили, что даже самые сильные модели достигают показателя успешности лишь немного превышающего 30%, что подчёркивает, что профессиональные долгосрочные рабочие процессы с графическим интерфейсом остаются крайне сложными для современных GUI-агентов. Дальнейший анализ показывает, что современным агентам трудно поддерживать согласованность долгосрочного рабочего процесса: они часто демонстрируют пропуск этапов рабочего процесса, распространение ошибок, дрейф цели и недостаточное понимание профессиональных программных сред. Наши результаты дают важное представление об ограничениях современных агентных систем и указывают на ключевые направления для следующего поколения исследований в области GUI-агентов.
Внешняя память эффективно обосновывает ответы на вопросы (QA) на основе больших языковых моделей (LLM) и моделей «зрение-язык» (VLM) в релевантных мультимодальных свидетельствах. Однако существующие парадигмы памяти представляют каждый элемент памяти в виде необработанного текста и изображений, поэтому системы, основанные на поиске, должны передавать извлеченный текст или изображения генеративным LLM/VLM, что приводит к высокому потреблению токенов и нагрузке на хранилище, делая их неприемлемыми для приложений с ограниченными ресурсами. Мы предлагаем Latent Memory — парадигму памяти в латентном пространстве, которая заменяет каждый элемент исходного текстового или графического свидетельства одним высокоразмерным латентным токеном, созданным небольшой LLM/VLM-компрессором. Вместо извлечения исходных свидетельств для генерации Latent Memory работает в едином пространстве латентных представлений: запрос встраивается в это пространство для поиска релевантных латентных токенов, а найденные латентные токены напрямую передаются в предобученную LLM или VLM для генерации ответа. Чтобы каждый латентный токен был одновременно информативным для реконструкции, поиска и генерации, мы обучаем компрессор с помощью целей реконструкции, контрастивного обучения и дистилляции в едином сквозном режиме. Latent Memory оценивается на семи текстовых QA-бенчмарках (например, HotpotQA) и мультимодальных QA-бенчмарках, где достигает конкурентоспособной производительности QA по сравнению с продвинутыми базовыми методами RAG, потребляя при этом в 3–10 раз меньше токенов генератора. Кроме того, он демонстрирует наилучшую производительность при ответах на вопросы, основанных на изображениях, на наборе данных WebQA. Код доступен по адресу https://github.com/zz1358m/Latent-Memory-Master.
Цепочка рассуждений (CoT) под контролируемой тонкой настройкой (SFT) широко применяется для улучшения способности к рассуждению, однако мы обнаруживаем, что она систематически ухудшает извлечение информации из длинного контекста в гибридных моделях линейного внимания. Для архитектур, включая HypeNet и Jet-Nemotron, производительность извлечения на тесте «Иголка в стоге сена» (NIAH) существенно падает после CoT-SFT, причём ухудшение становится более выраженным в более сложных условиях извлечения и для более длинных окон контекста. Например, у HypeNet-9B показатель NIAH-S2@256K снижается с 67,2% до 9,4%. Мы объясняем это тем, что CoT-SFT смещает градиенты внимания в сторону короткодиапазонных шаблонов, нарушая проекции «запрос–ключ» (W_Q, W_K), отвечающие за маршрутизацию на дальние расстояния. Основываясь на этом наблюдении, мы предлагаем QK-Restore — метод, не требующий обучения, который восстанавливает только W_Q и W_K из контрольной точки до SFT, сохраняя все остальные параметры после SFT. Мы также вводим вариант с преобразованием Прокруста для баланса между сохранением маршрутизации и адаптацией рассуждения. На различных архитектурах QK-Restore последовательно восстанавливает способность работы с длинным контекстом при нулевых затратах на обучение, сохраняя при этом производительность рассуждений; например, для HypeNet-5B он улучшает показатель S3@256K с 65,4% до 76,4% при сохранении высокого качества рассуждений.
Языковые модели все чаще служат основой систем преобразования текста в речь (TTS), однако мы мало знаем о представлениях, которые они формируют, когда текстовые и сгенерированные речевые токены совместно используют один остаточный поток. Мы обучаем разреженные автоэнкодеры BatchTopK на основной языковой модели CosyVoice3 и представляем модально-осведомленный конвейер автоинтерпретации, который маркирует каждый признак в зависимости от того, где он активируется: в контексте текстового префикса, в одсекундных речевых фрагментах или в обоих. Восстановленные признаки являются интерпретируемыми и охватывают фонемы, смех, подсказки акцента и пол говорящего. Управление латентным пространством разреженного автоэнкодера показывает, что эти признаки являются каузальными, а не просто описательными: целенаправленные вмешательства повышают вероятность смеха с 0,02 до 0,79, изменяют воспринимаемый пол говорящего и контролируют темп речи, сохраняя речевое содержание. Таким образом, признаки SAE служат как объектами интерпретируемости, так и направлениями управления для синтеза TTS.
Навыки агентов занимают привилегированное положение в рабочем процессе агента, поскольку ожидается, что агенты будут неявно следовать им и выполнять их, что превращает сторонние навыки в уязвимую поверхность атаки. Существующие исследования выявили опасное поведение агентов, вызванное атаками на основе навыков, однако в них в основном оцениваются отравленные навыки в рамках однократного выполнения задачи, а вред перечисляется с помощью списков рисков, составленных ad hoc. Чтобы восполнить эти пробелы, мы представляем SkillHarm — эталон атак на основе навыков на протяжении всего жизненного цикла использования навыков, дополненный систематической таксономией рисков, связанных с навыками. SkillHarm оценивает два сценария атак: отравление с фиксированной нагрузкой (FPP), при котором фиксированный отравленный пакет навыков напрямую компрометирует любой сеанс задачи, который его вызывает, и самоизменяющееся отравление (SMP), при котором изначально безвредное выполнение незаметно изменяет постоянное содержимое навыка, откладывая нанесение вреда до последующего повторного использования. Кроме того, он определяет 12 типов рисков на основе компонента рабочего процесса агента, на который направлен вред: конвейеры данных, системные среды и автономия агента. Для масштабной реализации этих атак мы создаем AutoSkillHarm — автоматизированный конвейер построения с кодирующими агентами, управляемыми обвязками на естественном языке. Полученный эталон содержит 879 образцов атак по 71 навыку. Эксперименты показывают, что современные агенты остаются уязвимыми: показатели успешности атак достигают 86,3% для FPP и 69,3% для SMP. Наш анализ также выявляет скрытый риск: многие кажущиеся неудачи атак обусловлены тем, что агент не взаимодействует с отравленным файлом, а не подлинным сопротивлением, а современные средства защиты все еще неспособны надежно устранить эту угрозу.
Языковые агенты все чаще полагаются на многократно используемые навыки для улучшения многошаговой веб-автоматизации в рамках связанных задач. Растущее направление работ изучает онлайн-обучение навыкам, когда агенты непрерывно извлекают навыки из траекторий предыдущих задач и повторно используют их в будущих задачах на лету. Однако существующие методы в основном повторно используют навыки на уровне задачи: фиксированный набор навыков извлекается на основе начальной инструкции задачи, а затем остается неизменным на протяжении выполнения. Эта статическая стратегия не соответствует выполнению веб-действий, где подходящее следующее действие зависит не только от цели задачи, но и от текущего состояния веб-страницы, которое часто переходит в ситуации, не охватываемые начальными навыками. Для устранения этого пробела мы предлагаем метод State-Grounded Dynamic Retrieval (SGDR) — метод онлайн-обучения навыкам, обеспечивающий пошаговое повторное использование навыков для веб-агентов. SGDR состоит из трех компонентов: процесса извлечения со скользящим окном, который превращает завершенные траектории в многократно используемые подпрограммы, вызываемые в промежуточных состояниях выполнения; двойного текстово-кодового представления, связывающего извлечение навыков с выполнимыми действиями; и механизма динамического извлечения, основанного на состоянии, который сопоставляет навыки как с целью задачи, так и с текущим состоянием веб-страницы. Эксперименты на WebArena в пяти доменах показывают, что SGDR последовательно превосходит сильные базовые линии, достигая средних показателей успешности 37,5% с GPT-4.1 и 24,3% с Qwen3-4B, что соответствует относительным приростам в 10,6% и 10,0% по сравнению с самой сильной базовой линией соответственно. Код доступен по адресу https://github.com/plusnli/skill-dynamic-retrieval.
По мере масштабирования моделей глубокого обучения управление, проверка и модификация больших контрольных точек становятся всё более сложными задачами. Исследователям часто требуется изменять веса моделей для реструктуризации слоёв, приведения типов данных, низкорангового разложения и отладки архитектуры, однако такие рабочие процессы зачастую опираются на хрупкие ad-hoc скрипты на Python. В данной работе мы представляем BrainSurgery — инструмент для надёжной и воспроизводимой «тензорной хирургии» контрольных точек нейронных сетей, а также демонстрируем его работу на четырёх примерах и трёх тематических исследованиях — от апсайклинга моделей до извлечения LoRA. Абстрагируя форматы хранения и управление памятью, BrainSurgery выполняет сложные преобразования на основе декларативных YAML-планов. Он поддерживает структурные модификации, математические преобразования и изменение формы тензоров с помощью выразительных регулярных выражений и структурного таргетирования, а встроенные проверки валидируют размерности тензоров, типы данных и значения, предотвращая незаметные ошибки. Мы полагаем, что BrainSurgery обеспечит прочную основу для будущих исследований благодаря своим воспроизводимым и валидированным операциям.
Распределение кредита на уровне токенов остается ключевым препятствием для обучения с подкреплением (RL) в больших языковых моделях (LLM), где методы RL обычно обрабатывают все токены одинаково, не различая решающие шаги рассуждения, стандартное форматирование или плавные заполнители. Недавние попытки используют внутренние сигналы модели для назначения более детального кредита, но это часто точечные эвристики, игнорирующие глобальную структуру распространения информации. Мы предлагаем FlowTracer — фреймворк RL, который прослеживает нацеленный на ответ поток рассуждений на направленном ациклическом графе, индуцированном вниманием, где узлы соответствуют токенам, а пропускные способности ребер формируются из агрегированных весов внимания, и выводит кредит токенов из этой глобальной структуры. Пропускные способности ребер перевзвешиваются, чтобы сохранить только влияние, способное достичь области ответа, при этом обеспечивается локальное сохранение потока, так что промежуточные токены не теряют и не набирают эффективную массу из-за длины пути или нерелевантных ветвей. На этом графе FlowTracer извлекает магистраль информационного потока, соединяющую вопрос с ответом, и оценивает токены по пропускной способности потока, выявляя узлы с высоким влиянием и контрольные точки агрегации, опосредующие долгосрочные зависимости. Эти вычисленные значимости используются для формирования вознаграждений на уровне токенов, позволяя сигналам обучения точно фокусироваться на токенах, направляющих информацию к правильным ответам (или от них), и обеспечивая стабильные приросты производительности в широком спектре задач рассуждения.
Агенты на основе больших языковых моделей (LLM) всё чаще используются в интерактивных текстовых средах — от навигации по веб-сайтам и редактирования кода до использования инструментов и ведения диалогов на длинные горизонты. Однако многие из них остаются в значительной степени реактивными, сопоставляя наблюдения с действиями без явного понимания того, как устроены и как развиваются эти среды. Это порождает интерес к текстовым моделям мира (text world models, TWM): моделям переходов между текстовыми состояниями, которые по заданному состоянию и возможному действию предсказывают результирующую веб-страницу, вывод терминала, ответ API или ответ пользователя, тем самым поддерживая планирование, эффективное обучение и принципиальное оценивание. Мы систематически рассматриваем текстовые модели мира для LLM-агентов, структурируя обзор вокруг формальной схемы и жизненного цикла агента: (1) Основы — определение текстовых моделей мира и их характеристика по представлению состояний и предметной области привязки; (2) Построение — таксономия парадигм «LLM как модель мира» и «код как модель мира», а также обзор методов их создания; (3) Применение — анализ того, как модели мира поддерживают агентов на этапе обучения (через синтез опыта) и на этапе вывода (через планирование, верификацию и адаптацию); и (4) Оценка — охват как оценки самой модели мира, так и её использования в качестве среды для оценки агентов. Мы стремимся обобщить эту быстро развивающуюся область, прояснить её дизайн-пространство и выделить открытые вызовы для будущих исследований.
Агенты глубокого исследования привлекают всё большее внимание благодаря своей способности собирать крупномасштабную онлайн-информацию для получения целевых знаний, причём недавние усилия смещаются от сугубо текстового поиска информации к мультимодальным условиям. Однако существующие агентные рабочие процессы в значительной степени согласованы с моделями накопления доказательств, которые линейно агрегируют свидетельства и не имеют принципиальных механизмов для обработки противоречивой информации из разнородных модальностей. В связи с этим мы предлагаем Struct-Searcher — структурный агентный рабочий процесс, основанный на теории пересмотра убеждений, который явно поддерживает эволюционирующий мультимодальный структурный граф на всём протяжении процесса рассуждения, что обеспечивает эффективный поиск глубокой мультимодальной информации с учётом противоречий. Обширные эксперименты на нескольких эталонных наборах данных и базовых моделях показывают, что Struct-Searcher (1) является универсальным и независимым от модели, обеспечивая среднее относительное повышение точности на 17,2% на BrowseComp-VL при использовании пяти различных базовых архитектур; (2) демонстрирует наилучшие результаты, последовательно превосходя современные модели зрения и языка (VLM) и агентов глубокого исследования, с относительным приростом точности на 3,7% на MM-BrowseComp, 1,5% на HLE-VL и 0,7% на BrowseComp-VL по сравнению со вторым лучшим конкурирующим подходом.
Крупные языковые модели (LLM) регулярно сталкиваются с запросами, которые следует отклонять, что создает компромисс между полезностью и предотвращением вреда. Однако сами отказы могут быть полезными. Во взаимодействиях с высоким риском, включающих кризис, принуждение или эскалацию намерений, прямой отказ может предотвратить непосредственный вред, но при этом не удовлетворить потребности человека, стоящего за запросом. Мы представляем PsychoSafe — психологически обоснованную структуру отказа, которая переосмысливает отказ как структурированное поддерживающее общение, основанное на научно обоснованных стратегиях вмешательства. Для разработки PsychoSafe мы создали корпус из 8019 пар запрос-ответ, охватывающих пять психологически значимых областей риска, и применили промптинг и эффективную по параметрам тонкую настройку к модели Qwen 3.5 27B. На сбалансированном валидационном наборе из 500 запросов, оцененном с помощью LLM-судьи и подтвержденном человеческими оценками, промптинг PsychoSafe улучшает общее качество отказа на 28,1% по сравнению с общим базовым уровнем, с особенно сильным улучшением в направлении к внешним ресурсам (+46,8%) и психологическом обосновании (+34,8%), сохраняя при этом производительность на задачах, не связанных с отказом. Тонкая настройка достигает почти идеальных показателей отказа и направления к ресурсам, но снижает релевантность ответов. Дополнительные оценки на SORRY-Bench и XSTest показывают высокую устойчивость в рамках домена, но ограниченную обобщаемость за его пределами, что предполагает необходимость диверсификации данных для тонкой настройки в будущих работах, чтобы помочь моделям применять вмешательства избирательно, а не схематично.
Существующие модели глубокого обучения для шумоподавления изображений позитронно-эмиссионной томографии (ПЭТ) часто демонстрируют резкое снижение производительности при смещениях распределения, что принципиально ограничивает их надежное клиническое применение. Эта неспособность к обобщению обусловлена традиционной парадигмой моделей с фиксированными параметрами, которые не могут адаптироваться к вариациям тестовых данных (например, уровням дозы или типам сканеров) после обучения. Для преодоления этого ограничения и достижения надежного обобщения мы представляем U-TTT — новую U-образную модель, которая интегрирует слои обучения во время тестирования (Test-Time Training, TTT) для динамической настройки параметров модели в процессе инференса посредством самоконтроля, тем самым адаптируясь к специфическим характеристикам каждого тестового экземпляра. Кроме того, для всестороннего учета сложных искажений трехмерных ПЭТ-данных U-TTT оснащена механизмом двойной адаптации, включающим слой пространственного обучения во время тестирования (S-TTT) и слой частотного обучения во время тестирования (F-TTT). Слой S-TTT захватывает и корректирует пространственные структурные искажения, в то время как слой F-TTT подавляет глобальные спектры шума и восстанавливает тонкие высокочастотные детали. Обширные эксперименты демонстрируют, что U-TTT достигает передовой производительности шумоподавления ПЭТ-изображений и проявляет превосходное обобщение при сложных смещениях распределения, включая как неизвестные уровни дозы, так и неизвестные типы сканеров. Наш код будет доступен по адресу https://github.com/Yaziwel/U-TTT.
Предыдущие работы показали, что тонкая настройка больших языковых моделей на вредоносные или некорректные выходы в узких областях может вызывать широкое рассогласование и вредоносное поведение — феномен, известный как эмерджентное рассогласование. Однако эффективные методы устранения такого рассогласования остаются ограниченными. В данной работе мы вносим два вклада. Во-первых, мы идентифицируем сикофантскую тонкую настройку, то есть обучение моделей пассивно соглашаться с неверными мнениями пользователей, как ранее недостаточно изученный фактор эмерджентного рассогласования, и показываем, что она индуцирует широкое и серьёзное рассогласованное поведение. Во-вторых, мы предлагаем метод «Управляющие вентили выравнивания» (Alignment Gating) — эффективный способ устранения эмерджентного рассогласования, который во время тонкой настройки встраивает в модель обучаемые и контролируемые вентили. В процессе тонкой настройки эти вентили обучаются идентифицировать внутренние представления, ответственные за небезопасные ответы. Соответственно, усиление или подавление этих представлений либо усугубляет, либо смягчает эмерджентное рассогласование. Мы также обнаруживаем, что модуль управляющих вентилей выравнивания демонстрирует сильную обобщающую способность: веса вентилей, полученные при тонкой настройке в узкой области, существенно подавляют рассогласованное поведение в широкой области, сохраняя при этом общие способности модели.
Большинство существующих методов шумоподавления ПЭТ-изображений на основе глубокого обучения предполагают фиксированный и известный коэффициент снижения дозы (DRF) для низкодозовых ПЭТ-изображений. Однако эти методы демонстрируют значительное ухудшение производительности, когда DRF на практике отклоняется от предполагаемого значения. Для решения проблемы, связанной с различными DRF, несколько предварительных исследований сосредоточены на задаче универсального шумоподавления ПЭТ-изображений, направленной на обучение универсальной модели на низкодозовых данных с разными DRF. Тем не менее, эти простые универсальные модели часто сталкиваются с несоответствием стилей, присутствующих в данных с разными DRF, что приводит к проблеме устранения стиля, сопровождающейся значительным эффектом чрезмерного сглаживания. Для решения этой проблемы мы инновационно применяем обобщение доменов к шумоподавлению ПЭТ-изображений и предлагаем универсальную сеть шумоподавления ПЭТ-изображений (UniPET) для достижения высококачественного шумоподавления ПЭТ-изображений при различных DRF. UniPET включает две основные инновации: сеть выравнивания стилей (SAN) и стратегию обучения с учетом областей (RALS). В частности, SAN использует методы выравнивания стилей, основанные на обобщении доменов, для выравнивания и восстановления стилей при различных DRF, обеспечивая обобщаемость модели для разных DRF при эффективном сохранении стилей. Кроме того, для улучшения восстановления стилей RALS различает плоские и стилизованные области, проводя состязательное обучение исключительно на последних, что более эффективно направляет внимание модели на изучение стилизованных областей. Продемонстрировано, что предложенная нами UniPET может адаптивно восстанавливать стили различных DRF и достигать высококачественного шумоподавления ПЭТ-изображений при разных DRF. Комплексные эксперименты показывают, что UniPET демонстрирует производительность, сопоставимую с отдельными моделями для конкретных DRF при определенных DRF, и достигает передового уровня в универсальном шумоподавлении ПЭТ-изображений как количественно, так и с точки зрения восприятия и клинического применения.
Видеогенеративные модели становятся все более мощными, однако достижение долгосрочной согласованности остается сложной задачей, поскольку даже несколько десятков кадров требуют непрактично больших длин последовательностей трансформера. Мы показываем, что эту проблему можно смягчить, генерируя видео с помощью развертывания от грубого к точному в многомасштабном токеновом пространстве. Наш подход прост: сначала мы предварительно обучаем автоэнкодер, который сжимает каждый кадр в иерархию токенов, где уровни варьируются от типичного латентного разрешения до всего нескольких токенов на кадр. Наиболее грубые уровни захватывают самую важную информацию, такую как компоновка сцены и семантика, в то время как более тонкие уровни добавляют высокочастотный внешний вид и текстуру. Затем мы обучаем видеодиффузионную модель генерировать эти токены с помощью развертывания от грубого к точному. Тщательно контролируя уровень детализации, при котором кадры генерируются и используются в качестве контекста на каждом шаге развертывания, мы можем сохранять долгосрочную согласованность в геометрии и постоянство объектов, затрачивая при этом меньше вычислительных ресурсов на поддержание долгосрочной согласованности менее перцептивно значимых деталей. Мы проверяем этот подход на специальном наборе данных длинных видео Minecraft, где он дает существенно более согласованные развертывания по сравнению с существующими базовыми моделями.
Мультиагентные системы (МАС), построенные на основе больших языковых моделей, обычно организуются вокруг ролей, конвейеров и расписаний очередности, тогда как содержимое, которым агенты обмениваются друг с другом, зачастую остается неограниченным естественным языком. Однако такая свободная форма коммуникации может стремительно увеличивать расход токенов, исчерпывать общее контекстное окно и в конечном итоге негативно сказываться как на производительности системы, так и на стоимости вывода. Мы анализируем пять распространенных стратегий меж-агентной коммуникации в двух топологиях МАС и обнаруживаем, что ни одна фиксированная стратегия не является универсально оптимальной. Вместо этого эффективные меж-агентные сообщения последовательно сохраняют информацию, ориентированную на действия, необходимую последующим агентам. Основываясь на этом, мы предлагаем PACT (Protocolized Action-state Communication and Transmission — протоколизированная коммуникация и передача состояний действий), который рассматривает меж-агентную коммуникацию как задачу публичного обновления состояния и проецирует каждый сырой вывод агента в компактную запись состояния действия перед тем, как он попадает в общую историю. В различных топологиях МАС PACT последовательно улучшает соотношение производительности и затрат, достигая сравнимой или более высокой производительности при существенно меньшем количестве токенов. Полученные преимущества распространяются на производственные среды кодирования: PACT повышает коэффициент разрешения OpenHands при снижении количества токенов на одно разрешение на 10% и является нейтральным по отношению к разрешению для SWE-agent, одновременно сокращая количество входных токенов вдвое. Наш код доступен по адресу: https://github.com/iNLP-Lab/PACT.
Авторегрессивная генерация видео стала мощной парадигмой для моделей мировых действий (World Action Models, WAMs). Однако существующие подходы страдают от медленной сходимости обучения и ограниченной точности на этапе сходимости, особенно при высоких частотах кадров, поскольку обучающий контроль ограничен текущим блоком без явных сигналов о будущей динамике; они также страдают от медленного инференса из-за итеративного шумоподавления видео. В данной статье мы представляем Next Forcing — фреймворк многоблочного предсказания (multi-chunk prediction, MCP) для каузального моделирования мира, который обеспечивает более быстрое обучение, более высокую точность и ускоренный инференс. Вдохновленный многотокенным предсказанием в больших языковых моделях, Next Forcing вводит цель обучения MCP, дополняющую основную модель легковесными вспомогательными MCP-модулями для одновременного шумоподавления видеоблоков на нескольких будущих временных горизонтах (next^1, next^2, next^3 блоки). Эти MCP-модули образуют каузальную цепь по глубине предсказаний, где промежуточные признаки, объединенные из нескольких слоев основной модели, используются для предсказания будущей динамики, что позволяет предсказаниям ближайшего будущего информировать более отдаленные и обеспечивает плотный многомасштабный временной контроль для основной модели. Во время обучения MCP-модули значительно ускоряют сходимость и улучшают точность на этапе сходимости, особенно при высоких частотах кадров: при 50 кадрах/с Next Forcing достигает относительного улучшения на 93,1% по сравнению с LingBot-VA при 5000 шагах обучения и ускорения сходимости в 2,3 раза, а также устанавливает новые современные результаты на бенчмарке RoboTwin (94,1/93,5% на Clean/Random). На этапе инференса MCP-модули могут быть сохранены для предсказания следующего видеоблока параллельно с текущим, что обеспечивает ускорение инференса в 2 раза. Next Forcing также демонстрирует значительные улучшения на PhyWorld — бенчмарке, оценивающем соблюдение физических законов в генерации видео, и более чем 50% снижение FVD на общем претренировочном этапе видео.
Масштабируемость больших языковых моделей (БЯМ) для работы с длинными контекстами принципиально ограничена квадратичной сложностью стандартного механизма внимания, что стимулирует применение линейных механизмов внимания с субквадратичной вычислительной стоимостью. Для повышения репрезентативной способности в условиях длинных контекстов современные подходы организуют память в многосостояниевой манере. Однако существующие методы многосостояниевого линейного внимания используют фиксированные политики слияния состояний, которые не могут адаптироваться к динамически изменяющейся важности токенов, необратимо скрывая критические токены и вызывая серьезное накопление ошибок на длинных последовательностях. Для преодоления этого ограничения мы предлагаем DLA — фреймворк динамического моделирования памяти для многосостояниевого линейного внимания. DLA вводит (i) информационно-зависимое динамическое слияние состояний, которое адаптивно определяет границы состояний на основе вариаций информации на уровне токенов, сохраняя представления с высоким разрешением вокруг семантических переходов и агрессивно обобщая стабильные области, а также (ii) моделирование памяти с ограниченной емкостью, которое поддерживает фиксированный, хронологически упорядоченный кэш состояний путем избирательного слияния соседних малоинформативных состояний для контроля роста памяти с минимальной потерей информации. Мы предобучаем DLA на двух различных моделях линейного внимания и оцениваем на 16 наборах данных по трем категориям. Экспериментальные результаты демонстрируют превосходство DLA над современными подходами.
Экспрессивные политики непрерывного управления, такие как модели диффузии и потока, составляют основу недавних достижений в масштабировании имитационного обучения для управления симулированными и реальными роботами. Хотя известно, что они стабильно масштабируются в условиях обучения с учителем по имитации, их интеграция в конвейеры обучения с подкреплением (RL) для улучшения политик оказалась более сложной. Это часто требует специализированных целей обучения или обратного распространения через процессы шумоподавления, что вызывает известные проблемы со стабильностью и влияет на масштабируемость. В данной работе мы изучаем вопрос о том, могут ли простые схемы улучшения политик только на этапе тестирования, при сохранении стабильного обучения политик с учителем, стать конкурентоспособной альтернативой, позволяющей избежать этих проблем. С этой целью мы предлагаем QGF (Q-Guided Flow — поток, направляемый Q-функцией) — алгоритм RL, выполняющий оптимизацию политик исключительно на этапе тестирования. QGF работает путем предварительного обучения как эталонной потоковой политики (с помощью стандартной цели поведенческого клонирования), так и критика в виде функции ценности, а на этапе тестирования использует градиент ценности для направления эталонной политики на генерацию действий с более высокой ценностью без дополнительного обучения политики. Эмпирически QGF превосходит предыдущие методы RL для тестирования в автономных эталонных тестах RL с однозадачными и целенаправленными задачами, работающих с пространствами действий высокой размерности, и конкурирует с современными алгоритмами, обучаемыми в процессе тренировки, при этом значительно дешевле в исполнении. Кроме того, он демонстрирует благоприятное масштабирование с ростом размера модели за счет избегания нестабильности обучения актора-критика, предлагая практичную и эффективную альтернативу алгоритмам RL с экспрессивными политиками.
Мультимодальные большие языковые модели (MLLM) обычно наследуют глубокую симметричную архитектуру Transformer, предназначенную для одномодального моделирования текста, и применяют одни и те же вычисления одинаково к токенам изображений и языка. Такой дизайн игнорирует ключевую асимметрию модальностей: токены изображений и текста существенно различаются по информационной плотности, избыточности и требуемой глубине рассуждений. При послойном анализе LLaVA-1.5 мы наблюдаем, что визуальные токены имеют тенденцию к насыщению в средних слоях. В частности, внимание от текста к изображению снижается с 0,68 на слое 0 до 0,07 к слою 4 и стабилизируется около 0,04 после слоя 18, в то время как текстовые токены продолжают получать выгоду от глубокой семантической обработки. Эти результаты указывают на несоответствие между симметрией архитектуры и асинхронной по глубине эволюцией модальностей, что приводит к избыточным визуальным вычислениям и возможному дрейфу перцептивных представлений в процессе глубокой адаптации к конкретной задаче. Руководствуясь этим, мы предлагаем Dual-Path Vision Token Routing (DPVR) — асимметричную по модальностям маршрутизирующую структуру для эффективных MLLM. Её основная реализация, DPVR-LF (позднее слияние слоёв), направляет визуальные токены в точке насыщения в однослойную обучаемую боковую ветвь, выполняет тринадцатислойный прямой проход только для текста, пропуская позиции изображений в глубоком стеке, и повторно объединяет визуальный и текстовый потоки только на финальном слое. Приблизительно с 3% обучаемых параметров DPVR-LF сохраняет конкурентоспособную мультимодальную производительность на стандартных эталонных тестах, одновременно сокращая визуальные вычисления в глубоком стеке Transformer. Результаты ставят под сомнение традиционное предположение о том, что визуальные токены должны проходить через все глубокие слои языковой модели, и указывают на то, что одного позднего слоя слияния может быть достаточно для поддержания сильной перцептивной компетентности в MLLM в стиле LLaVA.
Растущий вид сбоя в оценке и обучении агентов заключается в том, что модели могут достигать высоких оценочных баллов, используя сокращённые пути вместо решения поставленной задачи, что приводит к обманчивой производительности. Это делает оценочные баллы ненадёжными в качестве меры истинной способности решать задачи. Мы предлагаем CapCode — фреймворк для построения наборов данных по кодированию со случайными тестами, чья максимально достижимая честная производительность намеренно ограничена ниже единицы. Такой дизайн с ограничением производительности даёт более ясную интерпретацию оценочных баллов: баллы, значительно превышающие ограничение, маловероятны и, следовательно, свидетельствуют о мошенничестве. Для предотвращения мошенничества мы предлагаем CapReward — дизайн вознаграждения, основанный на принципе CapCode, который препятствует оптимизации сверх ограничения. Эксперименты на нескольких наборах данных показывают, что CapCode выявляет мошенничество, сохраняя при этом ранжирование моделей по производительности, а CapReward снижает мошенническое поведение, приводя к моделям, которые лучше следуют заданной спецификации задачи.
Фундаментальные большие языковые модели (LLM) демонстрируют эффективность в широком спектре общих задач и достигают выдающихся результатов в различных специализированных задачах с помощью доменно-экспертных LLM. С постоянно растущим списком доступных LLM предлагаются маршрутизаторы вывода для выбора наиболее подходящей LLM для каждого запроса. Однако существующие методы маршрутизации либо оптимизируют стоимость между слабыми и сильными универсальными LLM, либо требуют значительного обучения для поддержки маршрутизации по доменной экспертизе. В данной работе мы предлагаем IR3DE — маршрутизатор на основе гребневой регрессии для доменных экспертов, который обеспечивает дешевые и быстрые решения по маршрутизации для каждого запроса. Мы оцениваем IR3DE в двух сценариях каузального языкового моделирования (CLM), где задачи — предсказание следующего токена для всех доменов, и в одном сценарии рассуждения, где каждый домен имеет свою собственную задачу рассуждения. Несмотря на то, что это линейный маршрутизатор, IR3DE достигает производительности, сопоставимой с другими базовыми методами в обоих сценариях CLM, и превосходит их в сценарии рассуждения, с нормализованной производительностью 98,4%. Более того, IR3DE позволяет добавлять или удалять новых доменных экспертов без необходимости переобучать маршрутизатор с нуля, что позволяет обслуживать динамический набор LLM с минимальными нарушениями работы самого маршрутизатора. Наш код доступен по адресу: github.com/gensyn-ai/IR3DE.
Обусловливание языковой модели дополнительным контекстом, например обратной связью по предыдущей попытке, обычно улучшает её ответ. Самодистилляция обучает модель сохранять это улучшение при отсутствии контекста. Метод работает путём согласования распределений выходных данных модели в двух режимах: ученик, который видит только вопрос, и самоучитель, который также видит контекст. Таким образом, то, чему модель обучается, зависит от того, какой контекст получает самоучитель, однако разработка этого контекста остаётся в значительной степени неизученной. Мы изучаем разработку контекста для самодистилляции, обучая решатель на обратной связи от замороженного критика. Мы сравниваем три условия: (i) бинарное вознаграждение (GRPO), (ii) эталонное решение и (iii) пошаговую критику, согласованную с цепочкой рассуждений решателя. Пошаговая критика даёт наибольший выигрыш, превосходя GRPO на 16,11 балла и самодистилляцию, обусловленную эталонным решением, на 5,27 балла (Avg@12). Потокенный анализ преимущества объясняет, почему это так: пошаговая обратная связь нацелена только на те токены, где рассуждение даёт сбой, оставляя корректное поведение нетронутым. Обусловливание эталонным решением, напротив, вынуждает модель изменять своё поведение на каждом токене (даже на правильных шагах), поскольку альтернативный вывод неизбежно отличается по формулировке и подходу. Это говорит о том, что структурное соответствие между обратной связью и рассуждением решателя является ключевым фактором эффективности самодистилляции.
Экспертная обратная связь от опытных исследователей критически важна для молодых ученых, стремящихся улучшить свои рукописи, однако высококачественная обратная связь часто остается дефицитной, поскольку рецензирование научных работ требует значительных трудозатрат. Появляющиеся ИИ-помощники для написания текстов в основном сосредоточены на исправлении грамматики или имитации рецензирования с итоговыми оценками, но не предоставляют конкретных, применимых на практике предложений, которые помогли бы студентам улучшать свои статьи в процессе написания. Мы представляем PaperMentor — человеко-ориентированную систему ассистента по написанию, которая предоставляет применимые на практике предложения в виде встроенных комментариев в Overleaf, оставляя само написание полностью за авторами-людьми. PaperMentor интегрирует библиотеку экспертных навыков, тщательно отобранных из советов признанных исследователей по написанию статей, с 12 специализированными агентами, охватывающими различные аспекты написания статей, такие как соблюдение требований к форматированию, точность формулировок и согласованность терминологии. В пользовательском исследовании (n=14) 90,6% сгенерированных комментариев были оценены как применимые на практике, а 67,5% — как валидные, что значительно превосходит базовую линию GPT-5.2 без библиотеки навыков. Мы выпускаем PaperMentor в виде открытого программного обеспечения для общего пользования. Наш код доступен под лицензией AGPL-3.0 по адресу https://github.com/jiarui-liu/overleaf.
Отказы в моделях многошаговых рассуждений в значительной степени невидимы при оценке по конечным показателям. Модель может закрепиться на небезопасной позиции в начале длительного диалога, но при этом её частота отказов на последнем шаге может быть неотличима от таковой у надёжно согласованного базового уровня. Чтобы выявить эту скрытую временную динамику, мы предлагаем трассовый диагностический подход — безопасностную матрицу 2×2 для ЦР-выход (CoT-Output). Эта структура помечает каждый ход по двум независимым осям (внутренние рассуждения и видимый выход), что даёт четыре операционально определённые категории сбоев: надёжное согласование, имитация согласованности, явный взлом и особый тип сбоя, который мы называем сбоем внедрения контекста (когда ЦР сохраняет безопасные рассуждения, но видимый выход порождает вред, что указывает на многошаговое проявление неверности рассуждений). Мы оцениваем три дистиллированные цели рассуждений в противостоянии с фиксированным атакующим при пяти условиях наблюдения, собрав 6750 наблюдений на уровне ходов в сценарии информационной угрозы. Наш анализ выявляет две воспроизводимые уязвимости: парадокс наблюдения, при котором явные сигналы мониторинга парадоксальным образом увеличивают частоту имитации согласованности, а не подавляют её, и сбой внедрения контекста, при котором модели закрепляются на небезопасных внешних выходах, несмотря на безопасные внутренние состояния. Мы публикуем полный набор данных многошаговых диалогов и трасс ЦР для поддержки последующих исследований в области трассовой диагностики.
Многогагентные системы (MAS) позволяют масштабировать рассуждения больших языковых моделей во время тестирования за счёт разложения сложных задач на параллельные подзадачи. Однако большинство существующих MAS опираются на централизованную оркестровку, где главный агент распределяет задания, собирает результаты и объединяет их. По мере роста числа подзадач такой контроллер превращается в узкое место коммуникации и интеграции. Мы предлагаем Децентрализованные языковые модели (DeLM) — архитектуру MAS, которая децентрализует координацию через параллельных агентов, общий верифицированный контекст и очередь задач. Агенты асинхронно берут подзадачи, читают накопленный прогресс, выполняют локальные рассуждения и записывают компактные верифицированные обновления. Общий контекст служит общей коммуникационной средой, позволяя агентам опираться на верифицированный прогресс друг друга без необходимости направлять каждое обновление через центральный контроллер. Эмпирически DeLM улучшает как масштабирование тестового времени в разработке ПО, так и рассуждения в длинных контекстах. На SWE-bench Verified DeLM достигает наилучших результатов по Avg.@1, Pass@2 и Pass@4 с приростом до 10,5 процентных пунктов по сравнению с самым сильным базовым методом, сокращая затраты на задачу примерно на 50%. На LongBench-v2 Multi-Doc QA DeLM достигает наивысшей средней точности среди четырёх семейств frontier-моделей, улучшая самый сильный базовый метод на величину до 5,7 процентных пунктов. Код доступен на нашем сайте проекта: https://yuzhenmao.github.io/DeLM/.
Безопасность больших языковых моделей (БЯМ) часто оценивается на уровне поведения, что даёт ограниченные свидетельства внутренней робастности, поскольку такие оценки нацелены на выходные данные, а не на уязвимость на уровне представлений при вмешательстве. Мы формализуем это несоответствие как **оценочный разрыв**: разницу между безопасностью поведения и робастностью при вмешательстве. Для изучения этого разрыва мы конструируем диссоциированные модели, которые сохраняют безопасное внешнее поведение, оставаясь уязвимыми в латентном пространстве. Мы вводим оценочную структуру на основе вмешательств для проверки робастности моделей с помощью мягких вмешательств в пространстве параметров и латентном пространстве, включая вредоносную тонкую настройку и послойные латентные возмущения. Для формализации оценки мы предлагаем **Показатель латентной уязвимости** (Latent Vulnerability Score, LVS), измеряющий, насколько легко можно вызвать вредоносное поведение с помощью ограниченных латентных возмущений. Используя эту оценочную структуру, мы показываем, что метрики поведенческой безопасности недостаточны для измерения робастности на уровне представлений для нескольких современных моделей с безопасной и небезопасной выравниванием. Примечательно, что диссоциированные модели демонстрируют существенно повышенные значения LVS, несмотря на сопоставимое поведение отказа при вредоносном вмешательстве, причём промежуточные представления оказываются наиболее чувствительными к вмешательству. Наши результаты свидетельствуют о том, что оценка только поведенческой безопасности даёт неполную картину робастности модели, что мотивирует к проведению аудитов с учётом латентной уязвимости и наблюдаемого поведения.
Авторегрессионные генераторы видео синтезируют длинные видеопоследовательности путем порождения последовательных временных сегментов, однако их исторический KV-кэш растет с длиной видео. Существующие методы с ограниченным кэшем уменьшают эту стоимость за счет использования локальных окон, токенов-приемников или сжатых состояний памяти, но обычно они назначают фиксированные роли различным частям истории. Мы предлагаем FadeMem — механизм консолидации KV-памяти, учитывающий расстояние, который организует исторические KV-блоки во временную иерархию при фиксированном бюджете кэша. Эта конструкция мотивирована частотно-зависимым временным затуханием: мелкие детали быстро декоррелируют, в то время как крупномасштабная структура сцены и идентичность объектов остаются полезными на более длинных горизонтах. В процессе генерации новая история вставляется как мелкозернистые записи, в то время как более старые соседние записи постепенно сливаются по степенному закону временного распределения, что дает в рамках одного кэша память с плотной ближней и разреженной дальней зонами. Без архитектурных изменений FadeMem сохраняет недавний контекст для краткосрочной динамики и компактные долгосрочные якоря для идентичности и согласованности сцены. Эксперименты показывают улучшенную согласованность объектов, стабильность фона и временную согласованность по сравнению с существующими стратегиями с ограниченным кэшем.
Обучение по множественным экземплярам (Multiple Instance Learning, MIL) решает задачи, в которых supervision доступен на уровне наборов экземпляров, и успешно применяется в таких областях, как вычислительная патология и спутниковая съёмка. Тем не менее, существующие алгоритмы плохо работают в режиме малого количества меток, который характерен для многих реальных приложений. Гибкие модели переобучаются, а жёсткие не способны адаптироваться к решаемой задаче. Мы показываем, что предварительное обучение контекстного обучаемого с архитектурой типа Perceiver на синтетических данных позволяет получить модель, способную решать новые задачи на основе нескольких размеченных наборов экземпляров. На этапе вывода классификация выполняется за один прямой проход и не требует обновления градиентов. Мы предлагаем и исследуем различные генераторы синтетических данных для данных, структурированных по наборам, и обнаруживаем, что они содержат взаимодополняющие индуктивные смещения. Модель, предварительно обученная на смеси таких генераторов, наследует их преимущества в каждой задаче и достигает наилучшей средней производительности на двенадцати эталонных тестах MIL, превосходя контролируемые базовые модели, требующие обучения под конкретную задачу.
Большие языковые модели (LLM) всё чаще участвуют в эмоционально чувствительных социальных разговорах, где ответы могут смещаться от сбалансированной поддержки к чрезмерному одобрению или эскалационному выравниванию. Существующие исследования сикофантии в основном сосредоточены на согласии с фактами и следовании инструкциям, оставляя культурно обусловленную конверсационную сикофантию малоизученной. Мы представляем BenSyc — первый бенчмарк для изучения конверсационной сикофантии в бенгальских социальных контекстах. Начиная с 11 840 постов Reddit и 170 тыс. комментариев, собранных из сообществ по всему Бангладеш и Западной Бенгалии, мы создаём верифицированный людьми бенчмарк с бинарными метками и детальной пятиуровневой таксономией, включающей инвалидацию, нейтральную позицию, поддержку, одобрение и эскалацию. Мы оцениваем более 15 открытых и проприетарных LLM на задачах классификации конверсационного выравнивания и генерации ответов. Результаты показывают, что различение эмпатической поддержки и ориентированного на подкрепление одобрения остаётся сложной задачей даже для передовых моделей, настроенных на инструкции: лучшая система достигает лишь 61,8 макро-F1 по бинарному обнаружению и 61,7 макро-F1 по классификации на пять классов. В условиях генерации несколько моделей часто выдают сильно одобрительные или эскалационные ответы в эмоционально заряженных ситуациях. Наши выводы подчёркивают существенные различия между семействами моделей и типами конверсационного поведения, underscoring the importance of culturally grounded multilingual benchmarks for evaluating socially aligned conversational AI systems.