Ежедневно отобранные исследовательские статьи по ИИ с переводами
Маршрутизатор является ключевым компонентом моделей смеси экспертов (MoE). Выступая в качестве прокси экспертов, строки матрицы маршрутизатора вычисляют свое сходство с входными данными MoE, чтобы определить, какое подмножество экспертов активируется. В идеале каждая строка маршрутизатора предназначена для кодирования матрицы эксперта в репрезентативный вектор, так чтобы ее скалярное произведение с токеном лучше отражало сродство токена и эксперта. Однако не существует принципов проектирования, обеспечивающих такое сжатие. В данной работе мы предлагаем выравнивать каждую строку маршрутизатора по главному сингулярному направлению соответствующего эксперта, поскольку это направление дает наиболее выразительное математическое описание матрицы. Основываясь на этом принципе, мы предлагаем перепроектирование маршрутизатора с помощью итерации степени на многообразии (Manifold Power Iteration, MPI). В частности, вводится парадигма «степенная итерация с последующей ретракцией» (Power-then-Retract), в которой сначала выполняется шаг степенной итерации для весов маршрутизатора, а затем ретракция для наложения ограничения нормы, что обеспечивает как эффективность, так и стабильность. Теоретически мы показываем, что MPI заставляет строки маршрутизатора сходиться к главным сингулярным направлениям соответствующих экспертов. Эмпирически мы предобучаем модель MoE в масштабах от 1B до 11B параметров, чтобы подтвердить, что такое выравнивание способствует созданию более эффективных моделей MoE.
Научный прогресс опирается на повторяющийся цикл исследования, экспериментирования и абстрагирования. Исследователи испытывают возможные направления, интерпретируют полученные данные и переносят вынесенные уроки в последующие попытки. Мы изучаем, как агент ИИ может автономно выполнять этот цикл на длительных временных горизонтах. Мы представляем Arbor — универсальную структуру для автономного исследования, объединяющую долгоживущего координатора, краткосрочных исполнителей и устойчивое дерево, связывающее гипотезы, артефакты, свидетельства и обобщённые выводы во времени, — а также метод уточнения дерева гипотез (Hypothesis Tree Refinement, HTR). Координатор управляет глобальной исследовательской стратегией в рамках этого дерева, в то время как исполнители реализуют и проверяют отдельные гипотезы в изолированных рабочих деревьях (worktrees). По мере поступления результатов Arbor обновляет дерево, распространяет повторно применимые уроки, уточняет границы поиска и принимает подтверждённые улучшения. Такая конструкция превращает автономное исследование из последовательности локальных попыток в накопительный процесс, в котором стратегия, выполнение и свидетельства переносятся во времени. Мы оцениваем Arbor в условиях автономной оптимизации (Autonomous Optimization, AO) — операциональной среде, где агент улучшает исходный исследовательский артефакт путём итеративного экспериментирования без пошагового контроля со стороны человека. На шести реальных исследовательских задачах в области обучения моделей, разработки обвязок (harness engineering) и синтеза данных Arbor достигает наилучшего результата на отложенной выборке по всем шести задачам, обеспечивая более чем 2,5-кратный средний относительный прирост на отложенной выборке по сравнению с Codex и Claude Code при том же интерфейсе задач и бюджете ресурсов. На MLE-Bench Lite Arbor достигает 86,36% Any Medal с GPT-5.5 — это самый высокий результат в нашем сравнении.
Среды выступают интерактивными системами для агентов на основе больших языковых моделей (LLM) в различных сценариях и играют ключевую роль в постоянном развитии возможностей моделей. Несмотря на эту важность, существующие работы лишены систематической категоризации и глубокого анализа. В данной статье систематически исследуются текущие исследования агентных сред с точки зрения жизненного цикла проектирования среды, охватывая их моделирование, синтез, оценку и применение. В частности, сначала представлены репрезентативные среды с позиций восьми атрибутов и восьми доменов, с подробным анализом траекторий их развития и выделением ключевых возможностей. Во-вторых, для автоматизированного синтеза сред описаны две парадигмы: символьный синтез и нейронный синтез. Также показаны различные методы оценки сред в каждой парадигме. В-третьих, рассмотрены соответствующие приложения сред с точки зрения совместной эволюции агента и среды. В частности, охарактеризованы основные пути эволюции агентов в динамических средах с четырех взаимодополняющих перспектив: эволюция опыта с акцентом на память, эволюция рабочих процессов с акцентом на оркестрацию, офлайн-эволюция на основе траекторий и онлайн-эволюция с акцентом на исследование. Выделены три парадигмы эволюции среды: нейронно-управляемая, управляемая сложностью и масштабируемая. Наконец, обсуждаются несколько перспективных будущих направлений, включая «Среду как услугу», многоагентные среды и нейронно-символьные среды.
Агенты общего назначения, такие как OpenClaw, все чаще используются как автономные пользователи инструментов, однако их способность к программированию трудно измерить в рамках SWE-bench: обычный агент сам по себе не удовлетворяет условиям чистого Docker-рабочего пространства, патча и контракта предсказаний, необходимым для оценки. Мы представляем Claw-SWE-Bench — многоязычный бенчмарк в стиле SWE-bench и протокол адаптера, который делает разнородные обвязки агентов, или claw-обвязки, сопоставимыми в условиях честных настроек, включая фиксированный промпт, бюджет времени выполнения, контракт рабочего пространства, процедуру извлечения патча и оценщик. Полный бенчмарк содержит 350 экземпляров решения проблем GitHub на 8 языках и 43 репозиториях, взятых из SWE-bench-Multilingual и SWE-bench-Verified-Mini после очистки от будущих коммитов. Мы также выпускаем Claw-SWE-Bench Lite для более быстрой валидации — подмножество из 80 экземпляров, отобранное с помощью процедуры, учитывающей затраты и ранжирование, по 17 калибровочным столбцам. На полном бенчмарке OpenClaw с минимальным адаптером прямого диффа (direct-diff) набирает лишь 19,1% Pass@1, тогда как полный адаптер достигает 73,4% с той же базовой моделью GLM 5.1, что показывает, что дизайн адаптера имеет решающее значение для того, чтобы обвязки стиля OpenClaw могли эффективно выполнять задачи программирования. При переборе OpenClaw по девяти моделям и переборе пяти claw-обвязок по двум моделям выбор модели меняет Pass@1 на 29,4 процентных пункта, а выбор обвязки — на 27,4 процентных пункта при фиксированных моделях; системы с похожей точностью могут существенно различаться по общей стоимости API. Таким образом, Claw-SWE-Bench рассматривает обвязку и учет затрат как первостепенные оси оценки агентов программирования в стиле SWE, предоставляя как полный бенчмарк, так и малозатратный эталонный набор для воспроизводимого сравнения. Данные доступны по адресам https://github.com/opensquilla/claw-swe-bench и https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
Модели вознаграждения играют ключевую роль в пост-тренировке моделей генерации изображений по текстовому описанию, однако визуальные предпочтения субъективны, и их лучше представлять в виде распределения по рубричным оценкам, а не в виде детерминированного скаляра. Существующие скалярные, токеновые и парные модели вознаграждения избыточно сжимают неопределенность и тонкие различия в оценках, в то время как основанные на рассуждениях генеративные вознаграждения обеспечивают более сильные суждения, но дороги в развертывании и сложны в использовании в качестве прямых оптимизационных сигналов. Мы предлагаем Z-Reward — фреймворк моделирования вознаграждения в парадигме «учитель-ученик», который разделяет требующие интенсивных рассуждений суждения и эффективное развертывание вознаграждения. Учитель представляет собой большую VLM, использующую рассуждения для вывода распределения оценок, согласованных с рубриками, и обучается с помощью групповой прямой оптимизации оценок (Group-wise Direct Score Optimization, GDSO), которая сочетает градиенты вознаграждения от ожиданий распределения с прямой точечной и парной супервизией по распределениям оценок и разрывам в оценках. Ученик обучается с помощью дистилляции оценок с интернализованными рассуждениями (Reasoning-Internalized Score Distillation, RISD), которая переносит обусловленное рассуждениями распределение оценок от учителя в компактную VLM без необходимости в явных цепочках рассуждений на этапе инференса. На нашем внутреннем аннотированном оценочном наборе учитель GDSO размером 27B достигает 89,6% точности по человеческим предпочтениям, превосходя SFT, RewardDance и GRPO, в то время как ученик RISD размером 9B достигает 88,6%, превосходя базовую линию OPD и почти не уступая более крупному учителю. Мы также показываем, что Z-Reward может служить дифференцируемым сигналом вознаграждения для оптимизации генерации изображений по тексту, обеспечивая чистое улучшение человеческих предпочтений на 41,3% по сравнению с базовой линией SFT.
Табличные энкодеры обычно оцениваются в рамках специализированных сквозных пайплайнов, что затрудняет прямое сравнение моделей из разных парадигм обучения, даже если они работают с аналогичными табличными сигналами. Мы представляем TRL-Bench — многогранулярный бенчмарк для обучения табличных представлений (TRL), который стандартизирует оценку представлений на межпарадигмальном уровне: каждый энкодер экспортирует эмбеддинги строк, столбцов или таблиц через поддерживаемую обёртку, а общие легковесные головки анализируют их в рамках трёх наборов задач: TRL-CTbench (столбцы/таблицы), TRL-Rbench (строки) и TRL-DLTE (композиционное обогащение таблиц из озера данных, охватывающее все три гранулярности). Для поддержки этого стандартизированного подхода мы публикуем подготовленные активы бенчмарка и переформулировки задач, включая 50 таблиц из OpenML со 123 верифицированными целевыми переменными, 16 перезаписей для связывания пар строк и озеро DLTE из 47 772 таблиц, полученное из 1 379 родительских таблиц. На 20 моделях и 16 задачах TRL-Bench показывает, что после стандартизации условий ниже по потоку качество энкодеров зависит от конкретной способности, а не определяется единым рейтингом. В TRL-CTbench универсальные текстовые энкодеры часто лидируют на задачах с сильным поверхностным текстовым сигналом, в то время как специализированные табличные энкодеры побеждают там, где их цель предобучения соответствует задаче. В TRL-Rbench прогнозирование внутри таблицы и связывание между таблицами требуют разных режимов обучения, причём производительность атомарного связывания сильно коррелирует с этапом сопоставления строк в пайплайнах DLTE. В TRL-DLTE наиболее сильные пайплайны комбинируют специалистов, подобранных по способностям, а не используют один энкодер, и лучшее сквозное качество зависит от неаддитивной композиционной согласованности, а не только от маргинального ранга на каждом этапе. TRL-Bench предоставляет общий протокол для измерения переносимого сигнала в экспортированных табличных представлениях при общих условиях ниже по потоку. Код и данные: https://github.com/LOGO-CUHKSZ/TRL-Bench
Пространственное рассуждение на основе эгоцентрических видео представляет собой сложную задачу, поскольку наблюдаемые данные ограничены траекторией камеры. Существующие методы полагаются на однократный вывод, вынуждая модели разрешать геометрическую неоднозначность с помощью семантических априорных предположений, а не проверяемых данных. Мы утверждаем, что пространственное рассуждение должно быть подлежащим пересмотру: выводы, сделанные на основе ограниченных данных, должны оставаться открытыми для корректировки при появлении дополнительных точек обзора. Основываясь на этой идее, мы предлагаем Reason, then Re-reason (ReRe) — бестренинговый подход на этапе вывода, состоящий из двух фаз: в фазе рассуждения (Reason Phase) MLLM формирует пространственную гипотезу на основе исходного видео; в фазе перерассуждения (Re-reason Phase) она проверяет или корректирует гипотезу, наблюдая синтезированное видео с новой точки обзора. Для эффективного пересмотра с изменённого ракурса мы разрабатываем конвейер Geometry-to-Video, который строит стратегически дополняющие новые виды на основе предсказанной 3D-геометрии. Эти виды отличаются приподнятым косым ракурсом с охватом всей сцены, сохраняя при этом нативный видеоинтерфейс MLLM без архитектурных модификаций. Обширные оценки на VSI-Bench и STI-Bench показывают, что ReRe существенно повышает производительность MLLM с открытым исходным кодом до уровня, сопоставимого с проприетарными моделями, достигшими современного уровня. Страница проекта: https://zhenjiemao.github.io/ReRe/
По мере того как возможности агентов кода на основе LLM продолжают расти, их ожидаемая роль расширяется за пределы локализованного исправления ошибок в существующих кодовых базах в сторону проектирования и реализации полных программных репозиториев на основе высокоуровневых спецификаций. Однако обучение агентов таким долгосрочным задачам программной инженерии остается сложным из-за нехватки крупномасштабных, проверяемых данных для генерации целых репозиториев. В данной статье мы представляем DeNovoSWE — крупномасштабный набор данных для генерации целых репозиториев. DeNovoSWE содержит 4 818 высококачественных экземпляров, каждый из которых требует генерации полного репозитория на основе документации. Наш набор данных автоматически создается с помощью тщательно спроектированного изолированного агентного рабочего процесса, что обеспечивает масштабируемую курацию без участия человека. DeNovoSWE построен на философии «разделяй и властвуй» и критик-восстановления. Для баланса качества и разнообразия данных мы дополнительно вводим стратегию фильтрации траекторий с учетом сложности. Тонкая настройка Qwen3-30B-A3B на DeNovoSWE существенно улучшает долгосрочную производительность SWE, повышая его показатель на сложном бенчмарке BeyondSWE-Doc2Repo с 5,8% до 47,2%.
Модели «Видение–Язык–Действие» (VLA) наследуют семантическую привязку от крупномасштабного предобучения и успешно справляются с задачами манипуляции в рамках внутридистрибутивного распределения. Однако эта привязка строится на статических парах изображение–текст, тогда как манипуляция представляет собой непрерывный, контактно-насыщенный процесс, динамику которого такое предобучение не способно уловить. Мы представляем World Pilot — фреймворк VLA, дополняющий политику априорными знаниями от модели «Мир–Действие» (WAM), которые направляются в цепочку принятия решений по двум взаимодополняющим путям. Латентное управление (Latent Steering) обуславливает слой восприятия латентным представлением эволюции сцены, а управление действием (Action Steering) предоставляет ожидаемую траекторию в качестве априорного движения генератору действий. Вместе две априорные информации наделяют VLA предвосхищающим представлением сцены и подсказкой о движении на уровне траектории в дополнение к семантическому обусловливанию. При этом априорная информация об эволюции сцены остаётся эффективной даже при подаче от предобученной на видео модели мира, не прошедшей пост-обучение на действиях. World Pilot достигает общего показателя успешности 84,7% на эталонной задаче zero-shot OOD для LIBERO-Plus и наивысшего показателя успешности во всех сценариях с реальными роботами для четырёх задач манипуляции, с наибольшими отрывами при изменениях точки обзора, геометрии, деформируемого состояния и позы. Веб-сайт проекта: https://world-pilot.github.io/
Трансформеры доминируют в современном моделировании последовательностей, однако их квадратичное внимание влечет значительные вычислительные затраты. Субквадратичные архитектуры предлагают масштабируемую альтернативу. Тем не менее, остается неясным, какие конструкции обеспечивают наиболее эффективные модели последовательностей. Мы сравниваем три ведущих подхода: xLSTM, Mamba-2 и Gated DeltaNet. Мы оцениваем эти модели на задачах со сложными зависимостями: (1) предобучение кодовых моделей, (2) дистилляция кодовых моделей из больших языковых моделей и (3) предобучение базовых моделей временных рядов. В этих условиях xLSTM демонстрирует наилучшую общую производительность. Чтобы объяснить преимущество xLSTM, мы представляем единую формулировку и анализируем лежащие в основе архитектурные механизмы, уделяя внимание отслеживанию состояния и динамике памяти. Наши результаты показывают, что xLSTM обеспечивает более гибкую и устойчивую коррекцию памяти благодаря своей схеме стробирования. Мы подтверждаем эти выводы на контролируемых синтетических задачах обобщения длины. В целом, наши результаты указывают на то, что преимущества xLSTM в сложных задачах обусловлены надежным отслеживанием состояния и накоплением.
Комбинаторика занимает центральное место в решении математических задач олимпиадного уровня, требуя глубоких дискретных рассуждений, творческих построений и строгого структурного понимания. Недавние данные свидетельствуют о том, что даже сильнейшие современные передовые модели демонстрируют неравномерные результаты в олимпиадной комбинаторике, что указывает на пробел в творческом математическом мышлении. Мы представляем ComBench — эталонный тест олимпиадного уровня по комбинаторике для оценки и диагностики комбинаторных рассуждений больших языковых моделей. ComBench содержит 100 задач соревновательного уровня, размеченных вручную, которые сгруппированы по двум взаимодополняющим категориям: задачи, ориентированные на анализ (требующие в первую очередь строгих математических обоснований), и задачи, ориентированные на конструирование (требующие явных построений в дополнение к обоснованию корректности). Протокол оценки сочетает рубрицированное оценивание доказательств с детерминированной верификацией конструкций, выявляя случаи расхождения между качеством доказательства и корректностью конструкции. Эксперименты на передовых моделях с открытым и закрытым исходным кодом показывают, что ComBench далёк от насыщения: сильнейшая модель достигает 65,4% общего среднего показателя и 75,3% общего Best@4. Кроме того, мы обнаруживаем, что строгое доказательное рассуждение и конструктивная реализация являются различными способностями: Kimi-K2.6 отстаёт от GPT-5.5 в рубрицированном оценивании доказательств для задач, ориентированных на анализ, но превосходит его по показателю Best@4 для задач, ориентированных на конструирование, в то время как задачи на существование и конструирование остаются неизменно наиболее сложными для всех типичных передовых моделей.
Недавний прогресс в области фундаментальных моделей сместился в сторону агентного поведения, включающего многошаговые рассуждения и использование инструментов. Однако усилия с открытым исходным кодом в основном сосредоточены на текстовых сценариях, оставляя долгосрочные мультимодальные задачи недостаточно изученными. Этот пробел особенно заметен в видео-задачах, требующих устойчивого временного понимания и итеративного взаимодействия. Мы представляем InternVideo3 — платформу, улучшающую эти возможности с помощью мультимодального контекстного рассуждения (MCR). MCR трактует понимание как замкнутый процесс над общим, эволюционирующим контекстом, содержащим наблюдения, инструкции, рассуждения, действия с инструментами и память. Это позволяет рассматривать понимание длинных видео как накопление и верификацию свидетельств. Для обеспечения эффективности мы вводим мультимодальное многоголовочное латентное внимание (M²LA) — репараметризацию с сохранением токенов, которая сжимает состояния KV-кэша, сохраняя полный поток токенов. Наше поэтапное обучение включает продолженное предобучение, контролируемую тонкую настройку от коротких к длинным последовательностям, обучение с подкреплением на основе правил и дистилляцию по текущей политике. Эксперименты показывают, что InternVideo3 достигает высоких результатов на таких бенчмарках, как Video-MME, MLVU и EgoSchema. Мы также реализуем модель в качестве видеоагента с инструментами поиска, демонстрируя устойчивое поведение, основанное на свидетельствах. Наши результаты показывают, что эффективная обработка контекста и замкнутые рассуждения имеют решающее значение для адаптации открытых мультимодальных моделей к долгосрочному визуально обоснованному агентному поведению.
Большие языковые модели (LLM) всё чаще используются для генерации кода, что вызывает опасения по поводу их возможного применения для создания вредоносного кода. В то же время декодирование с грамматическими ограничениями (GCD) широко применяется для повышения надёжности генерируемого LLM кода за счёт обеспечения синтаксической корректности. В данной статье мы выявляем парадоксальный риск: этот метод, ориентированный на надёжность, сам может стать поверхностью для атак. Мы описываем новую атаку взлома (jailbreak) под названием CodeSpear, которая использует GCD для того, чтобы заставить LLM генерировать вредоносный код. Наши эксперименты показывают, что простое применение ограничения на грамматику безвредного кода может эффективно взломать LLM. Для устранения этой уязвимости мы предлагаем CodeShield — подход к выравниванию безопасности, который надёжно сохраняет безопасное поведение даже при контролируемых атакующим грамматических ограничениях. CodeShield выравнивает модель в модальности кода, обучая её генерировать код-приманку (honeypot code) под GCD. Такой код семантически безвреден (не реализует вредоносный запрос) и структурно разнообразен, что затрудняет его подавление путём ужесточения грамматики. При этом CodeShield сохраняет отказы на естественном языке, когда он доступен. Эксперименты на 10 популярных LLM по 4 эталонным наборам данных показывают, что CodeSpear превосходит репрезентативные базовые методы взлома и увеличивает средний показатель успешности атаки более чем на 30 процентных пунктов. CodeShield, в свою очередь, восстанавливает безопасность при CodeSpear, сохраняя полезную функциональность для безвредных запросов. Наши результаты выявляют фундаментальный риск GCD и призывают к более пристальному вниманию к его потенциальным последствиям для безопасности.
Обучение с подкреплением (RL) стало ключевым компонентом современных больших языковых моделей, однако этап развертывания (rollout) остается основным узким местом в конвейерах обучения с подкреплением. Хотя предсказание нескольких токенов (Multi-Token Prediction, MTP) предлагает естественное решение для ускорения развертывания с помощью спекулятивного декодирования, многие исследования отмечают, что коэффициент принятия MTP значительно снижается во время RL-обучения, что приводит к ограниченному ускорению. Для решения этой проблемы мы представляем Bebop — систематическое исследование MTP в пост-обучении больших языковых моделей (LLM) и предлагаем практические рецепты интеграции MTP в крупномасштабные конвейеры обучения с подкреплением. Во-первых, мы показываем, что коэффициент принятия MTP фундаментально ограничен флуктуациями энтропии модели, что демонстрирует четкую отрицательную линейную зависимость с ростом энтропии на этапе RL. Во-вторых, мы показываем, что вероятностная выборка с отклонением (rejection sampling) в значительной степени снижает возмущения, вносимые энтропией в RL, по сравнению с жадным семплированием черновика. Кроме того, мы выявляем, что традиционные цели обучения MTP (кросс-энтропия или KL) являются субоптимальными в таких условиях, и поэтому мы предлагаем новую сквозную функцию потерь TV (полной вариации), которая напрямую оптимизирует коэффициент принятия многошаговой выборки с отклонением, что дает улучшение коэффициента принятия примерно на 10%, достигая до 95% коэффициента принятия и до 25% дополнительного прироста пропускной способности вывода в задачах математического рассуждения, генерации кода и агентных задачах. В-третьих, мы тестируем различные стратегии онлайн-обучения MTP во время RL и показываем, что предварительное обучение MTP до RL с использованием сквозных TV-потерь и выборки с отклонением обеспечивает стабильный коэффициент принятия и ускорение на протяжении всего RL, устраняя необходимость в дорогостоящем онлайн-обновлении MTP. Мы предоставляем обширные эксперименты и анализ, подтверждающие наши выводы. Результаты экспериментов показывают, что наш метод достигает до 1.8-кратного сквозного ускорения в асинхронном обучении с подкреплением моделей Qwen3.5, Qwen3.6 и Qwen3.7.
Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) является перспективным подходом для улучшения рассуждений и агентного поведения больших языковых моделей. Однако оптимизация политики с интенсивным развёртыванием часто ограничена недостаточной контрастностью вознаграждений, возникающей, когда чрезмерно простые или сложные промпты генерируют обратную связь с низкой дисперсией, а также когда вознаграждения, основанные только на конечных результатах, присваивают одинаковую терминальную оценку каждому решению в многошаговом развёртывании. Предыдущие усилия были сосредоточены на распределении доступных ресурсов развёртывания по перспективным промптам, однако они учитывают информативность выборки только на уровне промпта и игнорируют вариативность информативности на уровне префиксов между шагами внутри одного и того же развёртывания. Данная работа направлена на многошаговое агентное RL путём моделирования каждого шага "мысль-действие-наблюдение" в стиле ReAct как семантически отдельного узла, что позволяет распространить распределение бюджета с корневых промптов на префиксы на уровне шагов с последующими продолжениями, естественным образом формируя древовидные развёртывания. Мы представляем TRACE (Tree Rollout Allocation for Contrastive Exploration) — единую структуру распределения развёртываний, которая улучшает контрастность вознаграждений в рамках фиксированного бюджета выборки. Технически TRACE выделяет бюджет развёртывания как корневым промптам, так и промежуточным префиксам, которые с наибольшей вероятностью приведут к смешанным терминальным вознаграждениям. Общий обобщаемый предиктор оценивает условную вероятность успеха в этих опорных точках на основе истории префиксов, направляя распределение. Полученная адаптивная древовидная структура обогащает обратную связь, основанную только на конечных результатах, и усиливает сигнал обновления политики. Эмпирически TRACE достигает конкурентоспособной производительности и выигрыша в эффективности на типичных агентных бенчмарках, например, повышая среднюю точность Qwen3-14B на Multi-Hop QA на 2,8 пункта по сравнению с сильными базовыми линиями при равной стоимости выборки.
Модели зрения-языка (VLM) проецируют изображения в сотни-тысячи визуальных токенов, что делает вывод декодера дорогостоящим как с точки зрения вычислений внимания, так и памяти KV-кэша. Существующие методы сокращения визуальных токенов в основном следуют парадигме «ранжировать и удалить»: они оценивают визуальные токены, сохраняют компактное подмножество и безвозвратно отбрасывают остальные. Мы показываем, что это необратимое действие является хрупким, поскольку важность визуальных токенов меняется по глубине декодера; токены, имеющие низкий ранг на одном этапе, могут стать актуальными на более поздних слоях, особенно для чувствительных к привязке запросов. Мы предлагаем Reroute — плагин без обучения, заменяющий удаление восстанавливаемой маршрутизацией. На каждом этапе маршрутизации выбранные визуальные токены проходят через блоки декодера, в то время как отложенные токены пропускают этот этап и повторно входят в пул кандидатов на следующем этапе принятия решения о маршрутизации. Reroute повторно использует существующие правила ранжирования по оценкам внимания и поэтапные расписания, сохраняя теоретический класс TFLOPs и бюджета KV-кэша того метода сокращения, который он дополняет. В вариантах FastV, PDrop и Nüwa на базовых моделях LLaVA-1.5 и Qwen Reroute улучшает привязку при агрессивном сокращении токенов, сохраняя при этом общую производительность VQA. Эти результаты показывают, что сокращение визуальных токенов VLM не следует рассматривать только как необратимое уменьшение, но и как восстанавливаемую маршрутизацию. Код можно найти здесь: https://github.com/elmma/mllm-reroute/
Поиск интерпретируемых направлений в представлениях языковых моделей имеет решающее значение для понимания и контроля их поведения. Разреженные автоэнкодеры (SAE) стали стандартным инструментом для этой цели, но их использование в качестве первого подхода по умолчанию часто требует обучения, хранения и оценки больших словарей с избыточной полнотой. Это узкое место ограничивает быстрые исследования и поднимает фундаментальный вопрос: сколько интерпретируемой структуры уже видно из геометрии активаций до обучения очередного нейронного словаря? Наша интуиция проста: многие интерпретируемые направления избирательны по отношению к токенам, и такие направления должны выглядеть менее гауссовыми, чем случайные. Поэтому мы возвращаемся к независимому компонентному анализу (ICA) — классическому методу поиска негауссовых направлений — как к компактному инструменту для интерпретируемости языковых моделей. Мы обнаружили, что ICA недооценен для интерпретируемости LLM, поскольку предыдущие применения часто опирались на готовые реализации ICA, которые нестабильны на активациях LLM и не имели систематических инструментов для проверки и оценки восстановленных направлений. Чтобы устранить эти пробелы, мы представляем ICALens — первый практический рабочий процесс для стабильного, эффективного и проверяемого ICA-анализа представлений LLM. Он сочетает оптимизированный конвейер GPU-параллельного FastICA со стабильностью, специфичной для LLM, и улучшенными диагностическими метриками подгонки, что позволяет проводить эффективный и надежный послойный анализ. На GPT-2 Small, Gemma 2 2B и Qwen 3.5 2B Base ICALens эффективно восстанавливает компактные, интерпретируемые человеком направления без градиентного обучения словарей для каждого слоя. В SAEBench ICA конкурентоспособен с публичными SAE в задаче разреженного пробирования и превосходит их в целевом возмущении пробирования при малых и средних бюджетах. Эти результаты показывают, что ICA не следует рассматривать как слабый базовый метод, а скорее как эффективный и дополняющий первый инструмент для исследования представлений языковых моделей.
Автономное обучение LLM часто рассматривается как поиск рецептов, что оставляет обучающую обвязку в значительной степени статичной. Это ограничение становится особенно заметным в агентном RL, где сдвигающиеся узкие места и скалярные вознаграждения маскируют разнообразные режимы отказа. Мы представляем EvoTrainer — автономную обучающую framework, которая совместно эволюционирует политики LLM и обучающие обвязки на основе эмпирической обратной связи: она диагностирует evidence на уровне разверток, пересматривает диагностики, проводит бэктестинг вмешательств и накапливает повторно используемые навыки. Оценённый на задачах математического рассуждения, генерации кода для соревновательного программирования и разработки программного обеспечения на уровне репозиториев, EvoTrainer достигает или превосходит человеческие эталонные RL-подходы при одинаковых данных, кодовой базе и протоколе оценки, при этом наибольший прирост наблюдается в долгосрочной агентной разработке ПО. Анализ траекторий показывает, что сохраняемые стратегии расходятся между доменами, развивающиеся диагностики предотвращают продвижение невалидных высокооцененных ветвей, а повторно используемые навыки формируют последующий поиск. Автономное RL для LLM должно выйти за рамки поиска рецептов в сторону совместной эволюции политик и обучающих обвязок, которые их интерпретируют.
Мы представляем Embodied-R1.5 — объединенную фундаментальную модель для воплощенного ИИ (EFM), интегрирующую всесторонние способности к рассуждению в воплощенном контексте, включая воплощенное познание, планирование задач, коррекцию и указание, в единой архитектуре, нацеленной на общий физический интеллект. Используя три автоматизированных конвейера построения данных для значительного расширения охвата данных по критически важным способностям, мы создали крупномасштабную систему данных объемом более 15 млрд токенов и разработали рецепт многозадачного сбалансированного обучения с подкреплением (RL) для разрешения конфликтов между разнородными задачами. Мы также представляем замкнутую структуру Planner-Grounder-Corrector (PGC), позволяющую единой модели автономно выполнять и самокорректировать долгосрочные задачи. Имея всего 8 млрд параметров, Embodied-R1.5 достигает современного уровня (SOTA) на 16 из 24 тестов VLM для воплощенного ИИ, превосходя ведущие модели, такие как Gemini-Robotics-ER-1.5 и GPT-5.4. Благодаря интернализованным способностям воплощенного ИИ, Embodied-R1.5 может быть дообучена до модели типа VLA на лишь небольшом объеме данных, превосходя ведущие VLA-модели, такие как π_{0.5}, на 4 популярных наборах тестов для манипуляций. Мы также провели обширные эксперименты с реальным роботом в режиме zero-shot, подтвердив производительность в следовании инструкциям, заземлении аффордансов, манипуляции сочлененными объектами и долгосрочных сложных задачах, демонстрируя сильную обобщаемость на физический мир. Мы открываем исходный код весов модели, наборов данных, кода обучения и EmbodiedEvalKit — оценочного фреймворка, адаптированного для задач воплощенного ИИ, чтобы способствовать будущим исследованиям в области EFM.
Обучение с подкреплением (RL) с использованием верифицируемых сред стало мощным подходом для улучшения способностей к рассуждению больших языковых моделей (БЯМ). Хотя предыдущие исследования показывают, что масштабирование количества сред улучшает производительность RL, существующие ручные или индивидуальные методы построения страдают от ограничений линейного масштабирования, что препятствует масштабируемому обобщению рассуждений. В этой статье представлен RACES (Recursive Automated Composition for Environment Scaling) — фреймворк, который рассматривает верифицируемые среды как составляемые строительные блоки, которые можно рекурсивно собирать. Ключевая идея заключается в том, что когда кодомен (тип вывода) одной среды совпадает с доменом (типом ввода) другой, они могут быть автоматически объединены в новую верифицируемую среду, что обеспечивает рекурсивную композицию. RACES реализован с использованием 300 индивидуальных сред и определяет набор операторов композиции (SEQUENTIAL, PARALLEL, SORT и SELECT), которые порождают разнообразные паттерны рассуждений. Обширные эксперименты показывают, что обучение RL на этих составных средах последовательно улучшает обобщение рассуждений. В частности, RACES улучшает показатели DeepSeek-R1-Distill-Qwen-14B в среднем на 3,1 пункта (с 48,2 до 51,3) и повышает производительность Qwen3-14B с 58,8 до 61,1 на шести бенчмарках, которые не использовались при построении обучающих сред. Более того, RACES достигает производительности, сопоставимой с обучением на 300 индивидуальных средах, используя всего 50 базовых сред, что демонстрирует значительную эффективность использования сред.
Предварительно обученные генераторы видео являются перспективными моделями визуального мира, демонстрирующими эмерджентные способности к решению задач; однако их зависимость от подробных текстовых описаний ограничивает их прямое использование для планирования и принятия решений. Существующие подходы либо делегируют это рассуждение языковым или зрительно-языковым моделям, либо полагаются на контролируемую донастройку с парными видео выполнения задач, что дорого в сборе и трудно масштабируется. Мы предлагаем масштабируемую структуру, которая извлекает способность к решению задач в таких моделях путем сочетания самодистилляции с обучением с подкреплением. Имея немаркированное изображение сцены, зрительно-языковая модель генерирует кандидатную задачу и подробное пошаговое решение. Решение управляет предварительно обученной моделью диффузии видео — Демонстратором; мы дистиллируем его поведение в Исполнителя, управляемого только изображением и кратким описанием задачи. Это переносит знания выполнения от генерации, управляемой подписями, к решению задач по инструкции без специально подобранного контроля задач-видео. Мы дополнительно улучшаем Исполнителя с помощью обучения с подкреплением на основе обратной связи от VLM, используя асимметрию между оценкой того, удовлетворяет ли выбранное видео задаче, и генерацией решения. Эксперименты на нашем предложенном бенчмарке WorldTasks и робототехническом бенчмарке DreamGen показывают, что Исполнитель превосходит Демонстратора по нашему протоколу оценки на основе VLM и конкурентоспособно переносится на робототехнические задачи.
Конвейерный параллелизм необходим для обучения больших нейронных сетей, однако существующие схемы требуют компромисса между пропускной способностью, памятью и согласованностью оптимизации. Синхронные конвейеры сохраняют согласованность весов между прямым и обратным проходами, но страдают от пузырей; асинхронные конвейеры устраняют пузыри, но вводят несоответствие версий весов, что обычно требует механизмов кэширования весов, предсказания или коррекции. Мы представляем PACI (Асинхронное обучение конвейера с контролируемой несогласованностью) — метод асинхронного конвейера без пузырей, который ограничивает дрейф версий между прямым и обратным проходами без кэширования весов, предсказания, дополнительных копий параметров или глобальной синхронизации. Ключевая идея заключается в использовании локального накопления градиентов в качестве механизма контроля версий: замедляя эволюцию версий параметров относительно задержки конвейера, PACI ограничивает количество обновлений оптимизатора, проходимых любым микробатчем, сохраняя при этом использование в установившемся режиме. При предобучении языковых моделей в стиле GPT PACI соответствует стабильности и конечной перплексии синхронного 1F1B-flush, сохраняет тот же пиковый объем памяти, достигает полного использования пропускной способности конвейера и улучшает время обучения до достижения точности до 1,69 раза по сравнению с самым быстрым базовым методом сброса. Эти результаты показывают, что несогласованность между прямым и обратным проходами не обязательно устранять: при явном ограничении ее можно безопасно обменять на значительный выигрыш в эффективности.
Модели диффузии последовательно обеспечивали прогресс в генерации изображений по текстовому описанию. Однако сложно приписать недавние достижения конкретным моделированию и выбору данных: современные модели с открытыми весами предоставляют ограниченные абляции и не раскрывают свои обучающие данные и подробности обучения. Научному сообществу необходимы полностью открытые (веса, данные и код) модели в качестве основы для дальнейших исследований; однако существующие полностью открытые модели все еще значительно уступают ведущим моделям по производительности. В этом проекте мы проводим систематическое исследование выбора моделей и дизайна данных в обучении и инференсе диффузионных моделей для генерации изображений по тексту, проведя более 300 контролируемых экспериментов, суммарно потребовавших свыше 700 000 часов TPU v6e. Наши эксперименты выявляют несколько эмпирических результатов (например, равное взвешивание является хорошим выбором по умолчанию для смешивания курируемых наборов данных) и простых проектных решений (например, более крупные адаптеры текстового энкодера улучшают производительность с минимальным добавлением параметров) для обучения сильных моделей. Руководствуясь этими выводами, мы обучаем i1 — диффузионную модель генерации изображений по тексту с 3B параметров, используя только общедоступные наборы данных. i1 конкурентоспособна с ведущими моделями на пяти репрезентативных бенчмарках (GenEval, DPG, PRISM, CVTG-2K и LongText) и превосходит лучшую существующую полностью открытую модель в среднем на 29,5 абсолютных процентных пунктов. Мы предоставляем чекпоинты i1, код обучения и инференса, а также пайплайн обработки данных. В совокупности наши результаты и рецепт i1 создают практическую основу для будущих открытых исследований в области диффузионных моделей генерации изображений по тексту. Наш код доступен по адресу https://github.com/zlab-princeton/i1.
Агенты, использующие компьютер (CUA), полагаются на визуальные наблюдения графических пользовательских интерфейсов, где каждый снимок экрана кодируется в большое количество визуальных токенов. По мере увеличения траекторий взаимодействия затраты на токены быстро растут, ограничивая объем истории, который может быть включен при фиксированном контексте и вычислительных бюджетах. В отличие от других областей, это привело к отсутствию или очень ограниченному улучшению производительности при использовании истории. Мы решаем эту проблему неэффективности, внедряя ReVision, который используется для обучения мультимодальных языковых моделей на траекториях, где избыточные визуальные патчи удаляются с помощью обученного селектора патчей, сравнивающего представления патчей на последовательных снимках экрана, сохраняя при этом пространственную структуру, необходимую модели. На трех бенчмарках — OSWorld, WebTailBench и AgentNetBench — при обработке траекторий с 5 историческими снимками экрана с использованием Qwen2.5-VL-7B, ReVision сокращает использование токенов в среднем на 46%, одновременно повышая успешность на 3% по сравнению с базовым уровнем без удаления. Это обеспечивает четкое повышение эффективности, позволяя агентам обрабатывать более длинные траектории с меньшим количеством токенов. Благодаря этой повышенной эффективности мы пересматриваем роль истории в CUA и обнаруживаем, что производительность продолжает улучшаться по мере включения большего количества прошлых наблюдений при удалении избыточности.
Навыки агентов предоставляют легковесный механизм для расширения универсальных агентов, но их открытый формат делает их уязвимыми для атак отравления навыков. Практически опасная инъекция должна оставаться незаметной: если выполнение полезной нагрузки нарушает легитимную задачу пользователя, возникающий сигнал сбоя побуждает к проверке навыка. Поэтому мы оцениваем атаки по коэффициенту успешности атак (Attack Success Rate, ASR), который требует, чтобы внедренная полезная нагрузка выполнилась, а задача пользователя всё ещё прошла проверку в том же испытании. Ранее известные атаки отравления навыков сталкиваются с компромиссом между надёжностью и скрытностью: инъекции в заголовки YAML надёжно загружаются, но легко проверяются, тогда как более скрытные инъекции в тело, размещающие явные вредоносные команды в тексте навыка, менее надёжны, поскольку команды вне контекста вызывают подозрения у самого агента. Мы представляем POISE — атаку, учитывающую позицию, которая сжимает триггер в одну внешне безобидную инструкцию в теле, размещая её на подходящей позиции и используя контекстно-зависимый генератор для слияния с соседними шагами настройки или предварительными условиями. На наборе Skill-Inject с моделью codex+gpt-5.2 POISE достигает ASR в 89,3%, что на 28,0 пункта выше базового уровня случайного размещения в теле и на 2,6 пункта выше базового уровня с использованием только YAML, сохраняя при этом преимущество скрытности размещения в теле. Эта скрытность является решающим преимуществом: поскольку легитимные тела навыков естественным образом требуют привилегированных операций с инструментами, сканеры LLM чрезвычайно чувствительны, давая ложные срабатывания в среднем на 74,6% чистых навыков по четырём оценщикам и обоим наборам данных. Сливаясь с этими ложными тревогами, POISE приводит к тому, что только 5,6% отравленных вариантов получают новое предупреждение высокого риска по сравнению с их чистыми базовыми версиями, что делает текущие статические защиты неэффективными.
Прогнозирование остаточного срока полезной службы (RUL) является важнейшей задачей для промышленного предиктивного обслуживания, однако многие подходы, основанные на обучении, требуют обширного проектирования признаков или больших размеченных наборов данных для обучения моделей последовательностей, специфичных для конкретной задачи. В данной работе мы представляем легковесный подход к обучению, в котором используем замороженную предобученную фундаментальную модель временных рядов (TSFM) и объединяем её с небольшим регрессионным модулем для оценки RUL на основе многомерных потоков данных с датчиков. Более конкретно, мы используем Chronos-2 в качестве замороженного бэкбона для извлечения признаков контекстного окна и обучаем легковесную регрессионную нейронную сеть для прогнозирования RUL. Эксперименты на реальных промышленных данных с датчиков двух типов устройств показывают, что признаки Chronos-2 последовательно превосходят рекуррентные, сверточные, трансформерные базовые линии и базовые линии на градиентном бустинге при одинаковом протоколе предобработки и оценки. Мы также анализируем влияние длины контекста и обнаруживаем, что производительность значительно улучшается с более длинными историями, что указывает на то, что представления TSFM являются практичной и эффективной с точки зрения данных альтернативой для оценки RUL в промышленных условиях.
Многие современные модели «зрение-язык» (VLM) основаны на авторегрессионном декодировании дискретных токенов. Хотя текстовые интерфейсы вывода позволяют осуществлять масштабируемое предварительное обучение и обобщение zero-shot для разнообразных задач, они плохо подходят для задач, требующих точных непрерывных выходных данных, таких как локализация временных границ событий или генерация управляющих действий для роботов. Для решения этой проблемы мы предлагаем DRIFT — общую структуру для адаптации предварительно обученных VLM к задачам непрерывного декодирования. DRIFT объединяет базовый предсказатель, дающий грубую оценку целевого выхода, с генеративным модулем уточнения на основе потока (flow matching), который итеративно улучшает предсказание. Эта остаточная формулировка преобразует задачу генеративного моделирования из обучения глобальному распределению выходов в моделирование локализованного остаточного распределения вокруг сильного априорного распределения, что существенно упрощает оптимизацию. Мы оцениваем DRIFT на задачах восприятия и планирования, включая визуальное привязывание и управление роботами. На нескольких задачах и архитектурах, охватывающих MLLM, VLA и WAM, DRIFT последовательно превосходит сильные решения на основе регрессии и генеративного моделирования.
Существует два основных метода параметроэффективной тонкой настройки (PEFT) для больших языковых моделей (LLM). В то время как низкоранговая адаптация (LoRA) вводит дополнительные веса между слоями LLM, мягкое подсказывание (Soft Prompting) добавляет в входные данные LLM дополнительные сырые токены, специфичные для задачи тонкой настройки. Однако оба метода требуют модификации вычислительных графов предварительно скомпилированных и оптимизированных LLM. В результате ни один из них не получает полной поддержки в высокопроизводительных движках, таких как vLLM. Мы предлагаем тонкую настройку с помощью ART (тренировка на основе искусства и подкрепления). Этот метод внедряет информацию в замороженную мультимодальную большую языковую модель (MLLM) путем оптимизации только её сырого визуального входа, тем самым реализуя подход мягких токенов на предварительно скомпилированных вычислительных графах. Он основан на обратном распространении градиентов обратно в простой массив пикселей и, следовательно, поддерживает любую целевую функцию тонкой настройки. Более того, оптимизированный визуальный вход может быть стилизован как вычислительные произведения искусства, релевантные задаче. Эффективность подхода подтверждена для разных размеров популярной открытой архитектуры Qwen и для нескольких текстовых бенчмарков. В частности, ART достигает точности, сопоставимой с LoRA, в задачах математики и структурированного использования инструментов.
Предыдущие работы показали, что большие языковые модели (LLM), настроенные на выполнение инструкций, калиброваны хуже, чем их базовые предобученные аналоги. Однако мало что известно о влиянии часто используемого шаблона чата на калибровку диалоговых LLM. В данной работе мы исследуем механизмы, вызывающие эту расстройку калибровки, разделяя эффекты алгоритма пост-обучения и формата чата. Мы обнаруживаем, что хотя настройка на инструкции фундаментально ухудшает калибровку, шаблон чата усугубляет проблему через «предвзятость принадлежности» — модели значительно более уверены в своих собственных ответах, чем в идентичных ответах, предоставленных пользователем. Обширные эксперименты с шестью недавними LLM с открытыми весами, тремя бенчмарками и тремя методами извлечения уверенности показывают, что модели присваивают до 26% более высокую уверенность своим собственным ответам. Используя это понимание, мы предлагаем простую стратегию на этапе инференса: представление ответа модели как ввода пользователя во время извлечения уверенности. Этот подход значительно снижает излишнюю самоуверенность и улучшает калибровку до 26% без необходимости переобучения, сокращая разрыв между базовыми и настроенными на инструкции моделями.
Большие языковые модели (LLM) открывают новые возможности для задач перевода, однако часто демонстрируют снижение производительности при работе с низкоресурсными языками. Для преодоления этого ограничения мы предлагаем подход к дообучению (fine-tuning) LLM на низкоресурсном языке — купангском малайском. Наш подход включает разработку набора инструкций с использованием явных лексических и семантических признаков из двуязычного словаря, а также внедрение Continual Instruction Tuning (CIT) — парадигмы обучения, позволяющей проводить итеративное обучение на основе инструкций. Экспериментальные результаты показывают, что наша модель, названная Lius, достигает значительных улучшений по сравнению со стандартными моделями, настроенными на инструкции, превосходя их на 4–6 баллов, а также опережает как модели нейронного машинного перевода (NMT), так и многоязычные LLM на 10–13 баллов по нескольким метрикам оценки. Эти результаты подчеркивают потенциал нашего подхода для снижения зависимости от крупномасштабных параллельных данных при переводе низкоресурсных языков.
Большие языковые модели (LLM) широко используются для решения сложных задач в автономных рабочих процессах. В последнее время повторно используемые навыки на естественном языке стали популярным способом внедрения процедурных знаний в приложения на основе LLM. Поскольку востребованные навыки часто вызываются повторно, размещение их полного текста в каждом контексте значительно увеличивает стоимость предварительной обработки и задержку. Хотя методы сжатия текста потенциально могут решить эту проблему, большинство существующих подходов предназначены для сжатия фактических знаний в документах, а не процедурных знаний, что делает их непригодными для сжатия навыков. В этой статье мы утверждаем, что эффективный метод сжатия навыков должен: 1) сохранять логические зависимости между рабочими процессами и протоколами инструментов, 2) обеспечивать легковесное автономное сжатие для часто обновляемых навыков сообщества и 3) быть адаптируемым к различной сложности навыков. Для решения этой задачи мы представляем SKIM (SKIll coMpression) — адаптивную многомасштабную структуру сжатия мягких токенов для процедурных навыков. В зависимости от сложности каждого навыка SKIM создает различное количество мягких токенов, что не только повышает эффективность вывода LLM, но и сохраняет эффективность использования навыков. Эксперименты показывают, что SKIM сжимает навыки до 30–60% их исходной длины токенов, при этом лучше сохраняя производительность задач по сравнению с существующими методами сжатия. Мы опубликовали наш код по адресу: https://github.com/bebr2/SKIM.
Понимание и прогнозирование эволюции социальных убеждений в ответ на события — от изменений в политике до научных прорывов — остается фундаментальной задачей социальных наук. Учитывая, что большие языковые модели (LLM) обладают знаниями здравого смысла и социальным интеллектом, мы задаемся вопросом: могут ли LLM моделировать динамику социальных убеждений после социальных событий? В данной работе мы вводим концепцию Модели социального мира (Social World Model, SWM) — общую структуру, предназначенную для того, чтобы отражать, как социальные убеждения эволюционируют под влиянием значимых событий. SWM изучает функции перехода состояний для социальных убеждений путем анализа временных закономерностей в социальных данных и оптимизации нижней границы правдоподобия, не требуя явных человеческих аннотаций, связывающих события с изменениями убеждений, или дорогостоящих данных переписи. Для оценки SWM мы представляем эталонный набор данных SWM-bench, созданный на основе реальных рынков прогнозов, а именно Kalshi и Polymarket. SWM-bench включает более 12 тысяч точек данных для задач прогнозирования социальных убеждений в различных областях, таких как политика, финансы и криптовалюта. Наши экспериментальные результаты показывают, что SWM значительно превосходит фундаментальные модели временных рядов, достигая передовых результатов на данных Kalshi и демонстрируя конкурентоспособную производительность на данных Polymarket, одновременно предоставляя интерпретируемые сведения о базовых механизмах динамики социальных убеждений.
Большие языковые модели (LLM) набирают популярность для ускорения научных открытий, в последнее время — в таких сложных задачах, как генерация обоснованных научных гипотез. Однако во многих контекстах открытия цель заключается не в выявлении единственной наилучшей гипотезы, поскольку валидация может быть зашумленной и дорогостоящей, и ученые выигрывают от набора высококачественных альтернативных гипотез, которые обеспечивают защиту от неопределенности на последующих этапах поиска наилучших решений. Тем не менее, широко используемые рецепты эволюционного поиска, как правило, отдают приоритет оптимизации над исследованием при генерации гипотез, и возникающее в результате давление отбора в процессе поиска приводит к коллапсу разнообразия. Руководствуясь этими ограничениями, мы формулируем поиск гипотез как задачу выборки, цель которой — эффективно генерировать разнообразные, высококачественные гипотезы при фиксированном бюджете валидации. Основываясь на этой перспективе, мы предлагаем \ours — эволюционный фреймворк, вдохновленный классическим алгоритмом параллельного отжига, который ищет гипотезы на нескольких температурных уровнях и обеспечивает принципиальный обмен информацией между температурами для улучшения исследования без нарушения сходимости. В различных областях, включая открытие молекул, открытие уравнений и открытие алгоритмов, наш подход последовательно улучшает как качество, так и разнообразие гипотез при том же бюджете валидации, и создает кандидатов, остающихся устойчивыми при более дорогостоящих последующих вычислительных валидациях.
Универсальные фундаментальные модели временных рядов плохо переносятся на телеметрию беспроводных сетей, сигналы которой отличаются импульсностью, избыточностью нулей и взаимосвязью на разных уровнях протокола. Мы представляем APEX — сетевой трансформер только с декодером для прогнозирования телеметрии корпоративных точек доступа (AP) и оцениваем его на задаче деградации DHCP как репрезентативной сетевой задаче. APEX предварительно обучен на 10-канальной многомерной телеметрии от ~4 500 производственных беспроводных сетей (~100 000 временных рядов AP, 34 метрики на AP) и доступен в версиях APEX-Large (269M, облако) и APEX-Edge (10,5M, периферия). На эталонном тесте деградации DHCP длительностью 192 шага (4 дня) APEX-Large снижает MAE на 18% по сравнению с наиболее сильным фундаментальным базовым решением (Toto) и на 38% по сравнению с SARIMA, достигая F1 для обнаружения аномалий = 0,93, тогда как APEX-Edge обеспечивает субсекундный вывод с сохранением конфиденциальности на периферийном оборудовании класса AP. Эти результаты свидетельствуют о том, что сетевое предварительное обучение является практической основой для проактивного управления беспроводными сетями.
По мере того как рекомендательные системы переходят к агентным, многошаговым диалоговым интерфейсам, парадигмы оценки с трудом успевают за этими изменениями. Современные бенчмарки часто полагаются на оценки «LLM-в-роли-судьи», что вносит субъективность, высокие затраты и несоответствие результатов. Мы представляем τ-Rec — бенчмарк для агентных рекомендательных систем, заменяющий субъективную оценку на верифицируемые вознаграждения и механизм раскрытия-тегирования (RTE), который контролирует, как ограничения задачи проявляются в ходе диалога. Проверяя агентов на соответствие структурированным предикатам каталога и используя метрику надёжности pass^k, τ-Rec обеспечивает систематическое тестирование последовательности рассуждений. Оценка девяти конфигураций в пяти семействах моделей — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B и GPT-5 mini — выявила крутой обрыв надёжности, где даже лучшая модель достигает лишь ~57% при pass^1 и ~38% при pass^4, что подчёркивает критический разрыв в современном развёртывании диалоговых агентов. Весь код и данные доступны по адресу https://github.com/nbharaths/tau-rec.
Курирование обучающих данных — одна из наиболее важных, но при этом трудозатратных частей современной разработки ИИ: практики итеративно предлагают, реализуют, оценивают и пересматривают политики данных, опираясь на зашумленную обратную связь от бенчмарков. Мы задаемся вопросом, могут ли агенты-универсалы (generalist coding agents) автоматизировать этот цикл курирования данных. Мы представляем *Curation-Bench* — агентно-ориентированный бенчмарк, который фиксирует модель, рецепт обучения и набор для оценки, предоставляя агентам доступ к командной строке для просмотра данных, реализации политик, отправки их в фиксированный конвейер обучения/оценки и последующего пересмотра. В инстанциировании обучения по инструкциям на основе визуально-языковых моделей готовые агенты за десять итераций достигают сильных опубликованных базовых показателей отбора данных. Однако анализ траекторий выявляет устойчивый *разрыв между выполнением и исследованиями*: агенты в основном настраивают локальные варианты политик вместо изучения новых семейств политик, даже при наличии стратегических руководств и ссылок на статьи. Инфраструктурные решения, требующие на каждой итерации цитировать, инстанцировать и адаптировать предыдущий метод, смещают агентов в сторону направляемого методом исследования. Агент с такой инфраструктурой автономно составляет — без участия человека в разработке — политику отбора данных, превосходящую сильные опубликованные базовые показатели при использовании лишь десятой части их бюджета данных. В целом, текущие агенты способны выполнять цикл курирования, но надежное исследование данных требует инфраструктурной адаптации методов, а не только свободного формирования запросов. Код и бенчмарк опубликованы в открытом доступе.
Посттренировка моделей рассуждений обычно сочетает обучение с учителем и обучение с подкреплением на основе проверяемых вознаграждений, чаще всего с использованием GRPO. Однако этот алгоритм страдает от разреженных вознаграждений, ограниченного исследования и коллапса мод. Опираясь на недавние работы по самодистилляции, мы предлагаем дистилляцию обратной связи — метод обучения, при котором модель обучается на уровне токенов соответствовать своему собственному распределению, обусловленному привилегированной обратной связью, генерируемой языковой моделью. Дистилляция обратной связи обеспечивает контроль на уровне токенов и может внедрять внешние знания. Оценивая наш метод для доказательства теорем в Lean4, мы обнаруживаем, что дистилляция обратной связи сохраняет большее разнообразие в генерируемых траекториях, чем GRPO, что приводит к более высокой энтропии политики и лучшему масштабированию pass@k. Эти два метода являются взаимодополняющими: инициализация GRPO с контрольной точки дистилляции обратной связи превосходит каждый из методов по отдельности. В целом, наши результаты указывают на перспективное направление для улучшения посттренировки в сложных рассуждениях.
Магнитно-резонансная томография (МРТ) головного мозга играет центральную роль в изучении неврологического развития, старения и заболеваний. Одним из ключевых применений является прогнозирование возраста мозга (ПВМ), которое оценивает биологический возраст мозга индивида по данным МРТ. Эффективные модели ПВМ требуют больших, разнообразных и сбалансированных по возрасту наборов данных, тогда как существующие трехмерные МРТ-наборы данных являются демографически несбалансированными, что ограничивает справедливость и обобщаемость. Получение новых данных связано с высокими затратами и этическими ограничениями, что мотивирует использование генеративного увеличения данных. Современные генеративные методы часто основаны на латентных диффузионных моделях, которые работают в обученных низкоразмерных латентных пространствах для решения проблем с памятью при обработке объемных МРТ-данных. Однако такие методы обычно медленны на этапе вывода, могут вносить артефакты из-за латентного сжатия и редко обусловлены возрастом, что влияет на производительность ПВМ. В данной работе мы предлагаем FlowLet — условную генеративную структуру, которая синтезирует трехмерные МРТ-изображения, обусловленные возрастом, путем использования согласования потоков в обратимой трехмерной вейвлет-области, что помогает избежать артефактов реконструкции и снижает вычислительные затраты. Эксперименты показывают, что FlowLet генерирует высокодетализированные объемы за малое количество шагов сэмплирования. Обучение моделей ПВМ на данных, сгенерированных FlowLet, улучшает производительность для недостаточно представленных возрастных групп, а региональный анализ подтверждает сохранение анатомических структур.
Современные конвейеры обучения крупных языковых моделей (LLM) всё чаще полагаются на другие модели для генерации данных, фильтрации корпусов, оценки выходных данных и принятия решений по разработке. Эти зависимости носят рекурсивный характер: модель может зависеть от вышестоящего артефакта, чьи собственные зависимости задокументированы только в отдельных релизах и артефактах. В результате полная структура зависимостей оказывается фрагментированной по разнородным публичным артефактам, а её сложность и рекурсивная глубина далеко превосходят способности человека к отслеживанию. Мы представляем ModSleuth — агентную систему, которая рекурсивно восстанавливает графы зависимостей LLM на основе публичных артефактов с доказательствами, основанными на исходных данных. Мы обнаружили, что основная задача больше не заключается в извлечении информации, а в определении того, что считать зависимостью, и в согласовании ссылок на артефакты в непоследовательной документации. Мы решаем эти проблемы с помощью формализации, которая различает прямые и косвенные зависимости, представляет гетерогенные роли конвейера через операционно-центрированные отношения и разрешает идентичность артефактов по именам, версиям и репозиториям. Применяя ModSleuth к четырём релизам LLM, богатым публичными артефактами, мы восстанавливаем 1 060 подтверждённых источниками зависимостей и строим крупномасштабные графы зависимостей современной разработки LLM. Эти графы выявляют многоуровневые лицензионные обязательства, связь обучения и оценки, расхождения между опубликованными артефактами и артефактами времени обучения, а также несоответствия в документации, которые в противном случае было бы трудно обнаружить. Мы публикуем ModSleuth и полученные графы зависимостей для поддержки прозрачного анализа всё более сложных экосистем, лежащих в основе современных LLM.
Разреженное внимание снижает вычислительные затраты и пропускную способность памяти при инференции LLM с длинным контекстом. Однако остаются две ключевые проблемы: (1) объём KV-кэша по-прежнему растёт с длиной последовательности, а выгрузка в память CPU создаёт узкое место передачи по PCIe; (2) сам этап разреженного выбора сохраняет сложность O(T²) и может доминировать в стоимости внимания при длинных контекстах. Мы предлагаем SparDA — развязанную архитектуру разреженного внимания, которая вводит четвёртую послойную проекцию, Прогноз (Forecast), наряду с Query, Key и Value. Прогноз предсказывает блоки KV, необходимые для следующего слоя, что позволяет выполнять опережающий выбор, совмещающий предварительную загрузку с CPU на GPU с выполнением текущего слоя. Поскольку Прогноз не зависит от запроса внимания, наша реализация GQA использует одну голову Прогноза на группу GQA, снижая накладные расходы на выбор по сравнению с исходным мультиголовочным селектором. SparDA добавляет менее 0,5% параметров и обучает только проекции Прогноза путём согласования с распределением внимания исходного селектора. На двух разреженно предобученных моделях с 8B параметров SparDA соответствует или незначительно улучшает точность и обеспечивает ускорение префилла до 1,25× и ускорение декодирования до 1,7× по сравнению с базовым методом с разреженным вниманием и выгрузкой. За счёт увеличения допустимых размеров батча на одной GPU SparDA дополнительно достигает пропускной способности декодирования до 5,3× выше, чем базовый метод с разреженным вниманием без выгрузки. Наш исходный код доступен по адресу https://github.com/NVlabs/SparDA.