Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере исчерпания высококачественных общедоступных текстов — явления, известного как «Стена данных», — претренинг смещается с большего количества токенов в сторону токенов более высокого качества. Однако существующие методы либо полагаются на эвристические статические фильтры, игнорирующие динамику обучения, либо используют динамические, но не зависящие от оптимизатора критерии, основанные на сырых градиентах. Мы предлагаем OPUS (Optimizer-induced Projected Utility Selection) — динамическую систему отбора данных, которая определяет полезность в пространстве обновлений, индуцированном оптимизатором. OPUS оценивает кандидатов, проецируя их эффективные обновления, сформированные современными оптимизаторами, на целевое направление, полученное из стабильного прокси-представителя из того же распределения. Для обеспечения масштабируемости мы используем технику Ghost с CountSketch для вычислительной эффективности и сэмплирование Больцмана для разнообразия данных, что добавляет всего 4,7% вычислительной нагрузки. OPUS демонстрирует выдающиеся результаты на различных корпусах, уровнях качества, оптимизаторах и масштабах моделей. При претренинге GPT-2 Large/XL на FineWeb и FineWeb-Edu с 30 млрд токенов OPUS превосходит промышленные базовые методы и даже полное обучение на 200 млрд токенов. Более того, при комбинации с промышленными статическими фильтрами OPUS дополнительно повышает эффективность претренинга, даже при работе с данными более низкого качества. Кроме того, при продолженном претренинге Qwen3-8B-Base на SciencePedia OPUS достигает превосходных результатов, используя всего 0,5 млрд токенов, по сравнению с полным обучением на 3 млрд токенов, что демонстрирует значительный выигрыш в эффективности использования данных в специализированных областях.
Автономные агенты с графическим интерфейсом взаимодействуют со средой, воспринимая интерфейсы и выполняя действия. Модель GUI World, выступая в качестве виртуальной песочницы, наделяет агентов человеческой способностью к предвидению, обеспечивая прогнозирование с учетом действий. Однако существующие подходы на основе текста и пикселей не позволяют одновременно достичь высокой визуальной достоверности и детерминированного структурного управления. Для решения этой проблемы мы предлагаем Code2World — визуально-языковой кодировщик, который моделирует следующее визуальное состояние путем генерации пригодного для рендеринга кода. В частности, для преодоления проблемы нехватки данных мы создали AndroidCode, преобразуя траектории GUI в высококачественный HTML и улучшая синтезированный код с помощью механизма визуально-обратной ревизии, получив корпус из более чем 80 тыс. пар «экран-действие» высокого качества. Для адаптации существующих VLM к прогнозированию кода мы сначала выполнили SFT в качестве «холодного старта» для соблюдения формата разметки, а затем применили Render-Aware Reinforcement Learning, использующий результат рендеринга в качестве сигнала вознаграждения за счет обеспечения визуально-семантической точности и согласованности действий. Масштабные эксперименты демонстрируют, что Code2World-8B достигает наилучших результатов в прогнозировании следующего UI, конкурируя с такими моделями, как GPT-5 и Gemini-3-Pro-Image. Примечательно, что Code2World существенно повышает успешность навигации в downstream-задачах гибким образом, улучшая показатели Gemini-2.5-Flash на +9,5% в навигации AndroidWorld. Код доступен по адресу https://github.com/AMAP-ML/Code2World.
GUI-агенты стали мощной парадигмой для автоматизации взаимодействий в цифровых средах, однако достижение как широкой универсальности, так и стабильно высоких результатов при выполнении задач остается сложной проблемой. В данном отчете мы представляем UI-Venus-1.5 — унифицированного сквозного GUI-агента, разработанного для надежных применений в реальных условиях. Предложенное семейство моделей включает две плотные версии (2B и 8B) и одну версию на основе смеси экспертов (30B-A3B) для удовлетворения потребностей различных сценариев применения. По сравнению с нашей предыдущей версией, UI-Venus-1.5 представляет три ключевых технических усовершенствования: (1) комплексный этап промежуточного обучения с использованием 10 миллиардов токенов из более чем 30 наборов данных для формирования базовой семантики GUI; (2) онлайн-обучение с подкреплением на полных траекториях, согласующее цели обучения с долгосрочной динамической навигацией в крупномасштабных средах; и (3) единый унифицированный GUI-агент, созданный посредством слияния моделей, который объединяет специализированные доменные модели (grounding, веб и мобильные) в единую согласованную точку контроля. Масштабные оценки демонстрируют, что UI-Venus-1.5 устанавливает новые рекорды производительности на таких бенчмарках, как ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) и AndroidWorld (77.6%), значительно превосходя предыдущие сильные базовые модели. Кроме того, UI-Venus-1.5 демонстрирует надежные возможности навигации в различных китайских мобильных приложениях, эффективно выполняя пользовательские инструкции в реальных сценариях. Код: https://github.com/inclusionAI/UI-Venus; Модель: https://huggingface.co/collections/inclusionAI/ui-venus
Человеческое решение проблем никогда не сводится к повторению единого типа мышления (mindset), под которым мы понимаем особый режим когнитивной обработки. При выполнении конкретной задачи мы не полагаемся на единственный тип мышления; вместо этого мы интегрируем несколько типов мышления в единый процесс решения. Однако существующие методы рассуждения в больших языковых моделях (LLM) попадают в распространённую ловушку: они применяют один и тот же фиксированный тип мышления на всех шагах, упуская из виду, что разные этапы решения одной и той же задачи требуют принципиально различных типов мышления. Это предположение об унифицированном подходе мешает моделям достичь следующего уровня интеллекта. Чтобы устранить этот недостаток, мы предлагаем Цепочку Типов Мышления (Chain of Mindset, CoM) — не требующий обучения агентский фреймворк, который обеспечивает адаптивную оркестрацию типов мышления на уровне шага. CoM декомпозирует рассуждение на четыре функционально разнородных типа мышления: Пространственное, Конвергентное, Дивергентное и Алгоритмическое. Мета-Агент динамически выбирает оптимальный тип мышления на основе изменяющегося состояния процесса рассуждения, в то время как двунаправленные Контекстные Ворота фильтруют информационные потоки между модулями для поддержания эффективности и производительности. Эксперименты на шести сложных тестовых наборах, охватывающих математику, генерацию кода, научные вопросы-ответы и пространственные рассуждения, демонстрируют, что CoM достигает наилучших результатов, превосходя сильнейший базовый метод на 4,96% и 4,72% по общей точности на моделях Qwen3-VL-32B-Instruct и Gemini-2.0-Flash соответственно, при этом сохраняя баланс эффективности рассуждений. Наш код общедоступен по адресу https://github.com/QuantaAlpha/chain-of-mindset.
Агенты больших языковых моделей (LLМ) демонстрируют впечатляющие результаты в решении сложных задач, однако часто работают изолированно, не обучаясь на предыдущем опыте. Существующие методы на основе памяти в основном сохраняют сырые траектории, которые часто избыточны и содержат много шума. Это мешает агентам извлекать высокоуровневые, повторно используемые поведенческие паттерны, необходимые для обобщения. В данной статье мы предлагаем SkillRL — фреймворк, который устраняет разрыв между сырым опытом и улучшением политики через автоматическое обнаружение навыков и рекурсивную эволюцию. Наш подход вводит механизм дистилляции на основе опыта для построения иерархической библиотеки навыков SkillBank, адаптивную стратегию извлечения общих и специфичных для задач эвристик, а также механизм рекурсивной эволюции, позволяющий библиотеке навыков совместно эволюционировать с политикой агента в процессе обучения с подкреплением. Эти инновации значительно сокращают объем используемых токенов при одновременном повышении полезности рассуждений. Результаты экспериментов на ALFWorld, WebShop и семи задачах с расширенным поиском показывают, что SkillRL достигает наилучших результатов, превосходя сильные базовые методы более чем на 15,3% и сохраняя устойчивость при росте сложности задач. Код доступен по ссылке: https://github.com/aiming-lab/SkillRL.
Переход от символьных манипуляций к научно-обоснованным рассуждениям представляет собой ключевой рубеж для больших языковых моделей (LLM), где физика выступает критически важным испытательным полигоном для привязки абстрактной логики к физической реальности. Физика требует от модели сохранения физической согласованности с законами, управляющими Вселенной, — задача, которая принципиально требует мультимодального восприятия для обоснования абстрактной логики в реальности. На уровне олимпиад диаграммы часто являются конститутивными, а не иллюстративными, содержащими существенные ограничения, такие как граничные условия и пространственные симметрии, которые отсутствуют в тексте. Чтобы преодолеть этот визуально-логический разрыв, мы представляем P1-VL — семейство моделей открытого кодекса «визуальный язык», созданных для расширенного научного мышления. Наш метод гармонично сочетает обучение с подкреплением по учебному плану, которое использует прогрессивное расширение сложности для стабилизации пост-обучения, с агентским усилением, позволяющим итеративную самопроверку на этапе вывода. По оценкам на HiPhO, строгом бенчмарке, включающем 13 экзаменов за 2024-2025 годы, наша флагманская модель P1-VL-235B-A22B стала первой моделью «визуальный язык» открытого кодекса, завоевавшей 12 золотых медалей, и показала наилучшую производительность среди открытых моделей. Наша система с агентским усилением достигла 2-го общего ранга в мировом рейтинге, уступив только Gemini-3-Pro. Помимо физики, P1-VL демонстрирует выдающуюся способность к научным рассуждениям и обобщаемость, устанавливая значительное преимущество над базовыми моделями в STEM-бенчмарках. Открывая исходный код P1-VL, мы делаем фундаментальный шаг к созданию универсального физического интеллекта для лучшего согласования визуального восприятия с абстрактными физическими законами в целях машинного научного открытия.
Последние достижения в области больших языковых моделей (LLM) позволили автономным агентам выполнять сложные задачи, требующие многошагового взаимодействия с инструментами и окружением. Однако масштабирование такого обучения агентов ограничено отсутствием разнообразных и надежных сред. В данной статье мы предлагаем Модель мира агента (Agent World Model, AWM) — полностью синтетический конвейер генерации сред. С помощью этого конвейера мы масштабировались до 1000 сред, охватывающих повседневные сценарии, в которых агенты могут взаимодействовать с богатыми наборами инструментов (в среднем 35 инструментов на среду) и получать высококачественные наблюдения. Примечательно, что эти среды управляются кодом и поддерживаются базами данных, обеспечивая более надежные и последовательные переходы состояний по сравнению со средами, симулируемыми LLM. Более того, они позволяют осуществлять более эффективное взаимодействие с агентом по сравнению со сбором траекторий из реалистичных сред. Чтобы продемонстрировать эффективность этого ресурса, мы проводим обучение с подкреплением в крупном масштабе для агентов, использующих инструменты в многошаговых сценариях. Благодаря полностью исполняемым средам и доступным состояниям баз данных мы также можем проектировать надежные функции вознаграждения. Эксперименты на трех тестовых наборах показывают, что обучение исключительно в синтетических средах, а не в специфичных для конкретного набора, обеспечивает сильную обобщающую способность вне распределения. Код доступен по адресу https://github.com/Snowflake-Labs/agent-world-model.
Блочно-разреженное внимание является перспективным подходом для ускорения предварительного заполнения (pre-filling) языковых моделей с большим контекстом, однако эффективное определение релевантных блоков остается узким местом. Существующие методы обычно используют грубую (coarse-grained) аппроксимацию внимания для оценки важности блоков, но зачастую прибегают к дорогостоящему поиску или оценке на уровне токенов, что приводит к значительным накладным расходам при отборе. В данной работе мы прослеживаем неточность стандартной грубой аппроксимации внимания через усредняющее пулирование (mean pooling) до теоретической первопричины: взаимодействия между усредняющим пулированием и ротационными позиционными эмбеддингами (RoPE). Мы доказываем, что усредняющее пулирование действует как фильтр нижних частот, вызывающий деструктивную интерференцию в высокочастотных измерениях, что фактически создает "слепое пятно" для локальной позиционной информации (например, шаблонов слэша). Для решения этой проблемы мы представляем Prism — беспараметрический спектрально-ориентированный подход, который разлагает выбор блоков на высокочастотную и низкочастотную ветви. Применяя калибровку температуры на основе энергии, Prism восстанавливает ослабленные позиционные сигналы непосредственно из агрегированных представлений, позволяя оценивать важность блоков, используя исключительно операции на уровне блоков, что повышает эффективность. Результаты масштабного тестирования подтверждают, что Prism сохраняет точность на уровне полного внимания, обеспечивая при этом ускорение до 5,1 раза.
В последнее время диффузионные большие языковые модели (dLLM) продемонстрировали уникальные преимущества в эффективности благодаря изначально параллельному механизму декодирования и гибкой парадигме генерации. В то же время, несмотря на быстрое развитие поисковых агентов, их практическое развертывание ограничено фундаментальной проблемой, обозначаемой как 1) *Проблема задержки*: последовательное выполнение многошаговых рассуждений, вызовов инструментов и ожидания ответов от них в рамках парадигмы агента ReAct приводит к значительной сквозной задержке. Интуитивно, dLLM могут использовать свои отличительные сильные стороны для оптимизации операционной эффективности агентов в парадигме ReAct. Однако на практике существующие dLLM-архитектуры сталкиваются с 2) *Проблемой способностей агента*. А именно, существующие dLLM демонстрируют remarkably слабые возможности логического вывода и вызова инструментов, что не позволяет эффективно реализовать эти преимущества на практике. В данной статье мы предлагаем DLLM-Searcher, фреймворк для оптимизации поисковых агентов на основе dLLM. Для решения Проблемы способностей агента мы разрабатываем двухэтапный pipeline пост-обучения, включающий Агентную контролируемую тонкую настройку (Agentic SFT) и Агентную оптимизацию предпочтений с уменьшением дисперсии (Agentic VRPO), который усиливает способности базовой dLLM к поиску информации и логическим рассуждениям. Для смягчения Проблемы задержки мы используем гибкий механизм генерации dLLM и предлагаем новую парадигму агента под названием Параллельное Рассуждение и Действие (P-ReAct). P-ReAct побуждает модель отдавать приоритет декодированию инструкций вызова инструментов (tool_call), что позволяет модели продолжать размышлять в ожидании возврата результата от инструмента. Результаты экспериментов показывают, что DLLM-Searcher достигает производительности, сопоставимой с основными поисковыми агентами на базе LLM, а P-ReAct обеспечивает ускорение вывода примерно на 15%. Наш код доступен по адресу https://anonymous.4open.science/r/DLLM-Searcher-553C.
Масштабирование управляемых действиями моделей мира ограничено дефицитом меток действий. Хотя латентное обучение действиям обещает извлечь интерфейсы управления из немаркированного видео, изученные латентные переменные часто не переносятся между контекстами: они переплетают контекстно-специфичные сигналы и лишены общей системы координат. Это происходит потому, что стандартные целевые функции работают только в пределах каждого клипа, не предоставляя механизма для согласования семантики действий между контекстами. Наше ключевое наблюдение заключается в том, что хотя действия ненаблюдаемы, их семантические эффекты наблюдаемы и могут служить общим ориентиром. Мы представляем SeqΔ-REPA, цель согласования на уровне последовательностей по управляющему эффекту, которая привязывает интегрированное латентное действие к временным разностям признаков из замороженного самообучающегося видеокодера. На основе этого мы представляем Olaf-World, конвейер для предварительного обучения управляемых действиями видеомоделей мира на крупномасштабном пассивном видео. Многочисленные эксперименты демонстрируют, что наш метод изучает более структурированное латентное пространство действий, что приводит к лучшему zero-shot переносу действий и более эффективной по данным адаптации к новым интерфейсам управления по сравнению с передовыми базовыми методами.
Мы исследуем редактирование изображений на основе инструкций в рамках профессиональных рабочих процессов и выделяем три устойчивые проблемы: (i) редакторы часто вносят избыточные правки, изменяя содержимое сверх намерения пользователя; (ii) существующие модели в основном одношаговые, тогда как многошаговое редактирование может нарушать достоверность объектов; (iii) оценка на разрешении около 1K не соответствует реальным рабочим процессам, которые часто работают с изображениями сверхвысокой четкости (например, 4K). Мы предлагаем Agent Banana — иерархическую агентскую планерно-исполнительную структуру для высокоточного, объектно-ориентированного, обдуманного редактирования. Agent Banana вводит два ключевых механизма: (1) Свертку контекста, которая сжимает длинные истории взаимодействий в структурированную память для стабильного долгосрочного контроля; и (2) Декомпозицию слоев изображения, которая выполняет локализованное послойное редактирование для сохранения нетронутых областей с одновременным выводом изображения в нативном разрешении. Для строгой оценки мы создали HDD-Bench — диалоговый бенчмарк высокой четкости с верифицируемыми пошаговыми целями и нативными 4K-изображениями (11.8 млн пикселей) для диагностики долгосрочных сбоев. На HDD-Bench Agent Banana демонстрирует наилучшую согласованность при многошаговом редактировании и точность фона (например, IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12), оставаясь конкурентоспособным по следованию инструкциям, а также показывает высокие результаты на стандартных бенчмарках одношагового редактирования. Мы надеемся, что эта работа способствует развитию надежного, профессионального агентского редактирования изображений и его интеграции в реальные рабочие процессы.
Авторегрессионное генерирование видео позволяет синтезировать длинные видео за счет итеративного кондиционирования каждой новой партии кадров на ранее сгенерированном контенте. Однако недавние исследования показали, что такие конвейеры страдают от сильного временного дрейфа, когда ошибки накапливаются и усиливаются на длинных временных горизонтах. Мы выдвигаем гипотезу, что этот дрейф обусловлен не столько недостаточной емкостью модели, сколько распространением ошибок во время вывода. В частности, мы полагаем, что дрейф возникает из-за неконтролируемого повторного использования поврежденных латентных токенов кондиционирования в процессе авторегрессионного вывода. Для коррекции этого накопления ошибок мы предлагаем простой метод, применяемый на этапе вывода, который смягчает временной дрейф путем идентификации и удаления нестабильных латентных токенов до их повторного использования для кондиционирования. Для этого мы определяем нестабильные токены как латентные токены, чьи репрезентации значительно отклоняются от репрезентаций в ранее сгенерированной партии, что указывает на потенциальную поврежденность или семантический дрейф. Явно удаляя поврежденные латентные токены из авторегрессионного контекста, вместо изменения целых пространственных областей или параметров модели, наш метод предотвращает влияние ненадежной латентной информации на последующие шаги генерации. В результате это значительно улучшает временную согласованность на длинных горизонтах без модификации архитектуры модели, процедуры обучения или выхода из латентного пространства.
В последних исследованиях изучались авторегрессионные модели для генерации изображений с обнадеживающими результатами, а также комбинировались диффузионные модели с авторегрессионными框架ами для оптимизации генерации изображений с помощью диффузионных потерь. В данном исследовании мы представляем теоретический анализ диффузионных и авторегрессионных моделей с диффузионной потерей, подчеркивая преимущества последних. Мы проводим теоретическое сравнение условной диффузии и авторегрессионной диффузии с диффузионной потерей, демонстрируя, что оптимизация поштучного удаления шума в авторегрессионных моделях эффективно снижает ошибки условия и приводит к стабильному распределению условий. Наш анализ также показывает, что авторегрессионная генерация условий уточняет условие, вызывая экспоненциальное затухание влияния ошибки условия. Кроме того, мы представляем новый подход к уточнению условий, основанный на теории оптимального транспорта (OT), для решения проблемы «несогласованности условий». Теоретически мы демонстрируем, что формулировка уточнения условия как градиентного потока Вассерштейна обеспечивает сходимость к идеальному распределению условий, эффективно mitigating несогласованность условий. Эксперименты демонстрируют превосходство нашего метода над диффузионными и авторегрессионными моделями с методами диффузионных потерь.
Модели Vision-Language-Action (VLA) стали перспективной парадигмой для роботизированного управления общего назначения, при этом масштабирование во время тестирования (TTS) привлекает внимание для повышения устойчивости за пределами обучения. Однако существующие методы TTS для VLA требуют дополнительного обучения, верификаторов и множественных прямых проходов, что делает их непрактичными для развертывания. Более того, они вмешиваются только на этапе декодирования действий, оставляя визуальные представления фиксированными, что недостаточно в условиях перцептивной неоднозначности, где переосмысление того, как воспринимать, так же важно, как и решение о действии. Чтобы устранить эти ограничения, мы предлагаем SCALE — простую стратегию вывода, которая совместно модулирует визуальное восприятие и действие на основе «собственной неопределенности», вдохновленную исследованием, управляемым неопределенностью, в теории активного вывода — не требующую дополнительного обучения, верификатора и всего одного прямого прохода. SCALE расширяет исследование как в восприятии, так и в действии при высокой неопределенности, одновременно фокусируясь на эксплуатации при уверенности, что позволяет адаптивно выполнять задачи в различных условиях. Эксперименты на симулированных и реальных бенчмарках демонстрируют, что SCALE улучшает передовые VLA-модели и превосходит существующие методы TTS, сохраняя эффективность однопроходного выполнения.
Преобразование большой языковой модели (LLM) в визуально-языковую модель (VLM) может быть достигнуто путем отображения визуальных токенов из визуального энкодера в пространство эмбеддингов LLM. Примечательно, что это отображение может быть столь же простым, как преобразование с помощью неглубокого MLP. Чтобы понять, почему LLM так легко обрабатывают визуальные токены, необходимы методы интерпретируемости, которые раскрывают, что закодировано в репрезентациях визуальных токенов на каждом слое обработки LLM. В данной работе мы представляем LatentLens — новый подход для сопоставления латентных репрезентаций с описаниями на естественном языке. LatentLens работает путем кодирования большого текстового корпуса и сохранения контекстуализированных токенных репрезентаций для каждого токена в этом корпусе. Затем репрезентации визуальных токенов сравниваются с их контекстуализированными текстовыми репрезентациями, причем top-k ближайших соседних репрезентаций предоставляют описания визуального токена. Мы оцениваем этот метод на 10 различных VLM, показывая, что широко используемые методы, такие как LogitLens, существенно недооценивают интерпретируемость визуальных токенов. Вместо этого с помощью LatentLens большинство визуальных токенов являются интерпретируемыми во всех изученных моделях и на всех слоях. Качественно мы демонстрируем, что описания, генерируемые LatentLens, семантически значимы и предоставляют более детальные интерпретации для человека по сравнению с отдельными токенами. В более широком смысле наши результаты предоставляют новые доказательства согласованности между визуальными и языковыми репрезентациями, открывая новые направления для анализа латентных представлений.
Оснащение воплощенных агентов способностью рассуждать о задачах, предвидеть физические результаты и генерировать точные действия крайне важно для универсального манипулирования. Хотя современные модели "Визия-Язык-Действие" (VLA) используют предобученные базовые модели, они обычно сосредоточены либо на лингвистическом планировании, либо на визуальном прогнозировании по отдельности. Эти методы редко интегрируют обе возможности одновременно для управления генерацией действий, что приводит к неоптимальной производительности в сложных, многоэтапных задачах манипулирования. Чтобы устранить этот разрыв, мы предлагаем BagelVLA — унифицированную модель, которая интегрирует лингвистическое планирование, визуальное прогнозирование и генерацию действий в единую структуру. Инициализированная на основе предобученной модели унифицированного понимания и генерации, BagelVLA обучается вплетать текстовые рассуждения и визуальные предсказания непосредственно в цикл исполнения действий. Для эффективного сопряжения этих модальностей мы представляем метод Residual Flow Guidance (RFG), который инициализируется из текущего наблюдения и использует одношаговое шумоподавление для извлечения прогнозных визуальных признаков, направляя генерацию действий с минимальной задержкой. Многочисленные эксперименты демонстрируют, что BagelVLA значительно превосходит существующие базовые методы на нескольких симулированных и реальных тестах, особенно в задачах, требующих многоступенчатых рассуждений.
Обучение универсальных агентов, способных адаптироваться к разнообразным сценариям, требует интерактивных сред для самостоятельного исследования. Однако интерактивные среды остаются крайне дефицитными, а существующие методы синтеза имеют существенные ограничения в отношении разнообразия и масштабируемости сред. Для решения этих проблем мы представляем ScaleEnv — фреймворк, который создает полностью интерактивные среды и верифицируемые задачи с нуля. В частности, ScaleEnv обеспечивает надежность среды за счет процедурного тестирования и гарантирует полноту и разрешимость задач с помощью расширения графа зависимостей инструментов и проверки исполняемых действий. Позволяя агентам обучаться через исследование внутри ScaleEnv, мы демонстрируем значительное улучшение производительности на ранее не встречавшихся бенчмарках многократного использования инструментов, таких как τ^2-Bench и VitaBench, что подчеркивает сильные способности к обобщению. Кроме того, мы исследуем взаимосвязь между увеличением числа доменов и обобщающей способностью модели, предоставляя эмпирические доказательства того, что масштабирование разнообразия сред критически важно для надежного обучения агентов.
Предобучение политик Vision-Language-Action (VLA) на видео интернет-масштаба является перспективным направлением, однако современные целевые функции для латентных действий часто усваивают неверные зависимости: они остаются привязанными к вариациям пикселей, а не к переходам между состояниями, релевантными действиям, что делает их уязвимыми к смещению, связанному с внешним видом, паразитному движению и утечке информации. Мы представляем VLA-JEPA, архитектуру предобучения в стиле JEPA, которая по своей конструкции избегает этих недостатков. Ключевая идея — предсказание состояния без утечек: целевой энкодер производит латентные представления из будущих кадров, в то время как студенческий путь видит только текущее наблюдение — будущая информация используется исключительно в качестве целей для обучения, но никогда в качестве входных данных. Благодаря предсказанию в латентном пространстве, а не в пространстве пикселей, VLA-JEPA изучает абстракции динамики, которые устойчивы к движению камеры и нерелевантным изменениям фона. Это дает простой двухэтапный рецепт — предобучение по методологии JEPA с последующим дообучением головы для прогнозирования действий — без многоэтапной сложности предыдущих конвейеров для латентных действий. Эксперименты на LIBERO, LIBERO-Plus, SimplerEnv и задачах манипулирования в реальном мире показывают, что VLA-JEPA обеспечивает стабильное улучшение обобщающей способности и устойчивости по сравнению с существующими методами.
Преобладающая парадигма в обучении роботов пытается добиться обобщения для различных сред, конструкций и задач с помощью языковых промптов во время выполнения. Фундаментальное противоречие ограничивает этот подход: язык часто слишком абстрактен, чтобы направлять конкретное физическое понимание, необходимое для надежного манипулирования. В данной работе мы представляем Контактно-якорные политики (CAP), которые заменяют языковое кондиционирование точками физического контакта в пространстве. Одновременно мы структурируем CAP как библиотеку модульных утилитарных моделей, а не как монолитную политику-универсал. Такая факторизация позволяет нам реализовать цикл итераций "реальность-симуляция": мы создаем EgoGym, легковесный симуляционный бенчмарк, для быстрого выявления режимов сбоев и улучшения наших моделей и наборов данных до развертывания в реальном мире. Мы показываем, что за счет кондиционирования на контакте и итераций через симуляцию, CAP обобщает для новых сред и конструкций "из коробки" на трех фундаментальных навыках манипулирования, используя лишь 23 часа демонстрационных данных, и превосходит крупные передовые VLA в zero-shot оценках на 56%. Все контрольные точки моделей, кодовая база, аппаратное обеспечение, симуляция и наборы данных будут открыты. Страница проекта: https://cap-policy.github.io/
Мульти-агентные системы больших языковых моделей (LLM) обеспечивают продвинутые рассуждения и использование инструментов за счет специализации ролей, однако надежное последующее обучение с подкреплением (RL) для таких систем остается сложной задачей. В данной работе мы теоретически выявляем ключевую причину нестабильности обучения при распространении группового RL на мульти-агентные LLM-системы. Мы показываем, что при GRPO-оптимизации глобальный нормализующий базовый уровень (baseline) может отклоняться от разнородных распределений вознаграждений агентов, что в конечном счете приводит к нестабильности нормы градиента. Основываясь на этом выводе, мы предлагаем Dr. MAS — простой и стабильный рецепт RL-обучения для мульти-агентных LLM-систем. Dr. MAS использует средство исправления на уровне агента: нормализацию преимуществ (advantages) для каждого агента с использованием его собственной статистики вознаграждений, что калибрует масштабы градиентов и значительно стабилизирует обучение как теоретически, так и эмпирически. Помимо алгоритма, Dr. MAS предоставляет сквозную инфраструктуру RL-обучения для мульти-агентных LLM-систем, поддерживая масштабируемую оркестрацию, гибкую подачу и конфигурацию оптимизации LLM для каждого агента, а также совместное планирование ресурсов бэкендов LLM-акторов. Мы оцениваем Dr. MAS на тестах мульти-агентных математических рассуждений и многоходового поиска с использованием моделей серий Qwen2.5 и Qwen3. Dr. MAS демонстрирует явный прирост по сравнению с базовым GRPO (например, +5.6% avg@16 и +4.6% pass@16 по математике, и +15.2% avg@16 и +13.1% pass@16 по поиску), одновременно практически устраняя всплески градиента. Более того, метод остается высокоэффективным при гетерогенных назначениях моделей агентам, одновременно повышая эффективность.
Обучение передаваемым знаниям на основе немаркированных видеоданных и их применение в новых условиях является фундаментальной способностью интеллектуальных агентов. В данной работе представлена модель VideoWorld 2, которая расширяет возможности VideoWorld и предлагает первое исследование по обучению передаваемым знаниям непосредственно из сырых видеозаписей реального мира. Основу VideoWorld 2 составляет динамически усиленная модель латентной динамики (dLDM), которая разделяет динамику действий и визуальное представление: предобученная диффузионная модель видео отвечает за моделирование визуального представления, позволяя dLDM обучать латентные коды, сфокусированные на компактной и содержательной динамике, связанной с задачей. Эти латентные коды затем моделируются авторегрессивно для изучения политик задач и поддержки долгосрочного планирования. Мы оцениваем VideoWorld 2 на сложных задачах ручного изготовления предметов в реальном мире, где предыдущие модели генерации видео и латентной динамики демонстрируют низкую надежность. Примечательно, что VideoWorld 2 достигает до 70% улучшения в показателе успешности выполнения задач и создает согласованные видео длительного исполнения. В робототехнике мы показываем, что VideoWorld 2 способна приобретать эффективные знания о манипуляциях из набора данных Open-X, что существенно улучшает производительность задач в среде CALVIN. Это исследование раскрывает потенциал обучения передаваемым знаниям о мире непосредственно из сырых видео. Весь код, данные и модели будут открыты для дальнейших исследований.
Высококачественные и открытые наборы данных по-прежнему остаются основным узким местом для тонкой настройки моделей «текст-изображение» (T2I). Несмотря на быстрый прогресс в архитектурах моделей и конвейерах обучения, большинство общедоступных наборов данных для тонкой настройки страдают от низкого разрешения, слабого соответствия текста и изображения или ограниченного разнообразия, что приводит к явному разрыву в производительности между открытыми исследовательскими моделями и моделями корпоративного уровня. В данной работе мы представляем Fine-T2I — масштабный, высококачественный и полностью открытый набор данных для тонкой настройки T2I. Fine-T2I охватывает 10 комбинаций задач, 32 категории промптов, 11 визуальных стилей и 5 шаблонов промптов, а также сочетает синтетические изображения, сгенерированные современными мощными моделями, с тщательно отобранными реальными изображениями от профессиональных фотографов. Все образцы прошли строгую фильтрацию на соответствие текста и изображения, визуальное качество и качество промптов, в результате чего было отсеяно более 95% первоначальных кандидатов. Итоговый набор данных содержит более 6 миллионов пар «текст-изображение», занимая около 2 ТБ на диске, что приближается к масштабу наборов для предварительного обучения при сохранении качества, характерного для тонкой настройки. Для разнообразного набора предобученных диффузионных и авторегрессионных моделей тонкая настройка на Fine-T2I последовательно улучшает как качество генерации, так и следование инструкциям, что подтверждается экспертной оценкой, визуальным сравнением и автоматическими метриками. Мы публикуем Fine-T2I под открытой лицензией, чтобы помочь сократить разрыв в данных для тонкой настройки T2I в открытом сообществе.
Обучение агентных моделей для терминальных задач критически зависит от высококачественных терминальных траекторий, которые охватывают реалистичные долгосрочные взаимодействия в различных областях. Однако создание таких данных в больших масштабах остается сложной задачей из-за двух ключевых требований: *Исполняемость*, поскольку каждый экземпляр требует подходящей и зачастую уникальной Docker-среды; и *Проверяемость*, поскольку разнородные результаты задач исключают унифицированную, стандартизированную проверку. Для решения этих проблем мы предлагаем TerminalTraj, масштабируемый конвейер, который (i) отбирает высококачественные репозитории для создания докеризированных сред выполнения, (ii) генерирует экземпляры задач, согласованные с Docker, и (iii) синтезирует агентные траектории с исполняемым кодом валидации. С помощью TerminalTraj мы отобрали 32 тыс. Docker-образов и сгенерировали 50 733 проверенные терминальные траектории в восьми областях. Модели, обученные на этих данных с использованием базовой архитектуры Qwen2.5-Coder, демонстрируют стабильное улучшение производительности на TerminalBench (TB) с приростом до 20% на TB~1.0 и 10% на TB~2.0 по сравнению с их соответствующими базовыми моделями. Примечательно, что TerminalTraj-32B показывает высокую производительность среди моделей с менее чем 100 млрд параметров, достигая 35,30% на TB~1.0 и 22,00% на TB~2.0, а также демонстрирует улучшенное поведение масштабирования во время тестирования. Весь код и данные доступны по адресу https://github.com/Wusiwei0410/TerminalTraj.
Крупные языковые модели (LLM) сталкиваются со значительными трудностями при обработке длинных контекстов, включая квадратичные вычислительные затраты, забывание информации и фрагментацию контекста, присущую retrieval-augmented generation (RAG). Мы предлагаем когнитивно-инспирированную структуру для эффективного вывода в условиях длинного контекста, основанную на поблочном сжатии и избирательном припоминании из памяти, вместо обработки всех исходных токенов. Данная структура сегментирует длинные входные данные на блоки и кодирует каждый блок в сжатые представления памяти с помощью обученного компрессора. Модуль управления динамически выбирает релевантные блоки памяти, которые затем итеративно обрабатываются рассуждающим модулем с развивающейся рабочей памятью для решения последующих задач. Компрессор и модуль рассуждений совместно оптимизируются посредством сквозного обучения с подкреплением, в то время как модуль управления обучается отдельно как классификатор. Результаты экспериментов показывают, что предложенный метод демонстрирует конкурентоспособную точность на бенчмарках многозвенного логического вывода, таких как RULER-HQA, экстраполирует длину контекста с 7K до 1.75M токенов и предлагает благоприятный баланс между точностью и эффективностью по сравнению с сильными базовыми методами для длинных контекстов. В частности, он позволяет достичь до 2-кратного снижения пикового использования памяти GPU и 6-кратного ускорения вывода по сравнению с MemAgent.
Управление активацией (activation steering) стало перспективным подходом для эффективной адаптации больших языковых моделей (БЯМ) к целевым поведенческим сценариям. Однако большинство существующих методов управления основываются на единственном статическом направлении для каждой задачи или концепции, что делает их негибкими при изменении условий задачи и неадекватными для сложных задач, требующих согласованного применения нескольких способностей. Для преодоления этого ограничения мы предлагаем STEER2ADAPT — облегченный фреймворк, который адаптирует БЯМ путем композиции векторов управления, а не обучения новых с нуля. Во многих областях (например, рассуждения или безопасность) задачи разделяют небольшой набор базовых концептуальных измерений. STEER2ADAPT фиксирует эти измерения в виде многократно используемого низкоразмерного семантического подпространства-приора и адаптируется к новым задачам путем динамического обнаружения линейной комбинации базисных векторов всего на основе нескольких примеров. Эксперименты на 9 задачах и 3 моделях в областях рассуждений и безопасности демонстрируют эффективность STEER2ADAPT, показывая среднее улучшение на 8.2%. Обширный анализ дополнительно показывает, что STEER2ADAPT является ресурсоэффективным, стабильным и интерпретируемым методом адаптации БЯМ во время вывода.
Диффузионные трансформаторы обычно интегрируют текстовую информацию с помощью механизма внимания и модуляции, использующей объединенное текстовое embedding. Тем не менее, современные подходы отказываются от текстовой обусловленности на основе модуляции и полагаются исключительно на внимание. В данной работе мы исследуем, является ли модуляционная текстовая обусловленность необходимой и может ли она дать какое-либо преимущество в производительности. Наш анализ показывает, что при традиционном использовании объединенное embedding вносит незначительный вклад в общую производительность, что позволяет предположить, что одного механизма внимания, как правило, достаточно для точной передачи информации из промпта. Однако мы выяснили, что объединенное embedding может обеспечить существенное улучшение, если использовать его с иной точки зрения — в качестве механизма guidance, позволяющего осуществлять контролируемые сдвиги в сторону более желательных свойств. Данный подход не требует дообучения, прост в реализации, влечет пренебрежимо малые вычислительные затраты и может быть применен к различным диффузионным моделям, обеспечивая улучшения в разнообразных задачах, включая генерацию изображений/видео по тексту и редактирование изображений.
В данной работе мы представляем Covo-Audio — сквозную LALM с 7 миллиардами параметров, которая непосредственно обрабатывает непрерывные аудиовходы и генерирует аудиовыходы в рамках единой архитектуры. Благодаря масштабному претренингу на тщательно отобранных данных и целевому посттренингу, Covo-Audio демонстрирует наилучшие или конкурентоспособные результаты среди моделей сопоставимого масштаба в широком спектре задач, включая моделирование «речь-текст», устный диалог, понимание речи, понимание аудио и полнодуплексное голосовое взаимодействие. Многочисленные оценки показывают, что предобученная базовая модель обладает высокими способностями к рече-текстовому пониманию и семантическим рассуждениям на нескольких тестовых наборах, превосходя репрезентативные модели сопоставимого масштаба с открытым исходным кодом. Кроме того, диалоговая версия Covo-Audio-Chat демонстрирует развитые устные коммуникативные способности, включая понимание, контекстуальные рассуждения, следование инструкциям и генерацию контекстно-уместных и эмпатичных ответов, что подтверждает её применимость в сценариях реальных разговорных ассистентов. Усовершенствованная полнодуплексная модель Covo-Audio-Chat-FD показывает существенно превосходящие результаты как в плане устных диалоговых способностей, так и в полнодуплексном интерактивном поведении, демонстрируя свою компетентность в практической устойчивости. Для снижения высоких затрат на развертывание сквозных LALM в естественных разговорных системах мы предлагаем стратегию разделения интеллекта и синтеза речи, которая отделяет диалоговый интеллект от генерации голоса, обеспечивая гибкую настройку голоса при минимальном объеме данных для синтеза речи (TTS) с сохранением диалоговых характеристик. В целом наши результаты подчеркивают значительный потенциал моделей масштаба 7B для объединения сложного аудиоинтеллекта с семантическими рассуждениями высокого уровня и указывают масштабируемый путь к созданию более способных и универсальных LALM.
Цепочка рассуждений (CoT) и её варианты значительно улучшили производительность языковых моделей на задачах сложного логического вывода, однако точные механизмы, с помощью которых различные стратегии способствуют обобщению, остаются малоизученными. В то время как современные объяснения часто указывают на увеличение вычислений во время тестирования или структурное руководство, установление последовательной, количественной связи между этими факторами и обобщением остается сложной задачей. В данной работе мы определяем внутреннюю размерность как количественную меру для характеристики эффективности цепочек рассуждений. Внутренняя размерность количественно определяет минимальное количество измерений модели, необходимое для достижения заданного порога точности на конкретной задаче. Фиксируя архитектуру модели и варьируя постановку задачи с помощью различных стратегий рассуждений, мы демонстрируем, что эффективные стратегии рассуждений последовательно снижают внутреннюю размерность задачи. Проверяя это на GSM8K с моделями Gemma-3 1B и 4B, мы наблюдаем сильную обратную корреляцию между внутренней размерностью стратегии рассуждений и её производительностью обобщения как на данных из того же распределения, так и за его пределами. Наши результаты позволяют предположить, что эффективные цепочки рассуждений облегчают обучение за счет лучшего сжатия задачи с использованием меньшего количества параметров, предлагая новую количественную метрику для анализа процессов рассуждений.
Крупные языковые модели (LLM) демонстрируют потенциал в решении сложных математических задач, однако пока не способны стабильно выдавать точные решения. Обучение с подкреплением (RL) представляет собой методологию для согласования этих моделей с целевыми функциями, что повышает общее качество и надежность. Оптимизация групповой относительной политики (GRPO) — это эффективная альтернатива проксимальной оптимизации политики (PPO), не требующая функции ценности и использующая нормализацию вознаграждения на основе группового сравнения. Мы представляем Итеративную оптимизацию групповой относительной политики (iGRPO) — двухэтапное расширение GRPO, которое добавляет динамическое самокондиционирование через черновики, генерируемые моделью. На Этапе 1 iGRPO семплирует несколько исследовательских черновиков и выбирает вариант с наивысшим вознаграждением, используя ту же скалярную функцию, что и для оптимизации. На Этапе 2 выбранный черновик добавляется к исходному промпту, и применяется GRPO-обновление для усовершенствования кондиционированного решения, обучая политику улучшать свои предыдущие лучшие попытки. При равном бюджете генерации iGRPO стабильно превосходит GRPO на различных базовых моделях (например, Nemotron-H-8B-Base-8K и DeepSeek-R1 Distilled), что подтверждает ее эффективность на разнообразных бенчмарках логического вывода. Более того, применение iGRPO к модели OpenReasoning-Nemotron-7B, дообученной на AceReason-Math, позволяет достичь новых рекордных результатов в 85.62% и 79.64% на AIME24 и AIME25 соответственно. Абляционные исследования дополнительно показывают, что обертка рефайнмента обобщается за пределы вариантов GRPO, выигрывает от использования генеративного судьи и изменяет динамику обучения, откладывая коллапс энтропии. Эти результаты подчеркивают потенциал итеративного RL на основе самоконтроля для развития верифицируемого математического мышления.
Эффективное масштабирование автоматизации графического интерфейса пользователя (GUI) является ключевой задачей для агентов взаимодействия с компьютером (computer-use agents, CUA); однако существующие работы в основном сосредоточены на масштабировании привязки к GUI, а не на более важном планировании действий в GUI, которое требует более сложного сбора данных. В реальности процесс исследования CUA различных приложений, рабочих столов или веб-страниц обычно следует древовидной структуре, причем более ранние функциональные точки входа исследуются чаще. Таким образом, организация крупномасштабных траекторий в древовидные структуры позволяет снизить затраты на данные и оптимизировать масштабирование данных для планирования GUI. В данной работе мы предлагаем TreeCUA для эффективного масштабирования автоматизации GUI с помощью верифицируемой эволюции на основе древовидных структур. Мы предлагаем многоАгентную систему совместной работы для исследования среды, проверки действий, суммирования траекторий и оценки качества с целью генерации высококачественных и масштабируемых траекторий GUI. Для повышения эффективности мы разрабатываем новую древовидную топологию для хранения и воспроизведения дублирующихся узлов исследования, а также адаптивный алгоритм исследования для балансировки глубины (т.е. сложности траектории) и ширины (т.е. разнообразия траекторий). Кроме того, мы разрабатываем механизмы ориентации на знания о мире и глобального backtracking-а с памятью, чтобы избежать генерации низкокачественных данных. Наконец, мы естественным образом расширяем подход и предлагаем метод TreeCUA-DPO на основе избыточной информации из узлов дерева, улучшая способность к планированию GUI за счет учета информации о смежных траекториях (ветвях). Результаты экспериментов показывают, что TreeCUA и TreeCUA-DPO обеспечивают значительное улучшение, а исследования на внедоменных данных (out-of-domain, OOD) дополнительно демонстрируют сильную обобщающую способность. Вся информация о узлах траекторий и код будут доступны по адресу https://github.com/UITron-hub/TreeCUA.
Агенты с графическим интерфейсом для реальных рабочих сред, работающие по принципу "конец-в-конец", требуют больших объемов высококачественных данных о взаимодействии, однако сбор человеческих демонстраций является дорогостоящим, а существующие синтетические пайплайны часто страдают от ограниченного разнообразия задач или зашумленных траекторий с отклонением от цели. Мы представляем фреймворк расширения траекторий Anchor, который позволяет получать масштабируемые данные для обучения работе с рабочим столом из небольшого набора проверенных исходных демонстраций. Начиная с каждой исходной демонстрации, мы идентифицируем точки ветвления, соответствующие значимым изменениям состояния, и предлагаем новые, основанные на состоянии варианты задач, обусловленные текущим контекстом GUI. Затем исполняющий агент следует предложенным инструкциям для генерации новых траекторий, в то время как верификатор обеспечивает выполнение задачи с помощью проверок, учитывающих состояние, и согласованности на уровне траектории. Для повышения качества данных обучения мы дополнительно применяем условную фильтрацию на уровне шагов для удаления нефундированных действий и очистки сегментов после ветвления для сохранения последовательности намерения. Эксперименты на стандартных бенчмарках для рабочего стола, OSWorld и WindowsAgentArena, показывают, что модели, дообученные на нашем расширенном корпусе, демонстрируют стабильное улучшение по сравнению с zero-shot агентами и репрезентативными синтетическими базовыми методами, а также обладают способностью к обобщению между приложениями и операционными системами.
Сбор реальных данных для воплощенных агентов остается дорогостоящим и небезопасным, что создает потребность в масштабируемых, реалистичных и готовых к использованию в симуляторах 3D-средах. Однако существующие системы генерации сцен часто полагаются на основанные на правилах или специализированные для конкретных задач пайплайны, что приводит к артефактам и физически некорректным сценам. Мы представляем SAGE — агентный фреймворк, который, получая от пользователя задачу для воплощенного агента (например, «возьми чашу и поставь ее на стол»), понимает ее суть и автоматически генерирует готовые к симуляции среды в больших масштабах. Агент объединяет несколько генераторов для планировки и композиции объектов с критиками, которые оценивают семантическую правдоподобность, визуальный реализм и физическую стабильность. Благодаря итеративному рассуждению и адаптивному выбору инструментов он самостоятельно улучшает сцены до соответствия замыслу пользователя и физической корректности. Получающиеся среды реалистичны, разнообразны и напрямую развертываются в современных симуляторах для обучения политик. Политики, обученные исключительно на таких данных, демонстрируют четкие тенденции масштабирования и обобщаются на неизвестные объекты и планировки, что подтверждает перспективность симуляционного масштабирования для воплощенного ИИ. Код, демонстрации и набор данных SAGE-10k доступны на странице проекта: https://nvlabs.github.io/sage.
В данной статье оспаривается доминирование непрерывных конвейеров в задачах визуальной генерации. Мы проводим систематическое исследование разрыва в производительности между дискретными и непрерывными методами. Вопреки распространенному мнению о внутренней неполноценности дискретных токенизаторов, мы показываем, что это расхождение в основном обусловлено общим количеством бит, выделяемых в латентном пространстве (т.е. степенью сжатия). Мы демонстрируем, что увеличение размера кодбука эффективно устраняет данный разрыв, позволяя дискретным токенизаторам сравниться или превзойти непрерывные аналоги. Однако существующие методы дискретной генерации не могут воспользоваться этим преимуществом, сталкиваясь с деградацией производительности или непомерными вычислительными затратами при масштабировании кодбука. Для решения этой проблемы мы предлагаем маскированное битовое авторегрессионное моделирование (BAR) — масштабируемую архитектуру, поддерживающую произвольные размеры кодбука. Оснастив авторегрессионный трансформер головой с маскированным битовым моделированием, BAR предсказывает дискретные токены через постепенную генерацию составляющих их битов. BAR устанавливает новый рекорд gFID 0.99 на ImageNet-256, превосходя ведущие методы как в непрерывной, так и в дискретной парадигмах, при этом значительно сокращая стоимость генерации и сходясь быстрее, чем предыдущие непрерывные подходы. Страница проекта доступна по адресу https://bar-gen.github.io/
Параллельное мышление стало новой парадигмой для больших моделей рассуждений (LRM) при решении сложных задач. Современные методы используют обучение с подкреплением (RL) для улучшения параллельного мышления, стремясь преодолеть ограничения вычислительных ресурсов и эффективности, характерные для контролируемого тонкого настройки. Однако большинство существующих исследований в основном сосредоточены на оптимизации фазы агрегации, уделяя недостаточно внимания этапу исследования путей. В данной статье мы проводим теоретический анализ оптимизации параллельного мышления в условиях обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) и выявляем, что узкое место взаимной информации между путями исследования фундаментально ограничивает общую производительность. Для решения этой проблемы мы предлагаем Исследование путей с управлением по контуру (OPE), которое явно разделяет пространство решений путем генерации разнообразных контуров рассуждений до параллельного логического вывода, тем самым снижая избыточность информации и повышая разнообразие захватываемой информации на различных путях исследования. Мы реализуем OPE с помощью итеративной RL-стратегии, которая независимо оптимизирует планирование контуров и контурно-управляемое рассуждение. Многочисленные эксперименты на нескольких сложных математических тестовых наборах демонстрируют, что OPE эффективно повышает производительность рассуждений при различных стратегиях агрегации, позволяя LRM более надежно находить правильные решения.
Планирование стало ключевой способностью современных агентных систем для решения сложных задач с длительным горизонтом, однако существующие подходы в основном опираются на фиксированные, созданные вручную структуры планирования, которые не обладают гибкостью для адаптации к структурному разнообразию открытых проблем. Для преодоления этого ограничения мы представляем TodoEvolve — мета-парадигму планирования, которая автономно синтезирует и динамически пересматривает архитектуры планирования, специфичные для конкретных задач. В частности, мы сначала создаем PlanFactory, модульное пространство проектирования, которое стандартизирует разнообразные парадигмы планирования в рамках единой кодовой базы, включающей топологию, инициализацию, адаптацию и навигацию, обеспечивая тем самым общий интерфейс для гетерогенных паттернов планирования. Используя PlanFactory, мы собираем высококачественные траектории планирования и обучаем Todo-14B с помощью Оптимизации Предпочтений по Импедансу (IGPO) — многокритериальной цели обучения с подкреплением, которая стимулирует генерацию планирующих систем, демонстрирующих высокую производительность, стабильность и эффективность по токенам для произвольных задач и агентных бэкбонов. Эмпирические оценки на пяти агентных бенчмарках показывают, что TodoEvolve последовательно превосходит тщательно спроектированные модули планирования, сохраняя при этом экономичные затраты на API-вызовы и вычислительную нагрузку.
Методы декомпозиции активации в языковых моделях тесно связаны с геометрическими предположениями о том, как концепции реализуются в пространстве активаций. Существующие подходы ищут отдельные глобальные направления, неявно предполагая линейную разделимость, что упускает из виду концепции с нелинейной или многомерной структурой. В данной работе мы используем смесь факторных анализаторов (MFA) как масштабируемую, неконтролируемую альтернативу, которая моделирует пространство активаций как совокупность гауссовских областей с их локальной ковариационной структурой. MFA декомпозирует активации на два композиционных геометрических объекта: центроид области в пространстве активаций и локальное отклонение от центроида. Мы обучаем крупномасштабные MFA для моделей Llama-3.1-8B и Gemma-2-2B и показываем, что они захватывают сложные нелинейные структуры в пространстве активаций. Более того, оценки на бенчмарках локализации и управления показывают, что MFA превосходит неконтролируемые базовые методы, конкурирует с контролируемыми методами локализации и часто достигает более высокой эффективности управления, чем разреженные автоэнкодеры. В совокупности наши результаты позиционируют локальную геометрию, выраженную через подпространства, в качестве перспективной единицы анализа для масштабируемого обнаружения концепций и управления моделями, учитывающей сложные структуры, которые не удается capture изолированным направлениям.
Параллельное диффузионное декодирование может ускорить вывод в диффузионных языковых моделях за счет раскрытия нескольких токенов за шаг, однако агрессивный параллелизм часто ухудшает качество. Отзывное декодирование смягчает эту проблему путем повторной проверки ранее раскрытых токенов, однако мы наблюдаем, что существующие схемы верификации часто провоцируют колебания типа "флип-флоп", когда токены повторно маскируются, а позже восстанавливаются без изменений. Такое поведение замедляет вывод двумя способами: повторное маскирование верифицированных позиций ослабляет контекст условности для параллельного drafting-а, а повторяющиеся циклы повторного маскирования расходуют бюджет ревизий с минимальным реальным прогрессом. Мы предлагаем метод COVER (Verification with Cache Override for Efficient Revision — верификация с переопределением кэша для эффективной ревизии), который выполняет верификацию по принципу "исключения одного" и стабильный drafting за один прямой проход. COVER строит два представления внимания через переопределение KV-кэша: выбранные "семена" маскируются для верификации, в то время как их кэшированные состояния ключей и значений инжектируются для всех остальных запросов, чтобы сохранить контекстуальную информацию, при этом используется поправка в замкнутой форме для предотвращения утечки самовлияния на позициях семян. COVER дополнительно приоритизирует семена с помощью стабильностно-ориентированной оценки, балансирующей неопределенность, влияние на последующие токены и дрейф кэша, и адаптивно регулирует количество верифицируемых семян на шаг. На различных бенчмарках COVER значительно сокращает ненужные ревизии и обеспечивает более быстрый декодинг при сохранении качества выходных данных.
Крупные языковые модели (LLM) все чаще используются в разработке программного обеспечения, однако их склонность генерировать небезопасный код остается серьезным препятствием для практического внедрения. Существующие методы согласования кода на безопасность часто страдают от парадокса функциональность–безопасность, улучшая безопасность ценой значительной деградации полезности. Мы предлагаем SecCoderX — фреймворк онлайн-обучения с подкреплением для генерации безопасного кода с сохранением функциональности. SecCoderX сначала объединяет обнаружение уязвимостей и генерацию безопасного кода, перепрофилируя зрелые ресурсы детектирования двумя способами: (i) синтез разнообразных, основанных на реальности задач по написанию кода, вызывающего уязвимости, для онлайн-rollouts в RL, и (ii) обучение основанной на рассуждениях модели вознаграждения за уязвимости, которая обеспечивает масштабируемый и надежный контроль безопасности. Вместе эти компоненты объединены в цикл онлайн-обучения с подкреплением для согласования кодогенерирующих LLM с целью генерации безопасного и функционального кода. Многочисленные эксперименты демонстрируют, что SecCoderX достигает передовых результатов, улучшая показатель эффективной безопасности (ESR) примерно на 10% по сравнению с несогласованными моделями, тогда как предыдущие методы часто ухудшают ESR на 14–54%. Мы публикуем наш код, набор данных и веса модели по адресу https://github.com/AndrewWTY/SecCoderX.
Хотя метод согласования потоков является элегантным, его зависимость от условных скоростей, вычисляемых по одному образцу, приводит к целевым функциям обучения с высокой дисперсией, что дестабилизирует оптимизацию и замедляет сходимость. Путем явного анализа этой дисперсии мы выявляем: 1) режим высокой дисперсии вблизи априорного распределения, где оптимизация затруднена, и 2) режим низкой дисперсии вблизи распределения данных, где условные и маргинальные скорости практически совпадают. Используя это наблюдение, мы предлагаем Stable Velocity — унифицированную framework, которая улучшает как обучение, так и генерацию. Для обучения мы вводим Stable Velocity Matching (StableVM) — несмещенную целевую функцию с уменьшенной дисперсией, а также Variance-Aware Representation Alignment (VA-REPA), которая адативно усиливает вспомогательное обучение в режиме низкой дисперсии. Для вывода мы показываем, что динамика в режиме низкой дисперсии допускает аналитические упрощения, что позволяет реализовать Stable Velocity Sampling (StableVS) — ускорение генерации без дообучения. Экстенсивные эксперименты на ImageNet 256×256 и крупных предобученных моделях для генерации изображений и видео по тексту, включая SD3.5, Flux, Qwen-Image и Wan2.2, демонстрируют устойчивое улучшение эффективности обучения и более чем двукратное ускорение генерации в режиме низкой дисперсии без ухудшения качества образцов. Наш код доступен по адресу https://github.com/linYDTHU/StableVelocity.
Самоисправление играет ключевую роль в решении сложных логических задач в моделях "визуальный язык" (VLM). Однако существующие методы обучения с подкреплением (RL) не справляются с его освоением, поскольку эффективные стратегии самоисправления возникают крайне редко, что делает обучающие сигналы чрезвычайно разреженными. Для решения этой проблемы мы предлагаем коррекционно-специфичные развертки (Octopus) — фреймворк аугментации RL-разверток, который синтезирует плотные примеры самоисправления путем рекомбинации существующих разверток. Такая аугментация одновременно повышает эффективность использования данных за счет повторного применения разверток и стабилизирует RL-оптимизацию за счет сбалансированного контроля. Кроме того, мы вводим стратегию маскирования ответов, которая отделяет самоисправление от прямого рассуждения, избегая конфликтов сигналов и позволяя эффективно обучать оба типа поведения. На этой основе мы представляем Octopus-8B — VLM для логического вывода с управляемой способностью к самоисправлению. На 7 тестовых наборах модель демонстрирует наилучшие результаты среди открытых VLM, превосходя лучший базовый метод RLVR на 1.0 балл при затратах всего 0.72 от его времени обучения на шаг.
В данной работе мы стремимся объединить обучение во время тестирования с новым типом параметрической памяти, которая может гибко выгружаться из параметров модели или объединяться с ними. Мы представляем Locas — локально поддерживаемую параметрическую память, которая использует архитектуру FFN-блоков современных трансформеров, что позволяет гибко интегрировать её в параметры модели, обеспечивая при этом эффективное непрерывное обучение. Мы рассматриваем две основные вариации Locas: первая использует традиционную двухслойную MLP-архитектуру с более строгими теоретическими гарантиями; вторая повторяет структуру GLU-FFN передовых языковых моделей и может быть легко подключена к существующим моделям для ресурсоэффективного (по параметрам и вычислениям) непрерывного обучения. Ключевым моментом является демонстрация того, что правильная инициализация такой низкоранговой памяти в стиле бокового FFN — выполненная принципиальным образом путём повторного использования параметров модели, активаций и/или градиентов — критически важна для быстрой сходимости, улучшенной обобщающей способности и предотвращения катастрофического забывания. Мы проверяем предложенный механизм памяти на задачах языкового моделирования целых книг PG-19 и ответов на вопросы в диалогах с длинным контекстом LoCoMo. Всего с 0.02% дополнительных параметров в минимальной конфигурации Locas-GLU способна сохранять информацию из предыдущего контекста, поддерживая при этом значительно меньшее окно контекста. Кроме того, мы оцениваем потерю общих способностей модели после запоминания всей книги с помощью Locas через сравнительное тестирование MMLU. Результаты демонстрируют перспективную способность Locas преобразовывать прошлый контекст в параметрическое знание с минимальным катастрофическим забыванием существующих внутренних знаний модели.
Лингвистические модели на основе LLM продемонстрировали высокую производительность в бенчмарках автоматизированного разрешения issue, однако существующие оценки в основном сосредоточены на итоговом успехе выполнения задачи, давая ограниченное представление о том, как агенты извлекают и используют контекст кода в процессе решения проблем. Мы представляем ContextBench — процессно-ориентированную оценку извлечения контекста в кодирующих агентах. ContextBench включает 1136 задач по разрешению issue из 66 репозиториев на восьми языках программирования, каждая из которых дополнена контекстами, размеченными человеком. Мы также реализуем автоматизированную систему оценки, которая отслеживает траектории агентов и измеряет полноту, точность и эффективность извлечения контекста на протяжении всего процесса разрешения issue. С помощью ContextBench мы оцениваем четыре передовые LLM и пять кодирующих агентов. Наши результаты показывают, что сложные агентские обертки дают лишь незначительное улучшение в извлечении контекста («Горький урок» для кодирующих агентов), LLM последовательно предпочитают полноту точности, а также существует существенный разрыв между исследуемым и используемым контекстом. ContextBench дополняет существующие сквозные бенчмарки промежуточными метриками на основе размеченного контекста, которые раскрывают процесс разрешения issue. Эти контексты предоставляют ценные промежуточные сигналы для управления рассуждениями LLM в программных задачах.
Обучение с подкреплением существенно улучшает способность к рассуждениям в больших языковых моделях, однако оно также склонно удлинять цепочки рассуждений и увеличивать вычислительные затраты как на этапе обучения, так и во время вывода. Хотя были предложены методы контроля длины, до сих пор неясно, какова оптимальная длина вывода для баланса между эффективностью и производительностью. В данной работе мы сравниваем несколько методов контроля длины на двух моделях: Qwen3-1.7B Base и DeepSeek-R1-Distill-Qwen-1.5B. Наши результаты показывают, что штрафы за длину могут препятствовать формированию рассуждений, в то время как правильно настроенный контроль длины способен повысить эффективность для моделей с изначально сильными способностями к рассуждению. Расширяя предыдущие исследования на политики, обученные методом RL, мы выявили два типа сбоев: 1) длинные выводы увеличивают дисперсию, и 2) короткие выводы приводят к недостаточному анализу.
Отсутствие состояния у базовых моделей ограничивает способность агентных систем к непрерывному обучению — ключевую возможность для долгосрочного планирования и адаптации. Чтобы устранить это ограничение, агентные системы обычно включают модули памяти для сохранения и повторного использования прошлого опыта, стремясь к непрерывному обучению во время тестирования. Однако большинство существующих архитектур памяти созданы человеком и фиксированы, что ограничивает их способность адаптироваться к разнообразию и нестационарности реальных задач. В данной статье мы представляем ALMA (Automated meta-Learning of Memory designs for Agentic systems) — фреймворк, который мета-обучает архитектуры памяти, заменяя тем самым созданные вручную проекты, минимизируя человеческие усилия и позволяя агентным системам быть непрерывными учениками в различных областях. Наш подход использует Мета-Агент, который осуществляет поиск по архитектурам памяти, выраженным в виде исполняемого кода, открытым способом, теоретически позволяя обнаруживать произвольные проекты памяти, включая схемы баз данных, а также механизмы их извлечения и обновления. Многочисленные эксперименты в четырёх областях последовательного принятия решений демонстрируют, что изученные архитектуры памяти обеспечивают более эффективное и результативное обучение на опыте по сравнению с передовыми человеко-созданными проектами памяти на всех тестах. При безопасной разработке и развертывании ALMA представляет собой шаг к самоулучшающимся системам ИИ, которые учатся быть адаптивными и непрерывными учениками.
Агенты ИИ, оснащенные возможностями вызова инструментов, уязвимы для атак косвенной инъекции промптов (Indirect Prompt Injection, IPI). В этом сценарии атаки скрытые во внешнем непроверенном контенте вредоносные команды обманом заставляют агента выполнять несанкционированные действия. Существующие методы защиты могут снизить успешность атак, но часто страдают от дилеммы избыточной защиты: они применяют дорогостоящую постоянную санацию независимо от реальной угрозы, что ухудшает полезность и увеличивает задержки даже в безопасных сценариях. Мы переосмысливаем проблему IPI через призму причинно-следственного абляции: успешная инъекция проявляется как сдвиг доминирования, при котором пользовательский запрос больше не обеспечивает решающей поддержки для привилегированного действия агента, в то время как определенный непроверенный сегмент (например, извлеченный документ или вывод инструмента) оказывает непропорционально большое атрибутируемое влияние. Основываясь на этой сигнатуре, мы предлагаем CausalArmor — селективную framework защиты, которая (i) вычисляет легковесные атрибуции на основе пошаговой абляции в ключевых точках принятия решений и (ii) активирует целевую санацию только тогда, когда непроверенный сегмент доминирует над пользовательским намерением. Дополнительно CausalArmor использует ретроспективное маскирование цепочки рассуждений (Chain-of-Thought), чтобы предотвратить выполнение агентом действий на основе «отравленных» трасс reasoning. Мы представляем теоретический анализ, показывающий, что санация на основе полей атрибуции условно обеспечивает экспоненциально малую верхнюю границу вероятности выбора вредоносных действий. Эксперименты на AgentDojo и DoomArena демонстрируют, что CausalArmor обеспечивает безопасность, сопоставимую с агрессивными методами защиты, при этом повышая объяснимость и сохраняя полезность и низкие задержки агентов ИИ.
Косвенная инъекция промптов угрожает LLM-агентам путем внедрения вредоносных инструкций во внешний контент, что позволяет выполнять несанкционированные действия и красть данные. LLM-агенты поддерживают рабочую память через контекстное окно, которое хранит историю взаимодействий для принятия решений. Традиционные агенты без разбора накапливают все выходные данные инструментов и трассировки рассуждений в этой памяти, создавая две критические уязвимости: (1) внедренные инструкции сохраняются на протяжении всего рабочего процесса, предоставляя злоумышленникам множество возможностей для манипуляции поведением, и (2) избыточный, несущественный контент ухудшает способность к принятию решений. Существующие средства защиты рассматривают раздутую память как данность и сосредоточены на устойчивости, а не на сокращении ненужного накопления для предотвращения атаки. Мы представляем AgentSys — фреймворк, который защищает от косвенной инъекции промптов за счет явного управления памятью. Вдохновленные изоляцией памяти процессов в операционных системах, мы организуем агентов иерархически: главный агент порождает рабочие агенты для вызовов инструментов, каждый из которых выполняется в изолированном контексте и может порождать вложенные агенты для подзадач. Внешние данные и трассировки подзадач никогда не попадают в память главного агента; только проверенные по схеме возвращаемые значения могут пересекать границы через детерминированный JSON-парсинг. Абляционные исследования показывают, что одна только изоляция снижает успешность атак до 2,19%, а добавление валидатора/санитайзера дополнительно улучшает защиту за счет проверок, активируемых событиями, чьи накладные расходы масштабируются с операциями, а не с длиной контекста. На AgentDojo и ASB AgentSys демонстрирует успешность атак 0,78% и 4,25% соответственно, при этом незначительно улучшая полезность в доброкачественных сценариях по сравнению с незащищенными базовыми вариантами. Фреймворк сохраняет устойчивость к адаптивным злоумышленникам и для различных базовых моделей, показывая, что явное управление памятью позволяет создавать безопасные и динамичные архитектуры LLM-агентов. Наш код доступен по адресу: https://github.com/ruoyaow/agentsys-memory.
Модели «зрение-язык» (VLMs) демонстрируют впечатляющие результаты в кросс-модальном понимании текстовых и визуальных данных, однако существующие бенчмарки в основном сосредоточены на запросах с чистым текстом. В реальных сценариях язык также часто представлен в виде визуализированного текста, встроенного в изображения, что ставит вопрос о том, насколько современные VLMs справляются с такими запросами. Мы представляем VISTA-Bench — систематический бенчмарк, охватывающий области от мультимодального восприятия и рассуждений до одномодального понимания. Он оценивает понимание визуализированного текста путем сравнения вопросов с чистым текстом и визуализированным текстом в контролируемых условиях рендеринга. Обширная оценка более 20 репрезентативных VLMs выявляет выраженный модальный разрыв: модели, хорошо справляющиеся с запросами на чистом тексте, часто значительно ухудшают результаты, когда эквивалентное семантическое содержание представлено в виде визуализированного текста. Этот разрыв усиливается с увеличением перцептивной сложности, что подчеркивает чувствительность к вариациям рендеринга при неизменной семантике. В целом, VISTA-Bench предоставляет принципиальную framework для диагностики этого ограничения и направления прогресса в сторону более унифицированных языковых представлений, охватывающих как токенизированный текст, так и пиксели. Исходный набор данных доступен по адресу https://github.com/QingAnLiu/VISTA-Bench.
Адаптация во время тестирования (Test-Time Training, TTT) дорабатывает языковые модели с помощью градиентных обновлений на этапе вывода. Но является ли адаптация правильной стратегией? Мы исследуем вычислительно-оптимальные стратегии для верифицируемых задач, основанных на исполнении (Verifiable Execution-grounded, VEG), — таких областей, как оптимизация GPU-ядер, где детерминированный оценщик предоставляет плотные, непрерывные сигналы вознаграждения. Используя KernelBench в качестве испытательного стенда и модель с 120 млрд параметров (GPT-OSS-120B с адаптацией LoRA), мы обнаруживаем, что поиск превосходит минимальную адаптацию (1–5 градиентных шагов): выборка Best-of-N достигает 90% успеха задач (18/20 задач) при K=64 на всем оценочном наборе KernelBench L1, в то время как лучшая контрольная точка TTT достигает лишь 30,6% (усреднение по 3 сидам), при этом «эквивалентный K» для TTT оказывается ниже 1, что хуже, чем вывод с одним образцом. Режим отказа — это чрезмерное заострение: градиентные обновления сводят разнообразие к посредственным решениям вместо обнаружения оптимальных. Наш основной вклад — это выборка, управляемая неожиданностью: выбор корректного образца с наибольшей неожиданностью (наименьшей уверенностью) дает 80% успеха против 50% для выбора по максимальной уверенности, что на 30% лучше. Расширение до выбора топ-3 по неожиданности соответствует оракульной производительности на уровне 100%. Эта стратегия с нулевой стоимостью, проверенная с помощью анализа с контролем длины, восстанавливает производительность оракула. Для VEG-задач с плотным вознаграждением вычислительные ресурсы следует направлять на разнообразие образцов и интеллектуальный отбор, а не на градиентную адаптацию. Принцип выбора по неожиданности может быть обобщен на другие области, основанные на исполнении, где оптимальные решения находятся в хвосте распределения.
Непрерывные по времени генеративные модели, такие как диффузионные модели, согласование потоков и выпрямленные потоки, изучают зависящие от времени векторные поля, но обычно обучаются с помощью целевых функций, которые рассматривают временные шаги независимо, что приводит к высокой дисперсии оценок и неэффективной выборке. Предыдущие подходы смягчают эту проблему с помощью явных штрафов за гладкость, регуляризации траекторий или модифицированных вероятностных путей и решателей. Мы представляем Временную Парную Согласованность (TPC) — облегченный принцип снижения дисперсии, который связывает прогнозы скоростей на парных временных шагах вдоль одного и того же вероятностного пути, работая полностью на уровне оценщика без изменения архитектуры модели, вероятностного пути или решателя. Мы предоставляем теоретический анализ, показывающий, что TPC индуцирует квадратичную, связанную с траекторией регуляризацию, которая доказательно снижает дисперсию градиента, сохраняя при этом базовую цель согласования потоков. Реализованная в рамках согласования потоков, TPC улучшает качество и эффективность выборки на наборах данных CIFAR-10 и ImageNet при различных разрешениях, достигая более низкого FID при идентичной или меньшей вычислительной стоимости по сравнению с предыдущими методами, и бесшовно расширяется до современных конвейеров в стиле SOTA с обучением с шумовым аугментированием, score-based денизингом и выпрямленными потоками.
Крупные языковые модели (LLM) все чаще применяются в областях с высокими ставками, где редкие, но серьезные сбои могут привести к необратимым последствиям. Однако преобладающие оценочные бенчмарки часто сводят сложные социальные риски к усредненным скалярным показателям, тем самым скрывая распределительную структуру, междомерные взаимодействия и наихудшие сценарии поведения. В данной статье представлен SHARP (Social Harm Analysis via Risk Profiles) — фреймворк для многомерной, учитывающей распределение оценки социального вреда. SHARP моделирует вред как многомерную случайную величину и интегрирует явную декомпозицию на смещения, справедливость, этику и эпистемическую надежность с агрегацией по принципу «объединения отказов», перепараметризованной в виде аддитивного кумулятивного лог-риска. Фреймворк дополнительно использует чувствительные к риску распределительные статистики, с Conditional Value at Risk (CVaR95) в качестве основного показателя, для характеристики наихудшего поведения модели. Применение SHARP к одиннадцати передовым LLM, оцененным на фиксированном корпусе из n=901 социально чувствительных промптов, показывает, что модели со схожим средним риском могут демонстрировать более чем двукратные различия в хвостовом риске и волатильности. Для всех моделей маргинальное хвостовое поведение систематически варьируется по измерениям вреда: смещения демонстрируют наибольшую тяжесть хвостов, эпистемические риски и риски справедливости занимают промежуточное положение, а этические риски последовательно ниже; вместе эти паттерны выявляют гетерогенные, зависящие от модели структуры сбоев, которые скалярные бенчмарки объединяют. Эти результаты указывают на то, что ответственная оценка и управление LLM требуют перехода от скалярных средних значений к многомерному, чувствительному к хвостам распределения профилированию рисков.
Современные системы развертывания требуют от больших языковых моделей (LLM) обеспечения политик безопасности в масштабе, однако многие методы контроля полагаются на вмешательства во время инференса, что увеличивает повторяющиеся вычислительные затраты и усложняет обслуживание. Управление через активации широко используется, но требует runtime-перехватчиков и масштабирует затраты с ростом количества генераций; условные варианты повышают избирательность за счет применения управления только в определенных случаях, но сохраняют путь контроля во время инференса. Мы исследуем, можно ли полностью перенести селективный отказ в офлайн-режим: возможно ли distill механистическое понимание категориально-специфичного отказа в обновление весов, ограниченное схемой (circuit), которое развертывается как стандартный чекпоинт? Мы предлагаем C-Δθ: Арифметику Весов с Ограничением на Схему, которая (i) локализует вычисления, ответственные за отказ, в виде разреженной схемы с помощью EAP-IG и (ii) вычисляет ограниченное обновление весов ΔθC, поддерживаемое только в рамках этой схемы (обычно <5% параметров). Применение ΔθC дает готовый отредактированный чекпоинт без runtime-перехватчиков, перенося затраты с вмешательства на каждый запрос на единоразовое офлайн-обновление. Мы оцениваем селективность, нацеленную на категории, и сохранение возможностей на бенчмарках отказа и полезности.
С распространением компьютерных агентов (CUA) в сложных реальных условиях повсеместные долгосрочные риски часто приводят к серьезным и необратимым последствиям. Большинство существующих защитных механизмов для CUA используют реактивный подход, ограничивая поведение агента лишь в рамках текущего пространства наблюдений. Хотя такие механизмы могут предотвращать краткосрочные риски (например, переход по фишинговой ссылке), они не способны проактивно избегать долгосрочных угроз: внешне разумные действия могут приводить к отсроченным высокорисковым последствиям (например, очистка логов делает будущие аудиты неотслеживаемыми), которые реактивные механизмы не могут выявить в текущем пространстве наблюдений. Для устранения этих ограничений мы предлагаем предиктивный подход к защитным механизмам, ключевой идеей которого является согласование прогнозируемых будущих рисков с текущими решениями. На основе этого подхода представлен SafePred — предиктивная защитная框架 для CUA, устанавливающая цикл «риск-решение» для обеспечения безопасного поведения агента. SafePred поддерживает две ключевые возможности: (1) Прогнозирование кратко- и долгосрочных рисков: используя политики безопасности как основу для прогнозирования,框架 задействует предсказательные возможности моделей мира для генерации семантических представлений рисков, выявляя и отсекая действия, ведущие к состояниям с высокой угрозой; (2) Оптимизация решений: трансляция прогнозируемых рисков в практические руководства по безопасному принятию решений через пошаговые интервенции и перепланирование на уровне задач. Экстенсивные эксперименты показывают, что SafePred значительно сокращает высокорисковое поведение, достигая более 97.6% показателей безопасности и улучшая полезность задач до 21.4% по сравнению с реактивными базовыми методами.
Использование репрезентационных энкодеров для генеративного моделирования открывает путь к эффективному синтезу данных высокой точности. Однако стандартные диффузионные трансформеры не сходятся на этих репрезентациях напрямую. В то время как последние исследования объясняют это узким местом ёмкости, предлагая вычислительно затратное масштабирование ширины диффузионных трансформеров, мы демонстрируем, что причина неудачи имеет фундаментально геометрическую природу. Мы определяем *геометрическую интерференцию* как коренную причину: стандартное евклидово согласование потоков заставляет вероятностные траектории проходить через низкоплотностную внутреннюю область гиперсферического пространства признаков репрезентационных энкодеров, вместо следования по поверхности многообразия. Для решения этой проблемы мы предлагаем *риманово согласование потоков с якобиевской регуляризацией* (RJF). Ограничивая генеративный процесс геодезическими многообразия и корректируя распространение ошибок, вызванное кривизной, RJF позволяет стандартным архитектурам диффузионных трансформеров сходиться без масштабирования ширины. Наш метод RJF обеспечивает эффективную сходимость стандартной архитектуры DiT-B (131 млн параметров), достигая FID 3.37 в тех случаях, когда предыдущие методы не сходятся. Код: https://github.com/amandpkr/RJF
Запуск больших языковых моделей (LLM) с расширенными рассуждениями для каждой задачи является дорогостоящим, однако определение того, какие входные данные действительно требуют дополнительных вычислительных ресурсов, остается сложной задачей. Мы исследуем, можно ли определить их собственную вероятность успеха на основе внутренних представлений до генерации ответа, и может ли этот сигнал направлять более эффективный вывод. Мы обучаем линейные пробы на активациях, полученных до генерации, чтобы предсказывать успех, специфичный для политики модели, в математических задачах и задачах по программированию. Этот подход существенно превосходит поверхностные признаки, такие как длина вопроса и TF-IDF. Используя набор данных E2H-AMC, который предоставляет данные о производительности как человека, так и модели на идентичных задачах, мы показываем, что модели кодируют специфичное для модели представление о сложности, которое отличается от человеческого восприятия трудности, и что это различие усиливается при использовании расширенных рассуждений. Используя эти пробы, мы демонстрируем, что маршрутизация запросов между пулом моделей может превзойти производительность лучшей отдельной модели, одновременно сокращая стоимость вывода до 70% на наборе данных MATH. Это показывает, что внутренние представления позволяют достичь практического повышения эффективности, даже когда они расходятся с человеческими интуициями о сложности. Наш код доступен по адресу: https://github.com/KabakaWilliam/llms_know_difficulty.
Кластеризация атрибутивных графов (AGC) — это фундаментальная неконтролируемая задача, которая интегрирует структурную топологию и атрибуты узлов для выявления скрытых паттернов в графовых данных. Несмотря на свою важность в промышленных приложениях, таких как обнаружение мошенничества и сегментация пользователей, между академическими исследованиями и реальным внедрением сохраняется значительный разрыв. Современные протоколы оценки страдают от использования маломасштабных цитатных наборов данных с высокой гомофилией, не масштабируемых парадигм обучения на полных батчах и зависимости от контролируемых метрик, которые не отражают производительность в условиях нехватки меток. Для преодоления этих пробелов мы представляем PyAGC — комплексный, готовый к эксплуатации бенчмарк и библиотеку, предназначенные для стресс-тестирования методов AGC в различных масштабах и при различных структурных свойствах. Мы объединяем существующие методики в модульную структуру Encode-Cluster-Optimize и впервые предоставляем эффективные по памяти реализации с мини-батчами для широкого спектра современных алгоритмов AGC. Наш бенчмарк включает 12 разнообразных наборов данных, от 2.7 тыс. до 111 млн узлов, специально включая промышленные графы со сложными табличными признаками и низкой гомофилией. Кроме того, мы предлагаем целостный протокол оценки, который наряду с традиционными контролируемыми метриками требует использования неконтролируемых структурных метрик и профилирования эффективности. Протестированный в ответственных промышленных процессах Ant Group, этот бенчмарк предлагает сообществу надежную, воспроизводимую и масштабируемую платформу для продвижения исследований AGC в сторону реального внедрения. Код и ресурсы общедоступны через GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) и документацию (https://pyagc.readthedocs.io).
Симуляция стала ключевым инструментом для масштабного обучения и оценки домашних роботов, однако существующие среды не способны передать разнообразие и физическую сложность реальных помещений. Современные методы синтеза сцен создают редко обставленные комнаты, лишенные характерного для реальности плотного нагромождения предметов, шарнирной мебели и физических свойств, необходимых для манипуляций роботов. Мы представляем SceneSmith — иерархическую агентскую систему, которая генерирует готовые к симуляции внутренние пространства по текстовым описаниям. SceneSmith создает сцены поэтапно — от архитектурной планировки до расстановки мебели и размещения мелких объектов — где каждый этап реализован как взаимодействие агентов на основе больших языковых моделей: дизайнера, критика и оркестратора. Фреймворк интегрирует генерацию ассетов через синтез 3D-объектов из текста для статических предметов, поиск в наборах данных для шарнирных объектов и оценку физических свойств. SceneSmith генерирует в 3–6 раз больше объектов, чем предыдущие методы, с уровнем пересечений между объектами менее 2% и 96% объектов остаются стабильными при физическом моделировании. В исследовании с участием 205 человек система продемонстрировала превосходство над базовыми методами с показателями 92% за реалистичность и 91% за соответствие описанию в среднем. Мы также показываем, что эти среды могут использоваться в сквозном конвейере для автоматической оценки стратегий управления роботами.