Ежедневно отобранные исследовательские статьи по ИИ с переводами
Способность обрабатывать сверхдлинные контексты становится незаменимой для современных LLM: агентные рабочие процессы, понимание кода на уровне репозитория и долговременная память требуют от модели совместного внимания к сотням тысяч или миллионам токенов, однако квадратичная стоимость softmax-внимания делает это неприемлемым при развертывании в масштабе. Мы представляем MiniMax Sparse Attention (MSA) — блочное разреженное внимание, построенное на основе Grouped Query Attention (GQA). Легковесная индексная ветвь оценивает блоки ключ-значение и независимо выбирает подмножество Top-k для каждой группы GQA, обеспечивая специфичную для группы разреженную выборку при сохранении эффективного выполнения на уровне блоков; основная ветвь затем выполняет точное блочно-разреженное внимание только по выбранным блокам. Разработанная на основе принципов простоты и масштабируемости, MSA намеренно упрощена, что позволяет легко развертывать ее на широком спектре GPU. Чтобы преобразовать разреженность в практическое ускорение, мы совместно разработали MSA с путем выполнения на GPU, использующим выбор Top-k без exp и внешнее разреженное внимание KV для улучшения использования тензорных ядер при доступе с гранулярностью блоков. На модели с 109 млрд параметров, обученной с поддержкой мультимодальности с самого начала, MSA показывает результаты, сопоставимые с GQA, при этом сокращая вычислительные затраты внимания на токен в 28,4 раза при контексте в 1 млн. В сочетании с совместно разработанным ядром MSA достигает ускорения времени выполнения на H800 в 14,2 раза для prefill и в 7,6 раза для декодирования. Наше инференсное ядро доступно по адресу: https://github.com/MiniMax-AI/MSA. Промышленная мультимодальная модель, работающая на основе MSA, была опубликована по адресу: https://huggingface.co/MiniMaxAI/MiniMax-M3.
Агенты на основе больших языковых моделей (LLM) добились высоких результатов на широком спектре бенчмарков, однако большинство оценок предполагают статические среды. Напротив, развертывание в реальном мире изначально динамично, требуя от агентов постоянного согласования своих знаний, навыков и поведения с изменяющимися средами и обновленными условиями задач. Чтобы восполнить этот пробел, мы представляем EvoArena — набор бенчмарков, который моделирует изменения среды как последовательности прогрессивных обновлений в терминальной, программной и социальной областях. Кроме того, мы предлагаем EvoMem — парадигму памяти на основе патчей, которая записывает эволюцию памяти в виде структурированных историй обновлений, позволяя агентам рассуждать об эволюции среды через изменения в своей памяти. Эксперименты показывают, что современные агенты испытывают трудности на EvoArena, достигая средней точности 39,6% в эволюционирующих терминальных, программных и социально-предпочтительных областях. EvoMem последовательно улучшает производительность, обеспечивая средний прирост на 1,5% на EvoArena, а также улучшая стандартные бенчмарки, такие как GAIA и LoCoMo, на 6,1% и 4,8%. Помимо отдельных задач, EvoMem дополнительно улучшает точность на уровне цепочек на 3,7% на EvoArena, где успех требует выполнения последовательной серии связанных эволюционных подзадач. Механистический анализ показывает, что EvoMem улучшает захват свидетельств в памяти, что указывает на лучшее сохранение полных эволюционирующих состояний среды. Наши результаты подчеркивают важность моделирования эволюции как в оценке, так и в памяти для надежного развертывания агентов.
Агенты, использующие компьютер (CUAs), все чаще работают в средах выполнения, сочетающих визуальное управление рабочим столом, выполнение командной строки, редактирование кода, браузеры и внешние инструменты. Однако существующие бенчмарки зачастую оценивают эти интерфейсы как раздельные возможности, оставляя долгосрочную оркестрацию между интерфейсами недостаточно протестированной. В связи с этим мы представляем WeaveBench — бенчмарк с гибридными интерфейсами и длинным горизонтом планирования, включающий 114 задач из 8 реальных рабочих доменов, основанных на реальных запросах пользователей и публично проверяемых артефактах. Каждая задача требует от агентов комбинировать наблюдения/действия с графическим интерфейсом (GUI) с операциями командной строки (CLI) или кода в рамках единой траектории. Мы оцениваем эти задачи на реальном рабочем столе Ubuntu в развернутых средах выполнения CLI-агентов, дополненных минимальным плагином управления рабочим столом. Также мы предлагаем сопутствующего судью, учитывающего траекторию; он проверяет результаты, файлы, скриншоты, журналы и следы действий, выявляя упрощенные поведения, такие как поддельные визуальные свидетельства или жестко заданные метрики. Среди пар передовых моделей и сред выполнения лучшая доля успешных прохождений (PassRate) достигает лишь 41,2%, что свидетельствует о том, что бенчмарк далек от насыщения. Оценка только по итоговым результатам, как показывает судья, учитывающий траекторию, существенно завышает производительность агентов. В целом WeaveBench выявляет критический пробел в оценке CUA и предоставляет эффективный испытательный стенд для проверки способности агентов оркестровать операции с GUI, CLI и кодом в долгосрочных реальных задачах.
Пространственное рассуждение — способность определять местоположение объектов, их взаимосвязи и движение в трёхмерном пространстве — остаётся фундаментальной проблемой для моделей зрения и языка (VLM). Агенты с инструментальным дополнением пытаются решить эту задачу, расширяя VLM специализированными модулями восприятия, однако их эффективность ограничена интерфейсом действий, через который вызываются эти инструменты. В данной работе мы исследуем, как проектирование этого интерфейса влияет на способность агента к открытому пространственному рассуждению. Существующие пространственные агенты либо используют однопроходное выполнение кода, что предполагает полную стратегию анализа до наблюдения любого промежуточного результата, либо полагаются на структурированный интерфейс вызова инструментов, который часто предоставляет меньше гибкости для свободного комбинирования операций или адаптации анализа под каждую задачу. Оба подхода обеспечивают ограниченную гибкость для открытого, сложного 3D/4D пространственного рассуждения. Поэтому мы предлагаем SpatialClaw — фреймворк без обучения для пространственного рассуждения, использующий код в качестве интерфейса действий. SpatialClaw поддерживает долговременное ядро Python, предварительно загруженное входными кадрами и набором примитивов восприятия и геометрии, позволяя агенту на основе VLM записывать по одному исполняемому блоку кода за шаг с учётом всех предыдущих результатов. Это даёт агенту возможность гибко комбинировать и манипулировать результатами восприятия, адаптируя свой анализ как к промежуточным текстовым и визуальным наблюдениям, так и к требованиям каждой задачи. Оцененный на 20 бенчмарках пространственного рассуждения, охватывающих широкий спектр статических и динамических 3D/4D задач, SpatialClaw достиг средней точности 59,9%, превзойдя недавнего пространственного агента на +11,2 процентных пункта, с устойчивым улучшением на шести базовых архитектурах VLM из двух семейств моделей без какой-либо адаптации под конкретный бенчмарк или модель.
Мы представляем MaxProof — фреймворк для масштабирования на уровне популяции во время тестирования, предназначенный для математических доказательств олимпиадного уровня в серии MiniMax-M3. M3 сначала обучает три ориентированные на доказательства способности — генерацию доказательств, верификацию доказательств и восстановление доказательств с учетом критики — с использованием генеративного верификатора с многоуровневой защитой, спроектированного для низкого уровня ложноположительных результатов. Эти способности объединяются в единую выпущенную модель M3. Во время тестирования MaxProof использует модель как генератор, верификатор, уточнитель и ранжировщик, осуществляет поиск по популяции кандидатов доказательств и возвращает одно итоговое доказательство посредством турнирного отбора. Благодаря масштабированию во время тестирования с помощью MaxProof модель M3 достигает 35/42 на IMO 2025 и 36/42 на USAMO 2026, превышая человеческий золотомедальный порог в обоих случаях.
Современные генераторы изображений демонстрируют впечатляющий фотореализм и способность следовать инструкциям при генерации и редактировании отдельных изображений. Однако из-за ограничений архитектуры они не способны выполнять перемежающуюся генерацию (последовательность текст-изображение), которая имеет решающее значение для визуальных повествований, инструкций и воплощенных манипуляций. Даже новейшие открытые единые мультимодальные модели (UMM) показывают ограниченные результаты в этой области. В данной статье мы представляем InterleaveThinker — первый мультиагентный конвейер, предназначенный для наделения любого существующего генератора изображений способностью к перемежающейся генерации. В частности, мы используем агент-планировщик для организации входной последовательности изображение-текст, указывая генератору изображений, что требуется выполнить на каждом шаге. Затем мы вводим агент-критик, который оценивает выходные данные генератора, выявляет образцы, отклоняющиеся от запланированных инструкций, и уточняет инструкции для повторной генерации. Для реализации этого конвейера мы создали наборы данных Interleave-Planner-SFT-80k и Interleave-Critic-SFT-112k для форматного холодного старта. Далее мы разработали Interleave-Critic-RL-13k для усиления способности поэтапно корректировать инструкции в пределах траектории генерации с использованием GRPO. Поскольку одна траектория перемежающейся генерации может включать более 25 вызовов генератора, оптимизировать всю траекторию вычислительно нецелесообразно. Поэтому мы предлагаем награду за точность и пошаговую награду, что позволяет эффективно управлять всей траекторией генерации с помощью одношагового обучения с подкреплением. Результаты показывают, что InterleaveThinker улучшает производительность различных генераторов изображений. На тестах перемежающейся генерации он достигает производительности, сопоставимой с Nano Banana и GPT-5. Удивительно, но он также значительно улучшает базовую модель на задачах, основанных на рассуждении; например, на 4-шаговом FLUX.2-klein мы наблюдаем существенные улучшения на наборах WISE и RISE.
Мультимодальные большие языковые модели (ММБЯМ) продемонстрировали значительный успех в визуальном понимании, однако их производительность существенно снижается при реальных визуальных искажениях. Хотя существуют существующие подходы к повышению устойчивости, они ограничены: выравнивание признаков в "черном ящике" лишено интерпретируемости, а текстовые рассуждения в "белом ящике" не могут восстановить утраченные детали на уровне пикселей. Данная работа исследует фундаментальный вопрос: могут ли ММБЯМ самостоятельно восстанавливать искаженное визуальное содержание? Для решения этой проблемы мы предлагаем Robust-U1 — новую архитектуру, наделяющую ММБЯМ явной способностью к визуальному самовосстановлению для устойчивого понимания. Подход включает три ключевых этапа: контролируемую тонкую настройку для начальной реконструкции, обучение с подкреплением с двойными вознаграждениями (индекс структурного сходства на уровне пикселей и сходство CLIP на семантическом уровне) для достижения высокого визуального качества, а также мультимодальное рассуждение, совместно учитывающее как искаженный входной сигнал, так и восстановленное изображение. Обширные эксперименты показывают, что Robust-U1 достигает самой высокой устойчивости на эталоне реальных искажений и сохраняет превосходную производительность при состязательных искажениях на общих бенчмарках VQA. Анализ подтверждает, что высококачественное визуальное восстановление напрямую улучшает производительность рассуждений, что делает самовосстановление критически важным механизмом для устойчивого визуального понимания. Исходный код доступен по адресу https://github.com/jqtangust/Robust-U1.
Обучение агентов глубокого поиска требует проверяемых вопросов, ответы на которые остаются недоступными до тех пор, пока в ходе поиска не будет получено достаточно свидетельств. Существующие методы синтеза часто повышают видимую сложность за счёт обогащения структур графов, однако одна лишь структурная сложность не гарантирует реализованную сложность поиска: предполагаемый процесс поиска может разрушиться из-за более дешёвого опознавательного пути. Мы формализуем этот разрыв с помощью системы оценки сложности с учётом сокращений и выделяем четыре действенных риска сокращений: совместное покрытие свидетельств, селективность по одному признаку, открытые константы и привязка предварительных знаний. Для диагностики их реализованных эффектов мы используем сигнатуры траекторий, включающие стоимость решения, время нахождения ответа и частоту использования предварительных сокращений. Руководствуясь этой системой, мы представляем FORT — платформу синтеза обучающих данных, устойчивых к сокращениям. FORT создаёт такие данные, контролируя риски сокращений на этапах выбора сущностей, построения графа свидетельств, формулировки вопросов и состязательного уточнения. Эксперименты показывают, что FORT обеспечивает более длительный поиск до получения ответа и меньшее количество паттернов сокращений по сравнению с существующими открытыми наборами данных для глубокого поиска. Используя полученные траектории, мы обучаем FORT-Searcher только с помощью точной настройки с учителем (SFT), и он достигает наилучшей общей производительности среди агентов поиска с открытым исходным кодом сопоставимого размера на сложных эталонных тестах глубокого поиска. Соответствующие ресурсы будут доступны по адресу https://github.com/RUCAIBox/FORT-Searcher.
Научные лаборатории всё чаще полагаются на системы искусственного интеллекта для рассуждений об экспериментах, однако физическое выполнение научной работы остаётся в значительной степени вне их досягаемости. ИИ может помогать читать литературу, генерировать гипотезы и планировать протоколы, но выполнение этих протоколов на лабораторном столе всё ещё требует участия человека. Модели «зрение-язык-действие» (Vision-Language-Action, VLA) предлагают один из возможных интерфейсов между письменными протоколами и роботизированным выполнением, однако существующие политики обучаются преимущественно на бытовых и настольных демонстрациях и редко сталкиваются с приборами, прозрачными жидкостями или фиксированными рабочими процессами протоколов, встречающимися в научных лабораториях. Преодоление этого разрыва требует как специфической для лабораторий супервизии, так и единой обучающей платформы, способной accommodate различные роботизированные воплощения, используемые для выполнения экспериментальных протоколов. Поэтому мы определяем данные и воплощение как центральные узкие места наряду с дизайном модели. Для решения проблемы данных мы создаём RoboGenesis — симуляционный рабочий процесс и механизм обработки данных, который компонует настроенные лабораторные процессы из атомарных навыков, проверяет и фильтрует прогоны, а также экспортирует структурированные демонстрации для поддерживаемых профилей роботов. Со стороны политики мы представляем LabVLA, обученную с помощью двухэтапного рецепта: предварительное обучение токенам действий FAST сначала позволяет базовой модели Qwen3-VL-4B-Instruct осознавать действия до того, как будет изучено какое-либо непрерывное управление, а затем постобучение с согласованием потоков (flow matching) подключает эксперта по действиям DiT с изоляцией знаний. На эталонном тесте LabUtopia LabVLA достигает самой высокой средней доли успешных попыток среди всех оценённых базовых методов как в условиях внутри распределения, так и вне распределения.
Спекулятивное декодирование (SD) решает проблему высоких вычислительных затрат крупных языковых моделей (LLM) за счёт того, что лёгкие модели-драфтеры генерируют кандидаты, которые крупные верификаторы проверяют параллельно. Существующие методы «драфт-верификация» используют бинарное решение: принять или полностью пересчитать. Однако мы обнаружили, что многие отклонённые токены могут быть корректно верифицированы с помощью подмодели, полученной из полного верификатора через внутримодельную маршрутизацию, а не полным верификатором. Это мотивирует использование нашего «облегчённого верификатора» (slim-verifier) для обработки токенов, требующих умеренных вычислительных ресурсов, что сокращает количество дорогостоящих вызовов большой модели. Мы предлагаем VIA-SD (Verification via Intra-Model Routing for Speculative Decoding) — многоуровневую структуру, использующую маршрутизированный облегчённый верификатор. Токены драфта обрабатываются иерархически: прямое принятие в случае высокой уверенности, регенерация облегчённым верификатором в случае средней уверенности и верификация полной моделью в неопределённых случаях. На четырёх типовых задачах и нескольких семействах моделей VIA-SD снижает уровень отказов на 0.10–0.22 и обеспечивает ускорение на 10–20% по сравнению с сильными базовыми SD-методами, достигая ускорения в 2.5–3 раза относительно декодирования без драфта. Более того, VIA-SD совместим с существующими SD-фреймворками без изменения процедур их обучения. Наши результаты указывают на многоуровневое SD как общую парадигму масштабируемого и эффективного вывода LLM. Страница проекта: https://zju-xyc.github.io/VIA-SD-Project-Page/
Мультимодальное слияние изображений направлено на объединение дополнительной информации из различных модальностей в результирующее изображение, сохраняющее богатые локальные детали при глобально согласованном внешнем виде. Существующие подходы строят общие представления на двумерных (2D) сетках признаков, которые хорошо моделируют локальные структуры, но имеют ограниченные возможности управления глобальными факторами внешнего вида на уровне изображения. Для балансировки этих целей мы предлагаем компактный одномерный (1D) токен-интерфейс на основе замороженного предобученного токенизатора изображений для моделирования нелокальных факторов внешнего вида/базы. В отличие от использования токенизатора в качестве основы для реконструкции, наша конструкция использует 1D-токеновое пространство как глобальный носитель, сохраняя при этом 2D-пространственный путь для восстановления локальных структур. В частности, мы вводим метод Selective Token Editing (STE), который разреженно обновляет/заменяет небольшое множество критических токенов, обеспечивая легковесный механизм для управления согласованностью глобального внешнего вида без изменения основы слияния и без введения дополнительных функций потерь. Эксперименты на четырёх широко используемых эталонных наборах данных показывают, что наш метод достигает наилучшей общей производительности, обеспечивая последовательные улучшения по множеству метрик как в глобальной согласованности, так и в локальной точности. Страница проекта: https://zju-xyc.github.io/1D-Fusion-Project-Page/
Целостные визуальные токенизаторы являются основой унифицированных мультимодальных моделей (UMM), поскольку они отображают разнообразные визуальные входные данные в единое пространство представлений. В данной статье мы представляем HYDRA-X — первую UMM, которая объединяет токенизацию изображений и видео в рамках единого Vision Transformer (ViT). Наша разработка обусловлена двумя ключевыми задачами: эффективным внедрением способности к пространственно-временной реконструкции в нативный ViT и внедрением семантической осведомленности на уровне изображения и видео в латентное пространство. Для решения первой задачи всесторонние абляции выявили два ключевых результата: (1) покадровое каузальное временное внимание является достаточным для визуальной реконструкции, тогда как полное пространственно-временное внимание ухудшает её; (2) иерархическое временное сжатие существенно превосходит альтернативы с одношаговым сжатием. Для решения второй задачи мы предлагаем легковесный декомпрессор, который повышает дискретизацию временно сжатых признаков под совместным контролем учителя по изображениям и видео, тем самым вводя дополнительные семантические структуры в компактное латентное пространство. Опираясь на этот целостный токенизатор, мы дополнительно предлагаем принципиальное улучшение конвейера редактирования: взаимодействие источника и цели должно происходить на латентном уровне внутри токенизатора, а не на семантическом уровне внутри LLM, что существенно повышает согласованность редактирования и ускоряет сходимость. Реализованная в виде плотной модели на 7 миллиардов параметров, HYDRA-X демонстрирует высокую производительность в задачах понимания и генерации изображений и видео, прокладывая путь для будущих UMM с унифицированными токенизаторами.
Агенты на основе LLM демонстрируют растущий потенциал в автоматизации научных открытий. При наличии оптимизируемой метрики и среды выполнения они могут предлагать, проверять и итеративно улучшать научные решения, достигая результатов, превосходящих созданные человеком подходы. По мере совершенствования возможностей моделей мы утверждаем, что узким местом автономного научного поиска становится переход от предписывания рабочих процессов агентов к проектированию их среды: ресурсов, ограничений и интерфейсов, формирующих поведение агента. Мы рассматриваем это как инженерию среды — создание сред, усиливающих продуктивное поведение (например, открытое исследование, систематическое управление артефактами и взаимодействие между агентами) и подавляющих вредоносное (например, взлом вознаграждений и обременительный надзор человека). Мы представляем EurekAgent — систему агентов, основанную на инженерии среды для метрико-ориентированного автономного научного поиска. EurekAgent проектирует среду по четырем направлениям: инженерия разрешений для ограниченного выполнения агентов и изолированной оценки; инженерия артефактов для совместной работы на основе файловой системы и Git; инженерия бюджета для исследования с учетом затрат; и инженерия с участием человека для удобного контроля и вмешательства. EurekAgent устанавливает новые передовые результаты для нескольких задач в области математики, ядерной инженерии и машинного обучения, включая новые рекорды упаковки 26 кругов, достигнутые при общей стоимости API менее 11 долларов. Мы публикуем в открытом доступе наш код и результаты и призываем рассматривать инженерию среды как ключевое направление исследований для создания надежных автономных исследовательских агентов.
Успех больших языковых моделей в математическом рассуждении в значительной степени зависит от генерации разнообразных и корректных путей решения на этапе развертывания (rollout). Однако текущие методы rollout сталкиваются с фундаментальным компромиссом: семплирование на уровне токенов часто порождает избыточные траектории, различающиеся лишь перефразированием, в то время как методы на уровне эмбеддингов, использующие случайный шум, нередко нарушают семантическую согласованность. Для решения этой проблемы мы представляем N-GRPO — новую стратегию исследования, интегрированную в фреймворк Group Relative Policy Optimization (GRPO). Вместо того чтобы полагаться на семплирование на уровне токенов или собственный шум на уровне эмбеддингов, наш подход использует Semantic Neighbor Mixing. Этот механизм динамически конструирует входные представления путем смешивания эмбеддингов опорного токена и его ближайших семантических соседей, тем самым привнося разнообразие при строгом соблюдении локального семантического многообразия. Экспериментальные оценки на моделях DeepSeek-R1-Distill-Qwen различных размеров показывают, что N-GRPO не только достигает устойчивых улучшений по сравнению с сильными базовыми линиями на бенчмарках математического рассуждения, но и демонстрирует надежные способности к обобщению на задачах вне распределения.
Скрытая цепочка рассуждений сжимает процесс мышления, заменяя видимые следы рассуждений непрерывной рекуррентностью скрытых состояний, однако существующие формулировки трудно оптимизировать с помощью стандартного обучения с подкреплением по текущей политике (RL) и сложно интерпретировать с точки зрения причинности. Наше ключевое наблюдение заключается в том, что одна пара явных граничных токенов может решить обе проблемы одновременно: дискретные якоря входа и выхода делают скрытый блок совместимым со стандартным on-policy RL, а те же якоря предоставляют естественную опору для механистического анализа. Руководствуясь этим, мы предлагаем SWITCH — переключаемую платформу для скрытых рассуждений. Модель выдает <swi> для входа в скрытый режим и </swi> для выхода. Поскольку границы являются обычными дискретными токенами, отношение политик GRPO четко определено в каждой точке принятия решений. Те же якоря также делают скрытые шаги доступными для прямого зондирования и причинного вмешательства. Мы обучаем модель с помощью учебной программы от видимого к скрытому и целевой функции Switch-GRPO, которая распространяет градиенты через рекуррентные скрытые вычисления. SWITCH последовательно превосходит предыдущие подходы к скрытым рассуждениям с рекуррентностью скрытых состояний при аналогичном масштабе. Механистический анализ через граничные токены дополнительно выявляет три результата: (i) <swi> является резко локализованной изученной политикой переключения, а не стилистическим артефактом; (ii) скрытый шаг, который он открывает, выполняет специфические для задачи, причинно важные вычисления, а не действует как инертный заполнитель; (iii) и эти вычисления сосредоточены на одном переходе скрытого состояния при входе. В совокупности эти результаты показывают, что скрытые рассуждения с рекуррентностью скрытых состояний обучаемы с помощью RL и открыты для прямого механистического анализа, включая то, как on-policy RL сам улучшает модель изнутри.
Мы представляем VideoMDM — основанную на диффузии структуру, которая обучает априорные модели трехмерных движений человека непосредственно по точным двумерным позам, извлеченным из монокулярных видео, без использования какой-либо трехмерной истины. Предварительно обученный преобразователь 2D в 3D предоставляет приблизительные последовательности трехмерных поз, которые служат зашумленным учителем: эти последовательности подвергаются диффузии, затем модель очищает их в трехмерном пространстве, а контроль осуществляется в двумерном пространстве путем обратного проецирования предсказания и сравнения с точными ключевыми точками. Мы показываем, что при мягких допущениях функция потерь при обратном проецировании с весами по глубине эквивалентна по математическому ожиданию прямому трехмерному контролю, и адаптируем стандартные регуляризаторы трехмерных движений — согласованность скоростей и выравнивание избыточных представлений — к этому двумерному сценарию. В отличие от методов, которые переводят 2D в 3D только на этапе вывода, VideoMDM изучает согласованное многообразие трехмерных движений в процессе обучения. На наборе данных HumanML3D модель почти устраняет разрыв с MDM, обученным с полным трехмерным контролем (FID 0.88 против 0.54); на реальных видеонаборах Fit3D и NBA метод обучается генерировать движения, которые последовательно предпочитаются людьми, демонстрируя высокие количественные результаты.
Несмотря на создание все более фотореалистичных изображений, модели текст-в-изображение (T2I) по-прежнему демонстрируют локализованные, малозаметные и структурно сложные сбои. Диагностика этих сбоев требует обратной связи на уровне экземпляров, которая отвечает на вопросы о том, где возникает дефект, какого он типа, почему он является дефектным и какова его важность для общего качества изображения. Хотя недавние методы плотной обратной связи выходят за рамки скалярного контроля, их представления, ориентированные на тепловые карты, по-прежнему формулируют диагностику как регрессию пиксельного поля, что затрудняет локализацию дефектов с переменной мощностью и привязку семантических причин к отдельным сбоям. Чтобы устранить это узкое место представления, мы предлагаем структурированное обоснование дефектов (SDG), которое формулирует диагностику T2I как предсказание структурированного набора, моделируя каждый дефект в виде кортежа (местоположение, тип, причина, важность). Чтобы сделать эту формулировку обучаемой и измеримой, мы представляем SDG-30K — набор данных из 30 тысяч изображений с аннотациями на основе ограничивающих рамок для четырех современных генераторов T2I, а также специальный протокол оценки SDG-Eval. Основываясь на этом структурированном представлении, мы также представляем фреймворк от диагностики к выравниванию, в котором модель зрения-языка (VLM) служит детектором SDG, а BoxFlow-GRPO преобразует предсказанные наборы дефектов в пространственные вознаграждения, полученные из ограничивающих рамок и взвешенные по важности, для выравнивания диффузионной модели. Обширные эксперименты показывают, что наш детектор SDG превосходит ведущие проприетарные VLM в структурированном обосновании дефектов, в то время как вознаграждения, направляемые SDG, последовательно улучшают выравнивание T2I и поддерживают локализованное уточнение изображений. Эти результаты утверждают SDG как унифицированный интерфейс на уровне экземпляров для диагностики, оценки и улучшения современных генеративных моделей.
Мы представляем MoVerse — модель видеомира в реальном времени, создающую интерактивно навигируемую сцену по одному изображению с узким полем обзора. Эта постановка является сложной, поскольку входной сигнал охватывает лишь малую часть окружения, в то время как интерактивное перемещение требует полного окружающего мира, устойчивой геометрии, управляемого движения камеры и темпорально когерентных наблюдений высокого качества. MoVerse решает эту задачу, разделяя построение мира и рендеринг наблюдений. Сначала модель расширяет входной сигнал до панорамы 360°, выровненной по гравитации, с помощью диффузии, учитывающей топологию, закрывая отсутствующее поле обзора до выполнения 3D-рассуждений. Затем она поднимает панораму до постоянного 3D-скаффолда на основе гауссианов, используя прогнозирование остаточных значений с учетом геометрии панорамы, что даёт плотную и непосредственно рендерируемую пространственную память. Наконец, видеорендерер, обусловленный гауссианами, преобразует рендеринги скаффолда вдоль задаваемых пользователем траекторий камеры в фотореалистичное видео. Чтобы сделать этот рендерер пригодным для взаимодействия, мы обучаем двунаправленного диффузионного учителя для качественного условного рендеринга и дистиллируем его в каузального авторегрессионного ученика для потоковой передачи с ограниченной задержкой. Такая конструкция объединяет управляемость и долговременную согласованность явных 3D-представлений с перцептивным качеством генеративных видеомоделей. MoVerse поддерживает перемещение по сцене в реальном времени с частотой 8 кадров/с на одном GPU NVIDIA RTX 4090, демонстрируя практический путь к созданию мира по одному изображению с интерактивным видео на выходе.
Большие языковые модели всё чаще развёртываются в качестве агентов для долгосрочных задач, однако их производительность определяется не только возможностями модели и проектированием среды, но и интерфейсом взаимодействия (обвязкой), опосредующим взаимодействие между агентом и средой. Существующие обвязки в значительной степени разрабатываются вручную, что затрудняет их масштабирование по мере удлинения траекторий и усложнения взаимодействий. В данной работе мы ставим вопрос о том, может ли обвязка быть порождена обучаемым подключаемым модулем, который можно тренировать сквозным образом. Мы представляем HarnessBridge — лёгкий обучаемый контроллер обвязки, параметризующий интерфейс агент–среда в виде двунаправленной проекции. HarnessBridge изучает две двунаправленные проекции: проекцию наблюдений, которая дистиллирует сырые траектории в компактные, релевантные для принятия решений состояния, и проекцию действий, которая преобразует предложенные действия в выполнимые переходы или отклонения, обоснованные траекторией. Мы обучаем HarnessBridge на наборе данных супервизии обвязки с помощью унифицированной настройки на основе инструкций. На Terminal-Bench~2.0 и SWE-bench Verified HarnessBridge достигает или превосходит сильные специализированные обвязки, одновременно существенно снижая потребление токенов и длину траектории, и обобщается от меньших генераторов к более крупным коммерческим моделям.
Дистилляция с малым числом шагов стала все более зрелой для генерации за 4–8 шагов, однако дальнейшее сокращение до двух шагов остается сложной задачей. В данной работе мы представляем Z-Image Turbo++ — высококачественную модель генерации изображений за два шага, дистиллированную из 8-шагового учителя Z-Image Turbo. Наш метод устраняет основные узкие места, такие как повышенная сложность задачи и ограниченная емкость модели при двухшаговой генерации, с помощью трех простых, но эффективных проектных решений, адаптированных к данному режиму. Во-первых, мы предлагаем состязательное обучение с согласованием распределений, которое использует изображения, сгенерированные учителем, а не внешние реальные изображения в качестве реальных образцов для обучения GAN, что обеспечивает более достижимую и информативную состязательную цель. Во-вторых, мы принимаем параметризацию с разделением по шагам, назначая независимые параметры модели для двух шагов шумоподавления, чтобы лучше соответствовать их различным требованиям к емкости. В-третьих, мы выполняем сквозное обучение с итеративной регуляризацией, позволяя первому шагу получать градиенты от конечного качества изображения, сохраняя при этом осмысленную промежуточную генерацию через явную потерю на первом шаге. В совокупности эти проектные решения существенно сужают разрыв в качестве между двухшаговой и восьмишаговой генерацией как в качественных, так и в количественных оценках, подчеркивая потенциал тщательно адаптированных стратегий дистилляции для улучшения компромисса между качеством и эффективностью в генерации с малым числом шагов.
Глубокий поиск требует от агентов ответов на сложные вопросы посредством многошагового поиска в веб, просмотра, сравнения свидетельств и синтеза. Ключевая задача заключается в том, как решить, в каком направлении продолжать поиск, когда несколько вариантов выглядят правдоподобно, но лишь некоторые из них впоследствии приведут к надежным свидетельствам. Если агент жадно следует за текущим наилучшим направлением, он может постоянно углублять слабое продолжение. Если же он исследует без дисциплины, он может потратить бюджет на разрозненные попытки. Мы предлагаем TreeSeeker — фреймворк времени вывода для контролируемого метода проб и ошибок при глубоком поиске. TreeSeeker организует поиск как процесс с ветвлением и возвратом по древовидным состояниям, где каждая ветвь представляет собой пробное направление для достижения подцели. На каждом раунде TreeSearch читает все деревья подцелей, идентифицирует активные цели и использует текстовые сигналы UCB (значение, неопределенность, риск) для выбора между эксплуатацией перспективной ветви, исследованием неопределенной альтернативы или отсечением непродуктивного продолжения с возвратом к более ранней точке ветвления. TreeMem поддерживает этот контур управления, сохраняя свидетельства, неопределенность, конфликты, прогресс и признаки неудачи, привязанные к ветвям, на которых они возникли, чтобы результаты проб направляли последующие решения. Эксперименты на XBench-DeepSearch, BrowseComp и BrowseComp-ZH показывают, что TreeSeeker стабильно превосходит сильные базовые решения с открытым исходным кодом, что позволяет предположить, что явное управление с ветвлением и возвратом дополняет более развитые способности к рассуждению и выполнению инструментов.
Оценки состязательной устойчивости больших языковых моделей (LLM) обычно сообщают коэффициент успешности атак (ASR) при фиксированном бюджете запросов, неявно считая все атаки одинаково затратными. На практике вычислительная стоимость различных стратегий атак может различаться на порядки величины. Следовательно, ASR при фиксированном бюджете может скрывать реальные усилия, необходимые для взлома модели, что затрудняет определение того, оправдывает ли стоимость атаки ее выгоду для атакующего. Мы предлагаем фреймворк оценки, учитывающий вычислительные затраты, основанный на вычислительном давлении, измеряемом в совокупных операциях с плавающей запятой (FLOPs), в качестве прокси для состязательных усилий. Мы вводим кривые «риск-вычисления», которые сопоставляют вычислительные бюджеты с риском атаки, и выводим две метрики, обобщающие среднее давление, необходимое для успеха данной атаки. На десяти моделях, охватывающих три семейства и четыре различных этапа обучения и согласования языковых моделей, оцененных с использованием трех стратегий атак (градиентные, итеративное уточнение и шаблонные) на двух тестах устойчивости к джейлбрейку, мы обнаружили: (1) обучение согласованию оказывает немонотонное влияние на устойчивость в пространстве вычислений; (2) увеличение размера модели снижает эффективность градиентных атак, но оказывает ограниченное влияние на более дешевые шаблонные атаки; (3) градиентные атаки, оптимизированные на суррогатной модели, могут переноситься на отдельную целевую модель, предоставляя способ снижения затрат атакующего; (4) вычислительные затраты варьируются примерно в 5 раз в зависимости от категорий вреда в рамках одной модели; (5) обучение с подкреплением с согласованием безопасности увеличивает совокупные затраты, оставляя некоторые категории непропорционально доступными. Мы публикуем наш фреймворк, чтобы обеспечить оценку риска и оценивание, учитывающие вычислительные затраты.
Визуальное рассуждение требует интеграции свидетельств, распределённых по областям, атрибутам и отношениям, что делает одноцепочечное рассуждение подверженным ранним перцептивным обязательствам и галлюцинациям. Мы предлагаем Visual Para-Thinker++ — многопользовательский фреймворк с единой политикой, в котором одна общая политика MLLM реализуется в виде обусловленных ролью агентов: Главного, Рабочего и Сводного. Главный агент декомпозирует задачу с использованием фиксированных шаблонов распределения; Рабочие агенты рассуждают параллельно в условиях изоляции контекста; а Сводный агент согласовывает полные трассы рассуждений Рабочих агентов, а не применяет мажоритарное голосование по финальным меткам. Общая политика обучается с помощью инъекции многопользовательских (многоагентных) способностей и оптимизации, развязанной по ролям для нескольких агентов, которые назначают вознаграждения и преимущества, специфичные для ролей, соответствующим сегментам токенов, чтобы уменьшить конфликт градиентов между совместно действующими ролями. Нативный инференс-движок обеспечивает эффективное многоагентное развёртывание за счёт общего визуального префикса и повторного использования кэша KV. На наборах данных V*, CountBench, семейства RefCOCO и HallusionBench Visual Para-Thinker++ стабильно превосходит базовые методы с одной траекторией и параллельные методы времени инференса, особенно сильно выигрывая в визуальном рассуждении, чувствительном к галлюцинациям.
Прогнозирование поведенческих тенденций LLM на основе недорогих психометрических зондов критически важно для безопасного развертывания, но только при условии, что самоотчеты (СО) надежно предсказывают поведение. Недавние работы выявили существенное расхождение между СО и поведением LLM, однако опирались на широкие черты личности (Большая пятерка), которые слабо предсказывают конкретное поведение даже у людей. Кроме того, изоляция сессий общения в сочетании со слабым согласованием контекста оставила открытым вопрос: действительно ли LLM лишены согласованности или же условия, необходимые для ее обнаружения, не были соблюдены. Мы сопоставляем Большую пятерку с Теорией запланированного поведения (ТЗП), которая измеряет намерение, направленное на конкретное поведение, и существенно лучше предсказывает поведение человека, чем широкие черты. Мы проводим эксперименты на четырех поведенческих задачах и 11 передовых LLM, одновременно варьируя контекст сессии и индукцию идентичности. Мы обнаруживаем, что согласованность СО и поведения существует, но носит избирательный характер. 1) В рамках общего диалога Теория запланированного поведения достигает уровня согласованности, свойственного человеку; Большая пятерка — нет. 2) В отдельных диалогах согласованность сохраняется только для поведения, закрепленного вне непосредственной подсказки, такого как имплицитные предубеждения, сформированные обучением, и разрушается, когда поведение сильно индуцируется контекстом, как в случае с сикофантией. 3) Подсказка персоны делает самоотчеты более согласованными между диалогами, но не приводит поведение в соответствие. Эти результаты свидетельствуют о том, что грубые модели личности, такие как Большая пятерка, могут быть не лучшими инструментами для проверки поведения при развертывании. Необходимы более специфичные для задач и поведения инструменты, и даже они должны оцениваться в разных задачах и контекстах.
Дистилляция на политике (On-policy distillation, OPD) обучает студента на его собственных траекториях с плотным пото́кенным контролем со стороны более сильного учителя и часто превосходит дистилляцию вне политики и стандартное обучение с подкреплением. Однако мы обнаружили, что её эффективность неявно опирается на два допущения, которые на практике часто нарушаются: согласование траекторий между студентом и учителем, а также равномерная надежность предпочтений учителя на уровне токенов. Поэтому мы предлагаем дистилляцию на политике с управлением по знаку (Sign-Gated On-Policy Distillation, SG-OPD), которая использует бинарный верификатор в качестве сигнала доверия к учителю на двух дополняющих друг друга уровнях детализации: поэтапная выборка учителя смешивает одобренные верификатором роллауты учителя на этапе холодного старта, а вентиль согласованности знаков экстраполирует обновление дистилляции на токенах, где учитель согласен с направлением, скорректированным верификатором, и интерполирует его там, где возникают разногласия. Эксперименты на бенчмарках по математическим рассуждениям уровня соревнований показывают, что SG-OPD стабильно превосходит стандартную OPD, обеспечивая средний прирост в 1,98 и 7,50 на уровне отдельных выборок и отдельных вопросов соответственно.
Компактные языковые модели (ЯМ) снижают затраты, задержку и риски развертывания инструментальных агентов. Однако использование инструментов в стиле MCP требует большего, чем изолированный вызов функций: агент должен находить инструменты из действующих каталогов, удовлетворять схемам, отслеживать зависимости между промежуточными результатами и обосновывать итоговые ответы на основе выполненной доказательной базы. Малые планировщики часто генерируют правдоподобные графы рабочих процессов, которые оказываются несостоятельными при разрешении инструментов, проверке параметров, отслеживании зависимостей или выполнении. Мы утверждаем, что такой сбой плохо обрабатывается дистилляцией на малых корпусах. Несколько сотен трасс учителя могут обучить формату рабочего процесса, но редко охватывают поведение восстановления, необходимое для исправления неудачных планов при изменении каталогов инструментов. Мы представляем Evoflux — метод эволюционного поиска во время вывода, который рассматривает компактное использование инструментов как исправление исполняемых инструментальных рабочих процессов. Он эволюционирует типизированные графы рабочих процессов с помощью структурированных правок, обратной связи по выполнению, адаптивной интенсивности, мета-направленного перепроектирования и обрезки по разнообразию. На тестовых заданиях MCP-Bench, охватывающих действующие MCP-серверы и 250 инструментов, Evoflux повышает выполнимость с примерно 3% до 17–24% для различных малых планировщиков. Напротив, SFT и SFT+DPO на тех же данных, полученных в результате поиска, либо соответствуют, либо уступают, либо полностью деградируют по сравнению с производительностью в режиме zero-shot; ReAct достигает более высоких пиков, но с большей дисперсией и затратами токенов. Эти результаты показывают, что поиск, основанный на выполнении, более надежен при ограниченных бюджетах трасс учителя.
Интерактивные LLM-агенты становятся частью повседневной работы, но со временем они не становятся надёжно более удобными в работе: исправление, запомненное в одном сеансе, всё ещё может быть нарушено в следующем. Мы изучаем этот разрыв между доступом к предпочтениям и соблюдением предпочтений. В задачах, полученных из анонимизированных случаев трения реальных пользователей, память Mem0 по-прежнему оставляет 57,5% применимых проверок предпочтений нарушенными. Мы представляем метод Test-time Rule Acquisition and Compiled Enforcement (TRACE) — встраиваемый конвейер уровня навыков для сред выполнения кодирующих агентов, который извлекает исправления пользователя, переписывает их в атомарные правила и компилирует их в проверки времени выполнения, которые должны быть пройдены до того, как агент завершит будущие задачи. В отличие от проверок времени выполнения, заранее написанных разработчиками, навыки TRACE берутся из собственных исправлений пользователя в чате. Мы оцениваем TRACE с помощью симулированных экспериментов с участием пользователя в задачах кодирующего агента ClawArena и задачах, интенсивных по памяти, полученных из MemoryArena. На ClawArena TRACE снижает нарушение предпочтений на отложенной выборке с 100,0% до 37,6% на задачах в рамках распределения и с 100,0% до 2,0% на задачах вне распределения. На задачах, полученных из MemoryArena, TRACE снижает нарушение в рамках распределения с 100,0% до 60,5%, при этом соответствуя или превосходя самый сильный базовый уровень памяти по прохождению задачи. Эти результаты показывают, что компиляция исправлений в принуждение времени выполнения может устранить режим отказа с повторяющимся трением, который одна лишь память не может надёжно решить, снижая необходимость для пользователей повторно формулировать одно и то же исправление в будущих сеансах. Код экспериментов доступен по адресу https://github.com/YujunZhou/TRACE_exp, а развертываемый навык — по адресу https://github.com/YujunZhou/tellonce.
Поисковые агенты — большие языковые модели, дополненные инструментами поиска — усилили потребность в эталонных тестах, устойчивых к устареванию. Существующие тесты, такие как BrowseComp, опираются на статические знания, что делает их уязвимыми к загрязнению тестовых данных и параметрическому запоминанию. В результате модели могут достигать высоких показателей за счёт воспроизведения фактов, а не подлинного поиска, скрывая истинную компетентность в навигации через логические сокращения. В данной статье мы представляем EvoBrowseComp — эволюционирующий тест из 400 сложных вопросов на английском и 400 на китайском языках, свободных от загрязнения, синтезированных с помощью обхода живого веба. Для сбора таких вопросов мы разработали коллаборативную схему из трёх агентов: (1) агент синтеза вопросов-ответов, извлекающий свежие знания из живого веба для создания пар «вопрос—ответ»; (2) агент фильтрации информации, отсеивающий извлечённые знания по критериям достоверности и популярности, чтобы заблокировать параметрические сокращения; и (3) агент высокоуровневого руководства, формализующий вопросы в виде графов рассуждений для уменьшения логической избыточности и сокращений в синтезированных парах. Благодаря полностью автоматизированному синтезу EvoBrowseComp может регулярно обновляться, предотвращая загрязнение данных и сохраняя временную актуальность. Обширные эксперименты подтверждают его высокую сложность, требующую широкого горизонтального поиска. Данный подход задаёт масштабируемую парадигму для автоматически обновляемых эталонных тестов высокой сложности, идущих в ногу как с эволюцией мировых знаний, так и с развитием возможностей агентов.
Геометрия инвариантна к точке обзора, что делает любое множество изображений избыточным кодированием единого трехмерного состояния. Существующие модели реконструкции прямого распространения не используют это преимущество: покадровые методы выдают перекрывающиеся, невыровненные карты точек, количество которых растет линейно с числом входных данных, а методы с глобальным латентным представлением фиксируют выходные данные с низким разрешением. Мы представляем Surflo, который сжимает переменное количество RGB-изображений без позиционирования в K латентных токенов — одно глобальное состояние — и декодирует ориентированные трехмерные точки поверхности, независимо перенося их из шума на поверхность с помощью согласования потоков. Это освобождает выходные данные от фиксированной сетки или лимита токенов: одно и то же латентное представление дает от нескольких тысяч до миллиона точек за один прямой проход. Для подавления локальных несоответствий, присущих независимому попиксельному декодированию, во время инференса используется направляющий термин, коррелирующий близлежащие точки путем внедрения фотометрического градиента в процессе интегрирования ОДУ. Surflo сравнивается с эталонными моделями прямого распространения по метрикам поверхности, превосходит их или не уступает им, работает на порядок быстрее методов, основанных на оптимизации и требующих сотен видов, и является единственным подходом прямого распространения, сочетающим глобальное латентное представление с декодированием произвольного разрешения.
Мы представляем Flash-GMM — объединённое ядро Triton для эффективного вычисления моделей гауссовых смесей (GMM) над крупномасштабными данными за один проход GPU. Благодаря исключению необходимости материализации полной матрицы ответственности в памяти GPU, Flash-GMM достигает 20-кратного ускорения по сравнению с существующими реализациями и позволяет обучать модели на наборах данных, более чем в 100 раз превышающих ранее возможные пределы на одном устройстве. Для демонстрации его влияния мы интегрируем Flash-GMM в грубый квантор IVF при поиске приближённых ближайших соседей (ANN). Мы показываем, что мягкая кластеризация на основе GMM теперь является жизнеспособной прямой заменой k-средних, а ответственности GMM можно использовать для назначения граничных векторов нескольким кластерам. Наш подход достигает заданных порогов полноты, требуя до 1,7 раза меньше вычислений расстояний, или, что эквивалентно, даёт прирост полноты@10 на +2–12 при равных вычислительных затратах. Мы публикуем ядро как проект с открытым исходным кодом.
Выравнивание представлений с предобученными моделями зрения недавно продемонстрировало высокий потенциал для ускорения обучения диффузионных трансформеров. Выравнивая промежуточные признаки диффузии с представлениями чистых изображений от самоконтролируемых кодировщиков зрения, существующие методы улучшают сходимость и качество генерации. Однако такое выравнивание также вводит нетривиальное ограничение: диффузионные модели работают с зашумленными входными данными, полезная информация в которых варьируется по временным шагам, в то время как эталонные признаки извлекаются из чистых изображений. В этой статье мы пересматриваем это несоответствие с точки зрения токенов. Мы обнаружили, что при полном выравнивании представлений токенов токены с большими нормами градиентов выравнивания демонстрируют стабильное пространственное предпочтение, что предполагает, что цель выравнивания не влияет на все токены равномерно и может побуждать модель полагаться на полный набор токенов чистого изображения. Чтобы решить эту проблему, мы предлагаем MaskAlign — метод выравнивания представлений на подмножестве токенов, который применяет выравнивание к случайно выбранным подмножествам токенов во время обучения. Подвергая модель различным подмножествам токенов на разных итерациях, MaskAlign уменьшает зависимость выравнивания представлений от полного набора токенов и способствует поведению выравнивания, которое является более устойчивым к возмущениям подмножества токенов. Чтобы смягчить потерю информации, вызванную прямым отбрасыванием токенов, мы дополнительно вводим легковесный блок смешивания токенов перед маскированием, который обменивается информацией между токенами до маскирования.
Роботизированные симуляторы являются краеугольным камнем современных исследований в области аэро-робототехники, служа как средством для разработки новых алгоритмов управления, так и источником данных для обучения политик обучения с подкреплением (RL). Однако существующие среды обучения квадракоптеров часто сталкиваются с компромиссом между физической достоверностью, поддержкой нескольких агентов и пропускной способностью, необходимой для современных конвейеров глубокого RL. В данной работе мы представляем MuJoCo-Drones-Gym — открытую многодронную среду, совместимую с Gymnasium, построенную на основе физического движка MuJoCo. MuJoCo-Drones-Gym поддерживает произвольное количество нано-квадрокоптеров Bitcraze Crazyflie 2.x и предоставляет модульный API для выбора (i) физической модели (твердотельный MuJoCo, явная динамика на Python или любая комбинация эффекта земли, лобового сопротивления лопастей и взаимного нисходящего потока дронов), (ii) интерфейса действий (обороты на каждый двигатель, коллективная нормированная тяга, заданные значения скорости или команды путевых точек с ПИД-регулятором), (iii) пространства наблюдений (векторы кинематического состояния, камеры RGB / глубины / сегментации или информация о смежности соседей). Оболочка PettingZoo ParallelEnv обеспечивает бездополнительную настройку обучение с подкреплением для нескольких агентов, а набор из семи сред задач — зависание, отслеживание скорости, зависание множества дронов, навигация по путевым точкам, полёт в строю, гонки через ворота и общий шаблон для нескольких агентов — демонстрирует широту интерфейса. Мы описываем дизайн среды, лежащую в основе физику и динамику квадрокоптера, и иллюстрируем его использование на примерах управления и обучения, аналогичных примером из близкого проекта gym-pybullet-drones, используя при этом улучшенную обработку контактов, рендеринг и параллелизуемость MuJoCo.
Мультиагентные системы в основном общаются через текст, что сопряжено с потерями и дорогостоящими затратами на декодирование и повторное кодирование. Коммуникация через KV-кэш является перспективной альтернативой, однако большинство предыдущих работ являются гомогенными, используя дублирующиеся копии одной и той же модели, и обходят центральную проблему кросс-модельного латентного выравнивания; существующие гетерогенные методы также ограничены, обычно предполагая общий входной сигнал и используя передаваемые кэши в основном для управления. Мы изучаем более фундаментальный вопрос: могут ли гетерогенные агенты быть выровнены достаточно хорошо для выполнения настоящего «чтения мыслей» и передачи как того, что видит один агент, так и того, как он мыслит? Наш анализ информационной структуры выявляет двойственность: контекстно-зависимая передача управляется разреженными сигналами рассуждения, в то время как контекстно-независимая передача, при которой получатель не видит входных данных, требует плотного сохранения контекстных знаний. Руководствуясь этим, мы предлагаем плотное выравнивание для гетерогенной коммуникации через KV-кэш с помощью легковесного кросс-модельного преобразования кэша и двухфазного обучения: реконструкция, затем генерация. По всем шести направлениям между {Qwen3-4B, 8B, 14B} и шести внутренним и внешним бенчмаркам наш метод превосходит предыдущие гетерогенные базовые подходы, соответствует или превосходит текстовую коммуникацию в контекстно-зависимых настройках при примерно в 2–3 раза меньших вычислительных затратах и остается эффективным в контекстно-независимой передаче, где предыдущие методы терпят крах.
Потенциальное воздействие моделей мира (ММ, т.е. обученных симуляторов) на робототехнику весьма широко — оценка политики, улучшение политики и планирование во время тестирования, причем с ограниченным взаимодействием с реальным миром. Чтобы реализовать эти прикладные возможности, модель мира должна одновременно удовлетворять трём требованиям: (i) достоверность (т.е. генерация симулированных траекторий, коррелирующих с реальностью), (ii) согласованность (т.е. генерация симулированных траекторий, когерентных на длинных горизонтах) и (iii) эффективность (т.е. быстрая генерация симулированных траекторий). Мы предлагаем WEAVER (World Estimation Across Views for Embodied Reasoning) — архитектуру модели мира, которая одновременно достигает всех трёх критериев, обеспечивая передовые результаты в задачах роботизированного манипулирования. WEAVER — это многовидовая модель мира, обученная предсказывать будущие латентные представления и значения вознаграждения с помощью функции потерь, основанной на согласовании потоков. Мы выделяем ключевые проектные решения в отношении архитектуры модели, памяти и целевых функций предсказания, необходимые для решения задач долгосрочного динамического манипулирования, которые ранее ставили в тупик подходы к моделированию мира. Мы применяем WEAVER в роботизированном оборудовании, демонстрируя его эффективность в оценке политики (корреляция ρ=0,870 с показателем успешности в реальном мире), улучшении политики (повышение показателя успешности в реальном мире на 38% поверх фундаментальной модели робота π_{0,5}) и планировании во время тестирования (повышение показателя успешности в реальном мире на 14% с ускорением в 5–10 раз по сравнению с предыдущими ММ). WEAVER также показывает лучшую производительность, чем предыдущие ММ, при оценке в сценариях вне распределения. Код, модели и видео: https://arnavkj1995.github.io/WEAVER/ .
Автономная навигация по вебу остаётся сложной задачей для LLM-агентов, а сильнейшие универсальные системы полагаются на проприетарные модели рассуждений, стоимость инференса которых является запретительно высокой для повторяющихся задач, где такие агенты были бы наиболее полезны. Мы утверждаем, что этот разрыв обусловлен не недостаточной способностью модели, а архитектурами агентов, которые не воспроизводят три когнитивных преимущества человека: избирательное внимание к релевантным областям страницы, устойчивую память о структуре веб-сайта и процедурную беглость в работе с распространёнными шаблонами взаимодействия. Мы представляем WebChallenger — фреймворк веб-агента, который устраняет каждый из этих пробелов за счёт архитектурного проектирования, а не масштаба модели, построенный на основе PageMem: структурированного представления страницы, детерминированно создаваемого из DOM, которое отображает каждую страницу как иерархию семантических разделов с краткими сводками. На этой общей основе мы создаём три механизма, отражающие три когнитивных преимущества: конвейер наблюдения «разделяй и властвуй», позволяющий агенту просматривать сводки разделов и извлекать детали только из областей, релевантных задаче; легковесную систему исследования и памяти, которая однократно обходит каждый веб-сайт для построения многократно используемой карты страниц и поведения элементов; а также составные рабочие процессы действий, которые объединяют типичные многошаговые взаимодействия в единые действия агента, автоматически обрабатывая частичные изменения состояния. Поскольку все три механизма работают поверх PageMem, фреймворк обобщается на разные веб-сайты без необходимости в адаптерах, специфичных для сайта. Используя готовые модели с открытыми весами без тонкой настройки, наша система достигает 56,3% на WebArena, 48,7% на VisualWebArena, 51,0% на Online-Mind2Web и 70,9% на WorkArena, приближаясь к передовым проприетарным системам при значительно меньших затратах. Наш код опубликован по адресу https://github.com/jayoohwang1/webchallenger.
Построенные на основе предварительно обученных фундаментальных моделей зрения (VFMs), автоэнкодеры представлений (RAEs) недавно стали перспективным подходом для построения семантически насыщенных латентных пространств для генерации изображений. Однако качество их реконструкции часто остаётся неоптимальным, главным образом из-за того, что глубокие представления VFM не сохраняют достаточно мелких визуальных деталей. Это ограничение становится ещё более серьёзным после дискретизации, когда утраченная информация низкого уровня трудно восстанавливается. Фактически, мы наблюдаем, что мелкие признаки VFM содержат значительно более богатые локальные детали внешнего вида и структуры, что дополняет семантику высокого уровня, которую несут глубокие признаки, используемые в существующих RAE. Мотивированные этим свойством взаимодополняемости, мы предлагаем Ideal — фреймворк углублённого выравнивания для дискретного автокодирования представлений. Путём совместного выравнивания квантованных токенов как с мелкими, так и с глубокими признаками VFM, Ideal позволяет результирующим дискретным визуальным токенам сохранять как визуальную точность, так и богатую семантику. Обширные эксперименты демонстрируют, что Ideal обеспечивает превосходное качество реконструкции, достигая 0,61 rFID на ImageNet и превосходя предыдущий лучший метод на 0,28. При использовании для авторегрессивной генерации изображений Ideal дополнительно даёт gFID 1,89, устанавливая новый современный уровень для авторегрессивной генерации изображений.
Мультимодальные большие языковые модели (МБЯМ) демонстрируют многообещающие способности к рассуждению в общих областях, однако их эффективность остаётся ограниченной в специализированных контекстах, таких как здравоохранение, особенно в многоязычных сценариях с ограниченными ресурсами. Этот пробел критичен в регионах, подобных сельской Индии, где пациенты часто формулируют сложные медицинские запросы на родных индийских языках и полагаются на мультимодальные входные данные, например медицинские изображения. Существующие англоцентричные МБЯМ не способны поддерживать такие сценарии использования, что ограничивает равный доступ к ИИ-ассистированной медицинской помощи. Для решения этой задачи мы представляем ArogyaBodha — крупномасштабный многоязычный мультимодальный набор данных вопросов и ответов по медицине, составленный из восьми разнородных источников и охватывающий 31 систему организма, шесть типов визуализации и 21 клиническую область на английском и семи основных индийских языках. Мы также предлагаем ArogyaSutra — многомодульную архитектуру на основе актора-критика, которая интегрирует привязку к инструментам с механизмами двойной памяти для поэтапного принятия решений с учётом рассуждений и использует сохранённые траектории симуляции актора-критика для дистилляции. Эксперименты показывают, что наш набор данных и архитектура повышают точность многоязычных медицинских рассуждений на всех индийских языках, при этом абляционные исследования подтверждают вклад каждого компонента. Исходный код и набор данных доступны по адресу: https://iitp-cse.github.io/ArogyaSutra/
Мы окружены различными объектами с подвижными сочленёнными частями, например, коробками, ручками, дверями. Точное и обобщаемое восприятие сочленённых частей необходимо для расширения возможностей роботизированного манипулирования. Исходя из этой потребности, недавние усилия в области восприятия сочленённых частей развивались в двух основных направлениях: одно направление использует представление на основе поз, требующее высоких ручных затрат; параллельно методы, основанные на аффордансах, извлекают будущее движение объектов из отслеживания точек без дополнительных ручных усилий, но страдают от низкого качества данных. В данной статье мы предлагаем новое представление сочленённых частей — Геометрическую Первичную Структуру (GPS), абстракцию геометрической структуры части, обеспечивающую баланс между масштабируемостью и качеством. Для эффективного и масштабируемого сбора данных GPS интегрирована с портативным устройством виртуальной реальности (VR) и требует всего одной минуты для аннотирования одной последовательности объектов. Эта прямая человеческая аннотация обеспечивает более высокое качество, чем оценённый аффорданс. С помощью этой эффективной системы VR-GPS мы собрали 41 000 кадров для 234 объектов по шести классам частей и обучили обобщаемую модель GPS, принимающую на вход одно RGB-D изображение объекта. Для манипулирования объектами мы развернули эвристическую политику на основе предсказаний GPS. Без какой-либо внутридоменной точной настройки наш метод достигает 73% успеха, охватывая 270 начальных состояний для 9 объектов. Наш код, данные и повторно используемый инструмент доступны по адресу https://enlighten0707.github.io/gps.
Одинаково ли безопасны LLM-агенты с вызовом инструментов на протяжении всего диалога? Мы обнаружили, что нет: агенты наиболее уязвимы в самом начале сессии и становятся значительно безопаснее после выполнения нескольких обычных агентских задач — этот феномен мы называем разрывом безопасности холодного старта. Для систематического исследования этого явления мы вводим бенчмарк Safety Over Depth for Agents (SODA), который контролирует количество обычных агентских задач, выполняемых агентом до столкновения с угрозой безопасности, поддерживая до 20 предшествующих задач. При оценке 7 моделей из 4 семейств безопасность улучшается на 9–52% по мере увеличения числа предшествующих обычных агентских задач от нуля до двадцати. Анализ представлений подтверждает, что скрытые состояния модели постепенно смещаются в область, согласованную с безопасностью, по мере увеличения количества предшествующих задач. Систематически изучая, какая часть предшествующего разговора наиболее важна, мы обнаруживаем, что именно сами обычные агентские задачи являются основным драйвером безопасности, тогда как собственные предыдущие ответы агента оказывают меньшее влияние на безопасность, но необходимы для сохранения последующей полезности. Этот вывод дополнительно подтверждается оценкой на открытых бенчмарках безопасности (AgentHarm, Agent Safety Bench) и бенчмарках полезности (BFCL, API-Bank), что подтверждает: «прогрев» агента с помощью обычных агентских задач перед развёртыванием делает его безопаснее и сохраняет полную функциональность. На основе этих результатов мы рекомендуем простую стратегию развёртывания: предоставить агенту возможность выполнить несколько обычных агентских задач до потенциального воздействия критически важных запросов безопасности, что позволяет смягчить разрыв безопасности холодного старта. Наш код доступен по адресу https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.
Крупные языковые модели, развернутые в качестве агентов над большими каталогами инструментов, сталкиваются с критическим узким местом при извлечении инструментов. Поскольку подходы к извлечению на основе эмбеддингов полагаются на компактные кодировщики, которые могут недостаточно полно отражать специализированную семантику инструментов, параметрическое извлечение инструментов решает эту проблему путем кодирования каждого инструмента в виде виртуального токена, добавляемого в словарь языковой модели, и дообучения в два этапа (запоминание, затем дообучение извлечению SFT) для использования языковой модели в качестве средства извлечения, что позволяет достичь высоких результатов на стандартных тестах извлечения ToolBench. Однако эти тесты используют многословные, полностью специфицированные запросы, а их оценка применяет ограниченное декодирование, которое сужает выходные данные до допустимых путей токенов, что не позволяет понять, действительно ли модель понимает свои инструменты. Мы представляем ToolSense — диагностическую платформу с открытым исходным кодом на основе языковой модели, которая принимает на вход любой каталог инструментов и автоматически генерирует три теста: реалистичный тест извлечения (RRB) с запросами трех уровней неоднозначности, тест на зондирование с множественным выбором (MCQ) и тест на зондирование с вопросами и ответами (QA). Применение ToolSense к ToolBench (~47 тыс. инструментов) и оценка пяти конфигураций обучения параметрических моделей выявили диссоциацию знаний и извлечения: на запросах RRB несколько конфигураций показывают падение примерно на 50–64 процентных пункта по сравнению с полностью специфицированными тестами ToolBench, опускаясь ниже базового уровня модели эмбеддингов. Кроме того, несмотря на высокую производительность извлечения, некоторые модели показывают результаты, близкие к случайным, на фактологических зондах, что указывает на диссоциацию знаний и извлечения. Мы публикуем в открытом доступе платформу ToolSense и диагностические тесты ToolBench по адресу https://github.com/SAP/toolsense.
Экспрессивный рендеринг исполнения (EPR) направлен на создание реалистичных исполнений, ограниченных последовательностями нот. Однако модели редактирования аудио на основе флоу-матчинга манипулируют только синхронизированными музыкальными образцами одинаковой длительности, что ограничивает их понимание выразительного тайминга. Мы представляем PianoKontext — модель рендеринга на основе флоу-матчинга для классической фортепианной музыки, которая генерирует исполнения переменной длины в латентном пространстве предварительно обученной модели Music2Latent. Мы синтезируем MIDI-партитуры в бесстрастное аудио и применяем динамическую трансформацию временной шкалы (DTW) в латентном пространстве для построения парных данных для обучения. Выровненные эмбеддинги конкатенируются в DiT-блоках, что позволяет просто и эффективно изучать зависимости между партитурой и исполнениями. Аудиообразцы доступны на странице демонстрации: https://realfolkcode.github.io/pianokontext_demo/.
Достижения в области распознавания рукописного текста позволили проводить крупномасштабную транскрипцию исторических документов, однако они по-прежнему предоставляют ограниченный доступ к интерпретируемым визуальным измерениям для палеографии — науки, изучающей исторические почерки. В данной работе наша основная идея заключается в том, что морфологический анализ письма, в частности способность изучать прототипы символов на основе транскрипций на уровне строк, позволяет определить масштабируемые, содержательные и стабильные палеографические измерения. Точнее, мы используем детекционную архитектуру на основе трансформера вместе с модулем реконструкции строк на основе прототипов для изучения прототипических символов, а также их встречаемости, деформации и позиционирования. Наш вклад состоит из двух частей. Во-первых, мы представляем глубокую архитектуру и методологию обучения, которые обеспечивают эффективное моделирование символов при наличии только транскрипций на уровне строк, что значительно превосходит базовый метод Learnable Typewriter и позволяет точно предсказывать ограничивающие рамки символов, раскрывая потенциал для палеографических измерений. Во-вторых, мы вводим и демонстрируем палеографическую значимость автоматических измерений, обеспечиваемых нашей архитектурой, для символов, биграмм и пробелов между графическими единицами. Для данной демонстрации мы расширяем аннотации кодекса Paris, BnF, fr. 2813, созданного в конце XIV века по заказу Карла V и переписанного четырьмя писцами, до 160 страниц. Мы визуализируем наши измерения на этих страницах, показывая, как они позволяют не только различать графические профили, но и обнаруживать и анализировать тонкие вариации. Данный пример из практики иллюстрирует масштабируемость нашего подхода и его экономичность в отношении требуемых обучающих данных, поскольку для вычисления измерений на каждой из 160 страниц достаточно одной колонки текста. Данные и код доступны по адресу: https://malamatenia.github.io/morphology4metrology-analysis.
Изучение совместимых представлений направлено на получение признаковых представлений, которые могут взаимозаменяемо использоваться во времени при обновлении модели. В данной работе мы демонстрируем, что стационарные представления, полученные с помощью фиксированных классификаторов d-симплекса, подразумевают совместимость в её формальном определении. Этот результат закладывает основу для будущих исследований и может быть непосредственно использован в практических сценариях обучения. Мы решаем задачу обучения совместимости с использованием фиксированных классификаторов d-симплекса в случае последовательного дообучения модели. Обучение с помощью фиксированного классификатора d-симплекса с функцией потерь кросс-энтропии выравнивает распределения признаков по статистикам первого порядка. Следовательно, оно может не полностью учитывать зависимости более высокого порядка в представлении между обновлениями модели. Для решения этой проблемы мы демонстрируем, что обучение модели с использованием фиксированного классификатора d-симплекса через выпуклую комбинацию функции потерь кросс-энтропии и контрастной функции потерь не только учитывает зависимости более высокого порядка, но и эквивалентно обучению с кросс-энтропией при ограничениях совместимости. Мы подтверждаем наши выводы обширными экспериментами, также рассматривая новый сценарий, в котором предварительно обученная модель последовательно дообучается и время от времени заменяется улучшенной моделью. Мы показываем, что стационарные представления обеспечивают непрерывные сервисы поиска (без повторной обработки изображений галереи), одновременно повышая производительность при обновлениях и заменах модели, достигая передового уровня. Код доступен по адресу: https://github.com/miccunifi/iamcl2r.
Большие языковые модели (LLM) все чаще применяются для задачи аннотации в режиме zero-shot и в роли судьи (LLM-as-a-judge), однако их надежность зависит от того, как внутренние априорные знания модели взаимодействуют с предоставленными пользователем инструкциями. Мы исследуем три аспекта этого взаимодействия: (1) как степень знакомства LLM с данными и определением задачи влияет на производительность, (2) в какой мере дополнительная информация в промптах способна исправить ошибки zero-shot («прилипание решений»), и (3) восприимчивость модели к неверно заданным определениям задачи. В ходе экспериментов по обнаружению токсичности на разнообразных наборах данных (охватывающих социальные сети, игры, новости и форумы) с использованием как плотных моделей, так и моделей смеси экспертов мы обнаружили, что почти две трети ошибок zero-shot устойчивы к исправлению, при этом общий показатель спасения (доля первоначальных ошибок, исправленных с помощью промптинга) составляет лишь 34,8%. Ошибки, совершаемые с высокой уверенностью, оказываются особенно устойчивы к коррекции. При получении некорректных определений LLM следуют им, сохраняя уровень уверенности неизменным по сравнению с условием соответствия. Ключевым вкладом работы является введение метрики Определенческая Осведомленность (Definition-Specific Familiarity, DSF), которая измеряет согласованность между внутренним понятием модели и определением задачи. После контроля за смешивающими факторами на уровне набора данных, DSF демонстрирует положительную связь с производительностью модели (частная r = +0,41), в то время как три различные метрики запоминания (ROUGE-L, BERTScore и косинусное сходство эмбеддингов) не показывают такой положительной ассоциации. Полученные результаты демонстрируют ограниченность промпт-ориентированной коррекции в задачах аннотации, подчеркивая важность согласованности определений, а не текстового запоминания.