Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальные большие языковые модели (MLLM) значительно продвинули распознавание документов, однако современные системы оценки Doc-VQA проверяют только итоговый ответ, оставляя подтверждающие свидетельства без внимания. Такой подход, ориентированный исключительно на ответ, скрывает критический сбой: модель может дать верный ответ, но основывать его на неверном фрагменте — что представляет серьёзную угрозу в таких высокоответственных областях, как юриспруденция, финансы и медицина, где каждый вывод должен быть прослеживаем до конкретного источника. Для решения этой проблемы мы представляем CiteVQA — эталонный тест, требующий от моделей возвращать элементные цитаты в виде ограничивающих рамок наряду с каждым ответом, оценивая их совместно. CiteVQA включает 1897 вопросов по 711 PDF-документам из семи доменов и двух языков при средней длине документа в 40,6 страниц. Для обеспечения достоверности и масштабируемости истинные цитаты создаются автоматизированным конвейером, который выявляет ключевые доказательства с помощью маскировочной абляции, и впоследствии проходят экспертную валидацию. В основе нашей оценки лежит строгая атрибутивная точность (SAA), которая засчитывает предсказание только при верном ответе и правильной цитируемой области. Анализ 20 MLLM выявляет повсеместную атрибутивную галлюцинацию: модели часто дают правильный ответ, но цитируют неверную область. Лучшая система (Gemini-3.1-Pro-Preview) достигает SAA всего 76,0, а лучшая открытая MLLM — лишь 22,5. В конечном итоге, стремясь к надёжному интеллектуальному анализу документов, CiteVQA вскрывает разрыв в надёжности, который не замечают оценки, учитывающие только ответ, и предоставляет инструментарий для его преодоления. Наш репозиторий доступен по адресу https://github.com/opendatalab/CiteVQA.
Модели "зрение-язык-действие" быстро продвинулись вперед, однако одних только траекторий роботов недостаточно для обеспечения широкого охвата при обучении физическому пониманию. PhysBrain 1.0 исследует альтернативный путь: преобразование крупномасштабных эгоцентрических видео человека в структурированные обучающие сигналы физического здравого смысла до адаптации к роботу. Наш механизм обработки данных извлекает элементы сцены, пространственную динамику, выполнение действий и отношения с учетом глубины, а затем преобразует их в обучающие сигналы в формате "вопрос-ответ" для тренировки VLM PhysBrain. Полученные физические априорные знания в дальнейшем переносятся на политики VLA с помощью дизайна адаптации, сохраняющего способности и чувствительного к языку. На мультимодальных бенчмарках вопрос-ответ и бенчмарках воплощенного управления, включая ERQA, PhysBench, SimplerEnv-WidowX, LIBERO и RoboCasa, PhysBrain 1.0 достигает современных результатов (SOTA), демонстрируя особенно высокую производительность вне домена на SimplerEnv. Эти результаты показывают, что масштабирование физического здравого смысла на основе видео взаимодействий человека может служить эффективным мостом от мультимодального понимания к действиям робота.
Повторно используемые навыки стали ключевым базовым элементом для повышения возможностей агентов, однако большинство существующих наборов навыков кодируют повторно используемое поведение преимущественно в виде текстовых подсказок, исполняемого кода или заученных процедур. Для визуальных агентов, однако, процедурные знания по своей сути мультимодальны: повторное использование зависит не только от того, какую операцию выполнять, но и от распознавания релевантного состояния, интерпретации визуальных свидетельств прогресса или неудачи, а также от принятия решения о дальнейших действиях. Мы формализуем это требование как мультимодальные процедурные знания и решаем три практические задачи: (I) что должен содержать набор мультимодальных навыков; (II) откуда такие наборы можно извлечь из общедоступного опыта взаимодействия; и (III) как агенты могут обращаться к мультимодальным свидетельствам во время инференса без чрезмерного объема контекста изображений или излишней привязки к эталонным скриншотам. Мы представляем MMSkills — фреймворк для представления, генерации и использования повторно используемых мультимодальных процедур для визуального принятия решений в реальном времени. Каждый MMSkill представляет собой компактный, обусловленный состоянием пакет, который связывает текстовую процедуру с картами состояния времени выполнения и многовидовыми ключевыми кадрами. Для построения таких пакетов мы разрабатываем генератор траекторий агента в навыки (агентский генератор траектория→навык), который преобразует общедоступные неоценочные траектории в повторно используемые мультимодальные навыки с помощью группировки рабочих процессов, индукции процедур, визуального заземления и аудита на основе мета-навыков. Для их использования мы вводим агента мультимодальных навыков с загрузкой ответвлений: выбранные карты состояния и ключевые кадры изучаются во временной ветке, согласовываются с динамической средой и дистиллируются в структурированные инструкции для основного агента. Эксперименты на эталонных тестах визуальных агентов на основе GUI и игр показывают, что MMSkills последовательно улучшают как передовые, так и менее мощные мультимодальные агенты, что предполагает, что внешние мультимодальные процедурные знания дополняют внутренние априорные знания модели.
Видеокастомизация, ориентированная на человека, особенно на уровне одежды, демонстрирует значительную коммерческую ценность. Однако существующие подходы не поддерживают низкую задержку и интерактивное управление одеждой, что критически важно для таких приложений, как электронная коммерция и создание контента. В данной работе исследуется, как добиться интерактивной многокомпонентной видеокастомизации одежды с сохранением согласованности движений, используя только данные видео с одним предметом одежды. Мы представляем FashionChameleon — фреймворк реального времени для интерактивной кастомизации одежды человека в авторегрессивной генерации видео, где пользователи могут интерактивно переключать предметы одежды в процессе генерации. FashionChameleon включает три ключевые техники: (i) Вместо обучения на видео с несколькими предметами одежды мы обучаем модель-учитель с помощью обучения в контексте на единственной паре «референс–одежда». Сохраняя парадигму обучения «изображение в видео» при обеспечении несоответствия между референсным изображением и изображением одежды, модель побуждается неявно сохранять согласованность при переключении одного предмета одежды. (ii) Для достижения согласованности и эффективности в ходе генерации мы вводим потоковую дистилляцию с обучением в контексте, которая донастраивает модель с помощью учительского принуждения в контексте и улучшает согласованность экстраполяции через дистилляцию методом согласования распределений с перевзвешиванием градиентов. (iii) Для расширения модели на интерактивную многокомпонентную видеокастомизацию одежды мы предлагаем не требующее обучения перепланирование KV-кэша, которое включает обновление KV для одежды, отзыв исторических KV и разделение референсных KV для достижения переключения одежды с сохранением согласованности движений. Наш FashionChameleon уникально поддерживает интерактивную кастомизацию и согласованную длительную экстраполяцию видео, одновременно обеспечивая генерацию в реальном времени со скоростью 23,8 кадра/с на одном GPU, что в 30–180 раз быстрее существующих базовых решений.
Он-полиси дистилляция (OPD) зарекомендовала себя как эффективная парадигма постобучения для больших языковых моделей. Однако существующие исследования в значительной степени объясняют это преимущество более плотным и стабильным контролем, в то время как механизмы на уровне параметров, лежащие в основе эффективности OPD, остаются слабо изученными. В данной работе мы утверждаем, что эффективность OPD обусловлена формой «предвидения»: она устанавливает стабильную траекторию обновления в направлении финальной модели на ранних этапах обучения. Это предвидение проявляется в двух аспектах. Во-первых, на уровне распределения модулей OPD идентифицирует области с низкой предельной полезностью и концентрирует обновления на модулях, более критичных для рассуждения. Во-вторых, на уровне направления обновления OPD демонстрирует более сильную концентрацию низкого ранга, при этом её доминирующие подпространства уже на ранних этапах обучения тесно согласуются с финальным подпространством обновлений. Основываясь на этих результатах, мы предлагаем EffOPD — метод ускорения, работающий по принципу «plug-and-play», который ускоряет OPD за счёт адаптивного выбора шага экстраполяции и движения вдоль текущего направления обновления. EffOPD не требует дополнительных обучаемых модулей или сложной настройки гиперпараметров и обеспечивает ускорение обучения в среднем в 3 раза при сохранении сопоставимой итоговой производительности. В целом, наши результаты дают представление об эффективности OPD с точки зрения динамики параметров и предлагают практические рекомендации для разработки более эффективных методов постобучения для больших языковых моделей.
Достижение манипуляций на уровне человека требует наличия ловких роботизированных рук, способных к сложным взаимодействиям с объектами. Дальнейшее развитие таких возможностей обусловлено необходимостью в стандартизированных бенчмарках для систематической оценки. Однако существующие бенчмарки для ловких манипуляций не содержат задач, отражающих уникальные возможности ловких рук по сравнению с параллельными захватами, а также комплексных оценочных конвейеров. В данной работе мы представляем DexJoCo — бенчмарк и инструментарий для задачно-ориентированной ловкой манипуляции, включающий 11 функционально обоснованных задач, оценивающих использование инструментов, двуручную координацию, долгосрочное выполнение и рассуждение. Мы разрабатываем недорогую систему сбора данных и собираем 1,1 тыс. траекторий по всем этим задачам с поддержкой рандомизации условий для оценки робастности. Мы оцениваем современные модели в различных условиях, включая визуальную рандомизацию и рандомизацию динамики, мультизадачное обучение и адаптацию головы действий. На основе обширного эмпирического анализа мы выявляем несколько важных закономерностей и общих ограничений текущих стратегий в области ловкой манипуляции, подчеркивая ключевые вызовы для будущих исследований в области обучения ловких роботизированных рук. Страница проекта доступна по адресу: https://dexjoco.github.io
Дистилляция больших моделей рассуждения необходима для обеспечения практичности рассуждений с длинной цепочкой мыслей (Long-CoT), поскольку полномасштабный вывод остается вычислительно неприемлемым. Существующие подходы, основанные на курировании, выбирают полные трассы рассуждения постфактум, игнорируя сотрудничество между разнородными учителями и не обладая динамическим исследованием, что приводит к избыточной выборке и упущению взаимодополняющих рассуждений. Мы представляем CoRD — фреймворк для совместного декодирования с несколькими учителями, который выполняет пошаговый синтез рассуждений, направляемый предсказательной оценкой на основе перплексии и лучевым поиском. Это позволяет разнородным LRM совместно строить связные траектории рассуждений, эффективно сохраняя разнообразные и многообещающие гипотезы. Эксперименты показывают, что CoRD создает данные рассуждений более высокого качества и достигает производительности ученика, близкой к уровню учителя, при меньших и структурированных сигналах супервизии без существенных накладных расходов по эффективности. CoRD также хорошо обобщается на внедоменные и открытые сценарии. Набор данных и модель доступны по адресу https://github.com/DISL-Lab/CoRD.
Текст и лица являются одними из наиболее перцептивно заметных и практически значимых паттернов в визуальной генерации, однако они остаются сложными для авторегрессионных генераторов, построенных на дискретной токенизации. Ключевым узким местом является токенизатор: агрессивное понижение дискретизации и квантование часто отбрасывают мелкозернистые структуры, необходимые для сохранения читаемых глифов и характерных черт лица. Мы объясняем этот пробел тем, что стандартные цели дискретных токенизаторов слабо согласованы с читаемостью текста и точностью воспроизведения лица, поскольку такие цели обычно оптимизируют общую реконструкцию, равномерно сжимая разнообразный контент. Для решения этой проблемы мы предлагаем InsightTok — простую, но эффективную платформу дискретной визуальной токенизации, которая улучшает точность воспроизведения текста и лица с помощью локализованных перцептивных потерь, учитывающих содержание. Используя компактную кодовую книгу размером 16k и коэффициент понижения дискретизации 16x, InsightTok значительно превосходит предыдущие токенизаторы в реконструкции текста и лица без ущерба для общего качества реконструкции. Эти преимущества последовательно переносятся в авторегрессионную генерацию изображений в InsightAR, создавая изображения с более четким текстом и более точными деталями лица. В целом, наши результаты подчеркивают потенциал специализированного контроля при обучении токенизаторов для продвижения дискретной генерации изображений.
Групповая относительная оптимизация политики (Group Relative Policy Optimization, GRPO) стала необходимой для согласования видеодиффузионных моделей с человеческими предпочтениями, однако сталкивается с критическим вычислительным узким местом: обучение модели с 14 млрд параметров обычно требует сотен GPU-дней за эксперимент. Существующие методы повышения эффективности снижают затраты за счет подвыборки временных шагов обучения с помощью скользящего окна, но принципиально ухудшают оптимизацию, демонстрируя серьезную нестабильность и неспособность достичь полной производительности траектории. Мы представляем Flash-GRPO — одношаговый фреймворк обучения, который превосходит обучение на полной траектории по качеству согласования при низких вычислительных бюджетах, одновременно существенно повышая эффективность обучения. Flash-GRPO решает две ключевые проблемы: изовременная группировка устраняет дисперсию, обусловленную временными шагами, за счет обеспечения временной согласованности по каждому запросу, отделяя производительность политики от сложности временного шага; временная градиентная коррекция нейтрализует зависящий от времени масштабирующий коэффициент, вызывающий сильно несогласованные величины градиентов на разных временных шагах. Эксперименты на моделях от 1,3 до 14 млрд параметров подтверждают эффективность Flash-GRPO, демонстрируя существенное ускорение обучения при стабильной устойчивости и передовом качестве согласования.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало масштабируемой парадигмой для улучшения способностей к рассуждению больших языковых моделей. Однако его эффективность принципиально ограничена исследованием: политика может улучшаться только на тех траекториях, которые она уже сэмплировала. Хотя увеличение количества прогонов (rollouts) смягчает эту проблему, такое масштабирование методом грубой силы вычислительно затратно, а существующие подходы, изменяющие цель оптимизации, обеспечивают ограниченный контроль над тем, что исследуется. В данной работе мы предлагаем NudgeRL — фреймворк для структурированного и управляемого разнообразием исследования в RLVR. Наш подход вводит стратегическое подталкивание (Strategy Nudging), которое обуславливает каждый прогон легковесными контекстами на уровне стратегий для порождения разнообразных траекторий рассуждения без использования дорогостоящего контроля со стороны оракула. Для эффективного обучения на основе такого структурированного исследования мы дополнительно предлагаем унифицированную целевую функцию, которая разлагает сигнал вознаграждения на межконтекстные и внутриконтекстные компоненты и включает цель дистилляции для переноса обнаруженных поведений обратно в базовую политику. Эмпирически NudgeRL превосходит стандартный GRPO с бюджетами прогонов, увеличенными до 8 раз, а также в среднем превосходит базовый метод RL с управлением от оракула на пяти сложных математических бенчмарках. Эти результаты демонстрируют, что структурированное, управляемое контекстом исследование может служить эффективной и масштабируемой альтернативой как масштабированию прогонов методом грубой силы, так и методам, ориентированным на осуществимость и основанным на привилегированной информации. Наш код доступен по адресу https://github.com/tally0818/NudgeRL.
Современные игровые модели мира моделируют окружение с субъективной, центрированной на игроке перспективы. Однако, рассматривая неигрового персонажа (NPC) просто как фоновые пиксели, эти модели не способны улавливать взаимодействия между игроком и NPC. В этом смысле они действуют как пассивные видеорендеры, а не как настоящие симуляционные движки, лишенные физического понимания, необходимого для моделирования реакций NPC, вызванных действиями. Мы представляем ReactiveGWM — реактивную игровую модель мира, которая синтезирует динамические взаимодействия между игроком и NPC. Вместо того чтобы запутывать все динамики взаимодействий, ReactiveGWM явным образом разделяет управление игроком и поведение NPC. Действия игрока внедряются в диффузионный бэкбон через легковесное аддитивное смещение, а высокоуровневые реакции NPC (например, «атака», «контроль», «защита») заземляются через модули перекрестного внимания. Ключевым моментом является то, что эти модули обучаются независимому от игры представлению интерактивной логики. Это обеспечивает zero-shot перенос стратегии: наши обученные модули могут быть напрямую вставлены в готовые, неаннотированные модели мира из разных игр. Это мгновенно открывает управляемые взаимодействия с NPC без какого-либо переобучения под конкретную область. В оценке на двух играх Street Fighter, ReactiveGWM сохраняет точное управление игроком, одновременно обеспечивая надежное следование стратегии NPC в соответствии с подсказками, прокладывая путь к масштабируемым, насыщенным стратегиями взаимодействиям с NPC.
Групповая относительная оптимизация политики (GRPO) улучшает большие языковые модели путем оценки преимуществ в группе выборочных траекторий. Однако отображение этих преимуществ на уровне траекторий на обновления политики требует агрегирования вероятностей на уровне токенов внутри каждой последовательности. Использование фиксированного механизма агрегирования на этом шаге принципиально ограничивает адаптивность алгоритма. Эмпирически мы наблюдаем критический компромисс: некоторые фиксированные агрегирования часто приводят к коллапсу обучения, в то время как другие не дают удовлетворительной производительности. Чтобы решить эту проблему, мы предлагаем HölderPO — обобщенную структуру оптимизации политики, объединяющую агрегирование вероятностей на уровне токенов с помощью среднего Гёльдера. Путем явного изменения параметра p наша структура обеспечивает непрерывный контроль над компромиссом между концентрацией градиента и границами дисперсии. Теоретически мы доказываем, что большее p концентрирует градиент для усиления разреженных сигналов обучения, тогда как меньшее p строго ограничивает дисперсию градиента. Поскольку никакая статическая конфигурация не может универсально разрешить этот компромисс между концентрацией и стабильностью, мы реализуем структуру с помощью динамического алгоритма отжига, который постепенно изменяет p на протяжении всего цикла обучения. Обширные оценки демонстрируют превосходную стабильность и сходимость по сравнению с существующими базовыми моделями. В частности, наш подход достигает современной средней точности 54,9% по множеству математических эталонов, что дает существенный относительный прирост в 7,2% по сравнению со стандартным GRPO и обеспечивает исключительный уровень успеха 93,8% на ALFWorld.
Большие языковые модели (LLM) по-прежнему испытывают трудности с решением задач, требующих строгих рассуждений, в условиях сложных соревнований по программированию. Хотя недавние мультиагентные фреймворки пытаются устранить этот пробел в надежности, они остаются по сути апамятными, т.е. без сохранения состояния: они полагаются на статический поиск и теряют ценный опыт решения задач и отладки, полученный при выполнении предыдущих заданий. Для решения этой проблемы мы предлагаем Solvita — агентную эволюционную систему, обеспечивающую непрерывное обучение без необходимости обновления весов базовой LLM. Solvita перестраивает процесс решения задач в замкнутую систему, состоящую из выбора стратегии, синтеза программы, сертифицированного обучения и целенаправленного поиска уязвимостей, выполняемых четырьмя специализированными агентами: Планировщиком, Решателем, Оракулом и Хакером. Ключевая особенность заключается в том, что каждый агент снабжен обучаемой графовой сетью знаний. По мере работы системы сигналы о результатах, такие как вердикты "пройдено/не пройдено", качество сертификации тестов и уязвимости, обнаруженные Хакером в ходе состязательных атак, преобразуются в обновления весов этой сети по принципу обучения с подкреплением. Это позволяет агентам динамически направлять будущие запросы, опираясь на прошлые успехи и неудачи, тем самым накапливая переносимый опыт рассуждений с течением времени. В ходе оценки на наборах данных CodeContests, APPS, AetherCode и в живых раундах Codeforces система Solvita устанавливает новый передовой уровень среди агентов генерации кода, превосходя существующие мультиагентные конвейеры и почти вдвое повышая точность по сравнению с базовыми моделями однопроходного вывода.
Современные модели редактирования изображений дают реалистичные результаты, но испытывают трудности с абстрактными многошаговыми инструкциями (например, «сделайте эту рекламу более вегетарианской»). Существующие агентные методы разбивают такие задачи на части, но опираются на ручные конвейеры или подражание учителю, что ограничивает гибкость и отделяет обучение от реальных результатов редактирования. Мы предлагаем эмпирический фреймворк для долгосрочного редактирования изображений, в котором планировщик генерирует структурированные атомарные декомпозиции, а оркестратор выбирает инструменты и области для выполнения каждого шага. Визуально-языковой судья предоставляет вознаграждения на основе результатов за следование инструкциям и визуальное качество. Оркестратор обучается максимизировать эти вознаграждения, а успешные траектории используются для доработки планировщика. Благодаря тесной связи планирования с выполнением, управляемым вознаграждением, наш подход даёт более согласованные и надёжные правки по сравнению с одношаговыми или основанными на правилах многошаговыми базовыми моделями.
Крупные модели зрения и языка значительно продвинули GUI-агенты, обеспечив исполняемое взаимодействие с веб-, мобильными и настольными интерфейсами. Однако эти достижения во многом опираются на прощающую парадигму, терпимую к области: множество соседних пикселей внутри одного и того же компонента остаются допустимыми. Точное геометрическое построение нарушает это допущение: действия должны попадать в точки непрерывного холстового пространства, а не в толерантные области. Поскольку геометрические примитивы несут онтологические зависимости, локальная ошибка координат может вызвать каскадные топологические сбои, искажающие последующие объекты и делающие итоговое построение недействительным. Мы идентифицируем этот режим как чувствительные к точности задачи GUI, требующие точности на уровне точек, проверки с учётом геометрии и устойчивости к распространению ошибок, обусловленному зависимостями. Для бенчмаркинга этого режима мы представляем PAGE Bench, содержащий 4 906 задач и более 224 тыс. размеченных по процессу действий GUI на уровне пикселей. Кроме того, мы предлагаем PAGER — агент, учитывающий топологию, который разбивает построение на планирование, структурированное по зависимостям, и выполнение на уровне пикселей. Контролируемая настройка с привязкой к пикселям устанавливает грамматику исполняемых действий, а согласованное по точности обучение с подкреплением смягчает смещение экспозиции, вызванное развёртыванием, с помощью обратной связи по геометрии, обусловленной состоянием. Эксперименты выявляют выраженный семантико-исполнительный разрыв: общие мультимодальные модели могут превышать 88% точности типа действий, но оставаться ниже 6% успешности задач. PAGER устраняет этот разрыв, обеспечивая в 4,1 раза более высокую успешность задач по сравнению с сильнейшей оценённой общей базой и повышая уровень успешности шага с менее 9% для специализированных на GUI агентов до более 62%, устанавливая новый передовой уровень для точечно точного управления GUI.
Современное 3D-визуальное обучение опирается на наблюдения, полученные из метрических 3D-активов, однако существующие сканы, mesh-сетки, облака точек, симуляции и реконструкции не предоставляют напрямую разреженный, сопоставимый и геометрически согласованный панорамный обучающий интерфейс. Плотные траектории дублируют близлежащие обзоры, специфичные для источника политики рендеринга порождают гетерогенные аннотации, а разреженные эвристики могут пропускать важные области или вносить глубинно-несовместимые наблюдения. Мы исследуем, как преобразовать 3D-активы в разреженные панорамные данные RGB-D-pose, обеспечивающие полное покрытие сцены при низкой избыточности и поддающееся проверке происхождение. Мы предлагаем COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping) — работающий без обучения куратор точек обзора на основе ERP, который проецирует геометрию, наблюдаемую из выбранных видов, в кандидатные ERP-пробы, оценивает инкрементальное покрытие и штрафует конфликты глубины. При ограниченной погрешности прокси-функции его жадная прокси-функция покрытия сохраняет стандартное аппроксимационное поведение типа покрытия с точностью до аддитивного члена ошибки. С помощью COVER мы создаем CM-EVS (Coverage-curated Metric ERP View Set) — панорамный набор данных RGB-D-pose, содержащий 36 373 курированных ERP-кадра из 1275 внутренних сцен из наборов Blender indoor, HM3D и ScanNet++, дополненных наружными панорамами из TartanGround и OB3D, перекодированными в ту же схему. Каждый кадр предоставляет полнообъемный RGB, метрическую глубину дальности, калиброванную позу; созданные с помощью COVER внутренние кадры включают журналы происхождения для каждого шага. При медиане всего 25 кадров на внутреннюю сцену CM-EVS охватывает все 13 унифицированных типов помещений, сохраняя компактное покрытие на уровне сцены. Эксперименты показывают, что COVER улучшает компромисс между покрытием и конфликтами, делая CM-EVS разреженным, компактным и проверяемым ресурсом RGB-D-pose для геометрически согласованного панорамного 3D-обучения.
Модели зрения-языка (VLM) превосходно справляются с двумерными задачами, такими как привязка объектов и создание подписей, однако остаются ограниченными в понимании трёхмерного пространства. Ключевым ограничением является их парадигма обучения, основанная исключительно на текстовом надзоре, что недостаточно ограничивает тонкое визуальное восприятие и препятствует восстановлению плотной геометрии. Предыдущие методы либо извлекают геометрию из внешних моделей зрения, что приводит к накоплению ошибок, либо обеспечивают прямое предсказание с помощью неэффективных попиксельных запросов или грубых выходных данных на уровне токенов. В этой статье мы предлагаем DepthVLM — простую, но эффективную структуру, которая преобразует одну VLM в собственный предсказатель плотной геометрии, сохраняя при этом её мультимодальные возможности. Прикрепляя лёгкую глубинную головку к основе большой языковой модели (LLM) и обучая в рамках единой парадигмы визуально-текстового надзора с двухэтапным графиком, DepthVLM за один прямой проход генерирует полноразрешенные карты глубины вместе с языковыми выходами. Мы также вводим единый метрический бенчмарк глубины для помещений и открытых пространств в формате, совместимом с VLM. Эксперименты показывают, что DepthVLM значительно превосходит существующие VLM при более высокой эффективности инференса, опережает ведущие чисто зрительные модели и улучшает сложное трёхмерное пространственное рассуждение, приближаясь к действительно универсальной фундаментальной модели. Весь код и контрольные точки будут опубликованы в открытом доступе.
Автоматические мультиагентные системы (MAC) направлены на реализацию агентных рабочих процессов без использования вручную спроектированной или фиксированной оркестрации. Однако существующие подходы к автоматическим MAC остаются лишь частично адаптивными: они либо выполняют поиск на этапе тестирования без обучения, либо оптимизируют дизайнера метауровня, сохраняя замороженными исполнительные агенты нижележащего уровня, что создаёт потолок замороженного исполнителя и оставляет неисследованным сквозное обучение самопроектирующихся и самоисполняющихся агентных моделей. Для решения этой проблемы мы представляем MetaAgent‑X — фреймворк сквозного обучения с подкреплением, который совместно оптимизирует автоматическое проектирование и выполнение MAC. MetaAgent‑X обеспечивает генерацию MAC на основе скриптов, сбор развертываний выполнения и распределение кредита как для траекторий дизайнера, так и для траекторий исполнителя. Для поддержки стабильной и масштабируемой оптимизации мы предлагаем иерархическое развертывание исполнителя и дизайнера и поэтапную коэволюцию, которые улучшают стабильность обучения и раскрывают динамику коэволюции дизайнера и исполнителя. MetaAgent‑X стабильно превосходит существующие базовые автоматические MAC, достигая прироста до 21,7%. Комплексные абляции показывают, что как дизайнер, так и исполнитель улучшаются на протяжении обучения, а эффективное обучение автоматических MAC следует процессу поэтапной коэволюции. Эти результаты утверждают сквозное обучаемое автоматическое MAC как практическую парадигму для построения самопроектирующихся и самоисполняющихся агентных моделей.
Управление активациями — это популярный белоящичный метод управления, который изменяет активации модели, чтобы вызвать абстрактное изменение ее поведения. Он также стал стандартным инструментом в исследованиях интерпретируемости (например, зондирование правдивости или перевод активаций в понятные человеку объяснения) и безопасности (например, взламываемость). Однако неясно, может ли управляемое поведение быть реализовано с помощью какого-либо текстового запроса. В этой работе мы формулируем этот вопрос как проблему сюръективности: для фиксированной модели, существует ли прообраз для каждого управляемого состояния активации при естественном прямом проходе модели? При практических предположениях мы доказываем, что управление активациями выталкивает остаточный поток с многообразия состояний, достижимых из дискретных запросов. Почти наверняка ни один запрос не может воспроизвести то же внутреннее поведение, вызванное управлением. Мы также эмпирически демонстрируем этот вывод на трех широко используемых LLM. Наши результаты устанавливают формальное различие между управляемостью белого ящика и промптингом черного ящика. Поэтому мы предостерегаем от интерпретации легкости и успешности управления активациями как свидетельства интерпретируемости или уязвимости на основе промптов, и выступаем за протоколы оценки, которые явно разделяют вмешательства белого и черного ящика.
Мониторинг сложных промышленных объектов основан на символьных правилах, созданных инженерами, которые срабатывают при определенных условиях датчиков и дают указания техническим специалистам выполнять корректирующие действия. Узким местом является не обнаружение, а реагирование: преобразование правил в шаги обслуживания требует знаний, специфичных для данного типа оборудования, полученных за годы практики. Мы исследуем, могут ли большие языковые модели (LLM) служить поддержкой принятия решений на этапе перехода от правил к действиям, и представляем набор данных, состоящий из 6 690 проверенных экспертами вопросов с множественным выбором, сформированных из 118 пар «правило-действие» для 16 типов активов. Наш вклад включает: (i) конвейер преобразования символьных правил в формат MCQA (вопросы с множественным выбором), приводящий правила к дизъюнктивной нормальной форме с семплированием дистракторов на основе эмбеддингов; (ii) пять вариантов, исследующих различные типы отказов (Pro, Pert, Verbose, Aug, Rationale); (iii) эталонный тест из 29 LLM и 4 моделей эмбеддингов. Оценка с участием людей (9 практиков, средний результат 45,0%) подтверждает, что этот набор данных требует специализированных знаний, выходящих за рамки операционного опыта. Выделяются три результата. Разрыв сокращается: три лучшие LLM находятся в пределах одного макро-показателя, а рейтинг Брэдли-Терри Эло показывает, что claude-opus-4-6 опережает следующую модель на 30 пунктов. Однако вариант Pro выявляет хрупкость: каждая модель теряет 13–60% относительной точности при расширении набора дистракторов. Вариант Aug выявляет склонность к поиску шаблонов: при инверсии условий ведущие модели по-прежнему выбирают исходный ответ в 49–63% случаев. Узким местом внедрения является не способность, а калибровка: ведущие модели справляются с обнаружением неисправностей по шаблону, но дают сбой при структурных возмущениях.
Недавние достижения в области моделей Vision Language Action (VLA) обусловили критическую потребность в крупномасштабных эгоцентрических наборах данных. Однако существующие наборы данных часто ограничены короткой продолжительностью эпизодов, обычно составляющей всего несколько минут, что не позволяет улавливать долговременные временные зависимости, необходимые для выполнения сложных роботизированных задач. Для преодоления этого разрыва мы представляем MobileEgo Anywhere — фреймворк, предназначенный для сбора надежных эгоцентрических траекторий продолжительностью более часа с использованием доступного мобильного оборудования. Мы используем повсеместно распространенные сенсорные комплекты современных смартфонов для обеспечения высокоточного долгосрочного отслеживания положения камеры, эффективно устраняя высокие аппаратные барьеры, связанные с традиционным сбором роботизированных данных. Наш вклад состоит из трех аспектов: (1) мы публикуем новый набор данных, содержащий 200 часов разнообразных длительных эгоцентрических данных с постоянным отслеживанием состояния; (2) мы предоставляем в открытом доступе мобильное приложение, позволяющее любому пользователю записывать эгоцентрические данные; и (3) мы предлагаем комплексный конвейер обработки для преобразования необработанных данных с мобильных устройств в стандартизированные форматы, готовые для обучения моделей Vision Language Action и фундаментальных моделей. Демократизируя процесс сбора данных, данная работа обеспечивает возможность массового получения долговременных данных в разнообразных мировых средах, ускоряя разработку обобщаемых роботизированных политик.
Генерация изображений за несколько шагов достигла быстрого прогресса: методы, основанные на согласованности и среднем потоке, значительно сократили количество шагов дискретизации. Несмотря на низкую стоимость инференса, такие подходы часто страдают от нестабильности обучения и ограниченной масштабируемости. Недавней альтернативой является Sphere Encoder, который получает высококачественные изображения всего за несколько шагов; однако он требует многократных переходов между пространством пикселей и скрытым пространством во время инференса при совместной оптимизации реконструкции и генерации в рамках единой архитектуры. Такая конструкция приводит к вычислительной неэффективности и конфликту целей между реконструкцией и генерацией. Чтобы устранить эти ограничения, мы разделяем фреймворк на фиксированный предварительно обученный кодировщик изображений и отдельную латентную модель шумоподавления, обучаемую целиком в сферическом скрытом пространстве. Наш подход исключает повторяющиеся операции в пространстве пикселей во время обучения и инференса, повышая эффективность и позволяя реконструкции и генерации специализироваться независимо. На наборах данных Animal-Faces, Oxford-Flowers и ImageNet-1K наш метод значительно превосходит Sphere Encoder как по качеству генерации, так и по скорости инференса, при этом достигая конкурентоспособных результатов по сравнению с сильными базовыми моделями с несколькими и многими шагами.
Крупномасштабные предварительно обученные модели зрения и языка, такие как CLIP, демонстрируют впечатляющую производительность zero-shot в широком спектре задач. Однако тонкая настройка таких моделей для улучшения результатов на целевых задачах часто снижает устойчивость к сдвигам распределения. Недавние подходы пытались смягчить этот компромисс, но зачастую полагаются на вычислительно затратное текстовое руководство. Мы предлагаем новый метод для робастной тонкой настройки, SAE-FT, который работает исключительно с визуальными представлениями модели. SAE-FT регуляризует изменения этих представлений, штрафуя добавление и удаление семантически значимых признаков, выявленных разреженным автоэнкодером, обученным на предварительно обученной модели. Такое ограничение предотвращает катастрофическое забывание и делает процесс тонкой настройки интерпретируемым, позволяя напрямую анализировать семантические изменения. SAE-FT является как механистически прозрачным, так и вычислительно эффективным, достигая или превосходя современный уровень производительности на ImageNet и связанных с ним эталонах для оценки сдвигов распределения. Код доступен по адресу: https://github.com/Fabian-Mor/sae-ft.
Реконструкция аватаров традиционно опиралась на поперсональную оптимизацию, требующую часов вычислений, либо на дорогостоящую предварительную обработку, ограничивающую масштабируемость. Мы представляем FFAvatar — обощающую архитектуру прямого распространения, которая восстанавливает высококачественные анимируемые головные аватары на основе гауссов из малого числа непозированных портретных изображений за секунды. FFAvatar объединяет информацию из нескольких исходных изображений в единое каноническое гауссово представление посредством Multi-View Query-Former, анимация которого осуществляется через параметры FLAME, предсказываемые сквозным образом непосредственно из пикселей, что устраняет издержки офлайн-извлечения FLAME. Мы также предлагаем трёхстадийный учебный курс, обеспечивающий как широкую обобщаемость, так и высокую точность реконструкции: (i) масштабируемое предварительное обучение на обширных данных моновидео с более чем 1 миллионом идентичностей для изучения сильных обобщаемых априорных знаний; (ii) многовидовая тонкая настройка на небольшом, но высококачественном наборе данных круговых захватов для повышения геометрической точности и осведомлённости об экстремальных ракурсах; и (iii) опциональная персонализация, адаптируемая под конкретные идентичности для максимальной точности в пределах 500 шагов оптимизации. Обширные эксперименты показывают, что FFAvatar устанавливает новый стандарт сохранения идентичности, геометрической согласованности и точности анимации. На эталоне NeRSemble он превосходит современный метод LAM с существенным приростом PSNR на 5,5. Кроме того, FFAvatar обеспечивает развёртывание в реальном времени, восстанавливая аватары за 2 секунды без персонализации и за 10 секунд с персонализацией, поддерживая анимацию со скоростью 49 кадров в секунду на одном GPU NVIDIA A100.
Агенты на основе больших языковых моделей часто терпят неудачу в незнакомых средах из-за преждевременной эксплуатации: склонности действовать на основе предварительных знаний до получения достаточной информации, специфичной для среды. Мы определяем автономное исследование как критически важную, но недостаточно изученную способность для построения адаптивных агентов. Чтобы формализовать и количественно оценить эту способность, мы вводим Exploration Checkpoint Coverage — проверяемую метрику, которая измеряет, насколько широко агент обнаруживает ключевые состояния, объекты и аффордансы. Наша систематическая оценка показывает, что агенты, обученные с помощью стандартного целеориентированного обучения с подкреплением, последовательно демонстрируют узкое и повторяющееся поведение, которое препятствует дальнейшей производительности. Для устранения этого ограничения мы разрабатываем стратегию обучения, которая чередует прогоны выполнения задач и исследовательские прогоны, причем каждый тип прогонов оптимизируется с помощью соответствующего проверяемого вознаграждения. Основываясь на этой стратегии обучения, мы предлагаем парадигму «Исследуй, затем действуй» (Explore-then-Act), которая разделяет сбор информации и выполнение задачи: агенты сначала используют бюджет взаимодействия для получения обоснованных знаний об окружающей среде, а затем используют их для решения задачи. Наши результаты демонстрируют, что обучение систематическому исследованию является обязательным для создания обобщаемых и готовых к работе в реальных условиях агентов.
Современные системы моделирования 3D-миров, основанные на генеративном синтезе сцен, такие как Marble, способны создавать связные и исследуемые трёхмерные среды, однако их результаты обычно представляют собой статичные монолитные активы с ограниченными возможностями редактирования и физического взаимодействия. Это ограничивает их применение в создании иммерсивного контента и воплощённом моделировании, где сгенерированные миры должны активно модифицироваться и подвергаться манипуляциям. Для решения этой задачи мы представляем WorldAct — фреймворк, преобразующий статические сгенерированные 3D-миры в редактируемые и готовые к взаимодействию сцены. WorldAct использует мультимодального агента для управления декомпозицией сцены, идентификации подлежащих действию объектов, реконструкции геометрически согласованных объектно-уровневых сеток для взаимодействия и восстановления остаточного фона с помощью 3D-инпейнтинга. Полученные сцены поддерживают редактирование на уровне объектов, манипуляции с учётом коллизий и выполнение воплощённых задач, сохраняя при этом глобальную когерентность сцены. Эксперименты показывают, что WorldAct обеспечивает более богатые сценарии взаимодействия по сравнению с исходными сгенерированными сценами, что указывает на практический путь к созданию редактируемых и интерактивных моделей 3D-миров.
Обучение с подкреплением с проверяемыми наградами (RLVR) стало эффективной парадигмой для улучшения способностей больших языковых моделей к рассуждению. Однако обучение RLVR часто затрудняется разреженными бинарными наградами и слабым распределением кредита, что приводит к неоднозначным сигналам оптимизации и недоиспользованию полезной информации, содержащейся в неудачных траекториях. Для решения этой проблемы мы предлагаем оптимизацию политики, ориентированную на исправления (CIPO) — простое и эффективное расширение RLVR, которое преобразует неудачные траектории, полученные во время текущей политики, в супервизию, ориентированную на исправления, без использования каких-либо внешних сигналов. Совместная оптимизация примеров исправлений, полученных из собственных неудачных попыток модели, вместе со стандартной целью RLVR повышает эффективность обучения, одновременно явно улучшая способность модели исправлять собственные ошибки. Обширные эксперименты на 11 эталонных тестах, охватывающих математическое рассуждение и генерацию кода, показывают, что CIPO последовательно и значительно превосходит сильные базовые линии как по качеству рассуждений, так и по способности к исправлению. Более того, CIPO обеспечивает более высокий выигрыш в метрике pass@K, что указывает на улучшение внутренней способности модели к рассуждению, а не просто на перераспределение массы вероятности среди существующих правильных ответов.
В направлении рекурсивного самосовершенствования мы исследуем LLM-агентов, автономно проектирующих фундаментальные модели, выходящие за рамки стандартных трансформеров. Мы представляем двухуровневый подход: AIRA-Compose для поиска архитектур высокого уровня и AIRA-Design для реализации низкоуровневых механизмов. AIRA-Compose использует 11 агентов для исследования фундаментальных вычислительных примитивов в течение 24-часового бюджета. Агенты оценивают кандидатов с миллионами параметров, экстраполируя лучшие архитектуры до масштабов 350M, 1B и 3B. В результате получено 14 архитектур двух семейств: AIRAformer (на основе трансформеров) и AIRAhybrid (гибрид Transformer-Mamba). Предобученные при масштабе 1B, эти модели стабильно превосходят Llama 3.2 и базовые решения, найденные Composer. На задачах нижнего уровня AIRAformer-D и AIRAhybrid-D повышают точность на 2,4% и 3,8% по сравнению с Llama 3.2. Кроме того, AIRA-Compose находит модели с высокоэффективными границами масштабирования: AIRAformer-C масштабируется на 54% и 71% быстрее, чем Llama 3.2 и лучший трансформер Composer, в то время как AIRAhybrid-C превосходит Nemotron-2 на 23% и лучший гибрид Composer на 37%. AIRA-Design поручает 20 агентам написание новых механизмов внимания для долгосрочных зависимостей и высокопроизводительных скриптов обучения. На эталонном наборе Long Range Arena спроектированные агентами архитектуры достигают 2,3% и 2,6% от человеческого уровня современного искусства по сопоставлению документов и классификации текстов. На эталонном тесте Autoresearch Greedy Opus 4.5 достигает 0,968 валидационных бит-на-байт в заданном временном бюджете, превосходя опубликованный минимум. В совокупности эти фреймворки показывают, что ИИ-агенты могут автономно открывать архитектуры и алгоритмические оптимизации, соответствующие или превосходящие ручные базовые решения. Это устанавливает мощную парадигму для поиска фундаментальных моделей следующего поколения, что является явным шагом к рекурсивному самосовершенствованию.
Будь то навигация в здании, управление роботом или игра, агент, эффективно действующий в среде, должен сначала усвоить внутреннюю модель того, как эта среда работает. Частично наблюдаемые марковские процессы принятия решений (POMDP) предоставляют гибкий класс моделирования для таких внутренних мировых моделей, однако их обучение только на основе траекторий наблюдений и действий является сложной задачей и обычно требует обширного взаимодействия со средой. Мы задаемся вопросом, могут ли априорные представления языковых моделей снизить затраты на такое взаимодействие за счет использования предварительных знаний, и представляем Pinductor (POMDP-индуктор): LLM предлагает кандидатные POMDP-модели на основе нескольких траекторий наблюдений и действий и итеративно уточняет их для оптимизации оценки правдоподобия на основе убеждений. Несмотря на использование строго меньшего объема информации, Pinductor достигает производительности и эффективности использования выборок, сопоставимых с методами обучения POMDP на основе LLM, которые предполагают привилегированный доступ к скрытому состоянию, при этом значительно превосходя табличные базовые методы POMDP по эффективности использования выборок. Дальнейшие результаты показывают, что производительность масштабируется с возможностями LLM и плавно ухудшается при сокрытии семантической информации о среде. В совокупности эти результаты позиционируют априорные представления языковых моделей как практический инструмент для эффективного обучения мировых моделей в условиях частичной наблюдаемости и как шаг к созданию агентов общего назначения в реальных средах. Код доступен по адресу https://github.com/atomresearch/pinductor.
Разреженные слои смеси экспертов (MoE) направляют токены через небольшое количество экспертов, а сжатие без обучения этих слоев снижает стоимость инференса без повторного обучения. Тонкое препятствие мешает всем существующим компрессорам в этом семействе: три эксперта могут быть попарно совместимы, но при слиянии образовывать неприводимый цикл, поэтому любая оценка, ранжирующая экспертов по парным сигналам, структурно нечувствительна к тому, какие тройки совместно поддаются слиянию. Мы показываем, что это препятствие является точным математическим объектом — гармоническим ядром симплициального лапласиана на 2-комплексе, вершинами которого являются эксперты, ребра несут KL-барьеры слияния, а грани — триплетные барьеры; разложение Ходжа сигнала реберных барьеров изолирует ядро в точности. Мы превращаем диагностику в целевую функцию отбора: HodgeCover жадно покрывает гармонически-критические ребра и триплетно-критические треугольники, а гибридный вариант HodgeCover сочетает это со стандартным прореживанием весов у выживших компонентов. На трех разреженных MoE-основах с открытыми весами при агрессивном сокращении числа экспертов HodgeCover соответствует современным базовым методам без обучения по оси сокращения экспертов, лидирует на передовой агрессивного сжатия по гибридной оси и уникальным образом балансирует сохраненную массу по всем четырем компонентам Ходжа. Эти результаты показывают, что раскрытие гармонического ядра обученной структуры MoE меняет то, какой компрессор побеждает в наиболее важном режиме.
Межтелесная генерация видео направлена на перенос движений между различными гуманоидными воплощениями, например, от человека к роботу и от робота к роботу, что позволяет масштабируемо генерировать данные для воплощенного интеллекта. Основная сложность в этой задаче заключается в том, что динамика движений частично переносима между воплощениями, тогда как внешний вид и морфология остаются специфичными для каждого воплощения. Существующие подходы часто смешивают эти факторы, а многие из них требуют парных данных для каждого целевого воплощения, что ограничивает масштабируемость при переходе к новым роботам. Мы представляем OmniHumanoid — фреймворк, который разделяет обучение переносимых движений и адаптацию к конкретному воплощению. Наш метод обучает общую модель переноса движений на основе парных видео с выравненными движениями, охватывающих множество воплощений, а адаптацию к новому воплощению выполняет с использованием только непарных видео через легковесные адаптеры, специфичные для воплощения. Для снижения интерференции между переносом движений и адаптацией воплощения мы дополнительно вводим дизайн внимания с изолированными ветвями, который разделяет управление движением и специфическую для воплощения модуляцию. Кроме того, мы создаем синтетический межтелесный набор данных с парными видео, выровненными по движениям, отрендеренными с использованием разнообразных гуманоидных ресурсов, сцен и точек обзора. Эксперименты как на синтетических, так и на реальных эталонных данных показывают, что OmniHumanoid достигает высокой точности движений и согласованности воплощения, обеспечивая при этом масштабируемую адаптацию к невиданным ранее гуманоидным воплощениям без переобучения общей модели движений.
Обнаружение изменений по данным дистанционного зондирования (ОИ ДЗ) направлено на локализацию изменений между двумя изображениями одной и той же географической области. На практике маски изменений часто следуют соглашениям об аннотации на уровне регионов, а не чисто локальным различиям внешнего вида, что делает их контекстно-зависимыми и иногда неоднозначными. Большинство современных методов используют попиксельную дискриминативную классификацию, которая дает одно предсказание на вход и не моделирует явно область изменений как связное целое. Естественной альтернативой является генеративная формулировка, которая позволяет моделировать распределение правдоподобных масок, обеспечивая возможность семплирования для учета неоднозначности и стимулируя глобальную согласованность. Однако существующие генеративные подходы к ОИ ДЗ, как правило, отстают от сильных дискриминативных базовых линий из-за высокой вычислительной стоимости генерации в пиксельном пространстве и сложности их механизмов обуславливания. Для преодоления ограничений предыдущих дискриминативных и генеративных методов мы предлагаем ChangeFlow — генеративную структуру, которая переформулирует обнаружение изменений как синтез маски изменений в латентном пространстве с помощью выпрямленного потока (rectified flow). ChangeFlow управляется структурированным, но легким сигналом обуславливания, а его стохастическая конструкция естественным образом поддерживает ансамблирование предсказаний на основе семплирования. А именно, агрегирование нескольких предсказанных масок изменений повышает устойчивость, в то время как согласие между семплами дает практическую оценку уверенности, которая выделяет неоднозначные области. На четырех эталонных наборах данных ChangeFlow достигает среднего F1 80.4%, улучшая результат в среднем на 1.3 пункта по сравнению с предыдущим лучшим методом, сохраняя при этом скорость вывода, сопоставимую с недавними сильными базовыми линиями. Страница проекта: https://blaz-r.github.io/changeflow_cd
Агенты на основе больших языковых моделей всё чаще выполняются внутри сред выполнения (harnesses), которые диспетчеризуют инструменты, распределяют ресурсы и маршрутизируют сообщения между специализированными компонентами. Однако такая среда может вернуть корректный, безобидный ответ по траектории, которая включает доступ к неавторизованным ресурсам или утечку контекста не тому агенту. Оценка на уровне выходных данных не видит этих сбоев, но большинство тестов безопасности оценивают только конечные выходы или терминальные состояния, хотя многие нарушения происходят в середине траектории, а не при завершении. Центральный вопрос заключается в том, соблюдает ли среда выполнения намерения пользователя, границы разрешений и ограничения на поток информации на протяжении всего выполнения. Для устранения этого пробела мы предлагаем HarnessAudit — фреймворк, который проверяет полные траектории выполнения на соответствие границам, точность выполнения и стабильность системы, с акцентом на многогентовые среды, где эти риски наиболее выражены. Мы также представляем HarnessAudit-Bench — эталонный набор из 210 задач в восьми реальных предметных областях, реализованных как в одногентовой, так и в многогентовой конфигурациях со встроенными ограничениями безопасности. Оценивая десять конфигураций сред выполнения на передовых моделях и трех фреймворках для многогентовых систем, мы обнаруживаем следующее: (i) выполнение задач не согласуется с безопасным исполнением, и нарушения накапливаются с увеличением длины траектории; (ii) риски безопасности различаются в зависимости от предметной области, типа задач и ролей агентов; (iii) большинство нарушений сосредоточено в доступе к ресурсам и передаче информации между агентами; (iv) многогентовое сотрудничество расширяет поверхность риска для безопасности, в то время как дизайн среды выполнения устанавливает верхнюю границу безопасного развертывания.
Мы проводим аудит пайплайна оценки мультимодальной физики «от начала до конца» и документируем три необнаруженные конструктивные практики, которые искажают измерение визуально-языковых рассуждений в данной области: контаминация между обучением и оценкой, дрейф перевода и насыщение MCQ. (1) Публичные обучающие пулы (UGPhysics-Train, SciInstruct, MMK12) проходят одностадийный аудит по 5-граммам Жаккара с нулевыми совпадениями во всех шести публичных физических оценках; трехстадийный аудит (Жаккар → косинусное сходство mxbai-embed-large → LLM-судья Haiku-4.5) выявляет 134 почти дублирующихся записи и 4 846 кандидатов в парафразы только в SciInstruct. (2) Дельта Sonnet 4.5 в 17 процентных пунктов (п.п.) на 59 парных задачах эстонско-английских олимпиад (30,5% против 13,6%; знаковый тест p = 0,011, тест МакНемара p = 0,021, парный бутстреп 95% ДИ [+5,1; +28,9] п.п.). (3) Градиент по формату и новизне в 46 п.п. на идентичных весах Sonnet между MCQ (79,7% на PhyX) и оценкой открытых олимпиадных задач (33,4% на PhysOlym-A). Мы выпускаем четыре артефакта, устраняющих эти пробелы: PhysCorp-A (мультимодальный корпус из 6 432 записей, прошедших трехстадийный аудит), PhysR1Corp (пул закрытого RL из 2 268 записей), PhysOlym-A (500 задач, 99,8% из новых источников, выделенная олимпиадная оценка с нативными метками сложности и двуязычным подмножеством EN/ET) и Physics-R1 — эталонный рецепт GSPO+DAPO, холодным стартом взятый из Qwen3-VL-8B-Thinking. По трем зернам Physics-R1 поднимает проверенный корпус над базой 8B на +18,3 п.п. на PhysOlym-A liberal (с 8,0 до 26,3 ± 1,7; отставание на 7,1 п.п. от Sonnet 4.5), +15,7 п.п. на PhysReason (с 23,9 до 39,6 ± 6,4; опережая Qwen3-VL-32B и Gemini 2.5 Pro), +6,9 п.п. на OlympiadBench-Physics (46,2 ± 1,5) и +4,1 п.п. на MCQ PhyX (77,8 ± 0,3).
Многоголовое латентное внимание (MLA), применяемое в DeepSeek-V2/V3, совместно сжимает ключи и значения в низкоранговое латентное представление и почти идеально соответствует roofline-модели H100. Однако его обученные веса предоставляют только один путь декодирования — поглощённую форму MQA, что привязывает эффективный инференс к соотношениям вычислительной мощности и пропускной способности уровня H100, исключает тензорный параллелизм по оси головок и не даёт выигрыша в многотокенном предсказании (MTP) на массовых инференс-графических процессорах (GPU), таких как экспортно-ограниченный H20. Мы предлагаем групповое-запросное латентное внимание (GQLA) — минимальную модификацию MLA, обученные веса которой предоставляют два алгебраически эквивалентных пути декодирования поверх одних и тех же параметров: путь с поглощением MQA, идентичный пути MLA, и путь GQA с расширенным кэшем для каждой группы. Во время выполнения выбирается путь, соответствующий целевому аппаратному обеспечению — без переобучения и без специальных ядер, — так что единый набор весов GQLA привязывает roofline как H100 (поглощение MQA, s_q=1), так и H20 (GQA + MTP, s_q=2), поддерживая при этом до 8-кратного тензорного параллелизма с нулевой избыточностью на пути GQA. Чтобы избежать обучения с нуля, мы расширяем TransMLA до TransGQLA, который преобразует предобученную контрольную точку GQA в модель GQLA; на LLaMA-3-8B это снижает объём поэлементного KV-кэша до 28,125% от базового GQA на пути с поглощением MQA, структурно сохраняя трафик уровня GQA на групповом пути.
Стандартные оценки забывания (unlearning) измеряют подавление поведения в полной точности сразу после обучения, несмотря на то, что все развернутые языковые модели сначала квантуются. Недавние работы показали, что пост-тренировочное квантование до 4 бит может обратить вспять машинное забывание; мы демонстрируем, что это не артефакт настройки, а систематический двойной сбой: градиентные методы, достигающие значимого забывания, теряют его при сжатии, тогда как методы, переживающие квантование, едва изменяют модель. Оба сбоя связаны с одной и той же коренной причиной: во всех базовых подходах обновления на параметр лежат в 47–828 раз ниже ширины бина квантования NF4; обновления, разнесенные по миллиардам параметров, не могут преодолеть границы бинов квантования — следствие, которое мы формализуем как компромисс между разреженностью и сохранностью (sparsity-permanence tradeoff). Мы представляем MANSU (Mechanistic-Aligned Null-Space Unlearning — механистически согласованное забывание в нуль-пространстве), который устраняет оба режима путем объединения атрибуции причинно-следственных цепей для выделения минимального подграфа забываемого множества, проекции на нуль-пространство, ограниченной цепью, с диагональным граничным условием Фишера для сохранения, и порога величины на параметр, гарантирующего выживание при квантовании по построению. Мы также вводим расхождение атрибуции цепей (Circuit Attribution Divergence, CAD) — метрику механистической верификации, различающую структурное стирание и подавление поведения, что невозможно для существующих метрик. На нескольких семействах моделей и бенчмарках опасностей MANSU является первым методом, который совместно удовлетворяет всем четырем свойствам с запасом по каждому (значимое забывание, сохранение удержанного, неположительный разрыв при пост-тренировочном квантовании и структурное стирание), в то время как градиентные базовые методы восстанавливают до +0.05 точности при сжатии.
Существующие подходы к управляемой генерации обычно основаны на тонкой настройке, вспомогательных сетях или поиске во время тестирования. Мы показываем, что согласование потоков допускает другой интерфейс управления: адаптацию через примеры. Для детерминированных интерполянтов поле скорости определяется исключительно условным средним конечных точек; сдвиг этого среднего сдвигает сам поток. Это дает простой принцип управляемой генерации: направлять предварительно обученную модель, изменяя эталонный набор, которому она следует. Мы реализуем эту идею в двух формах. Направление по эталонному среднему не требует обучения: оно вычисляет поправку среднего конечных точек в замкнутой форме из банка эталонов и применяет ее к замороженной модели FLUX.2-klein (4B), обеспечивая контроль цвета, идентичности, стиля и структуры при фиксированных подсказке, начальном состоянии и весах. Полупараметрическое направление амортизирует ту же идею с помощью явного якоря среднего и обученного остаточного уточнителя, достигая качества безусловного DiT-B/4 на AFHQv2, при этом позволяя заменять эталонный набор во время инференса. Эти результаты указывают на более широкое направление: генеративные модели, которые адаптируются через данные, а не через обновление параметров.
Реконструкция структурированного векторного графического представления из растрового изображения плана этажа обычно является важной предварительной задачей для вычислительных операций с планами этажей, таких как автоматическое понимание или рабочие процессы САПР. Однако существующие методы сталкиваются с трудностями при точном воспроизведении структуры и семантики, передаваемой сложными планами этажей, которые изображают большие внутренние пространства с множеством комнат и переменным числом вершин многоугольников. Для решения этой проблемы мы предлагаем Raster2Seq, представляющий реконструкцию плана этажа как задачу типа sequence-to-sequence, в которой элементы плана — такие как комнаты, окна и двери — представлены в виде помеченных последовательностей многоугольников, совместно кодирующих геометрию и семантику. Наш подход использует авторегрессионный декодер, который обучается предсказывать следующую вершину с учетом признаков изображения и ранее сгенерированных вершин, используя направляющие обучаемые якоря. Эти якоря представляют пространственные координаты в пространстве изображения, что позволяет эффективно направлять механизм внимания на информативные области изображения. Благодаря использованию авторегрессионного механизма наш метод обеспечивает гибкость выходного формата, позволяя эффективно обрабатывать сложные планы этажей с большим количеством комнат и разнообразными полигональными структурами. Наш метод достигает передовых показателей на стандартных эталонных наборах данных, таких как Structure3D, CubiCasa5K и Raster2Graph, а также демонстрирует сильную обобщающую способность на более сложных наборах данных, таких как WAFFLE, которые содержат разнообразные структуры комнат и сложные геометрические вариации.
Segment Anything Model 2 (SAM2) демонстрирует высокую обобщающую способность для сегментации по подсказкам в видеоклипах; однако его интеграция с аудиомодальностью остается малоизученной. Существующие подходы либо преобразуют аудио в визуальные подсказки (например, прямоугольники) с помощью фундаментальных моделей, либо внедряют адаптеры в кодировщик изображений для аудиовизуального слияния. Однако оба направления оказываются неэффективными в сценариях с участием человека из-за ограниченной точности подсказок и увеличенных вычислительных издержек при инференсе. В частности, эти методы на основе адаптеров часто страдают от разбавления аудиоподсказок, когда сигнал постепенно ослабевает по мере распространения через сеть. В данной работе мы предлагаем AuralSAM2, который интегрирует аудио в SAM2, в значительной степени сохраняя его способность к сегментации по подсказкам. Его основной модуль, AuralFuser, объединяет аудио- и визуальные признаки для генерации разреженных и плотных подсказок. Руководствуясь аудио и опираясь на пирамиду признаков SAM2, эти подсказки распространяют слуховые сигналы по визуальным слоям, усиливая кросс-модальное влияние. Для дальнейшего выравнивания модальностей мы вводим аудио-управляемую контрастную потерю, которая подчеркивает аудиорелевантность в доминирующих визуальных признаках. Наш метод достигает заметного повышения точности на общедоступных эталонных наборах данных, оказывая лишь минимальное влияние на интерактивную эффективность сегментации по подсказкам. Наш код доступен по адресу https://github.com/yyliu01/AuralSAM2.
Мы представляем ProofGrid — набор тестов для оценки рассуждений LLM на основе машинно проверяемых доказательств, а не только финальных ответов. ProofGrid включает 15 задач, охватывающих написание доказательств, проверку доказательств, маскировку доказательств и заполнение пробелов в доказательствах. Задачи формулируются на минимальном формальном языке, в частности NDL — компактном языке естественного вывода, который помещается в короткие промпты и обеспечивает точную, аудитируемую верификацию. Это даёт механическую, воспроизводимую и детальную оценку, а не суждения людей или LLM. ProofGrid охватывает калиброванный спектр сложности — от фундаментальных тестов на рассуждение до структурно насыщенных задач, которые не решает ни одна современная модель, при этом минимизируя зависимость от предметных знаний, делегирования решателям и артефактов длинного контекста. Мы также разрабатываем сравнительную рамку для бенчмарков рассуждений и используем её для позиционирования ProofGrid относительно существующих работ по таким параметрам, как представление, гарантии верификации и глубина рассуждений. Методологически мы вводим инструментированный конвейер проверки доказательств, который допускает незначительные поверхностные отклонения, но локализует первую содержательную ошибку в рассуждении, повышая разрешение измерения и отделяя планирование доказательства от низкоуровневого шума исполнения. С помощью этого конвейера мы оцениваем широкий спектр открытых и проприетарных моделей. Результаты показывают быстрый прогресс, но и значительные сохраняющиеся ограничения: передовые модели хорошо справляются с рядом фундаментальных задач, однако сложные задачи, особенно требующие глобального комбинаторного рассуждения или низкоуровневого синтеза доказательств, остаются далеки от решения. Мы также выявляем эпистемическую нестабильность, когда модели генерируют ошибочные доказательства, но при этом корректно отвергают те же самые локальные умозаключения в изоляции, и формализуем это с помощью Индекса эпистемической стабильности. Наконец, мы дополняем точность анализом 2PL IRT, картами Райта и нормализованной мерой дискриминации задач на основе информации Фишера.
По мере того как агенты на основе больших языковых моделей (LLM) всё чаще выполняют просмотр веб-страниц от имени пользователей, возникает естественный вопрос: могут ли веб-сайты пассивно определять, какая базовая модель управляет агентом? Это представляло бы собой значительный риск для безопасности, позволяя проводить целевые атаки, адаптированные под известные уязвимости модели. На примере 14 передовых LLM и четырёх веб-сред, охватывающих задачи поиска информации и совершения покупок, мы показываем, что действия агента и временны́е интервалы между ними, фиксируемые с помощью пассивного JavaScript-трекера, достаточны для идентификации базовой модели с F1-мерой до 96%. Мы формализуем эту поверхность атаки, демонстрируя, что классификаторы, обученные на последовательностях действий агента, обобщаются на различные размеры и семейства моделей. Далее мы показываем, что надёжные классификаторы могут быть обучены на небольшом количестве следов взаимодействий, а идентичность агента может быть определена на ранних этапах эпизода. Внесение случайных временны́х задержек между действиями существенно снижает производительность классификатора, но не обеспечивает надёжной защиты: классификатор, переобученный на задержанных следах, в значительной степени восстанавливает свою производительность. Мы публикуем наш набор инструментов и размеченный корпус следов работы агентов по адресу https://github.com/KabakaWilliam/known_actions{here}.
Геопространственные фундаментальные модели (GFM) были предложены в качестве обобщаемых базовых архитектур для реагирования на катастрофы, картографирования земного покрова, мониторинга продовольственной безопасности и других ответственных задач наблюдения Земли. Однако опубликованные работы об этих моделях не предоставляют рецензентам или пользователям достаточной информации, чтобы определить, какая модель подходит для конкретной задачи. Мы утверждаем, что никто не знает, каков текущий передовой уровень в области геопространственных фундаментальных моделей. Методы могут быть полезны, но литература по GFM не стандартизирует оценки, протоколы обучения и тестирования, опубликованные веса или контроль предварительного обучения в достаточной степени, чтобы кто-либо мог их сравнивать или ранжировать. В ходе аудита 152 статей мы выявили 46 межстатейных расхождений как минимум на 10 пунктов для одной и той же модели, эталона и протокола; 94 из 126 статей с извлекаемыми данными предварительного обучения используют конфигурацию, которую не использует ни одна другая статья; и 39% статей по GFM не публикуют веса моделей. Это отсутствие общепринятых стандартов может быть решено. Мы предлагаем шесть конкретных требований: публикация весов с указанием лицензии, общие базовые оценки, аннотации базовых результатов (скопированных против повторно запущенных), отчетность о вариативности, единый общий набор инструментов для оценки, а также контроль данных, архитектуры и алгоритмов. Эти пробелы являются провалом координации, а не ошибкой какой-либо отдельной лаборатории; авторы данной статьи, как и многие другие в сообществе GFM, внесли в них свой вклад. Вместо того чтобы просто критиковать сообщество, мы стремимся предложить конкретные шаги к общему пониманию того, как создавать инновации в области GFM.
Многоязычный информационный поиск приобретает всё большее значение в реальных поисковых сценариях, где пользователи формируют запросы по корпусам со смешанными языками. Существующие методы оценки в основном поощряют семантическую релевантность, не зависящую от языка, рассматривая релевантные отрывки одинаково независимо от языка. Однако полезность поиска также зависит от языка найденных отрывков: пользователи могут предпочитать результаты, которые они могут прочитать и проверить на языке запроса, а несовпадение языков запроса и отрывка может усложнить последующую проверку обоснованности и ответов в системах дополненного поиска с генерацией. Для оценки этого аспекта, учитывающего язык, мы представляем MLAIRE — протокол многоязычной оценки информационного поиска с учётом языка, который разделяет кросс-языковой семантический поиск и предпочтение языка запроса. MLAIRE формирует контролируемые наборы с параллельными отрывками на разных языках, что позволяет измерять точность семантического поиска и предпочтение языка запроса при наличии эквивалентных переводов. Мы предлагаем метрики, учитывающие язык, включая Коэффициент предпочтения языка (LPR) и Lang-nDCG, а также 4-компонентное разложение, разделяющее ошибки семантического поиска и предпочтения языка запроса. Оценивая 31 плотный, разреженный и поздне-интерактивный поисковый механизм, мы показываем, что стандартные метрики скрывают различные модели поведения: семантически сильные поисковые системы могут возвращать правильное содержание не на языке запроса, в то время как системы с более сильным предпочтением языка запроса могут извлекать менее семантически релевантные отрывки.