Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в разработке языковых моделей определялись масштабом, при этом каждое новое поколение вбирало в свои веса всё больше знаний о мире. Однако многие практические приложения выигрывают больше от надежного рассуждения, чем от обширных параметрических знаний. В этом контексте специализированные малые языковые модели (SLM) представляют собой принципиальный выбор архитектуры. Мы представляем Optimal Cognitive Core (OCC) — семейство SLM, построенное на этой предпосылке. В качестве варианта OCC мы представляем OCC-RAG, оптимизированный для достоверного отвечания на вопросы (QA), основанного на предоставленном контексте. Эта задача напрямую согласуется с подходом OCC, требуя многошагового рассуждения по предоставленным отрывкам при игнорировании запомненных знаний. Для обучения OCC-RAG мы реализуем новый конвейер синтеза многосложных, многошаговых данных QA в масштабе, создавая корпус из более чем трех миллионов примеров, нацеленных на многошаговое рассуждение, строгую верность контексту и калиброванное воздержание от ответа. Мы выпускаем OCC-RAG-0.6B и OCC-RAG-1.7B, обе модели дообучены на этом корпусе. Модели генерируют структурированные цепочки рассуждений с цитированием источников, основанных на дословных цитатах из контекста. На примере OCC-RAG мы демонстрируем, что компактные специализированные SLM могут сравниться или превзойти универсальные модели, в 2–6 раз превышающие их по размеру, на бенчмарках многошагового рассуждения (HotpotQA, MuSiQue, TAT-QA), верности контексту (ConFiQA) и отказа от ответа (MuSiQue-Un).
Определение того, какие области мозга представляют зрительные концепты в человеческом мозге, является центральной задачей нейронауки. Существующие подходы локализовали грубые функциональные области (например, лица, места) с помощью максимизации активации, выявляя регионы, которые сильно активируются для целевого концепта по сравнению с другими. Однако одна лишь сильная активация не доказывает, что область представляет сам концепт, поскольку реакции могут быть вызваны коррелированными визуальными или семантическими сигналами. Мы представляем BrainCause — автоматизированную структуру, которая объединяет генеративные модели и модели мозга для синтеза контролируемых стимулов и проверки нейронных репрезентаций с помощью целенаправленного каузального тестирования. Для заданного запроса, определяющего интересующий концепт, наша структура конструирует целевые наборы стимулов, включающие изображения концепта, контрфактические изменения, удаляющие целевой концепт при сохранении остального содержания изображения, а также изображения с потенциальными коррелированными дистракторами. Затем она использует модель кодирования «изображение-фМРТ» для предсказания мозговых реакций и ищет репрезентации, которые специфично реагируют на целевой концепт в сравнении с коррелированными альтернативами. BrainCause возвращает проверенные кандидатные репрезентации и предлагает последующие фМРТ-эксперименты для дальнейшей проверки или расширения своих открытий. Наш подход успешно восстанавливает известные функциональные локализации и выявляет новые кандидатные репрезентации для десятков концептов, что подтверждено как на предсказанных, так и на измеренных данных фМРТ. Критически важно, что без каузальной проверки значительная часть локализаций оказалась бы ложноположительными, что подтверждает недостаточность одной лишь активации как доказательства репрезентации.
Дистилляция по политике (On-Policy Distillation, OPD) является фундаментальным методом эффективного пост-тренинга больших языковых моделей (LLM) с широким спектром применений в обучении агентов, мультизадачном улучшении и сжатии моделей. Однако обучение OPD становится нестабильным при значительном расхождении распределений учителя и студента, поскольку супервизия учителя на токенах, сгенерированных студентом, может давать ненадёжные градиенты политики и даже приводить к сбою оптимизации. Данная работа решает проблему надёжной супервизии на уровне токенов по политике с помощью стратегий назначения кредитов и предлагает дистилляцию по политике в доверительной области — TrOPD. Она обладает следующими характеристиками: 1) Обучение по политике в доверительной области: TrOPD выполняет OPD только в областях, где учитель предоставляет надёжную супервизию, смягчая трудности оптимизации оценки обратного KL-расхождения K1 при несоответствии распределений. 2) Оценка выбросов: Для областей-выбросов мы исследуем клиппирование градиентов, маскирование и оценку прямого KL-расхождения, чтобы уменьшить негативное влияние ненадёжной супервизии. 3) Руководство вне политики: Студент продолжает генерацию с префиксов учителя и использует прямое KL-расхождение для имитации руководства вне политики, поощряя исследование по политике в сторону надёжных областей. Эксперименты показывают, что TrOPD стабильно превосходит современные базовые методы OPD, включая OPD, EOPD и REOPOLD, в задачах математического рассуждения, генерации кода и бенчмарках общего назначения.
Мы представляем Humanoid-GPT, трансформер в стиле GPT с каузальным вниманием, обученный на корпусе движений миллиардного масштаба для управления всем телом. В отличие от предыдущих неглубоких трекеров на MLP, ограниченных нехваткой данных и компромиссом между ловкостью и обобщением, Humanoid-GPT предварительно обучен на перенацеленном корпусе из 2 миллиардов кадров, который объединяет все основные наборы данных захвата движения с крупномасштабными внутренними записями. Масштабирование как данных, так и емкости модели дает единый генеративный трансформер, который отслеживает высокодинамичные поведения, достигая при этом беспрецедентного обобщения без обучения на неизвестные движения и задачи управления. Обширные эксперименты и анализ масштабирования показывают, что наша модель устанавливает новый рубеж производительности, демонстрируя надежное обобщение без обучения на неизвестные задачи при одновременном отслеживании высокодинамичных и сложных движений.
Масштабирование во время тестирования является мощным подходом для улучшения рассуждений в больших языковых моделях, однако оно становится узким местом по памяти при декодировании на длинных горизонтах из-за роста KV-кэша. Квантование KV-кэша может помочь улучшить эту ситуацию, но текущие методы оцениваются в условиях, подобных режиму префилла, и ошибки ведут себя иначе при авторегрессивном декодировании. Мы показываем, что в последнем режиме ошибки квантования накапливаются по временным шагам, что в первую очередь обусловлено некорректными масштабами токенов. Мы представляем KVarN — квантователь KV-кэша без калибровки, который применяет преобразование Адамара с последующей двойной нормализацией дисперсии по обеим осям матриц K и V. Мы обнаружили, что такая комбинация устраняет выбросы ошибок масштаба токенов и существенно снижает накопление ошибок по сравнению с существующими базовыми методами. KVarN устанавливает новый уровень качества для квантования KV-кэша на генеративных бенчмарках, включая MATH500, AIME24 и HumanEval, при 2-битной точности. Реализация метода KVarN в vLLM доступна по адресу https://github.com/huawei-csl/KVarN.
Обучение с подкреплением (RL) после предварительного обучения улучшает большие языковые модели (LLM) в отдельных областях, таких как математические рассуждения, генерация кода, ответы на вопросы и творческое письмо, однако обучение на одной области часто снижает производительность на других. Существующие объяснения, основанные на катастрофическом забывании или глобальном конфликте градиентов, являются неполными: существенное вмешательство может происходить даже тогда, когда полные градиенты модели почти ортогональны. Мы показываем, что однодоменное RL создает разреженные модификации параметров с малой величиной и слабым перекрытием среди наиболее изменяемых нейронов, при этом разные области по-прежнему имеют значительные общие активные вычислительные пути, на которых направления обновления определяют, будут ли они действовать синергетически или конфликтовать. Основываясь на этом наблюдении, мы доказываем в рамках модели локальных возмущений для многодоменного RL, что обучение на более позднем домене вредит более раннему домену в основном через член повреждения второго порядка, который при наблюдаемой разреженной структуре путей концентрируется в низкоразмерном общем конфликтном подпространстве. Кроме того, краткое обновление домена сжимает вредную компоненту в этом подпространстве, обеспечивая избирательное восстановление с ограниченным сопутствующим ущербом. В соответствии с теорией, краткое обновление Math после последовательности Code → Math → QA → CW восстанавливает Math с 57.66 до 66.04, в значительной степени сохраняя производительность на других областях, что дает наилучший средний балл 66.39. Помимо обновления, откат без обучения на разреженном наборе прокси-координат конфликта для пары Math-QA частично восстанавливает Math, предоставляя прямые прокси-уровневые доказательства локализованного повреждения. Эти результаты дают локализованное механистическое объяснение интерференции и восстановления в многодоменном RL.
Модели мира и мультимодальные большие языковые модели (MLLM) предоставляют взаимодополняющие возможности для прогнозирования будущих исходов на основе статических визуальных наблюдений. Модели мира способны генерировать конкретные визуальные развертки возможных будущих состояний, тогда как MLLM могут выполнять абстрактные рассуждения над вопросами, целями и правилами. Однако сгенерированные развертки являются стохастическими и могут быть визуально правдоподобными, но некорректными с точки зрения задачи, что требует определения, когда визуальная симуляция полезна, является ли развертка достоверной и как она должна влиять на окончательный ответ. Мы формулируем эту проблему как контролируемое конкретное рассуждение, в котором модель обучается вызывать, проверять и интегрировать визуальную симуляцию будущего наряду с абстрактным рассуждением. Для изучения этого сценария мы создаем два проверенных человеком эталона: VRQABench для контролируемого пространственного предвидения и OpenWorldQA для физического прогнозирования в открытой предметной области, и предлагаем метод привилегированного будущего с внутриполитической самодистилляцией (PF-OPSD). Во время обучения PF-OPSD использует видео будущего с истинными метками и ответы только в качестве привилегированного контекста со стороны учителя для оценки внутриполитических траекторий конкретных рассуждений, тогда как развертываемая модель-студент никогда не наблюдает истинное будущее во время тестирования. Экспериментальные результаты показывают, что PF-OPSD превосходит базовую линию на 10,6% и 10,9% на VRQABench и OpenWorldQA соответственно, повышая при этом устойчивость к зашумленным или конфликтующим разверткам. Наш код и набор данных доступны по адресу https://github.com/yczhou001/PF-OPSD.
Автономные агенты всё чаще используются для поддержки сквозных рабочих процессов медицинских AI-исследований, выходя за рамки изолированных задач прогнозирования или кратких ответов на клинические вопросы. Однако существующие бенчмарки для медицинских агентов в основном оценивают конечные результаты, предоставляя ограниченную информацию о поведении агентов в ходе исследовательского процесса. Для устранения этого пробела мы представляем AutoMedBench — бенчмарк, учитывающий рабочий процесс, для автономных медицинских AI-исследований, охватывающий разнообразные задачи медицинской визуализации и мультимодального вывода. Исполнение агентов организовано в единый пятиэтапный рабочий процесс (S1–S5): Планирование, Настройка, Валидация, Вывод и Отправка. Бенчмарк включает задачи с длительным горизонтом, каждый запуск которых в среднем состоит из 33 шагов агента, и охватывает пять исследовательских направлений: сегментация, улучшение изображений, визуальный ответ на вопросы (VQA), генерация отчетов и обнаружение поражений. Каждая задача оценивается на двух уровнях сложности, Lite и Standard, которые используют одни и те же данные и метрики, но различаются объёмом опорных указаний в задании. Каждый запуск оценивается как по итоговой производительности задачи, так и по поэтапным баллам (S1–S5), что позволяет проводить поэтапный анализ — от первоначального описания задачи до итогового представленного артефакта. По данным тысяч записанных запусков, поэтапное оценивание показывает, что в среднем Валидация является самым слабым этапом рабочего процесса, тогда как Настройка — самым сильным, что свидетельствует о том, что текущие агенты лучше подготовлены к созданию исполнимых конвейеров, чем к проверке их надёжности. Последующий анализ ошибок показывает, что сбои верификации и отправки доминируют среди маркированных ошибок, составляя соответственно 37,7% и 38,1% сработавших кодов, тогда как ошибки понимания задачи встречаются редко — 0,9%. При этом запуски с одним сработавшим кодом ошибки в среднем имеют на 48% ниже общий балл по сравнению с запусками без ошибок.
Промежуточное обучение стало важным этапом в разработке современных больших языковых моделей, при котором используются крупномасштабные подобранные смеси для усиления способностей перед финальным пост-обучением. Проблема отбора данных для этого этапа отличается: данные оптимизируются с использованием цели, аналогичной предварительному обучению, в масштабе, близком к предварительному обучению, но при этом они подбираются с учетом прикладных возможностей и извлекаются из разнородных источников с различными форматами и обучающими ролями. В результате эффективный отбор требует как масштабируемости, так и семантических критериев, адаптируемых к источникам. Существующие методы, основанные на моделях, хорошо масштабируются, но предоставляют лишь неявные сигналы качества. Методы семантического отбора обеспечивают более строгие оценки, но обычно предполагают фиксированные рубрики или стандартизированные форматы данных. Чтобы устранить это несоответствие, мы предлагаем MIRA — систему фильтрации с учетом источников, основанную на обнаружении самопривязанных рубрик. Ключевая идея заключается в том, чтобы сделать построение рубрик частью отбора данных: MIRA сначала определяет, что следует оценивать для каждой группы источников, а затем дистиллирует эти оценки в масштабируемые ученические скоринговые модели для фильтрации всего корпуса. При промежуточном обучении, ориентированном на код, с 21 источником и 5 группами источников, MIRA превосходит базовые методы отбора по девяти эталонным тестам кода и достигает результатов, сопоставимых с прогоном по полному корпусу, используя при этом лишь половину токенов.
Обучение с подкреплением (RL) для визуального мышления требует масштабируемых, верифицируемых и контролируемых обучающих сигналов. Существующее пост-обучение для визуального RL обучается на статических курируемых наборах данных, с фиксированными образцами изображение-вопрос-ответ, ограниченными бюджетом на их сбор. В этой работе мы представляем TRON (Targeted, Rule-verifiable Online eNvironments — целевые, проверяемые по правилам онлайн-среды), основу онлайн-среды: тренировочный прогон генерируется по запросу управляемой программой генератор-верификатор, которая выбирает новое скрытое визуальное состояние, рендерит изображение, задает вопрос и точно верифицирует ответ. Таким образом, один прогон может создавать неограниченный поток новых примеров на уровне сложности, требуемом текущей учебной программой. Текущий набор TRON содержит 520 сред, организованных в пять групп способностей (пространственные, математические, диаграммы, паттерны/логика и счет); та же самая основа поддерживает как единую полную модель, обученную на всех группах, так и модели-специалисты по каждой группе, без дополнительного сбора данных. Мы также вводим анализ основы, охватывающий надежность генерации, разнообразие примеров и уровней, межсредовые квазидубликаты и процент прохождения базовой модели по уровню сложности. Пост-обучение с подкреплением с помощью METHOD последовательно улучшает производительность на десяти внешних мультимодальных бенчмарках рассуждений для Qwen3-VL-4B, Qwen2.5-VL-7B и MiMo-VL-7B-SFT.
Понимание видео требует большего, чем распознавание отдельных моментов, поскольку люди непрерывно отслеживают объекты, состояния и события во времени. Эта способность к отслеживанию визуальных состояний является основополагающей для понимания видео, однако остается недостаточно изученной в современных оценках мультимодальных больших языковых моделей (MLLMs). Мы представляем бенчмарк отслеживания визуальных состояний (VSTAT) — видеобенчмарк, предназначенный для диагностики отслеживания визуальных состояний в MLLMs. VSTAT включает 834 видеофрагмента из синтетических и реальных видео, к которым прилагается 1500 вопросов, на которые невозможно ответить, исходя из одного кадра или короткого сегмента; для ответа требуется непрерывное восприятие и интеграция событий на протяжении всего видеоряда. Несмотря на высокую производительность на существующих видеобенчмарках, мы обнаружили, что современные MLLMs работают значительно хуже людей и лишь незначительно превосходят базовые модели, основанные на априорном распределении ответов. Для анализа этого разрыва мы сравниваем трассы рассуждений MLLMs с исходным видеопотоком, чтобы понять, почему и когда MLLMs терпят неудачу на VSTAT. Мы обнаружили, что MLLMs правильно рассуждают и отслеживают в текстовой форме, но неспособны визуально воспринимать события, которые необходимо отслеживать. Наконец, наш предварительный анализ показывает, что недавние агентные подходы, включая видеогенты на основе MLLMs и кодовые агенты, не устраняют эти неудачи и по-прежнему показывают плохие результаты на VSTAT.
За последние несколько десятилетий был достигнут значительный прогресс в разработке алгоритмов машинного обучения: от ранних исследований специализированных мелких моделей до более общих глубоких больших языковых моделей (LLM). Несмотря на многообещающие результаты в задачах, требующих мгновенного прогнозирования или обучения в контексте, существующие модели не обладают способностью к непрерывному обучению и эффективному переносу своих временных контекстных знаний в долгосрочные параметры. Вдохновившись процессом человеческого обучения, мы вводим парадигму «Сна», которая позволяет моделям непрерывно учиться, дистиллировать свои недолговременные хрупкие воспоминания в стабильные долгосрочные знания с помощью повторения и рекурсивно самосовершенствоваться с помощью процесса «Сновидения». Более подробно, сон состоит из двух этапов: (1) Консолидация памяти: восходящий процесс дистилляции, называемый Посевом знаний, при котором воспоминания меньшей по размеру модели дистиллируются в более крупную сеть для обеспечения большей емкости при сохранении знаний. В качестве доказательства концепции мы представляем новый процесс Обобщенной дистилляции для Посева знаний (т.е. комбинацию политико-зависимой дистилляции с имитационным обучением на основе обучения с подкреплением (RL)); (2) Сновидение: фаза самосовершенствования, на которой модель использует RL для генерации учебного плана синтетических данных, чтобы усваивать новые знания и оттачивать существующие способности без участия человека. Наши эксперименты на задачах долгосрочного планирования, непрерывного обучения, инкорпорации знаний и обобщения с малым количеством примеров подтверждают важность этапа сна.
По мере развития возможностей автономных транспортных средств безопасная оценка стратегий вождения в сценариях с длинным хвостом остаётся критическим узким местом. При замкнутом цикле моделирования модель стратегии вождения активно взаимодействует с окружающей средой, при этом её действия динамически обновляют состояние симулятора и непосредственно влияют на следующий набор генерируемых сенсорных наблюдений. Хотя современные реконструкционные нейросетевые симуляторы обеспечивают фотореалистичность, они принципиально ограничены исходными записанными данными и с трудом обобщаются на высокодинамичные или новые сцены. Для преодоления этих ограничений мы представляем OmniDreams — фундаментальную генеративную мировую модель, промежуточно и финально обученную на основе диффузионной модели Cosmos для авторегрессионной генерации видео, обусловленных действиями, в реальном времени. Используя богатые визуальные априорные знания Cosmos и промежуточное и финальное обучение на 21 тысяче часов сценариев вождения, OmniDreams синтезирует сложные, ненаблюдаемые явления, которые трудно воспроизвести традиционным симуляторам, такие как экстремальные погодные условия и непредсказуемое поведение динамических агентов. Ключевой особенностью является то, что он авторегрессионно обуславливает генерацию фотореалистичных сенсорных данных на основе прошлых кадров, текущего состояния симулятора и непосредственных действий вождения. Развёрнутый в системе с замкнутым циклом совместно с моделью стратегии Alpamayo 1 и оркестратором AlpaSim, OmniDreams выступает в качестве высокочувствительной, реактивной среды, обеспечивая масштабируемое и комплексное решение для обучения и оценки стратегий автономного вождения следующего поколения. Дополнительно мы приводим предварительные результаты, указывающие на то, что модель «мир-действие» (WAM), дополнительно обученная на основе OmniDreams, достигает высоких показателей на наборе данных Physical AI Autonomous Vehicles NuRec, превосходя исследовательскую модель стратегии Alpamayo 1.5 на основе VLA, используя при этом лишь 1/5 общего числа параметров. Эти результаты подчёркивают потенциал такой модели реального времени, как OmniDreams, также служить основой для архитектур стратегий.
Современные генеративные модели обладают глубоким пониманием визуального контента, однако их обучение для редактирования изображений обычно требует огромных наборов парных примеров. Это ограничивает масштабируемость, особенно в случае редактирования видео, где сбор парных данных оказывается непомерно дорогим. Мы предлагаем Bootstrap Your Generator (ByG) — общий фреймворк для обучения моделей редактирования на основе согласования потоков без использования парных примеров. Он использует знания базовой модели без каких-либо внешних сигналов. Наш подход объединяет извлекаемые из замороженной модели управляющие подсказки на основе инструкций с циклической согласованностью для сохранения структуры. Чтобы сделать этот процесс вычислительно эффективным, мы предлагаем маршрутизировать градиенты от вспомогательных потерь по чистым предсказаниям к зашумленным состояниям обучения. Мы демонстрируем результаты, превосходящие существующие на сложных сценариях редактирования изображений и видео с ограниченными данными. Обширные оценки и исследования с участием пользователей показывают, что наш метод эффективно обобщается на невидимые домены и превосходит контролируемые базовые модели, обученные на миллионах образцов. Анализ показывает, что наша маршрутизация градиентов устраняет разрыв между обучением и выводом, а извлечение семантических подсказок из базовой модели обеспечивает надежный обучающий сигнал, устраняющий необходимость во внешних моделях вознаграждения.
Мы предлагаем модели диффузии с разделённым остаточным шумоподавлением (DRDD) для унифицированного и эффективного с точки зрения данных преобразования изображение-в-изображение (I2I). Несмотря на то, что диффузионные модели продвинули I2I-перевод в плане качества и разнообразия, мы обнаруживаем ранее недостаточно изученное свойство диффузионных моделей. Ключевым моментом является то, что помимо своей традиционной роли поднятия многообразия (т.е. перемещения данных с низкоразмерных многообразий), введение гауссовского шума способствует гармонизации доменов путем неявного выравнивания распределений признаков между доменами — свойство, особенно полезное для унифицированного I2I-перевода. Однако существующие диффузионные модели преждевременно разрушают этот эффект гармонизации, поскольку шум и остатки удаляются одновременно в едином связанном процессе диффузии. Чтобы решить эту проблему, DRDD разделяет процесс диффузии на две последовательные и независимые стадии: (1) стохастическую диффузию шума для гармонизации доменов и поднятия многообразия, и (2) детерминированную диффузию остатков, которая полностью изучает основное семантическое отображение внутри домена фиксированного шума. Такое разделение сохраняет эффекты гармонизации и поднятия многообразия на протяжении всего преобразования, существенно упрощая изучение унифицированных отображений для разнообразных задач и доменов. Примечательно, что стадия диффузии шума обучается исключительно на обильных, непарных изображениях целевого домена, что значительно повышает эффективность использования данных. Всесторонний теоретический и эмпирический анализ показывает, что DRDD широко совместима с основными диффузионными моделями и последовательно обеспечивает надежный, унифицированный I2I-перевод даже при ограниченном количестве парных данных. Наш код доступен по адресу https://github.com/HKU-HealthAI/DRDD.
Персонализация является ключевой способностью современных языковых агентов. Однако текущие исследования в основном рассматривают персонализированных агентов как пассивных реагирующих на предпочтения пользователей, что ограничивает их способность взаимодействовать с пользователями и активно предлагать рекомендации или давать указания. Для систематической оценки такой активной персонализации в реалистичных взаимодействиях мы предлагаем Ψ-Bench — эталон для оценки способности LLM влиять на реальных пользователей через диалог. Мы разработали три сценария реального взаимодействия, включающих убеждение в Ψ-Bench, и наделили симулированных клиентов личностными характеристиками с помощью явных профилей пользователей, созданных на основе истории диалогов. Мы оценили 10 передовых LLM на Ψ-Bench и обнаружили, что, хотя большинство моделей могут генерировать связные и разумные аргументы, даже самые современные модели все еще имеют значительные возможности для улучшения в области убеждения. Мы также выяснили, что предоставление доступа к профилям клиентов дает средний прирост производительности на 18,24%, что подчеркивает важность специфической для пользователя информации для эффективного убеждения. В целом, наша работа выделяет чувствительное к личности влияние как сложное, но практичное направление для оценки и разработки более активных персонализированных LLM-агентов. Коды доступны по адресу: https://github.com/Hanpx20/Psi-Bench.
Масштабирование во время тестирования улучшает производительность рассуждений больших языковых моделей, но влечет за собой значительные затраты как на общие вычислительные ресурсы, так и на задержку. Существующие методы адаптивной выборки частично смягчают эту проблему, динамически принимая решение о прекращении выборки, однако они обычно опираются на эвристические правила или основаны на предположениях о распределении. В данной работе мы формулируем адаптивную выборку как марковский процесс принятия решений (MDP). Мы обучаем легковесный контроллер выборки с помощью обучения с подкреплением (RL) для совместного обеспечения баланса между правильностью ответов, задержкой и вычислительными затратами. На каждом раунде контроллер принимает решение о прекращении выборки или о получении дополнительных образцов. Наш метод является легковесным, поскольку он полагается только на статистику окончательных ответов, и может быть обучен и развернут на CPU. Мы также показываем, что полученная структура допускает интерпретацию как лагранжева релаксация задачи условной оптимизации с явными ограничениями на бюджет. Эксперименты с сильными базовыми методами, такими как ASC и ESC, показывают, что наш метод достигает улучшенных компромиссов между правильностью ответов, количеством раундов выборки и общим количеством требуемых образцов.
Системы автоматической обвязки (Auto-Harness), такие как A-Evolve, GEPA и Meta-Harness, улучшают LLM-агентов путём оптимизации промптов, навыков, инструментов, памяти и вспомогательной инфраструктуры на основе обратной связи от выполнения, однако их оценка обычно проводится на фиксированных офлайн-бенчмарках. В реальных развёртываниях, напротив, возникают потоки открытых задач: истории растут без фиксированной конечной точки, разнородные задачи требуют разных обвязок, а распределение проблем смещается со временем. Эти трудности делают одну многократно и плотно обновляемую обвязку хрупкой, что приводит к снижению производительности: точность достигает пика на ранних этапах и затем падает. Это мотивирует необходимость устойчивого построения обвязки с позадачной адаптацией. Мы представляем Adaptive Auto-Harness — фреймворк и систему для таких потоков. Фреймворк декомпозирует разрыв до эталонной обвязки (oracle harness) на эволюционные потери (evolution loss) и потери адаптации (adaptation loss). Система устраняет эти потери с помощью многоагентного эволюционного модуля, сохраняющего состояние (stateful multi-agent evolver), дерева обвязки с маршрутизацией во время решения (solve-time routing) и точек ручного управления (human-steering hooks) для случаев, когда история не содержит необходимого сигнала. На потоках рынка предсказаний, соревнований по безопасности и прогнозирования событий Adaptive Auto-Harness превосходит пять существующих базовых подходов автоматической обвязки, а анализ абляций показывает, что улучшения достигаются за счёт лучшего построения, маршрутизации или целенаправленного ручного управления. Код доступен по адресу https://github.com/A-EVO-Lab/AdaptiveHarness.
Мы представляем PaddleOCR-VL-1.6 — улучшенную компактную модель для разбора документов, созданную на основе PaddleOCR-VL-1.5. Хотя PaddleOCR-VL-1.5 устанавливает надежный базовый уровень с 0,9 млрд параметров, оставшиеся ошибки сосредоточены в недостаточно оптимизированных областях, где поведение модели нестабильно, покрытие данных разрежено или сигналы контроля ненадежны. Вместо неразборчивого расширения обучающего корпуса PaddleOCR-VL-1.6 внедряет фреймворк оптимизации данных с учетом регионов, который выявляет слабые области в предыдущей модели, применяет целенаправленное улучшение этих областей и повышает надежность сигналов контроля. Модель также использует прогрессивный рецепт пост-обучения, основанный на отборе кураторских данных и обучении с подкреплением, выводя производительность модели на более высокий уровень через поэтапную оптимизацию. PaddleOCR-VL-1.6 достигает нового передового показателя 96,33% на OmniDocBench v1.6, демонстрирует высокую конкурентоспособность по сравнению с ведущими VLM и предлагает практичный рецепт пост-обучения для серии PaddleOCR-VL.
Обучение по инструкциям (instruction tuning) позволяет согласовывать большие языковые модели, в том числе мультимодальные, с разнообразными намерениями пользователей, однако масштабирование на гетерогенные смеси сдерживается интерференцией градиентов и ресурсоёмкой синхронизацией. Мы задаёмся вопросом, можно ли одновременно устранить эти два узких места, обучая части смеси независимо и объединяя их один раз в пространстве параметров. Мы разрабатываем локальную квадратичную теорию внутри общего плоского бассейна, которая даёт три результата: слияние весов обеспечивает уменьшение дисперсии с учётом кривизны; выровненное по главным компонентам (PCA) разделение конфликтов максимизирует этот выигрыш вдоль направлений с высокой кривизной; а слияние дополнительно действует как спектральная фильтрация с неявной регуляризацией нормы. Эти результаты непосредственно обосновывают MERIT — децентрализованный конвейер обучения по инструкциям, готовый к слиянию, который оценивает конфликты градиентов на уровне наборов данных, разделяет смесь вдоль главных осей конфликтов PCA, тонко настраивает каждую часть независимо без межчастичной коммуникации и выполняет одно слияние посредством усреднения с весом по токенам. На модели Qwen2.5-VL-3B с 136 задачами Vision-FLAN метод MERIT повышает средний показатель по 8 бенчмаркам с 54,3 (совместное обучение) до 57,0. Та же схема масштабируется на модель с 7 млрд параметров на смеси из 1,6 млн примеров и 176 источников — достигая или превосходя централизованное совместное обучение с минимальными дополнительными затратами — и переносится на текстовую версию FLAN. Наш код доступен по адресу https://github.com/naver-ai/merit.
Воплощенная визуальная навигация, при которой агент воспринимает сложную среду и действует для достижения цели на основе сырых сенсорных данных, лежит в основе широкого спектра приложений, таких как бытовая сервисная робототехника, ассистивная робототехника и крупномасштабное автономное исследование. Однако недавние попытки объединить навигацию на основе зрения и языка (VLN) и навигацию к целевым объектам (ObjNav) остаются на уровне архитектурного слияния, смешанного обучения задачам и крупномасштабного предварительного обучения на основе зрения и языка, без анализа того, могут ли независимо обученные энкодеры зрения и языка уже иметь общую семантическую структуру. Более того, даже объектно-ориентированные топологические карты все еще связывают языковые цели через явное межмодальное обучение, такое как CLIP или большие модели зрения и языка, оставляя открытым вопрос о возможности такого связывания на основе чисто визуальной карты. Для решения этих проблем мы расширяем Гипотезу платонического представления на воплощенную навигацию и переопределяем чисто визуальную ObjNav, межмодальную ObjNav и VLN как три различных интерфейса к одному и тому же объектно-ориентированному семантическому многообразию. Кроме того, мы представляем PlatonicNav — фреймворк без обучения, чья Платоническая топологическая карта объединяет геометрические и семантические расстояния узлов от самоконтролируемого визуального энкодера и связывает языковые цели посредством слепого сопоставления без каких-либо парных данных «зрение-язык». Обширные эксперименты на симуляционных бенчмарках, включая HM3D-IIN, OVON и R2R-CE на MP3D, а также развертывание на Unitree Go2, демонстрируют, что PlatonicNav обобщается на различные задачи, модальности и воплощения без явного межмодального обучения. Код: https://github.com/AIGeeksGroup/PlatonicNav. Веб-сайт: https://aigeeksgroup.github.io/PlatonicNav.
Длинные цепочки рассуждений (CoT) широко используются в качестве супервизорного сигнала для SFT LLM, ориентированной на рассуждения, однако трассы с верными ответами могут приводить к заметно различающимся результатам тонкой настройки. Мы изучаем продолжение после вывода (post-conclusion continuation) в данных длинных CoT с верными ответами: такое продолжение, когда ответ кажется достаточно обоснованным, но трасса содержит дополнительные рассуждения, остающиеся в цели обучения под наблюдением. Для проверки его влияния на обучение мы используем редактор, работающий только на удаление, чтобы построить суффиксное удаление, сохраняющее ответ, и сравниваем SFT на основе CoT на исходных и обработанных трассах. Мы наблюдаем улучшение результатов SFT после удаления выявленного редактором продолжения после вывода, что указывает на вредоносность такого продолжения для обучения в наших условиях. Поэтому мы называем этот эмпирически подтвержденный феномен вредоносным продолжением (harmful continuation). Помимо этого вмешательства, мы дополнительно характеризуем удаленное продолжение после вывода через неопределенность и прогресс скрытого состояния. Мы наблюдаем устойчивую локальную неопределенность вместе с ослабленным терминально-направленным прогрессом, формируя несоответствие неопределенности и геометрии (uncertainty–geometry mismatch). Наконец, мы создаем метод обрезки вредоносного продолжения (Harmful Continuation Cut, HCC) — легковесный прокси-индикатор границы, приближающийся к выявленной редактором границе продолжения после вывода.
Дистилляция на политике (On-Policy Distillation, OPD) обучает студенческую модель на её собственных генеративных траекториях с использованием плотной обратной связи на уровне токенов от более сильного учителя, устраняя как смещение распределения вне политики при контролируемой тонкой настройке (Supervised Fine-Tuning, SFT), так и разреженное назначение кредитов при обучении с подкреплением (Reinforcement Learning, RL). Однако стандартная OPD сталкивается с двумя взаимосвязанными ограничениями. Во-первых, она требует прямого доступа к логитам учителя на уровне токенов, что исключает широкий класс мощных проприетарных моделей из числа потенциальных учителей. Во-вторых, сам сигнал логитов на уровне токенов является хрупким, зависящим от узкого пересечения правдоподобных следующих токенов между учителем и студентом, и склонен к усилению дегенеративных паттернов, таких как повторы циклов. В данной работе мы представляем OmniOPD — новую структуру, устраняющую оба ограничения за счёт сигнала супервизии на уровне чанков без использования логитов. OmniOPD заменяет детерминированное сопоставление логитов розыгрышами Монте-Карло, которые аппроксимируют локальные предпочтения учителя через непрерывную метрику семантического сходства над мультитокенными чанками, и концентрирует эту супервизию с помощью планировщика пиковой энтропии, который проверяет студента только на его развилках рассуждений с высокой неопределённостью. Байесовский априор Дирихле-Мультиномиальное и KL-якорь базовой модели дополнительно ограничивают дисперсию дискретной выборки и предотвращают коллапс политики в отношении непроверенных токенов. В соревновательных бенчмарках OmniOPD превосходит стандартный подход OPD на величину до +28.64% по математике, подтверждая, что семантическая верификация на уровне чанков извлекает более надёжный обучающий сигнал, чем сопоставление логитов на уровне токенов, чья высокая информационная плотность компенсируется значительным шумом и хрупкостью. Кроме того, в паре с более сильными чёрными ящиками-учителями, такими как Claude-4.5-Haiku и Gemini-2.5-Flash, OmniOPD достигает дополнительного относительного прироста в +9.54% по математике по сравнению со своим аналогом с открытыми весами, продвигая студента за пределы производительности самоисследовательского RL.
Текущие модели сходства музыки, как правило, вычисляют единую монолитную оценку, связывая воедино различные музыкальные измерения, такие как мелодия, ритм и тембр. Это ограничивает возможности управления и интерпретируемости со стороны пользователя, делая невозможным выполнение тонких запросов. Мы представляем MERIT — фреймворк для обучения разделенных факторно-специфических представлений музыки, адаптированных к указанным трем основным измерениям. Для преодоления отсутствия изолированных музыкальных вариаций в реальном аудио мы используем новую стратегию обучения, которая применяет условную генерацию аудио и разделенные по источникам стеймы, чтобы активно стимулировать вариации по одному фактору в обучающих данных. Наши оценки демонстрируют сильное разделение по факторам. Каждая голова реагирует в первую очередь на соответствующее перцептивное измерение, оставаясь при этом почти на уровне случайного угадывания в отношении других, — свойство представлений, которое сохраняется как в синтетической области обучения, так и в независимом реальном аудио.
Модели рассуждений повышают точность за счет удлиненных цепочек размышлений, однако их длинные выходные данные создают узкое место по памяти и вычислениям. Методы вытеснения KV-кэша снижают эти затраты путем удаления неважных пар ключ-значение из кэша, но часто дают меньшую точность по сравнению с альтернативами на основе разреженного внимания с выборкой, которые сохраняют полный KV-кэш. Мы выявили ключевые факторы, определяющие точность вытеснения KV-кэша. Во-первых, небольшая доля состояний значений имеет аномально большие величины, и их вытеснение приводит к катастрофическим сбоям, когда модели входят в повторяющиеся циклы рассуждений. Во-вторых, введение стохастичности в процессе вытеснения улучшает точность за счет увеличения разнообразия кэша. Основываясь на этих выводах, мы предлагаем Value-aware Stochastic KV Cache Eviction (VaSE) — метод без обучения, который защищает состояния значений с большой величиной и способствует разнообразию решений о вытеснении. На шести задачах рассуждений модели Qwen3, использующие VaSE с 4-кратным сжатием KV-кэша, достигают более высокой средней точности, чем современные методы выборки при той же разреженности, превосходя самый сильный метод вытеснения более чем на 4%. В целом, VaSE устраняет разрыв между эффективностью и точностью, поддерживая FlashAttention2 и обеспечивая статический след памяти для моделей рассуждений.
Метод конечных элементов (МКЭ) является наиболее важным численным подходом в механике твердого тела. Среди проблем МКЭ можно выделить крутую кривую обучения для начинающих пользователей и возможность получения ложных результатов моделирования из-за некорректного задания ключевых компонентов модели, таких как граничные условия, варианты нагружения и переменные решения. Для решения реальных задач обычно требуется многолетний инженерный опыт. Чтобы преодолеть эти трудности, мы представляем AbaqusAgent — мультиагентную архитектуру, основанную на больших языковых моделях (LLM), для анализа в механике твердого тела. AbaqusAgent разработан для упрощения генерации и выполнения расчетных сценариев с использованием Abaqus, одного из наиболее широко применяемых пакетов МКЭ, путем преобразования инструкций пользователя на естественном языке в выполняемые расчеты МКЭ и визуализацию результатов. AbaqusAgent состоит из шести агентов, включая интерпретатора, архитектора, составителя входных файлов, исполнителя, рецензента и визуализатора, которые охватывают все основные этапы предварительной и последующей обработки стандартных расчетов МКЭ. Успешно проверена работа агента на 50 различных задачах механики твердого тела, общий показатель успешности составил 86%. Помимо повышения эффективности МКЭ для задач механики твердого тела и снижения порога входа в обучение вычислительной механике, AbaqusAgent развивает парадигму взаимодействия человека и симуляции, а также обеспечивает интеграцию с оптимизацией на основе ИИ и процедурами характеризации материалов. Исходный код доступен по адресу https://github.com/LIRAM-LIN/AbaqusAgent.
Большие языковые модели продемонстрировали значительный прогресс в универсальных возможностях и могут достигать высокой производительности в конкретных областях путем дообучения на специализированных данных. Однако получение высококачественных данных для целевых доменов остается серьезной проблемой. Существующие подходы к синтезу данных следуют дедуктивной парадигме, сильно полагаясь на явные описания доменов, выраженные на естественном языке, и тщательную разработку промптов, что ограничивает их применимость в реальных сценариях, где домены трудно описать или формально сформулировать. В данной работе мы рассматриваем малоисследованную проблему синтеза доменно-специфичных данных с использованием индуктивной парадигмы, где целевой домен определяется только через набор эталонных примеров, особенно когда характеристики домена трудно сформулировать на естественном языке. Мы предлагаем новую структуру, DOMINO, которая изучает минимальное достаточное представление домена на основе эталонных образцов и использует его для управления генерацией доменно-согласованных синтетических данных. DOMINO объединяет настройку промптов с контрастивной целью разделения для отделения закономерностей уровня домена от шума, специфичного для выборки, смягчая переобучение при сохранении ключевых характеристик домена. Теоретически мы доказываем, что DOMINO расширяет носитель распределения синтетических данных, обеспечивая большее разнообразие. Эмпирически, на сложных бенчмарках по программированию, где определения доменов неявны, дообучение на данных, синтезированных DOMINO, улучшает точность Pass@1 до 4,63% по сравнению с сильными базовыми моделями, настроенными на инструкции, демонстрируя свою эффективность и надежность. Эта работа устанавливает новую парадигму для синтеза доменно-специфичных данных, обеспечивая практическую и масштабируемую адаптацию к домену без ручного проектирования промптов или спецификаций домена на естественном языке.
Одной из ключевых целей вычислительной социальной науки является обнаружение интерпретируемых различий в том, как язык варьируется в зависимости от интересующих исходов, таких как политическая принадлежность или качество обучения. Современные методы генерации гипотез на основе больших языковых моделей (LLM) описывают такие различия на естественном языке, однако отбирают глобально дискриминативные паттерны, не учитывая ковариаты, которые формируют данные в соответствии с предметными знаниями исследователей. Если игнорировать ковариаты, отобранные паттерны могут отражать смешивающие факторы, а не содержательные различия. Мы предлагаем условную генерацию гипотез – подход, включающий заданные исследователем ковариаты, чтобы направить обнаружение гипотез на различия, сохраняющиеся внутри релевантных подгрупп. Возникают две проблемы: целевая подгруппа может быть недостаточно представлена (дисбаланс страт), а направление различия может меняться на противоположное в разных подгруппах (обращение знака). Мы предлагаем два метода, вдохновлённых эконометрикой: один вводит взаимодействия признаков и ковариат для обнаружения обращений знака, а другой применяет внутристратное центрирование и перевзвешивание по обратной частоте для выравнивания недостаточно представленных страт. Синтетические эксперименты показывают, что каждый метод превосходит глобальные базовые показатели в своей целевой области, а экспертная оценка на двух реальных наборах данных подтверждает, что генерация с учётом ковариат выявляет более полезные гипотезы в релевантных подгруппах.
Точное моделирование мягких границ, например, волос и размытия не в фокусе, является фундаментальной задачей в стереоконвертации из-за неоднозначного смешивания переднего и заднего планов. Существующие модели глубины в основном предсказывают глубину одного слоя, что приводит к неоднозначности соответствия глубины на мягких границах. Хотя техники матирования позволяют захватывать непрозрачность для послойного моделирования, они часто сталкиваются с трудностями в сложных сценах с множеством объектов и обычно требуют вмешательства пользователя. В данной статье представлен αDepth — слоевое представление, которое разлагает мягкие границы для высококачественной стереоконвертации. В частности, мы сначала разрешаем неоднозначность смешанных цвета и глубины путем оценки послойных значений цвета и глубины на мягких границах. Учитывая сложные сцены с множеством объектов, мы разрабатываем круговое альфа-представление (Circular Alpha Representation, CAR), которое смещает парадигму от глобального выделения объектов к локальному разложению границ. В отличие от прежних методов матирования, ограниченных одним передним/задним планом, CAR обеспечивает эффективный вывод на уровне сцены без ручного управления. Обширные оценки демонстрируют, что αDepth достигает современного уровня производительности в стереоконвертации, устраняя фоновое просачивание и структурные искажения на мягких границах.
Реальное время предъявляет к моделям требования точности, эффективности и простоты развёртывания на различном оборудовании. Семейство YOLO по этой причине получило широкое распространение, однако большинство детекторов YOLO по-прежнему используют подавление немаксимумов при инференсе, имеют тяжёлые головки детекции из-за Distribution Focal Loss, требуют длительного обучения и могут оставлять самые маленькие объекты без положительных меток. Мы представляем Ultralytics YOLO26 — унифицированное семейство моделей реального времени для зрения, которое решает эти ограничения за счёт скоординированных архитектурных и обучающих улучшений. YOLO26 использует двухголовочную конструкцию для нативного сквозного инференса без NMS и полностью исключает DFL, что даёт более лёгкую головку с неограниченным диапазоном регрессии. Его конвейер обучения объединяет MuSGD — гибридный оптимизатор Muon-SGD, адаптированный из обучения больших языковых моделей; Progressive Loss, который смещает контроль в сторону головки времени инференса; и STAL — стратегию присвоения меток, гарантирующую положительное покрытие для малых объектов. Помимо детекции, YOLO26 вводит специализированные конструкции головок и функций потерь для сегментации экземпляров, оценки поз и ориентированной детекции, обеспечивая последовательное улучшение по задачам и масштабам. Семейство включает пять масштабов (n/s/m/l/x) и поддерживает детекцию, сегментацию экземпляров, оценку поз, классификацию и ориентированную детекцию в едином конвейере, а также расширение с открытым словарём YOLOE-26 для инференса без текстовых, визуальных и подсказок. На всех масштабах YOLO26 достигает 40,9–57,5 mAP на COCO при задержке 1,7–11,8 мс на T4 TensorRT, продвигая границу Парето по точности и задержке относительно предыдущих детекторов реального времени, а YOLOE-26x достигает 40,6 AP на LVIS minival при текстовых подсказках. Код и модели доступны по адресу https://github.com/ultralytics/ultralytics.
Навыки агентов расширяют возможности ИИ-агентов за счет многократно используемых инструкций, инструментов, скриптов, ссылок и рабочих процессов, формируя границу безопасности, отличную как от безопасности модели, так и от традиционного обнаружения вредоносного ПО в пакетах. ClawHub Security Signals представляет собой очищенный набор данных из 67 453 последних публичных версий навыков OpenClaw. Каждая строка объединяет отредактированное содержимое SKILL.md и очищенные вложенные файлы (при их наличии) с окончательным вердиктом реестра ClawScan и данными от трех семейств сканеров: VirusTotal, статического эвристического анализа и NVIDIA SkillSpector. Вместо оценки распространенности вредоносных навыков мы изучаем расхождения между сканерами. Три сканера редко помечают одни и те же навыки: любая пара пересекается не более чем по 10,4% своих совокупных положительных результатов, лишь 0,69% навыков помечены всеми тремя сканерами, а 81,9% помеченных навыков выявляются только одним сканером. Расхождение обусловлено поверхностью атаки. SkillSpector, который выдает семантические предупреждения об агентных рисках, а не сигналы репутации вредоносного ПО, показывает положительный результат для 19 209 из 25 504 подозрительных строк (75,3%), но только для 14 из 206 вредоносных строк (6,8%). Область вредоносных вердиктов демонстрирует обратный профиль: 150 из 206 вредоносных строк (72,8%) являются положительными по VirusTotal, что согласуется с данными о вредоносном коде во вложенных файлах. Эти результаты показывают, что безопасность навыков агентов требует многоуровневого управления, а не решений о разрешении/блокировке на основе одного сканера. Корпус выпускается в виде очищенного набора данных серебряного стандарта: метки представляют собой автоматические вердикты реестра, а не эталонные данные с ручной разметкой, а выпуск является ранним версионированным снимком, предназначенным для поддержки сообщества в процессе разработки подмножества с ручной разметкой. Поощряются дальнейшие исследования, включая модели, адаптированные для сортировки безопасности навыков.
KV-кэш — подходящая память для дата-центров, но неподходящая — для роботов. Вывод в дата-центрах обрабатывает множество коротких запросов партиями и сбрасывает их, амортизируя кэш внимания для большой аудитории. Воплощенные агенты, напротив, выполняют один длинный, непрерывный эпизод на периферийном оборудовании с ограниченной пропускной способностью, где ресурсы высокоскоростной памяти и флэш-памяти ограничены, флэш-память имеет конечный ресурс записи, а лимитирующим фактором могут стать операции записи в память, а не вычисления. AURA-Mem (Action-Utility Recurrent Adaptive Memory — рекуррентная адаптивная память действия-полезности) ориентирована на такой режим. Она оборачивает замороженную базовую модель «зрение-язык-действие» рекуррентной памятью постоянного размера и обученным гейтом, который записывает данные только тогда, когда текущее наблюдение изменило бы следующее действие: память, умеющая оставаться молчаливой. В отличие от памяти на основе реконструкции, гейт обучается непосредственно по сигналу ошибки действия в замкнутом контуре. Ее состояние вывода зафиксировано на уровне 4 224 байт независимо от горизонта, тогда как KV-кэш при 100 000 шагах становится в 6 061 раз больше. На контролируемом синтетическом бенчмарке AURA-Mem по точности соответствует лучшему базовому алгоритму O(1), используя при этом в 5,19–6,13 раз меньше записей, а на более простых конфигурациях — до 9,19 раз меньше. Случайные и периодические расписания с согласованным бюджетом не воспроизводят этот выигрыш, что позволяет объяснить преимущество сигналом неожиданности действия. На обученной замкнутой панели OpenVLA-OFT 7B на LIBERO-Long (n=60 эпизодов на руку) гейт не вредит успеху: AURA-Mem соответствует базовой политике без гейта (0,233) и незначительно превосходит руку KV с постоянной записью (0,217), используя при этом в 7,0 раз меньше записей и постоянную память. Мы также реализуем границу потерь ценности приближенного информационного состояния в качестве демонстрации методологии; при таком масштабе граница является тривиальной, а не гарантией.
Индустриальный визуальный перенос из симуляции в реальность (sim-to-real) часто описывается как переход от синтетических изображений к реальным, однако промышленное развёртывание обычно включает более широкое несоответствие между доступными данными и требуемыми решениями. Система может быть построена на основе CAD-рендерингов, симулированных RGB-наблюдений с глубиной, эталонных изображений нормы, синтетических дефектов, предобученных пространств признаков или языковых подсказок, но развёрнута в условиях других сенсоров, освещения, материалов, креплений, калибровки, производственной вариативности и редких типов дефектов. Данный обзор переформулирует индустриальный визуальный sim-to-real как проблему разрыва между доменами, организованную по доступности априорных данных. Мы различаем настройки с доступными CAD-моделями (CAD-available), где явная геометрия объекта может поддерживать рендеринг, калибровку, оценку позы, сегментацию и геометрическую верификацию во время тестирования; настройки без CAD (CAD-unavailable), где геометрия заменяется эталонным внешним видом нормы, распределениями признаков, остатками учитель-ученик, предположениями о синтетических аномалиях, базовыми признаками или априорными данными из зрения и языка; и настройки с граничными априорными данными (boundary-prior), где приближенные модели, шаблоны, эталонные виды или семантические соответствия сохраняют лишь часть роли CAD. Такая формулировка связывает литературу по CAD-основанному обнаружению и оценке 6D-позы с литературой по промышленному анализу аномалий и контролю поверхности, которые обычно рассматриваются отдельно. Чтобы сделать таксономию конкретной, мы используем эмпирические ориентиры на наборах данных T-LESS/BOP, MVTec AD и VisA. Ориентиры показывают, что одно лишь количество CAD-рендеров не устраняет разрыв при переносе; дизайн исходного распределения, ёмкость детектора и небольшая реальная калибровка могут иметь большее значение. Они также показывают, что использование CAD во время тестирования создаёт отдельный канал верификации через согласованность маски, позы и глубины, в то время как контроль без CAD опирается на калиброванную нормальность и отклонение признаков. Поэтому обзор выступает против единой межзадачной таблицы лидеров и вместо этого ставит вопрос о том, какие априорные данные обосновывают решение о развёртывании.
Модели прямого распространения для трёхмерной реконструкции демонстрируют высокую производительность благодаря использованию глубокого перекрёстного внимания для обмена информацией между изображениями. Однако такие подходы часто опираются на тяжёлые стеки декодеров и лишены структурированного механизма уточнения геометрии, что приводит к низкой согласованности между видами. Мы решаем эту проблему, вдохновляясь классическим выравниванием пучков (BA), которое можно рассматривать как итеративный процесс распространения информации между позами и локальной геометрией. Опираясь на BA, мы предлагаем BA-T — итеративный Трансформатор, реализующий структурированные обновления в стиле BA в виде повторяемого слоя в неявном пространстве токенов. Вместо использования глубоких стеков внимания, BA-T уточняет предсказания на основе скрытых остатков с помощью одного лёгкого слоя. Эксперименты показывают, что BA-T последовательно улучшает точность поз и реконструкции с каждой итерацией, достигает более высокой согласованности между видами по сравнению с традиционными декодерами и соответствует или превосходит значительно более крупные модели, используя лишь 16% их параметров декодера. BA-T предлагает компактную, эффективную и структурированную альтернативу глубокому вниманию, позволяя выполнять точную трёхмерную реконструкцию в лёгкой архитектуре. Код будет опубликован по адресу https://github.com/zhangganlin/BA-T.
Линейные зонды, обученные на активациях больших языковых моделей, всё чаще предлагаются в качестве метрик для обнаружения обмана, однако демонстрируют показатель AUROC выше 0.96 на чистых тестовых наборах, но резко ухудшаются при сдвиге распределения. В данной работе систематически проверяется устойчивость метрик на основе зондов на семействе моделей Gemma 3 (от 1 до 27 миллиардов параметров) с целью диагностики причин их неэффективности, а не простого документирования самого факта сбоев. Мы проверяем четыре гипотезы о кодировании обмана: (1) одно линейное направление, (2) многомерное подпространство, (3) выпуклая коническая оболочка, (4) энтропийный прокси. Наш экспериментальный план включает матрицы переноса между доменами, многомерный анализ зондов с пермутационными нулевыми базовыми линиями, тесты остаточной энтропии и оценки с дистракторами при восьми стилистических сдвигах. Мы обнаружили, что: (a) зонды достигают почти идеального показателя AUROC (>=0.998) на чистых данных, но резко ухудшаются при стилистических сдвигах; зонды, дополненные стилистическими данными, восстанавливают почти идеальное обнаружение (средний AUROC 0.979-0.983) на невидимых стилях; (b) гипотеза одного направления отвергается (k=1 даёт AUROC всего 0.61-0.80), при этом неудача переноса между доменами подтверждена как обусловленная геометрическими факторами, а не несоответствием слоёв; (c) гипотеза энтропийного прокси отвергается (максимальное |ρ|=0.454, максимальное Δ-AUROC после остаточной энтропии =0.004); (d) обман не образует значимого линейного подпространства (k*=0 для каждого домена), однако многомерные зонды (k>=5) восстанавливают сигнал за счёт распределённых подпороговых признаков. Хрупкость зондов отражает узость распределения, а не архитектурное ограничение: зонды, дополненные стилистическими данными, восстанавливают почти идеальное обнаружение как для моделей с 4, так и с 27 миллиардами параметров, что устанавливает, что паттерн обратного масштабирования является артефактом обучающего распределения, а не подлинным явлением, зависящим от масштаба.
Недавние мультимодальные большие языковые модели продемонстрировали высокую способность к рассуждению, однако их надежность в качестве автоматических оценщиков по-прежнему ограничена критическим недостатком: когда визуальные данные противоречат текстовым подсказкам, MLLM-судьи склонны отдавать предпочтение правдоподобным повествованиям, а не перцептивно верным ответам. Мы выявляем и систематически анализируем это явление, которое называем перцептивным смещением оценок. С помощью контролируемых визуальных искажений существующие мультимодальные судьи часто ориентируются на текст ответа вместо собственного визуального восприятия, что приводит к противоречивым и непроверяемым оценкам. Для решения этой проблемы мы представляем набор данных с перцептивно нарушенными оценками, который содержит минимально отредактированные контрафактические ответы, изолирующие перцептивные ошибки и обеспечивающие проверяемый контроль. На основе этого набора данных мы разрабатываем унифицированную обучающую структуру, объединяющую структурированное вознаграждение на основе GRPO с функцией ранжирования по пакетам, что позволяет достичь согласованного глобального упорядочения без явных парных меток. Эксперименты на различных бенчмарках MLLM-как-судья показывают, что наш подход значительно улучшает перцептивную точность, согласованность ранжирования и соответствие человеческим оценкам. Полученные результаты демонстрируют масштабируемый и обобщаемый путь обучения мультимодальных судей, которые являются перцептивно обоснованными, интерпретируемыми и устойчивыми к конфликтам визуального восприятия и рассуждения.
WALL-WM — это модель действий мира (World Action Model), которая переводит обучение видеодействиям от оптимизации на основе чанков к предобучению на основе событий в парадигме «зрение-язык-действие», используя семантически связные события действий как атомарную единицу обучения. Существующие модели действий мира обычно инициализируются от мультимодальных или видеомоделей-основ, а затем оптимизируют фиксированные по длине чанки действий, обусловленные непосредственно текущим наблюдением и инструкцией. Хотя такая чанко-ориентированная формулировка удобна, она создает фундаментальное несоответствие гранулярности. Язык описывает семантические цели и события, зрение эволюционирует в рамках непрерывной динамики сцены, а действия функционируют на временных масштабах управления; принудительное объединение всех трех в одно и то же фиксированное окно прогнозирования превращает обучение VLA в подгонку короткозорких корреляций. WALL-WM устраняет это несоответствие, организуя как супервизию, так и данные вокруг семантических событий. В частности, она сочетает событийно-ориентированное предобучение VLA с экосистемой данных, построенной на подписях на уровне событий и сбалансированной по кластерам выборке, что обеспечивает масштабируемое обучение на разнообразных поведениях, сценах и структурах задач. На основе одной и той же предобученной событиями базовой модели WALL-WM поддерживает два взаимодополняющих режима вывода. Режим событий использует описания следующих событий и позволяет выполнять переменные по длине чанки, в то время как объединенный режим использует языково-визуальную модель (VLM) с каскадным декодированием (Staircase Decoding) для управления традиционным выводом чанков фиксированной длины, сохраняя градиентно-непрерывный путь VLA. В сочетании с инфраструктурой крупномасштабного предобучения на основе оптимизатора Muon WALL-WM предлагает практичный рецепт масштабирования для универсальных моделей действий мира. Эксперименты показывают, что WALL-WM эффективно обобщается на различные языки, сцены и задачи, достигая передовых результатов в крупномасштабной оценке обобщения в реальных условиях.