Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) — новую парадигму обучения, которая устраняет неэффективность изолированной оптимизации на основе стратегии (on-policy). HACRL обеспечивает совместную оптимизацию с независимым выполнением: гетерогенные агенты обмениваются проверенными траекториями (rollouts) в процессе обучения для взаимного улучшения, в то время как на этапе вывода (inference) они работают независимо. В отличие от многопользовательского обучения с подкреплением (MARL) на основе больших языковых моделей (LLM), HACRL не требует скоординированного развертывания, а в отличие от дистилляции on-policy/off-policy, она обеспечивает двунаправленное взаимное обучение между гетерогенными агентами вместо однонаправленной передачи знаний от учителя к ученику. Основываясь на этой парадигме, мы предлагаем HACPO — совместный алгоритм RL, который позволяет осуществлять принципиальный обмен траекториями для максимизации использования выборок и передачи знаний между агентами. Для смягчения расхождений в возможностях и сдвигов распределения стратегий HACPO вводит четыре специальных механизма с теоретическими гарантиями на несмещенность оценки преимущества (advantage) и корректность оптимизации. Многочисленные эксперименты с различными комбинациями гетерогенных моделей и тестами на рассуждение показывают, что HACPO последовательно улучшает всех участвующих агентов, превосходя GSPO в среднем на 3,3%, при использовании лишь половины затрат на генерацию траекторий.
Мы представляем Helios — первую 14-миллиардную модель генерации видео, работающую со скоростью 19,5 кадров в секунду на одном GPU NVIDIA H100 и поддерживающую создание минутных роликов при сохранении качества сильного базового уровня. Мы достигли прорыва по трём ключевым направлениям: (1) устойчивость к дрейфу в длинных видео без использования распространённых эвристик против дрейфа, таких как self-forcing, error-banks или ключевые кадры; (2) генерация в реальном времени без стандартных методов ускорения, включая KV-кэширование, разреженное/линейное внимание или квантование; (3) обучение без фреймворков параллелизма или шардинга, что позволяет использовать размеры батчей, сопоставимые с диффузионными моделями для изображений, при размещении до четырёх 14-миллиардных моделей в 80 ГБ GPU-памяти. В частности, Helios представляет собой 14-миллиардную авторегрессионную диффузионную модель с унифицированным представлением входных данных, изначально поддерживающую задачи T2V, I2V и V2V. Для снижения дрейфа при генерации длинных видео мы классифицируем типичные сценарии сбоев и предлагаем простые, но эффективные стратегии обучения, явно имитирующие дрейф в процессе тренировки, одновременно устраняя повторяющееся движение на источнике. Для эффективности мы значительно сжимаем исторический и зашумлённый контекст и сокращаем количество шагов сэмплирования, что приводит к вычислительным затратам, сравнимым или меньшим, чем у 1,3-миллиардных моделей генерации видео. Кроме того, мы внедряем оптимизации на уровне инфраструктуры, ускоряющие как вывод, так и обучение, при сокращении потребления памяти. Многочисленные эксперименты демонстрируют, что Helios стабильно превосходит предыдущие методы в генерации как коротких, так и длинных видео. Мы планируем опубликовать код, базовую и дистиллированную модели для поддержки дальнейшего развития сообществом.
Задумаемся о том, как человек справляется со сложными задачами чтения: отмечает ключевые моменты, выявляет взаимосвязи между ними и структурирует информацию для лучшего понимания и формулирования ответов. Возникает вопрос: может ли большая языковая модель извлечь пользу из текстовой структуры для повышения эффективности обработки текста? Чтобы исследовать это, в данной работе мы сначала представляем Structure of Thought (SoT) — метод промптинга, который явно направляет модели на построение промежуточных текстовых структур, что стабильно повышает производительность в восьми задачах и для трех семейств моделей. Опираясь на это наблюдение, мы представляем T2S-Bench — первый бенчмарк, разработанный для оценки и улучшения способностей моделей преобразовывать текст в структуру. T2S-Bench включает 1,8 тыс. примеров из шести научных областей и 32 структурных типа, тщательно созданных для обеспечения точности, объективности и качества. Оценка 45 популярных моделей выявила значительный потенциал для улучшения: средняя точность в задаче многошагового рассуждения составляет лишь 52,1%, а даже самая передовая модель достигает точности извлечения узлов 58,1% в сквозной задаче. Более того, для модели Qwen2.5-7B-Instruct использование только SoT дает среднее улучшение на +5,7% в восьми разнообразных задачах обработки текста, а дообучение на T2S-Bench увеличивает этот прирост до +8,6%. Эти результаты подчеркивают ценность явного структурирования текста и взаимодополняющий вклад SoT и T2S-Bench. Набор данных и код для оценки опубликованы по адресу: https://t2s-bench.github.io/T2S-Bench-Page/.
Проактивные и интерактивные взаимодействия в реальном времени являются ключевыми для создания человекоподобных ИИ-компаньонов, однако они сталкиваются с тремя основными проблемами: (1) обеспечение низкой задержки вывода при непрерывных потоковых входных данных, (2) автономное определение момента для ответа и (3) контроль как качества, так и количества генерируемого контента для соблюдения ограничений реального времени. В данной работе мы реализуем концепцию ИИ-компаньонов через два игровых сценария — комментатора и гида, выбранных за их пригодность для автоматической оценки. Мы представляем Live Gaming Benchmark — масштабный набор данных с тремя репрезентативными сценариями: индивидуальное комментирование, совместное комментирование и взаимодействие с пользователем, а также Proact-VL — универсальную архитектуру, преобразующую мультимодальные языковые модели в проактивных агентов для работы в реальном времени, способных к человекообразному восприятию среды и взаимодействию. Многочисленные эксперименты демонстрируют, что Proact-VL достигает превосходной задержки ответа и качества генерации при сохранении высоких способностей к пониманию видео, подтверждая его практическую применимость для интерактивных систем реального времени.
По мере того как большие языковые модели (LLM) все чаще применяются для решения долгосрочных задач, поддержание эффективной долговременной памяти становится критически важной проблемой. Существующие методы часто сталкиваются с компромиссом между стоимостью и точностью. Простые методы хранения часто не позволяют извлекать релевантную информацию, в то время как сложные методы индексации (такие как графы памяти) требуют значительных вычислительных ресурсов и могут приводить к потере информации. Более того, зависимость от рабочей LLM для обработки всей памяти является вычислительно затратной и медленной. Для преодоления этих ограничений мы предлагаем MemSifter — новую архитектуру, которая перекладывает процесс извлечения памяти на прокси-модель малого масштаба. Вместо увеличения нагрузки на основную рабочую LLM, MemSifter использует меньшую модель для анализа задачи перед извлечением необходимой информации. Этот подход не требует тяжелых вычислений на этапе индексации и добавляет минимальные накладные расходы во время вывода. Для оптимизации прокси-модели мы вводим парадигму обучения с подкреплением (RL), специфичную для работы с памятью. Мы разрабатываем ориентированное на результат задачи вознаграждение на основе фактической производительности рабочей LLM при выполнении задачи. Вознаграждение измеряет реальный вклад извлеченных воспоминаний посредством множественных взаимодействий с рабочей LLM и дифференцирует рейтинги извлечения по ступенчато убывающему вкладу. Дополнительно мы применяем такие методы обучения, как поэтапное обучение (Curriculum Learning) и слияние моделей (Model Merging), для повышения производительности. Мы оценили MemSifter на восьми тестовых наборах для проверки памяти LLM, включая задачи глубокого исследования (Deep Research). Результаты демонстрируют, что наш метод соответствует или превосходит производительность существующих передовых подходов как по точности извлечения, так и по итоговому выполнению задачи. MemSifter предлагает эффективное и масштабируемое решение для долговременной памяти LLM. Мы открыли веса моделей, код и данные обучения для поддержки дальнейших исследований.
Синтез физически правдоподобных сочлененных взаимодействий «человек-объект» (Human-Object Interaction, HOI) без 3D/4D-супервизии остается фундаментальной проблемой. Хотя современные zero-shot подходы используют видео-диффузионные модели для синтеза таких взаимодействий, они в основном ограничены манипуляциями с жесткими объектами и не имеют явного 4D-геометрического обоснования. Чтобы устранить этот разрыв, мы формулируем задачу синтеза сочлененных HOI как проблему 4D-реконструкции на основе монокулярных видео-приоров: имея только видео, сгенерированное диффузионной моделью, мы восстанавливаем полную 4D-сцену с сочленениями без какого-либо 3D-контроля. Этот подход, основанный на реконструкции, рассматривает сгенерированное 2D-видео как супервизию для задачи обратного рендеринга, восстанавливая геометрически согласованные и физически правдоподобные 4D-сцены, которые естественным образом учитывают контакт, сочленение и временную когерентность. Мы представляем ArtHOI — первую zero-shot-систему для синтеза сочлененных взаимодействий «человек-объект» посредством 4D-реконструкции из видео-приоров. Наши ключевые решения: 1) Сегментация частей на основе оптического потока: использование оптического потока как геометрического признака для разделения динамических и статических областей в монокулярном видео; 2) Разделенный конвейер реконструкции: совместная оптимизация движения человека и сочленения объекта неустойчива из-за монокулярной неоднозначности, поэтому мы сначала восстанавливаем сочленение объекта, а затем синтезируем движение человека, обусловленное восстановленными состояниями объекта. ArtHOI объединяет генерацию на основе видео и геометрически осознанную реконструкцию, создавая взаимодействия, которые одновременно семантически выровнены и физически обоснованы. В разнообразных сценах с сочлененными объектами (например, открывание холодильников, шкафов, микроволновых печей) ArtHOI значительно превосходит предыдущие методы по точности контакта, снижению проникновений и точности передачи сочленений, расширяя zero-shot-синтез взаимодействий за пределы манипуляций с жесткими объектами через синтез, информированный реконструкцией.
Мы представляем Phi-4-reasoning-vision-15B — компактную модель с открытыми весами для мультимодальных рассуждений — и делимся мотивацией, проектными решениями, экспериментами и выводами, которые легли в основу её разработки. Наша цель — предоставить научному сообществу практические инсайты о создании более компактных и эффективных моделей для мультимодальных рассуждений, а также открыть веса модели, которая хорошо справляется с типичными задачами компьютерного зрения и обработки естественного языка и превосходно решает научные и математические задачи, а также понимает пользовательские интерфейсы. Наш вклад включает демонстрацию того, что тщательный выбор архитектуры и строгий отбор данных позволяют компактным мультимодальным моделям с открытыми весами достигать конкурентоспособных результатов при значительно меньших вычислительных затратах и количестве токенов на этапах обучения и вывода. Наиболее значительные улучшения достигаются за счёт систематической фильтрации, исправления ошибок и синтетического расширения данных — это подтверждает, что качество данных остаётся ключевым фактором производительности модели. Систематические ablation-исследования показывают, что использование высокоразрешающих энкодеров с динамическим разрешением даёт стабильное улучшение, поскольку точное восприятие является обязательным условием для качественных рассуждений. Наконец, гибридное смешение данных с рассуждениями и без них, совместно с явными токенами режимов, позволяет одной модели предоставлять быстрые прямые ответы для простых задач и применять цепочку рассуждений (chain-of-thought) для сложных проблем.
Масштабирование на этапе тестирования для задач сложных рассуждений показывает, что использование вычислительных ресурсов на этапе логического вывода с помощью таких методов, как независимая семплизация и агрегирование множественных решений, приводит к значительному улучшению результатов выполнения задачи. Однако критическим узким местом является верификация: семплизация эффективна только в том случае, если корректные решения можно надежно идентифицировать среди кандидатов. В то время как существующие подходы обычно оценивают кандидатов независимо с помощью скалярного скоринга, мы демонстрируем, что модели значительно сильнее в попарной самоверификации. Используя это наблюдение, мы представляем V_1 — фреймворк, который объединяет генерацию и верификацию посредством эффективного попарного ранжирования. V_1 состоит из двух компонентов: V_1-Infer, алгоритма с управлением по неопределенности, который использует ранжирование на основе турнира для динамического распределения вычислительных ресурсов самоверификации на пары кандидатов, чья относительная корректность наиболее неопределенна; и V_1-PairRL, фреймворка обучения с подкреплением (RL), который совместно обучает одну модель как в роли генератора, так и в роли попарного самоверификатора, обеспечивая адаптацию верификатора к эволюционирующему распределению генератора. На бенчмарках генерации кода (LiveCodeBench, CodeContests, SWE-Bench) и математических рассуждений (AIME, HMMT) V_1-Infer улучшает показатель Pass@1 до 10% по сравнению с поточечной верификацией и превосходит последние методы масштабирования на этапе тестирования, будучи при этом значительно более эффективным. Кроме того, V_1-PairRL обеспечивает прирост от масштабирования на этапе тестирования в 7–9% по сравнению со стандартным RL и совместным поточечным обучением, а также улучшает базовый показатель Pass@1 до 8.7% по сравнению со стандартным RL в настройке генерации кода.
Создание высококачественных панорамных видео 360° из перспективного видеоряда является одной из ключевых задач для виртуальной реальности (VR), где видео высокого разрешения особенно важны для обеспечения эффекта погружения. Существующие методы ограничены вычислительными возможностями стандартных диффузионных моделей, поддерживая нативное генерирование с разрешением не более 1K и полагаясь на неоптимальное пост-обработочное сверхразрешение для повышения детализации. Мы представляем CubeComposer — новую пространственно-временную авторегрессионную диффузионную модель, которая нативно генерирует видео 360° в разрешении 4K. Путем декомпозиции видео в кубическую проекцию с шестью гранями, CubeComposer авторегрессивно синтезирует контент в продуманном пространственно-временном порядке, снижая требования к памяти при обеспечении высокого разрешения. В частности, для решения проблем многомерной авторегрессии мы предлагаем: (1) пространственно-временную авторегрессионную стратегию, координирующую генерацию видео 360° по граням куба и временным окнам для согласованного синтеза; (2) механизм управления контекстом граней куба, оснащенный разреженной attention-архитектурой для повышения эффективности; и (3) методы обеспечения непрерывности, включая кубическую позиционную кодировку, паддинг и слияние для устранения швов на границах. Многочисленные эксперименты на эталонных наборах данных демонстрируют, что CubeComposer превосходит современные методы по нативному разрешению и визуальному качеству, поддерживая практические сценарии применения в VR. Страница проекта: https://lg-li.github.io/project/cubecomposer
Крупные языковые модели (LLM) как агенты принципиально ограничены конечными окнами контекста при выполнении задач с длительным горизонтом планирования. По мере роста траекторий сохранение результатов работы инструментов и промежуточных рассуждений в контексте быстро становится невозможным: рабочий контекст становится непомерно длинным, в конечном итоге превышает бюджет контекста и затрудняет использование удаленных свидетельств, даже если они все еще присутствуют. Существующие решения обычно сокращают контекст путем усечения или запуска суммаризации, но эти методы по своей сути являются потерями, поскольку сжимают или отбрасывают сами прошлые свидетельства. Мы представляем Memex — механизм индексированной памяти опыта, который, напротив, сжимает контекст, не отбрасывая свидетельства. Memex поддерживает компактный рабочий контекст, состоящий из лаконичных структурированных резюме и стабильных индексов, в то время как полные взаимодействия сохраняются во внешней базе данных опыта под этими индексами. Агент может затем решить, когда разыменовать индекс и восстановить точные прошлые свидетельства, необходимые для текущей подцели. Мы оптимизируем как поведение при записи, так и при чтении с помощью нашей фреймворка обучения с подкреплением MemexRL, используя формирование вознаграждения, адаптированное для работы с индексированной памятью в условиях ограниченного бюджета контекста, чтобы агент научился тому, что суммировать, что архивировать, как индексировать и когда извлекать. Это обеспечивает существенно менее потеречную форму долгосрочной памяти по сравнению с подходами, основанными только на суммаризации. Мы также предоставляем теоретический анализ, показывающий потенциал цикла Memex для сохранения качества решений при ограниченном разыменовании, одновременно удерживая эффективные вычисления в контексте ограниченными по мере роста истории. Экспериментально на сложных задачах с длительным горизонтом агент Memex, обученный с помощью MemexRL, демонстрирует повышение успешности выполнения задач при использовании значительно меньшего рабочего контекста.
Классификация детализированных визуальных концепций в условиях открытого мира, то есть без предопределенного набора меток, требует от моделей одновременно точности и специфичности. Современные рассуждающие большие мультимодальные модели (LMM) демонстрируют мощные способности к визуальному пониманию, но склонны выдавать излишне обобщенные предсказания при выполнении тонкой классификации изображений. Наш предварительный анализ показывает, что модели действительно обладают внутренними знаниями о детализированных доменах. Однако задача стимулирования более специфичных предсказаний (специфичность) без ущерба для верных (правильность) остается нетривиальной и малоизученной проблемой. В данной работе мы исследуем, как направлять рассуждающие LMM к предсказаниям, которые являются одновременно правильными и специфичными. Мы предлагаем новую framework-архитектуру обучения с подкреплением, учитывающую специфичность (SpeciaRL), для тонкой настройки рассуждающих LMM на задачах детализированной классификации изображений в условиях открытого мира. SpeciaRL вводит динамический сигнал вознаграждения на основе верификатора, привязанный к лучшим предсказаниям в рамках онлайн-rollouts, что способствует специфичности, учитывая при этом возможности модели для предотвращения некорректных предсказаний. Наши эксперименты на внешних данных показывают, что SpeciaRL обеспечивает наилучший баланс между правильностью и специфичностью на обширных наборах данных для детализированной классификации, превосходя существующие методы и продвигая вперед классификацию изображений открытого мира с высокой детализацией. Код и модель общедоступны по адресу https://github.com/s-angheben/SpeciaRL.
Крупные визуально-языковые модели (LVLM) применяют стратегии прореживания визуальных токенов для снижения значительных вычислительных затрат, связанных с обработкой обширных последовательностей визуальных токенов. Хотя предыдущие работы в основном сосредоточены на методах прореживания, основанных либо на внимании, либо на разнообразии, глубокий анализ характеристик и ограничений этих подходов остаётся практически не изученным. В данной работе мы проводим всесторонний эмпирический анализ, используя эффективный ранг (erank) как меру разнообразия признаков и энтропию оценок внимания для исследования механизмов обработки визуальных токенов и анализа сильных и слабых сторон каждого подхода. Наш анализ выявил два ключевых вывода: (1) Количественный анализ на основе erank показывает, что многие методы прореживания, ориентированные на разнообразие, сохраняют значительно меньше разнообразия признаков, чем предполагалось; более того, анализ с использованием набора данных CHAIR показывает, что сохраняемое ими разнообразие тесно связано с повышенной частотой галлюцинаций по сравнению с прореживанием на основе внимания. (2) Мы также наблюдаем, что подходы на основе внимания более эффективны для простых изображений, где визуальные признаки сконцентрированы, тогда как методы, основанные на разнообразии, лучше справляются со сложными изображениями с распределёнными признаками. Опираясь на эти эмпирические инсайты, мы демонстрируем, что внесение адаптивных к изображению корректировок в существующие гибридные стратегии прореживания последовательно улучшает их производительность. Мы также представляем минимальную реализацию наших эмпирических выводов в виде простого адаптивного механизма прореживания, который демонстрирует высокую и стабильную производительность как на стандартных бенчмарках, так и в специализированных оценках на галлюцинации. Страница проекта доступна по адресу https://cvsp-lab.github.io/AgilePruner.
Создание длинных повествовательных видеороликов с последовательной визуальной нарративностью остается серьезной проблемой в области синтеза видео. Мы представляем новую архитектуру, набор данных и модель, которые решают три ключевых ограничения: согласованность фона между кадрами, плавные межкадровые переходы с участием нескольких объектов и масштабируемость для повествований продолжительностью до часа. Наш подход включает конвейер генерации с согласованным фоном, который сохраняет визуальную целостность между сценами, поддерживая идентичность персонажей и пространственные отношения. Кроме того, мы предлагаем модуль синтеза видео с учетом переходов, который генерирует плавные склейки для сложных сценариев с появлением или исчезновением нескольких объектов в кадре, преодолевая ограничения предыдущих работ, ориентированных на единственный объект. Для поддержки этого подхода мы представляем синтетический набор данных из 10 000 последовательностей переходов с множеством объектов, охватывающих недостаточно представленные динамические композиции сцен. В тестах VBench модель InfinityStory демонстрирует наивысшие показатели согласованности фона (88.94) и согласованности объектов (82.11), а также лучший средний ранг (2.80), подтверждая улучшенную стабильность, более плавные переходы и лучшую временную согласованность.
Быстрое развитие мультимодальных больших языковых моделей продемонстрировало впечатляющие возможности, однако почти все они работают в офлайн-парадигме, что ограничивает интерактивность в реальном времени. Для устранения этого пробела мы представляем бенчмарк Real-tIme Video intERaction Bench (RIVER Bench), предназначенный для оценки понимания видео в онлайн-режиме. RIVER Bench вводит новую структуру, включающую задачи ретроспективной памяти, восприятия в реальном времени и проактивного прогнозирования, что близко имитирует интерактивные диалоги вместо ответов на целые видео за один раз. Мы провели детальную разметку с использованием видео из различных источников и разной продолжительности, а также точно определили формат взаимодействия в реальном времени. Оценка различных категорий моделей показывает, что хотя офлайн-модели хорошо справляются с задачами ответов на единичные вопросы, они испытывают трудности с обработкой в реальном времени. Учитывая ограничения существующих моделей в интерактивном взаимодействии с видео, особенно их недостатки в долговременной памяти и прогнозировании будущего, мы предложили универсальный метод улучшения, позволяющий моделям более гибко взаимодействовать с пользователями в реальном времени. Мы считаем, что эта работа значительно продвинет разработку моделей понимания видео с интерактивностью в реальном времени и вдохновит будущие исследования в этой новой области. Наборы данных и код общедоступны по адресу https://github.com/OpenGVLab/RIVER.
Агенты, основанные на больших языковых моделях (LLM), продемонстрировали высокие возможности в автоматизации задач разработки программного обеспечения, таких как статическое исправление ошибок, что подтверждается бенчмарками вроде SWE-bench. Однако в реальном мире разработка зрелого программного обеспечения обычно основана на сложных изменениях требований и долгосрочных итерациях функциональности — процесс, который статические одношаговые парадигмы исправления не охватывают. Чтобы сократить этот разрыв, мы предлагаем SWE-CI — первый бенчмарк на уровне репозитория, построенный на цикле непрерывной интеграции (CI), который направлен на смещение парадигмы оценки генерации кода со статической, краткосрочной функциональной корректности в сторону динамической, долгосрочной сопровождаемости. Бенчмарк включает 100 задач, каждая из которых в среднем соответствует истории эволюции протяженностью 233 дня и 71 последовательному коммиту в реальном репозитории кода. SWE-CI требует от агентов системного решения этих задач в ходе десятков циклов анализа и кодирования. SWE-CI дает ценное представление о том, насколько хорошо агенты могут поддерживать качество кода в процессе долгосрочной эволюции.
Воплощенные диалоговые агенты (ECAs) стремятся воспроизвести человеческое личное взаимодействие посредством речи, жестов и мимики. Современные диалоговые агенты на основе больших языковых моделей (LLM) лишены воплощения и выразительных жестов, необходимых для естественного взаимодействия. Существующие решения для ECAs часто производят жесткие, маловариативные движения, непригодные для человекоподобного общения. В качестве альтернативы, генеративные методы синтеза жестов, сопровождающих речь, создают естественные телодвижения, но зависят от будущего речевого контекста и требуют длительного времени обработки. Чтобы устранить этот разрыв, мы представляем MIBURI — первую онлайн-каузальную систему для генерации выразительных полнотелых жестов и мимики в реальном времени, синхронизированных с живым диалогом. Мы используем жестовые кодексы с учетом частей тела, которые кодируют иерархические детали движения в многоуровневые дискретные токены. Эти токены затем авторегрессивно генерируются двумерной каузальной системой, обусловленной текстово-речевыми эмбеддингами на основе LLM, моделируя как временную динамику, так и иерархию движений частей тела в реальном времени. Кроме того, мы вводим вспомогательные целевые функции для поощрения выразительных и разнообразных жестов, предотвращая сведение к статичным позам. Сравнительные оценки демонстрируют, что наш каузальный и работающий в реальном времени подход создает естественные и контекстуально согласованные жесты по сравнению с современными аналогами. Мы приглашаем читателя ознакомиться с демонстрационными видеороликами на https://vcai.mpi-inf.mpg.de/projects/MIBURI/.
Оценка безопасности и тестирование на устойчивость к атакам (red-teaming) крупных языковых моделей остаются преимущественно тексто-ориентированными, а существующие frameworks не имеют инфраструктуры для систематической проверки того, распространяется ли выравнивание (alignment) на аудио-, изображения и видео. Мы представляем MUSE (Multimodal Unified Safety Evaluation) — открытую платформу, ориентированную на запуск экспериментов, которая объединяет автоматическую кросс-модальную генерацию вредоносных нагрузок, три многоходовых алгоритма атаки (Crescendo, PAIR, Violent Durian), провайдер-агностическую маршрутизацию моделей и LLM-судью с пятиуровневой таксономией безопасности в единую браузерную систему. Двухметричная framework различает жесткий показатель успешности атак (Attack Success Rate, только «Полное соответствие») и мягкий ASR (включая «Частичное соответствие»), фиксируя утечку частичной информации, которую бинарные метрики упускают. Чтобы исследовать, обобщается ли выравнивание across modality boundaries, мы вводим Inter-Turn Modality Switching (ITMS), который дополняет многоходовые атаки сменой модальности на каждом ходе. Эксперименты на шести мультимодальных LLM от четырех провайдеров показывают, что многоходовые стратегии могут достигать до 90-100% ASR против моделей с почти идеальным отказом в одноходовом сценарии. ITMS не повышает итоговый ASR на уже насыщенных базовых уровнях равномерно, но ускоряет сходимость, дестабилизируя защиту на ранних ходах, а ablation-анализ reveals, что направление модальных эффектов зависит от конкретного семейства моделей, а не является универсальным, что подчеркивает необходимость провайдер-ориентированного кросс-модального тестирования безопасности.
Быстрое понимание трехмерной сцены в процессе ее исследования крайне важно для воплощенных задач, где агент должен строить и осмысливать 3D-сцену в онлайн-режиме и практически в реальном времени. В данном исследовании мы представляем EmbodiedSplat — онлайн feed-forward 3DGS для открыто-словарного понимания сцены, который позволяет одновременно выполнять онлайн-реконструкцию 3D-сцены и семантическое 3D-понимание на основе потока изображений. В отличие от существующих методов открыто-словарного 3DGS, которые обычно ограничены офлайн-настройкой или оптимизацией для конкретной сцены, наши цели двунаправлены: 1) Реконструировать семантически-встроенный 3DGS всей сцены из более чем 300 потоковых изображений в онлайн-режиме. 2) Обеспечить высокую обобщаемость на новые сцены благодаря feed-forward архитектуре и поддержку почти реального времени для 3D-семантической реконструкции в сочетании с моделями 2D-реального времени. Для достижения этих целей мы предлагаем Поле разреженных онлайн-коэффициентов с глобальным кодбуком CLIP, которое привязывает 2D-эмбеддинги CLIP к каждому 3D-гауссову распределению, минимизируя потребление памяти и сохраняя полную семантическую обобщаемость CLIP. Кроме того, мы генерируем 3D-геометрически осознанные признаки CLIP путем агрегации частичного облака точек 3DGS с помощью 3D U-Net, чтобы компенсировать недостаток 3D-геометрического априори для языковых эмбеддингов, ориентированных на 2D. Многочисленные эксперименты на различных наборах данных по внутренним сценам, включая ScanNet, ScanNet++ и Replica, демонстрируют как эффективность, так и производительность нашего метода. С проектной страницей можно ознакомиться по адресу: https://0nandon.github.io/EmbodiedSplat/.
Может ли обучение с подкреплением с использованием строгих, верифицируемых вознаграждений научить компактную языковую модель рассуждать о физике, или же она в основном учится сопоставлять шаблоны для получения правильных ответов? Мы исследуем этот вопрос, обучая модель для рассуждений с 1.5 миллиардами параметров на задачах статики балок — классической инженерной проблеме — с использованием параметрически эффективного метода RLVR и бинарных вознаграждений за корректность от символьных решателей, без предоставления сгенерированных учителем трасс рассуждений. Лучшая контрольная точка BeamPERL демонстрирует улучшение Pass@1 на 66.7% по сравнению с базовой моделью. Однако полученная компетенция является анизотропной: модель обобщается композиционно (больше нагрузок), но терпит неудачу при топологических изменениях (перемещенные опоры), которые требуют применения тех же уравнений равновесия. Промежуточные контрольные точки дают наиболее сильные рассуждения, тогда как продолжение оптимизации снижает устойчивость при сохранении уровня вознаграждения. Эти результаты выявляют ключевое ограничение выравнивания на уровне результата: обучение с подкреплением с точными физическими вознаграждениями формирует процедурные шаблоны решений, а не усвоение управляющих уравнений. Точность сигнала вознаграждения — даже аналитически точного — сама по себе не гарантирует переносимого физического мышления. Наши результаты позволяют предположить, что верифицируемые вознаграждения, возможно, необходимо сочетать со структурированными каркасами рассуждений, чтобы выйти за рамки сопоставления шаблонов к устойчивому научному мышлению.
Детекторный транссформер (DETR) и его варианты демонстрируют высокую производительность в задаче обнаружения объектов, которая является ключевой для автономных систем. Однако критическое ограничение этих моделей заключается в том, что их оценки уверенности отражают только семантическую неопределенность, не учитывая столь же важную пространственную неопределенность. Это приводит к неполной оценке надежности обнаружения. С другой стороны, Глубокие Ансамбли (Deep Ensembles) позволяют решить эту проблему, предоставляя высококачественные оценки пространственной неопределенности. Однако их огромное потребление памяти делает их непрактичными для реальных применений. Более дешевая альтернатива, Монте-Карло Дропаут (MC-Dropout), страдает от высокой задержки из-за необходимости множественных прямых проходов во время вывода для оценки неопределенности. Чтобы устранить эти ограничения, мы представляем GroupEnsemble — эффективный метод оценки неопределенности для моделей типа DETR. GroupEnsemble одновременно предсказывает несколько индивидуальных наборов обнаружений, подавая дополнительные разнородные группы объектных запросов в декодер трансформера во время вывода. Каждая группа запросов преобразуется общим декодером изолированно и предсказывает полный набор обнаружений для одного и того же входного данных. К декодеру применяется маска внимания, чтобы предотвратить взаимодействие запросов между группами, гарантируя, что каждая группа обнаруживает объекты независимо для достижения надежной оценки неопределенности на основе ансамбля. Благодаря использованию присущего декодеру параллелизма, GroupEnsemble эффективно оценивает неопределенность за один прямой проход без последовательных повторений. Мы проверили наш метод в сценариях автономного вождения и повседневных сценах, используя наборы данных Cityscapes и COCO соответственно. Результаты показывают, что гибридный подход, сочетающий MC-Dropout и GroupEnsemble, превосходит Глубокие Ансамбли по нескольким метрикам при существенно меньшей стоимости. Код доступен по адресу https://github.com/yutongy98/GroupEnsemble.
Несмотря на растущий интерес к обнаружению объектов с открытым словарем в последние годы, большинство существующих методов сильно зависят от тщательно подобранных вручную обучающих наборов данных с детальной разметкой, а также от ресурсоемкого послойного кросс-модального извлечения признаков. В данной статье мы предлагаем HDINO — лаконичный, но эффективный детектор объектов с открытым словарем, который устраняет зависимость от этих компонентов. В частности, мы предлагаем двухэтапную стратегию обучения, построенную на основе трансформерной модели DINO. На первом этапе зашумленные выборки рассматриваются как дополнительные позитивные примеры объектов для построения механизма семантического согласования «один-ко-многим» (O2M) между визуальной и текстовой модальностями, тем самым способствуя семантическому выравниванию. На основе исходной сложности детектирования также разработана функция потерь классификации с взвешиванием по сложности (DWCL) для выявления сложных примеров и дальнейшего улучшения производительности модели. На втором этапе к выровненным представлениям применяется легковесный модуль слияния признаков для повышения чувствительности к лингвистической семантике. В конфигурации Swin Transformer-T модель HDINO-T достигает показателя 49.2 mAP на наборе данных COCO, используя 2.2 млн обучающих изображений из двух общедоступных наборов данных для детекции, без какого-либо ручного отбора данных и использования данных с привязкой к местоположению, превосходя Grounding DINO-T и T-Rex2 на 0.8 mAP и 2.8 mAP соответственно, которые обучались на 5.4 млн и 6.5 млн изображений. После дообучения на COCO модели HDINO-T и HDINO-L дополнительно достигают 56.4 mAP и 59.2 mAP, что подчеркивает эффективность и масштабируемость нашего подхода. Код и модели доступны по адресу https://github.com/HaoZ416/HDINO.