Ежедневно отобранные исследовательские статьи по ИИ с переводами
Создание Мировых Моделей, способных изучать, моделировать и рассуждать об объективных физических законах, представляет собой фундаментальную задачу на пути к достижению Общего Искусственного Интеллекта. Недавние достижения, представленные моделями генерации видео, такими как Sora, продемонстрировали потенциал масштабных законов, управляемых данными, для аппроксимации физической динамики, в то время как emerging Единая Мультимодальная Модель (Unified Multimodal Model, UMM) предлагает перспективную архитектурную парадигму для интеграции восприятия, языка и рассуждений. Несмотря на эти успехи, в данной области по-прежнему отсутствует принципиальная теоретическая основа, определяющая essential свойства, необходимые для Общей Мировой Модели. В данной статье мы утверждаем, что Мировая Модель должна быть основана на Троице Согласованности: Модальная Согласованность как семантический интерфейс, Пространственная Согласованность как геометрическая основа и Временна́я Согласованность как причинный механизм. Через эту трехчастную призму мы систематически анализируем эволюцию мультимодального обучения, выявляя траекторию от слабо связанных специализированных модулей к унифицированным архитектурам, которые позволяют осуществить синергетическое emergence внутренних симуляторов мира. Для дополнения этой концептуальной основы мы представляем CoW-Bench, бенчмарк, сфокусированный на сценариях многокадрового рассуждения и генерации. CoW-Bench оценивает как модели генерации видео, так и UMM в рамках единого протокола оценки. Наша работа устанавливает принципиальный путь к созданию общих мировых моделей, проясняя как ограничения современных систем, так и архитектурные требования для будущего прогресса.
По мере масштабирования больших мультимодальных моделей (LMM) и совершенствования методов обучения с подкреплением (RL), LMM демонстрируют значительный прогресс в сложных рассуждениях и принятии решений. Однако обучение по-прежнему основывается на статических данных и фиксированных подходах, что затрудняет диагностику пробелов в возможностях и обеспечение динамического целевого усиления. Мотивированные выводами о том, что обучение на ошибках через тестирование и коррекция на основе обратной связи превосходят повторяющуюся практику, мы предлагаем Диагностически-управляемое прогрессивное развитие (DPE) — спиральный цикл, в котором диагностика направляет генерацию данных и усиление, а каждая итерация передиагностирует обновленную модель для запуска следующего раунда целевого улучшения. DPE включает два ключевых компонента. Во-первых, множественные агенты аннотируют и контролируют качество массивных немаркированных мультимодальных данных, используя такие инструменты, как веб-поиск и редактирование изображений, для создания разнообразных реалистичных образцов. Во-вторых, DPE относит сбои к конкретным слабостям, динамически корректирует смесь данных и направляет агентов на генерацию данных, сфокусированных на слабых местах, для целевого усиления. Эксперименты на моделях Qwen3-VL-8B-Instruct и Qwen2.5-VL-7B-Instruct показывают стабильный непрерывный рост результатов на одиннадцати бенчмарках, что указывает на DPE как на масштабируемую парадигму для непрерывного обучения LMM в условиях открытых распределений задач. Наш код, модели и данные общедоступны по адресу https://github.com/hongruijia/DPE.
Агенты планирования маршрутов на основе больших языковых моделей (LLM) стали перспективной парадигмой для поддержки повседневной мобильности человека через естественно-языковое взаимодействие и принятие решений с использованием инструментов. Однако систематическая оценка в условиях реальной мобильности затруднена из-за разнообразных потребностей в маршрутизации, недетерминированных картографических сервисов и ограниченной воспроизводимости. В данном исследовании мы представляем MobilityBench — масштабируемый эталонный набор для оценки агентов планирования маршрутов на основе LLM в сценариях реальной мобильности. MobilityBench построен на основе крупномасштабных анонимизированных реальных пользовательских запросов, собранных с Amap, и охватывает широкий спектр намерений планирования маршрутов в нескольких городах по всему миру. Для обеспечения воспроизводимой сквозной оценки мы разработали детерминированную песочницу с репликацией API, которая устраняет вариативность окружения, присущую живым сервисам. Дополнительно мы предлагаем многомерный протокол оценки, сфокусированный на валидности результата и дополненный оценками понимания инструкций, планирования, использования инструментов и эффективности. Используя MobilityBench, мы оценили несколько агентов планирования маршрутов на основе LLM в разнообразных сценариях реальной мобильности и провели углубленный анализ их поведения и производительности. Наши результаты показывают, что современные модели успешно справляются с задачами базового поиска информации и планирования маршрутов, но испытывают значительные трудности с планированием маршрутов с учетом предпочтений, что указывает на существенный потенциал для улучшения в области персонализированных мобильных приложений. Мы публично размещаем эталонные данные, инструментарий оценки и документацию по адресу https://github.com/AMAP-ML/MobilityBench.
Человеческий интеллект естественным образом объединяет омни-модальное восприятие — охватывающее зрение, слух и язык — со сложными рассуждениями и использованием инструментов для взаимодействия с миром. Однако современные многомодальные LLM в основном ограничены би-модальными взаимодействиями (например, «зрение-язык») и лишены единых когнитивных способностей, необходимых для универсальных ИИ-ассистентов. Чтобы устранить этот разрыв, мы представляем OmniGAIA — комплексный бенчмарк, предназначенный для оценки омни-модальных агентов на задачах, требующих глубоких рассуждений и многошагового выполнения инструментов в модальностях видео, аудио и изображений. Построенный с помощью нового подхода на основе омни-модальных графов событий, OmniGAIA синтезирует сложные многоступенчатые запросы, полученные из реальных данных, которые требуют кросс-модальных рассуждений и интеграции внешних инструментов. Кроме того, мы предлагаем OmniAtlas — нативного омни-модального фонового агента, работающего в парадигме рассуждений с интеграцией инструментов и активным омни-модальным восприятием. Обученный на траекториях, синтезированных с помощью стратегии исследования дерева, управляемой ретроспективным анализом, и метода OmniDPO для тонкой коррекции ошибок, OmniAtlas эффективно повышает способности к использованию инструментов у существующих открытых моделей. Данная работа представляет собой шаг к созданию следующего поколения нативных омни-модальных ИИ-ассистентов для реальных сценариев.
Латентное визуальное рассуждение стремится воспроизвести процесс человеческого воображения путем медитации через скрытые состояния мультимодальных больших языковых моделей. Хотя этот подход признан перспективной парадигмой для визуального рассуждения, лежащие в его основе механизмы, обеспечивающие эффективность, остаются неясными. Стремясь раскрыть истинный источник этой эффективности, мы исследуем обоснованность латентного рассуждения с помощью анализа каузального посредничества. Мы моделируем процесс как причинно-следственную цепь: входные данные как воздействие, латентные токены как медиатор, а конечный ответ как результат. Наши результаты выявляют два критических разрыва: (а) Разрыв «Вход-Латентность»: значительные возмущения на входе приводят к незначительным изменениям латентных токенов, что позволяет предположить, что латентные токены не эффективно учитывают входную последовательность. (б) Разрыв «Латентность-Ответ»: возмущения латентных токенов оказывают минимальное влияние на конечный ответ, указывая на ограниченный причинный эффект, который латентные токены оказывают на результат. Кроме того, расширенный probing-анализ показывает, что латентные токены кодируют ограниченную визуальную информацию и демонстрируют высокое сходство. Следовательно, мы ставим под сомнение необходимость латентного рассуждения и предлагаем простую альтернативу под названием CapImagine, которая учит модель явно использовать воображение через текст. Эксперименты на визуально-ориентированных бенчмарках показывают, что CapImagine значительно превосходит сложные базовые методы, работающие в латентном пространстве, подчеркивая превосходный потенциал визуального рассуждения через явное воображение.
Исследовательская деятельность остается ключевым узким местом для агентов на основе больших языковых моделей, обученных с помощью обучения с подкреплением. В то время как существующие методы используют предварительно обученные знания, они терпят неудачу в средах, требующих открытия новых состояний. Мы предлагаем Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO²) — гибридную框架 RL, которая использует память для исследования и объединяет он- и офф-политичные обновления, чтобы обеспечить высокую производительность LLM с памятью, а также надежность без нее. На ScienceWorld и WebShop EMPO² демонстрирует улучшение на 128,6% и 11,3% соответственно по сравнению с GRPO. Более того, в тестах на выходе из распределения EMPO² показывает превосходную адаптируемость к новым задачам, требуя всего нескольких попыток с памятью и без обновления параметров. Эти результаты подчеркивают EMPO² как перспективную框架 для создания более исследовательских и обобщаемых агентов на основе LLM.
Хотя многоагентные системы (МАС) демонстрируют превосходные результаты в сложных рассуждениях, они страдают от каскадного воздействия ошибочной информации, генерируемой отдельными участниками. Современные решения часто прибегают к жесткому структурному проектированию или дорогостоящему тонкому настрою, что ограничивает их развертываемость и адаптивность. Мы предлагаем AgentDropoutV2 — фреймворк для проверочной обрезки по принципу "исправить или отклонить", предназначенный для динамической оптимизации информационного потока в МАС без переобучения. Наш подход действует как активный брандмауэр, перехватывая выходы агентов и используя retrieval-усиленный корректор для итеративного исправления ошибок на основе индикаторного пула, управляемого сбоями. Этот механизм позволяет точно идентифицировать потенциальные ошибки, используя дистиллированные шаблоны сбоев в качестве априорного знания. Неремонтопригодные выходные данные впоследствии отсекаются для предотвращения распространения ошибок, в то время как стратегия резервного копирования сохраняет целостность системы. Эмпирические результаты на обширных математических бенчмарках показывают, что AgentDropoutV2 существенно повышает производительность МАС при решении задач, достигая среднего прироста точности на 6.3 процентных пункта. Кроме того, система демонстрирует robustную обобщающую способность и адаптивность, динамически модулируя усилия по коррекции в зависимости от сложности задачи, одновременно используя контекстно-зависимые индикаторы для разрешения широкого спектра шаблонов ошибок. Наш код и набор данных опубликованы по адресу https://github.com/TonySY2/AgentDropoutV2.
Мы представляем MediX-R1 — открытую среду обучения с подкреплением (Reinforcement Learning, RL) для медицинских мультимодальных больших языковых моделей (MLLM), которая позволяет получать клинически обоснованные ответы в свободной форме, выходящие за рамки формата множественного выбора. MediX-R1 дообучает базовый визуально-языковой бэкбон с помощью группового RL и составного вознаграждения, адаптированного для медицинских рассуждений: вознаграждения за точность на основе LLM, которое оценивает семантическую корректность по строгому решению ДА/НЕТ; семантического вознаграждения на основе медицинческих эмбеддингов для учета парафраз и вариантов терминологии; а также легковесных вознаграждений за формат и модальность, которые обеспечивают интерпретируемость рассуждений и распознавание модальностей. Такая многокомпонентная архитектура обеспечивает стабильную и информативную обратную связь для ответов в свободной форме, где традиционные проверяемые вознаграждения или вознаграждения только за MCQ оказываются неэффективными. Для оценки прогресса мы предлагаем унифицированную систему оценки как для текстовых, так и для задач "изображение+текст", которая использует LLM-арбитра на основе референсных ответов вместо хрупких метрик, основанных на пересечении строк, и учитывает семантическую правильность, логику рассуждений и контекстуальную согласованность. Несмотря на использование всего ~51K примеров инструкций, MediX-R1 демонстрирует превосходные результаты на стандартных бенчмарках для медицинских LLM (только текст) и VLM (изображение + текст), превосходя сильные модели с открытым исходным кодом и показывая особенно значительный прирост качества на задачах с открытыми клиническими вопросами. Наши результаты показывают, что обучение с подкреплением для ответов в свободной форме с комплексными сигналами вознаграждения и LLM-оценкой является практичным путем к созданию надежных систем медицинских рассуждений в мультимодальных моделях. Обученные модели, курируемые наборы данных и исходный код доступны по адресу https://medix.cvmbzuai.com.
Современные агенты для углубленного поиска в основном повышают производительность за счет масштабирования глубины рассуждений, однако это приводит к высоким затратам на вывод и задержкам в сценариях с интенсивным поиском. Кроме того, обобщение в разнородных исследовательских условиях остается сложной задачей. В данной работе мы предлагаем Search More, Think Less (SMTL) — фреймворк для долгосрочного агентского поиска, ориентированный как на эффективность, так и на обобщаемость. SMTL заменяет последовательные рассуждения параллельным сбором свидетельств, обеспечивая эффективное управление контекстом при ограниченном бюджете контекста. Для поддержки обобщения между типами задач мы дополнительно вводим унифицированный конвейер синтеза данных, который создает поисковые задачи, охватывающие как детерминированные вопросы с ответами, так и открытые исследовательские сценарии с соответствующими метриками оценки. Мы обучаем сквозного агента с помощью контролируемой тонкой настройки и обучения с подкреплением, достигая высокой, часто передовой производительности на наборах данных, включая BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) и DeepResearch Bench (45,9%). По сравнению с Mirothinker-v1.0, SMTL с максимально 100 шагами взаимодействия сокращает среднее количество шагов рассуждения на BrowseComp на 70,7%, одновременно повышая точность.
Мы представляем масштабируемую модель 3D-реконструкции, которая решает ключевое ограничение автономных feed-forward методов: их вычислительные требования и требования к памяти растут квадратично относительно количества входных изображений. Наш подход основан на ключевом наблюдении, что это узкое место проистекает из представления геометрии сцены в пространстве ключ-значение (KV) переменной длины, которое мы преобразуем в многослойный перцептрон (MLP) фиксированного размера с помощью обучения во время тестирования. Модель VGG-T³ (Visual Geometry Grounded Test Time Training) масштабируется линейно относительно количества входных ракурсов, аналогично онлайн-моделям, и реконструирует коллекцию из 1000 изображений всего за 54 секунды, обеспечивая ускорение в 11,6 раз по сравнению с базовыми методами, использующими механизм внимания softmax. Поскольку наш метод сохраняет способность к глобальной агрегации сцены, ошибка реконструкции точечной карты значительно превосходит другие методы с линейной сложностью. Наконец, мы демонстрируем возможности визуальной локализации нашей модели путем запроса к представлению сцены с помощью ранее не виденных изображений.
Модели диффузии достигли значительного прогресса в генерации изображений, видео и аудио с высокой точностью, однако процесс вывода остается вычислительно затратным. Тем не менее, современные методы ускорения диффузии, основанные на распределенном параллелизме, страдают от заметных артефактов генерации и не позволяют достичь существенного ускорения, пропорционального количеству графических процессоров. Поэтому мы предлагаем гибридную систему параллелизма, сочетающую новую стратегию параллелизма данных — условное разделение — с оптимальным методом планирования конвейерной обработки — адаптивное переключение параллелизма — для снижения задержки генерации и достижения высокого качества генерации в условных диффузионных моделях. Ключевые идеи заключаются в (i) использовании условного и безусловного путей денойзинга как нового подхода к разделению данных и (ii) адаптивном включении оптимального конвейерного параллелизма в соответствии с расхождением денойзинга между этими двумя путями. Наша система обеспечивает сокращение задержки в 2,31 и 2,07 раза для SDXL и SD3 соответственно, при использовании двух графических процессоров NVIDIA RTX~3090, с сохранением качества изображения. Этот результат подтверждает универсальность нашего подхода для диффузионных моделей на основе U-Net и архитектур потокового согласования на основе DiT. Наш подход также превосходит существующие методы по ускорению в условиях синтеза высокого разрешения. Код доступен по адресу https://github.com/kaist-dmlab/Hybridiff.
Перспектива создания универсальных агентов — систем, способных выполнять задачи в незнакомых средах без предметно-ориентированной настройки — в значительной степени остается нереализованной. Существующие агенты в основном узкоспециализированы, и хотя новые реализации, такие как OpenAI SDK Agent и Claude Code, демонстрируют расширенные возможности, систематическая оценка их общей производительности до сих пор не проводилась. Современные бенчмарки для агентов предполагают предметно-ориентированную интеграцию, кодируя информацию о задачах таким образом, что это исключает справедливую оценку универсальных агентов. В данной статье оценка универсальных агентов формулируется как первоочередная исследовательская цель. Мы предлагаем концептуальные принципы для такой оценки, Единый протокол, обеспечивающий интеграцию агентов с бенчмарками, и Exgentic — практический фреймворк для оценки универсальных агентов. Мы проводим сравнительный анализ пяти известных реализаций агентов в шести средах, создавая первую Открытую таблицу лидеров для универсальных агентов. Наши эксперименты показывают, что универсальные агенты демонстрируют обобщающую способность в различных средах, достигая производительности, сопоставимой со специализированными агентами, без какой-либо специфической настройки под среду. Мы публикуем наш протокол оценки, фреймворк и таблицу лидеров, чтобы заложить основу для систематических исследований универсальных агентов.
Поведение человека в реальном мире естественным образом кодирует богатую долгосрочную контекстную информацию, которую можно использовать для обучения воплощенных агентов восприятию, пониманию и действию. Однако существующие системы захвата обычно полагаются на дорогостоящие студийные установки и носимые устройства, что ограничивает масштабный сбор данных о движении человека в естественных условиях с привязкой к сцене. Чтобы решить эту проблему, мы предлагаем EmbodMocap — портативный и доступный конвейер сбора данных с использованием двух движущихся iPhone. Наша ключевая идея заключается в совместной калибровке двойных последовательностей RGB-D для реконструкции как людей, так и сцен в единой мировой системе координат. Предлагаемый метод позволяет осуществлять захват в метрическом масштабе с согласованностью со сценой в повседневных условиях без статичных камер или маркеров, бесшовно объединяя движение человека и геометрию сцены. По сравнению с эталонными данными оптического захвата мы демонстрируем, что двухракурсная конфигурация обладает выдающейся способностью снижать неоднозначность глубины, достигая превосходного выравнивания и производительности реконструкции по сравнению с моделями для одного iPhone или монокулярными моделями. На основе собранных данных мы расширяем возможности трех задач воплощенного ИИ: монокулярной реконструкции человека и сцены, где мы дообучаем прямые модели, выводящие людей и сцены в метрическом масштабе, выровненные в мировом пространстве; анимации персонажей на основе физики, где мы доказываем, что наши данные можно использовать для масштабирования навыков взаимодействия человека с объектами и отслеживания движения с учетом сцены; и управления движением робота, где мы обучаем гуманоидного робота с помощью RL sim-to-real для воспроизведения человеческих движений, показанных на видео. Результаты экспериментов подтверждают эффективность нашего конвейера и его вклад в развитие исследований в области воплощенного ИИ.
Строгая оценка машинного интеллекта в сравнении с широким спектром общего интеллекта человека становится все более важной и сложной задачей в эпоху стремительного технологического прогресса. Традиционные тесты ИИ обычно оценивают лишь узкие способности в ограниченном диапазоне человеческой деятельности. Большинство из них также являются статичными и быстро насыщаются по мере того, как разработчики явно или неявно оптимизируют системы под них. Мы предполагаем, что более перспективный способ оценки человеко-подобного общего интеллекта в системах ИИ заключается в использовании особо сильной формы общего игрового мастерства: изучения того, как и насколько хорошо они играют и учатся играть во все conceivable человеческие игры, по сравнению с человеческими игроками, имеющими сопоставимый уровень опыта, времени или других ресурсов. Мы определяем «человеческую игру» как игру, созданную людьми для людей, и обосновываем пригодность для оценки всего пространства таких игр, которые люди могут придумать и которым могут радоваться — «Мультивселенной человеческих игр». Сделав первый шаг к этой цели, мы представляем AI GameStore — масштабируемую и открытую платформу, которая использует большие языковые модели (LLM) с участием человека в цикле для синтеза новых репрезентативных человеческих игр путем автоматического поиска и адаптации стандартизированных и контейнеризованных вариантов игровых сред с популярных цифровых игровых платформ для людей. В качестве доказательства концепции мы сгенерировали 100 таких игр на основе топ-чартов Apple App Store и Steam и оценили семь передовых визуально-языковых моделей (VLM) на коротких игровых эпизодах. Лучшие модели показали менее 10% от среднего человеческого результата в большинстве игр и особенно испытывали трудности с играми, которые бросают вызов обучению моделей мира, памяти и планированию. В заключение мы предлагаем набор следующих шагов для развития AI GameStore как практического способа измерения и стимулирования прогресса в направлении достижения человеко-подобного общего интеллекта в машинах.
Прогностические мировые модели на основе энергии предлагают мощный подход к многошаговому визуальному планированию за счёт анализа скрытых энергетических ландшафтов вместо генерации пикселей. Однако существующие методы сталкиваются с двумя основными проблемами: (i) их скрытые представления обычно обучаются в евклидовом пространстве, игнорируя underlying геометрическую и иерархическую структуру между состояниями, и (ii) они испытывают трудности с долгосрочным прогнозированием, что приводит к быстрой деградации при extended rollout. Для решения этих проблем мы представляем GeoWorld — геометрическую мировую модель, которая сохраняет геометрическую структуру и иерархические отношения с помощью Hyperbolic JEPA, отображающей скрытые представления из евклидова пространства на гиперболические многообразия. Мы также вводим Geometric Reinforcement Learning для энергетической оптимизации, обеспечивая стабильное многошаговое планирование в гиперболическом скрытом пространстве. Масштабные эксперименты на CrossTask и COIN демонстрируют улучшение Success Rate (SR) примерно на 3% при 3-шаговом планировании и на 2% при 4-шаговом планировании по сравнению с передовой моделью V-JEPA 2. Веб-сайт проекта: https://steve-zeyu-zhang.github.io/GeoWorld.
Последние достижения в области диффузионных моделей движения значительно повысили реалистичность синтеза человеческих движений. Однако существующие подходы либо опираются на двунаправленные диффузионные модели полных последовательностей, что ограничивает временную причинность и применимость в реальном времени, либо используют авторегрессионные модели, страдающие от нестабильности и накопления ошибок. В данной работе представлены Причинные Диффузионные Модели Движения (PDMD) — унифицированная框架 для авторегрессионной генерации движений на основе причинного диффузионного трансформера, работающего в семантически выровненном латентном пространстве. PDMD построена на основе Причинного VAE с выравниванием движения и языка (MAC-VAE), который кодирует последовательности движений в причинные латентные представления. Поверх этого латентного представления обучается авторегрессионный диффузионный трансформер с использованием причинного диффузионного форсинга для выполнения временно упорядоченного шумоподавления между кадрами движения. Для достижения быстрого вывода вводится покадровый план выборки с причинной неопределенностью, где каждый последующий кадр предсказывается по частично очищенным от шума предыдущим кадрам. Получившаяся框架 поддерживает генерацию движений по тексту высокого качества, потоковый синтез и генерацию длительных движений в интерактивном режиме. Эксперименты на HumanML3D и SnapMoGen демонстрируют, что PDMD превосходит существующие диффузионные и авторегрессионные модели как по семантической точности, так и по временной плавности, при этом существенно снижая задержку вывода.
Полностью шардированный параллелизм данных (FSDP), также известный как ZeRO, широко используется для обучения моделей большого масштаба, отличаясь гибкостью и минимальным вмешательством в код модели. Однако современные системы FSDP сталкиваются с трудностями при работе со структурно-ориентированными методами обучения (такими как блочное квантованное обучение) и с не поэлементными оптимизаторами (например, Shampoo и Muon), используемыми в передовых моделях (таких как Gemini, Kimi K2). Фиксированные поэлементные или построчные форматы шардинга в FSDP конфликтуют с блочно-структурированными вычислениями. Кроме того, современные реализации отстают в эффективности коммуникаций и использования памяти, что ограничивает масштабирование до десятков тысяч GPU. Мы представляем veScale-FSDP — переработанную систему FSDP, которая сочетает гибкий формат шардинга RaggedShard со структурно-ориентированным алгоритмом планирования для обеспечения как гибкости, так и производительности в масштабе. veScale-FSDP нативно поддерживает эффективное размещение данных, требуемое FSDP, обеспечивая работу блочного квантования и не поэлементных оптимизаторов. В результате veScale-FSDP демонстрирует на 5–66% более высокую пропускную способность и на 16–30% меньшее использование памяти по сравнению с существующими системами FSDP, эффективно масштабируясь на десятки тысяч GPU.
Сегментация с открытым словарем (OVS) расширяет возможности моделей «визуальный язык» (VLMs) по распознаванию в режиме zero-shot до уровня пиксельных предсказаний, позволяя сегментировать произвольные категории, задаваемые текстовыми запросами. Несмотря на недавний прогресс, OVS отстает от полностью контролируемых подходов из-за двух проблем: грубой обучающей разметки на уровне изображений, используемой для обучения VLMs, и семантической неоднозначности естественного языка. Мы устраняем эти ограничения, вводя режим few-shot, который дополняет текстовые запросы набором поддержки — изображениями с пиксельной разметкой. На основе этого мы предлагаем адаптер с retrieval-усилением на этапе тестирования, который обучает легковесный классификатор для каждого изображения путем слияния текстовых и визуальных признаков из набора поддержки. В отличие от предыдущих методов, основанных на позднем, ручном слиянии, наш подход выполняет обучаемое слияние для каждого запроса, достигая более сильного синергизма между модальностями. Метод поддерживает постоянно расширяющиеся наборы поддержки и применим к узкоспециализированным задачам, таким как персонализированная сегментация. Эксперименты показывают, что мы значительно сокращаем разрыв между zero-shot и контролируемой сегментацией, сохраняя способность к работе с открытым словарем.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало ведущей парадигмой для улучшения способности к рассуждению у больших языковых моделей (LLM). Однако стандартные алгоритмы RLVR страдают от хорошо известной патологии: хотя они повышают точность Pass@1 за счёт обострения сэмплинга, они одновременно сужают границы рассуждений модели и снижают разнообразие генераций. Мы выявляем коренную причину, которую упускают из виду существующие методы: единообразное наказание за ошибки. Современные подходы — будь то методы фильтрации данных, отбирающие промпты по сложности, или схемы нормализации преимущества — относятся ко всем некорректным траекториям внутри группы идентично. Мы показываем, что эта унифицированность позволяет самоуверенным ошибкам (некорректным путям рассуждений, которые были ошибочно усилены процессом RL) сохраняться и монополизировать вероятностную массу, в конечном счёте подавляя валидные исследовательские траектории. Для решения этой проблемы мы предлагаем Асимметричный уверенно-ориентированный штраф за ошибки (ACE). ACE вводит метрику сдвига уверенности для каждой траектории, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), для динамической модуляции отрицательных преимуществ. Теоретически мы демонстрируем, что градиент ACE может быть декомпозирован на градиент селективного регуляризатора, ограниченного самоуверенными ошибками, плюс хорошо охарактеризованный остаток, который частично смягчает силу регуляризатора. Мы проводим обширные эксперименты по дообучению моделей Qwen2.5-Math-7B, Qwen3-8B-Base и Llama-3.1-8B-Instruct на наборе данных DAPO-Math-17K с использованием GRPO и DAPO в рамках фреймворка VERL. При оценке на MATH-500 и AIME 2025, ACE бесшовно комбинируется с существующими методами и последовательно улучшает весь спектр Pass@k для всех трёх семейств моделей и бенчмарков.
Галлюцинации больших языковых моделей (LLM) обычно рассматриваются как дефекты самой модели или её стратегии декодирования. Опираясь на классическую лингвистику, мы утверждаем, что форма запроса также может формировать ответ слушателя (и модели). Мы операционализируем это представление, создавая 22-мерный вектор признаков запроса, который охватывает сложность клаузы, лексическую редкость, а также анафору, отрицание, отвечаемость и обоснованность интенции — факторы, известные своим влиянием на человеческое понимание. Используя 369 837 реальных запросов, мы задаемся вопросом: существуют ли определенные типы запросов, которые повышают вероятность галлюцинаций? Крупномасштабный анализ выявляет последовательный «ландшафт рисков»: такие признаки, как глубокая вложенность клауз и неполная спецификация, коррелируют с более высокой склонностью к галлюцинациям. Напротив, четкая обоснованность интенции и отвечаемость связаны с более низким уровнем галлюцинаций. Другие признаки, включая предметную специфичность, демонстрируют смешанные, зависящие от набора данных и модели эффекты. Таким образом, эти результаты устанавливают эмпирически наблюдаемое представление признаков запроса, которое коррелирует с риском галлюцинаций, прокладывая путь к целенаправленному переформулированию запросов и будущим интервенционным исследованиям.
Мы представляем DLT-Corpus — крупнейший на сегодняшний день тематический текстовый корпус для исследований в области технологий распределённого реестра (DLT): 2,98 миллиарда токенов из 22,12 миллиона документов, включающих научные публикации (37 440 работ), патенты Ведомства по патентам и товарным знакам США (USPTO) (49 023 заявки) и сообщения из социальных сетей (22 миллиона постов). Существующие ресурсы для обработки естественного языка (NLP), связанные с DLT, узко сфокусированы на прогнозировании цен криптовалют и смарт-контрактах, оставляя без должного внимания предметную лексику, несмотря на рыночную капитализацию сектора около $3 трлн и быстрое технологическое развитие. Мы демонстрируем полезность DLT-Corpus, анализируя модели возникновения технологий и корреляции между рынком и инновациями. Результаты показывают, что технологии зарождаются в научной литературе, прежде чем перейти в патенты и социальные медиа, следуя традиционным моделям трансфера технологий. В то время как настроения в социальных сетях остаются преимущественно оптимистичными даже в периоды «криптозимы», активность в научной и патентной сферах растёт независимо от рыночных колебаний, отслеживая общее расширение рынка в рамках благотворного цикла, где исследования предшествуют экономическому росту и делают его возможным, а тот, в свою очередь, финансирует дальнейшие инновации. Мы публично выпускаем полный корпус DLT-Corpus; LedgerBERT — адаптированную для предметной области модель, которая демонстрирует на 23% лучшие результаты по сравнению с BERT-base в задаче распознавания именованных сущностей (NER) для DLT; а также все сопутствующие инструменты и код.
Повышение уровня логических рассуждений в больших языковых моделях (БЯМ) привело к учащению случаев галлюцинаций, однако большинство работ по их устранению сосредоточено на моделях с открытым исходным кодом для последующего обнаружения и параметрического редактирования. Недостаток исследований, посвящённых галлюцинациям в моделях с закрытым исходным кодом, вызывает особую озабоченность, поскольку они составляют подавляющее большинство моделей, развёрнутых в организациях. Мы представляем QueryBandits — модель-агностичную контекстуальную бандитскую систему, которая адаптивно обучается в онлайн-режиме выбирать оптимальную стратегию переформулировки запросов, используя эмпирически проверенную и калиброванную функцию вознаграждения. В 16 сценариях вопросов и ответов наша лучшая система QueryBandits (сэмплирование Томпсона) демонстрирует 87,5% превышения эффективности над базовым уровнем без переформулировки и превосходит статические политики zero-shot (например, Paraphrase или Expand) на 42,6% и 60,3% соответственно. Более того, все контекстуальные бандиты превзошли классические бандитские системы на всех наборах данных, причём большая дисперсия признаков совпала с большим разбросом в выборе действий. Это подтверждает наш вывод о том, что не существует единой оптимальной политики переформулировки для всех запросов. Мы также обнаружили, что некоторые статические политики приводят к более высокому совокупному сожалению, чем отсутствие переформулировки, что свидетельствует: негибкая политика переформулировки запросов может усугублять галлюцинации. Таким образом, обучение онлайн-политики на основе семантических признаков с помощью QueryBandits позволяет изменять поведение модели исключительно за счёт механизмов прямого прохода, что делает возможным её использование с моделями закрытого типа и устраняет необходимость в переобучении или градиентной адаптации.
С развитием имитационного обучения (IL) и крупномасштабных наборов данных о вождении, сквозное автономное вождение (E2E-AD) достигло значительного прогресса в последнее время. В настоящее время методы на основе IL стали основной парадигмой: модели полагаются на стандартные модели вождения, заданные экспертами, и обучаются минимизировать расхождение между своими действиями и действиями эксперта. Однако эта цель «вести себя только как эксперт» страдает от ограниченной обобщающей способности: при столкновении с редкими или неизвестными длиннохвостыми сценариями, выходящими за пределы распределения экспертных демонстраций, модели склонны принимать небезопасные решения из-за отсутствия предшествующего опыта. Это поднимает фундаментальный вопрос: Может ли система E2E-AD принимать надежные решения без какого-либо контроля со стороны экспертных действий? Мотивируясь этим, мы предлагаем унифицированную структуру под названием «Предиктивное управление с учетом рисков на основе моделей мира» (Risk-aware World Model Predictive Control, RaWMPC) для решения этой дилеммы обобщения с помощью робастного управления, без reliance на экспертные демонстрации. Практически RaWMPC использует модель мира для прогнозирования последствий множества кандидатных действий и выбирает действия с низким уровнем риска через явную оценку рисков. Чтобы наделить модель мира способностью предсказывать исходы рискованных моделей вождения, мы разрабатываем стратегию взаимодействия с учетом рисков, которая систематически подвергает модель мира воздействию опасного поведения, делая катастрофические исходы предсказуемыми и, следовательно, избегаемыми. Кроме того, для генерации кандидатных действий с низким уровнем риска во время тестирования мы вводим метод дистилляции самооценки, чтобы перенести способности к избеганию рисков из хорошо обученной модели мира в генеративную сеть предложения действий без каких-либо экспертных демонстраций. Многочисленные эксперименты показывают, что RaWMPC превосходит современные методы как в сценариях, соответствующих распределению данных, так и в сценариях, выходящих за его пределы, одновременно обеспечивая превосходную интерпретируемость решений.
Сегментация медицинских изображений остается сложной задачей из-за ограниченного количества аннотаций для обучения, неоднозначности анатомических особенностей и междоменных сдвигов. Хотя визуально-языковые модели, такие как CLIP, предлагают мощные кросс-модальные представления, их потенциал для плотной, управляемой текстом сегментации медицинских изображений остается недостаточно изученным. Мы представляем MedCLIPSeg — новую архитектуру, адаптирующую CLIP для надежной, ресурсоэффективной и учитывающей неопределенность сегментации медицинских изображений. Наш подход использует CLIP-эмбеддинги на уровне патчей посредством вероятностного кросс-модального внимания, обеспечивая двунаправленное взаимодействие между изображением и текстовыми токенами и явное моделирование прогностической неопределенности. В сочетании с контрастивной функцией потерь на уровне патчей, которая способствует более тонкому семантическому обучению на основе разнообразных текстовых промптов, MedCLIPSeg эффективно повышает ресурсоэффективность и способность к обобщению между доменами. Масштабные эксперименты на 16 наборах данных, охватывающих пять модальностей визуализации и шесть органов, демонстрируют, что MedCLIPSeg превосходит предыдущие методы по точности, эффективности и надежности, одновременно предоставляя интерпретируемые карты неопределенности, которые показывают локальную надежность результатов сегментации. Данная работа демонстрирует потенциал вероятностного визуально-языкового моделирования для текстово-управляемой сегментации медицинских изображений.
Создание реалистичных разговорных жестов крайне важно для достижения естественного, социально вовлекающего взаимодействия с цифровыми людьми. Однако существующие методы обычно преобразуют один аудиопоток в движения одного говорящего, не учитывая социальный контекст и не моделируя взаимную динамику между двумя людьми, ведущими беседу. Мы представляем DyaDiT, мультимодальный диффузионный трансформер, который генерирует контекстно уместное движение человека на основе диадических аудиосигналов. Обученная на наборе данных Seamless Interaction Dataset, модель DyaDiT использует диадический аудиовход с опциональными токенами социального контекста для создания контекстно соответствующего движения. Она объединяет информацию от обоих собеседников для улавливания динамики взаимодействия, использует словарь движений для кодирования априорных данных о моторике и может опционально задействовать жесты партнера по общению для генерации более реактивных движений. Мы оцениваем DyaDiT по стандартным метрикам генерации движений и проводим количественные пользовательские исследования, демонстрируя, что она не только превосходит существующие методы по объективным показателям, но и явно предпочитается пользователями, что подчеркивает ее надежность и социально благоприятную генерацию движений. Код и модели будут опубликованы после принятия статьи.
Масштабирование многомодального согласования между видео и аудио является сложной задачей, особенно из-за ограниченности данных и несоответствия между текстовыми описаниями и покадровой видеоинформацией. В данной работе мы решаем проблему масштабирования в задачах многомодальной генерации аудио, исследуя, могут ли модели, обученные на коротких примерах, обобщаться на более длинные в процессе тестирования. Для решения этой задачи мы представляем иерархические многомодальные сети, названные MMHNet, — усовершенствованное расширение современных моделей видео-в-аудио. Наш подход интегрирует иерархический метод и некаузальную Mamba для поддержки генерации длинных аудио. Предложенный метод значительно улучшает генерацию длинного аудио продолжительностью более 5 минут. Мы также доказываем, что стратегия «обучение на коротком, тестирование на длинном» возможна в задачах видео-в-аудио без обучения на более длительных отрезках. Наши эксперименты показывают, что предложенный метод позволяет достичь выдающихся результатов на бенчмарках для длинных видео, превосходя предыдущие работы в задачах видео-в-аудио. Более того, мы демонстрируем способность нашей модели генерировать аудио длительностью более 5 минут, в то время как предыдущие методы видео-в-аудио не справляются с генерацией длинных последовательностей.
Эффективное использование данных при нейросетевом декодировании представляет собой ключевую проблему для речевых интерфейсов "мозг-компьютер". Мы впервые демонстрируем трансферное обучение и межзадачное декодирование для моделей речи на основе МЭГ, охватывающих процессы восприятия и производства речи. Мы предварительно обучаем модель на архитектуре Conformer на 50 часах данных пассивного прослушивания от одного испытуемого, а затем дообучаем всего на 5 минутах данных для каждого из 18 участников. Трансферное обучение обеспечивает стабильное улучшение результатов: прирост точности в рамках одной задачи составляет 1-4%, а более значительный межзадачный прирост достигает 5-6%. Предварительное обучение не только повышает производительность внутри каждой задачи, но и позволяет осуществлять надежное межзадачное декодирование между восприятием и производством речи. Важно отметить, что модели, обученные на производстве речи, декодируют пассивное прослушивание выше уровня случайного угадывания, что подтверждает, что полученные репрезентации отражают общие нейронные процессы, а не специфическую для задачи моторную активность.
Непрерывное обучение является ключевым требованием для развернутых языковых моделей, однако стандартные конвейеры обучения и тонкой настройки остаются уязвимыми в условиях нестационарных данных. Онлайн-обновления часто приводят к катастрофическому забыванию, в то время как методы, повышающие стабильность, нередко увеличивают задержки, объем потребляемой памяти или плотность вычислений таким образом, что плохо масштабируются на длинные контексты. Мы представляем TRC² (Таламически Маршрутизируемые Кортикальные Колонки) — декодерную архитектуру, которая решает проблему непрерывного обучения на структурном уровне. TRC² объединяет разреженную таламическую маршрутизацию по кортикальным колонкам с механизмами модуляции, предсказания, памяти и обратной связи, а также с быстрым корректирующим путем, который поддерживает быструю адаптацию без дестабилизации более медленных параметров. Результирующий блок является разреженным и параллельно обрабатываемым фрагментами, что обеспечивает эффективное обучение и вывод, сохраняя при этом четкое разделение каждой подсистемы. Мы реализуем воспроизводимый стек обучения и оценки, а также среду для непрерывного обучения, которая измеряет косвенное забывание при потоковых сдвигах домена. В тестах по языковому моделированию и непрерывному обучению TRC² улучшает компромисс между стабильностью и пластичностью при сопоставимых вычислительных затратах, обеспечивая быструю адаптацию в потоке данных с сохранением ранее усвоенного поведения.