Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Apriel-1.5-15B-Thinker, 15-миллиардную модель с открытыми весами для мультимодального рассуждения, которая достигает передовых показателей благодаря продуманному дизайну обучения, а не просто масштабу. Начиная с Pixtral-12B, мы применяем прогрессивную трехэтапную методологию: (1) масштабирование глубины для расширения способности к рассуждению без предварительного обучения с нуля, (2) поэтапное непрерывное предварительное обучение, которое сначала развивает базовое понимание текста и изображений, а затем улучшает визуальное рассуждение за счет целенаправленной генерации синтетических данных, охватывающих пространственную структуру, композиционное понимание и детальное восприятие, и (3) высококачественная тонкая настройка только на текстовых данных с использованием курированных пар "инструкция-ответ", включающих явные траектории рассуждений в математике, программировании, науке и использовании инструментов. Примечательно, что наша модель достигает конкурентоспособных результатов без обучения с подкреплением или оптимизации предпочтений, что подчеркивает вклад нашего подхода, ориентированного на данные и непрерывное предварительное обучение. На Индексе Искусственного Интеллекта Artificial Analysis Apriel-1.5-15B-Thinker получает оценку 52, что соответствует результату DeepSeek-R1-0528, несмотря на значительно меньшие вычислительные ресурсы. На десяти бенчмарках для изображений её производительность в среднем находится в пределах пяти баллов от Gemini-2.5-Flash и Claude Sonnet-3.7, что является ключевым достижением для модели, работающей в условиях ограничений на развертывание с использованием одного GPU. Наши результаты демонстрируют, что продуманный дизайн обучения на промежуточных этапах может сократить значительные разрывы в возможностях без массивного масштабирования, делая передовые мультимодальные рассуждения доступными для организаций с ограниченной инфраструктурой. Мы публикуем контрольную точку модели, все рецепты обучения и протоколы оценки под лицензией MIT для продвижения исследований в области открытого исходного кода.
Крупные модели рассуждений (LRMs) "мыслят", генерируя структурированные цепочки рассуждений (CoT) перед выдачей окончательного ответа, однако они всё ещё не способны критически оценивать вопросы безопасности и легко подвержены влиянию, если в их процесс мышления внедрена ошибочная предпосылка. Мы предлагаем RECAP (Robust Safety Alignment via Counter-Aligned Prefilling) — принципиальный метод обучения с подкреплением (RL) для посттренировки, который явно учит модели переопределять ошибочные траектории рассуждений и перенаправлять их на безопасные и полезные ответы. RECAP обучается на смеси синтетически сгенерированных предзаполнений CoT с контр-выравниванием и стандартных запросов, не требует дополнительных затрат на обучение или изменений, выходящих за рамки обычного обучения с подкреплением на основе обратной связи от человека (RLHF), и значительно улучшает безопасность и устойчивость к взлому, снижает чрезмерный отказ и сохраняет основную способность к рассуждению — всё это при сохранении бюджета токенов на вывод. Обширный анализ показывает, что модели, обученные с помощью RECAP, чаще занимаются саморефлексией и остаются устойчивыми к адаптивным атакам, сохраняя безопасность даже после многократных попыток переопределить их рассуждения.
Визуальные токены потребляют значительные вычислительные ресурсы в мультимодальных больших моделях (MLLMs), существенно снижая их эффективность. Недавние работы пытались повысить эффективность путем сжатия визуальных токенов во время обучения, либо через модификации компонентов модели, либо путем введения дополнительных параметров. Однако они часто упускают из виду увеличение сложности обучения, вызванное таким сжатием, так как пространство параметров модели с трудом адаптируется к значительным возмущениям в пространстве признаков, вызванным сжатием токенов. В данной работе мы предлагаем разработать эффективные MLLMs с помощью прогрессивного согласованного дистилляции (EPIC), прогрессивной обучающей структуры. В частности, путем декомпозиции возмущений в пространстве признаков, вводимых сжатием токенов, по измерениям токенов и слоев, мы вводим согласованную дистилляцию токенов и согласованную дистилляцию слоев соответственно, стремясь снизить сложность обучения за счет использования руководства от учительской модели и следования прогрессивной траектории обучения. Многочисленные эксперименты демонстрируют превосходную эффективность, устойчивость и обобщающие способности предложенной нами структуры.
Глубокие исследования революционизировали анализ данных, однако специалисты по данным по-прежнему тратят значительное время на ручное создание визуализаций, что подчеркивает необходимость надежной автоматизации на основе запросов на естественном языке. Тем не менее, современные системы сталкиваются с трудностями при работе со сложными наборами данных, содержащими несколько файлов и требующими итеративного уточнения. Существующие подходы, включая простые одно- или многоагентные системы, часто упрощают задачу, сосредотачиваясь на начальном разборе запросов, но не справляются с управлением сложностью данных, ошибками в коде или качеством итоговой визуализации. В данной статье мы переосмысливаем эту задачу как проблему совместной работы множества агентов. Мы представляем CoDA, многоагентную систему, которая использует специализированные LLM-агенты для анализа метаданных, планирования задач, генерации кода и саморефлексии. Мы формализуем этот процесс, демонстрируя, как анализ, ориентированный на метаданные, позволяет обойти ограничения на количество токенов, а качественно-ориентированное уточнение обеспечивает надежность. Обширные оценки показывают, что CoDA достигает значительного улучшения общего показателя, превосходя конкурентоспособные базовые подходы на величину до 41,5%. Эта работа демонстрирует, что будущее автоматизации визуализации заключается не в изолированной генерации кода, а в интегрированных, совместных агентных процессах.
Разговорные модели устной речи (Spoken Language Models, SLMs) становятся перспективным подходом для взаимодействия в режиме реального времени. Однако их способность управлять временными аспектами, включая контроль времени, темпа и одновременной речи, остается важной и недостаточно изученной проблемой для обеспечения беглости диалога. Чтобы устранить этот пробел, мы представляем Game-Time Benchmark — фреймворк для систематической оценки этих временных возможностей. Вдохновленные тем, как люди изучают язык через языковые активности, Game-Time включает базовые задачи на выполнение инструкций и более сложные задачи с временными ограничениями, такие как соблюдение темпа и синхронизированные ответы. Наша оценка различных архитектур SLM выявила явный разрыв в производительности: хотя современные модели хорошо справляются с базовыми задачами, многие из них по-прежнему испытывают трудности с выполнением элементарных инструкций. Что еще важнее, почти все модели значительно ухудшают свои показатели при временных ограничениях, что выявляет устойчивые слабости в осознании времени и поддержке полнодуплексного взаимодействия. Game-Time Benchmark закладывает основу для направления будущих исследований в сторону создания более временно-осознанных разговорных ИИ. Демонстрации и наборы данных доступны на нашем проектом сайте https://ga642381.github.io/Game-Time.
Недавно появившиеся аппаратно-ускоренные 4-битные форматы с плавающей запятой с микроскейлингом, такие как MXFP4 и NVFP4, поддерживаемые на GPU NVIDIA и AMD, обещают революционизировать вывод крупных языковых моделей (LLM). Однако их практическая польза остается недоказанной. Мы представляем первое всестороннее исследование MXFP4 и NVFP4 для посттренировочного квантования, выявляя разрыв между их обещаниями и реальной производительностью. Наш анализ показывает, что современные методы сталкиваются с трудностями при работе с FP4 из-за двух ключевых проблем: (1) небольшой размер группы в NVFP4 нейтрализует традиционные методы смягчения выбросов; (2) квантование с масштабированием по степеням двойки в MXFP4 значительно снижает точность из-за высокой индуцированной ошибки. Чтобы устранить этот разрыв, мы представляем Micro-Rotated-GPTQ (MR-GPTQ), вариант классического алгоритма квантования GPTQ, который адаптирует процесс квантования к уникальным свойствам FP4, используя блочные преобразования Адамара и оптимизации, специфичные для формата. Мы поддерживаем наше предложение набором высокопроизводительных GPU-ядер, которые обеспечивают поддержку формата MR-GPTQ с минимальными накладными расходами, благодаря слиянию вращений в веса и быстрому онлайн-вычислению активаций. Это приводит к ускорению по сравнению с FP16 до 3,6x на уровне слоев и 2,2x end-to-end на NVIDIA B200, а также до 6x на уровне слоев и 4x end-to-end на RTX5090. Наше обширное эмпирическое исследование демонстрирует, что MR-GPTQ соответствует или превосходит современные методы по точности, значительно улучшая MXFP4 до уровня, близкого к NVFP4. Мы заключаем, что, хотя FP4 не является автоматическим улучшением по сравнению с INT4, специализированные методы, такие как MR-GPTQ, могут открыть новые горизонты в балансе между точностью и производительностью.
Диффузионные модели для управления роботами, включая политики "визуальный язык-действие" (VLA) и "визуальный-действие" (VA), продемонстрировали значительные возможности. Однако их развитие ограничивается высокой стоимостью получения крупномасштабных наборов данных взаимодействия. В данной работе предлагается альтернативный подход для повышения производительности политик без дополнительного обучения моделей. Удивительно, но мы показываем, что составленные политики могут превзойти производительность любой из исходных политик. Наш вклад состоит из трех частей. Во-первых, мы устанавливаем теоретическую основу, показывая, что выпуклая композиция распределительных оценок нескольких диффузионных моделей может дать превосходный одношаговый функциональный объект по сравнению с любой отдельной оценкой. Затем используется граница типа Грёнвалла, чтобы показать, что это улучшение на одном шаге распространяется на все траектории генерации, приводя к системному повышению производительности. Во-вторых, основываясь на этих результатах, мы предлагаем метод General Policy Composition (GPC), который не требует обучения и повышает производительность за счет комбинирования распределительных оценок нескольких предварительно обученных политик с помощью выпуклой комбинации и поиска на этапе тестирования. GPC универсален, позволяя подключать и комбинировать разнородные политики, включая модели VA и VLA, а также модели, основанные на диффузии или согласовании потоков, независимо от их входных визуальных модальностей. В-третьих, мы предоставляем обширную эмпирическую проверку. Эксперименты на бенчмарках Robomimic, PushT и RoboTwin, а также оценки на реальных роботах подтверждают, что GPC последовательно улучшает производительность и адаптивность в широком спектре задач. Дополнительный анализ альтернативных операторов композиции и стратегий взвешивания дает понимание механизмов, лежащих в основе успеха GPC. Эти результаты устанавливают GPC как простой, но эффективный метод улучшения производительности управления за счет использования существующих политик.
Последние достижения в области самосовершенствования крупных языковых моделей (LLM) позволили эффективно улучшить их возможности без значительного увеличения затрат, особенно в части человеческих усилий. Хотя эта область все еще относительно молода, ее расширение на мультимодальную сферу открывает огромный потенциал для использования разнообразных источников данных и разработки более универсальных самообучающихся моделей. Данный обзор является первым, который предлагает всесторонний анализ самосовершенствования в мультимодальных языковых моделях (MLLM). Мы представляем структурированный обзор текущей литературы и обсуждаем методы с трех точек зрения: 1) сбор данных, 2) организация данных и 3) оптимизация модели, чтобы способствовать дальнейшему развитию самосовершенствования в MLLM. Также включены часто используемые методы оценки и приложения. В заключение мы выделяем открытые проблемы и направления для будущих исследований.
Достижения в области больших языковых моделей (LLM) позволили создать новый класс саморазвивающихся агентов, которые автономно совершенствуются через взаимодействие с окружающей средой, демонстрируя высокие возможности. Однако саморазвитие также влечет за собой новые риски, которые остаются незамеченными в современных исследованиях безопасности. В данной работе мы изучаем случай, когда саморазвитие агента отклоняется в непреднамеренных направлениях, приводя к нежелательным или даже вредным последствиям. Мы называем это явление **мизэволюцией**. Для систематического исследования мы оцениваем мизэволюцию по четырем ключевым эволюционным направлениям: модель, память, инструменты и рабочий процесс. Наши эмпирические результаты показывают, что мизэволюция представляет собой широко распространенный риск, затрагивающий даже агентов, построенных на основе передовых LLM (например, Gemini-2.5-Pro). В процессе саморазвития наблюдаются различные возникающие риски, такие как ухудшение безопасности после накопления памяти или непреднамеренное внедрение уязвимостей при создании и повторном использовании инструментов. Насколько нам известно, это первое исследование, которое систематически концептуализирует мизэволюцию и предоставляет эмпирические доказательства ее возникновения, подчеркивая острую необходимость в новых парадигмах безопасности для саморазвивающихся агентов. В заключение мы обсуждаем возможные стратегии смягчения рисков, чтобы вдохновить дальнейшие исследования в области создания более безопасных и надежных саморазвивающихся агентов. Наш код и данные доступны по адресу: https://github.com/ShaoShuai0605/Misevolution. **Предупреждение**: в статье содержатся примеры, которые могут быть оскорбительными или вредными по своей природе.
LLM (Large Language Models) стали мощными инструментами для интерпретации мультимодальных данных. В медицине они особенно перспективны для синтеза больших объемов клинической информации в полезные выводы и приложения цифрового здравоохранения. Однако их ключевым ограничением остается неспособность работать с временными рядами. Чтобы преодолеть этот пробел, мы представляем OpenTSLM — семейство моделей временных рядов (Time Series Language Models, TSLMs), созданных путем интеграции временных рядов как нативной модальности в предобученные LLM, что позволяет анализировать множественные временные ряды любой длины. Мы исследуем две архитектуры OpenTSLM. Первая, OpenTSLM-SoftPrompt, моделирует временные ряды неявно, объединяя обучаемые токены временных рядов с текстовыми токенами через мягкие подсказки. Хотя этот подход эффективен по параметрам, мы предполагаем, что явное моделирование временных рядов масштабируется лучше и превосходит неявные методы. Поэтому мы представляем OpenTSLM-Flamingo, который интегрирует временные ряды с текстом через кросс-внимание. Мы сравниваем обе версии с базовыми подходами, которые обрабатывают временные ряды как текстовые токены или графики, на наборе задач цепочки рассуждений (Chain-of-Thought, CoT) для текста и временных рядов. Мы вводим три набора данных: HAR-CoT, Sleep-CoT и ECG-QA-CoT. Во всех случаях модели OpenTSLM превосходят базовые подходы, достигая 69,9 F1 в классификации стадий сна и 65,4 в HAR, по сравнению с 9,05 и 52,2 для моделей, обученных только на тексте. Примечательно, что даже модели OpenTSLM с 1 миллиардом параметров превосходят GPT-4o (15,47 и 2,95). OpenTSLM-Flamingo соответствует OpenTSLM-SoftPrompt по производительности и превосходит его на более длинных последовательностях, сохраняя стабильные требования к памяти. В отличие от этого, SoftPrompt требует экспоненциально больше памяти с увеличением длины последовательности, достигая около 110 ГБ по сравнению с 40 ГБ видеопамяти при обучении на ECG-QA с LLaMA-3B. Экспертные оценки клиницистов подтверждают сильные аналитические способности OpenTSLM на данных ECG-QA. Для содействия дальнейшим исследованиям мы предоставляем все коды, наборы данных и модели в открытом доступе.
Разреженные автоэнкодеры (SAE) — это метод разреженного декомпозирования активаций нейронных сетей на интерпретируемые человеком признаки. Однако современные SAE страдают от проблем поглощения признаков, когда специализированные признаки захватывают экземпляры общих признаков, создавая пробелы в представлении, и композиции признаков, когда независимые признаки объединяются в составные представления. В данной работе мы представляем Ортогональный SAE (OrtSAE), новый подход, направленный на смягчение этих проблем за счет обеспечения ортогональности между изучаемыми признаками. Реализуя новый процесс обучения, который штрафует высокое попарное косинусное сходство между признаками SAE, OrtSAE способствует развитию разделенных признаков, при этом масштабируясь линейно с размером SAE, избегая значительных вычислительных затрат. Мы обучаем OrtSAE на различных моделях и слоях и сравниваем его с другими методами. Мы обнаруживаем, что OrtSAE обнаруживает на 9% больше уникальных признаков, снижает поглощение признаков (на 65%) и их композицию (на 15%), улучшает производительность на задачах удаления ложных корреляций (+6%) и демонстрирует сопоставимую производительность на других задачах по сравнению с традиционными SAE.
Последние достижения в области диффузионных моделей преобразования текста в изображение (T2I) привели к значительным успехам в генерации высококачественных изображений на основе текстовых запросов. Однако обеспечение точного соответствия между текстом и сгенерированным изображением остается серьезной проблемой для современных диффузионных моделей. Для решения этой задачи существующие исследования используют обучение с подкреплением на основе человеческой обратной связи (RLHF) для согласования выходных данных T2I с предпочтениями людей. Эти методы либо напрямую полагаются на парные данные о предпочтениях изображений, либо требуют обученной функции вознаграждения, что в обоих случаях сильно зависит от дорогостоящих и высококачественных аннотаций, созданных людьми, что ограничивает их масштабируемость. В данной работе мы представляем Оптимизацию текстовых предпочтений (TPO) — фреймворк, который позволяет достичь согласования моделей T2I без необходимости использования парных данных о предпочтениях изображений. TPO работает путем обучения модели предпочитать соответствующие запросы над несоответствующими, которые создаются путем модификации исходных описаний с использованием крупной языковой модели. Наш фреймворк является универсальным и совместим с существующими алгоритмами, основанными на предпочтениях. Мы адаптируем как DPO, так и KTO к нашей задаче, получая TDPO и TKTO. Количественные и качественные оценки на нескольких бенчмарках показывают, что наши методы стабильно превосходят оригинальные подходы, демонстрируя более высокие оценки человеческих предпочтений и улучшенное соответствие текста и изображения. Наш исходный код доступен по адресу https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Малые модели обработки зрения и языка (Vision-Language Models, VLMs) представляют собой вычислительно эффективную альтернативу более крупным моделям, однако за счет снижения способности к обобщению и производительности на целевых задачах. Эти недостатки можно было бы устранить с помощью методов масштабирования на этапе тестирования, но существующие подходы, как правило, требуют значительных вычислительных ресурсов, что противоречит целям разработки ресурсоэффективных малых моделей. Для устранения этих ограничений мы предлагаем две новые и эффективные стратегии масштабирования на этапе тестирования, которые используют внутренние характеристики модели, а не внешнее управление: (i) Аугментация на этапе тестирования (Test-Time Augmentation, TTAug), которая генерирует несколько аугментированных входных данных и агрегирует выходы на уровне токенов без обновления параметров, и (ii) Адаптация на этапе тестирования (Test-Time Adaptation, TTAdapt), которая адаптирует параметры модели в процессе вывода с использованием псевдометок, основанных на консенсусе, полученных с помощью TTAug. В ходе обширных экспериментов на девяти бенчмарках мы демонстрируем стабильное улучшение производительности при сохранении вычислительной эффективности, подходящей для сред с ограниченными ресурсами. Универсальность нашего подхода подтверждается как для моделей различных масштабов, так и для различных VLMs без дополнительной настройки.
Доработка крупных языковых моделей (LLM) после обучения ограничена высокой стоимостью приобретения новых знаний или исправления ошибок, а также непреднамеренными побочными эффектами, которые часто возникают при повторном обучении. Для решения этих проблем мы представляем REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration) — фреймворк для постоянного редактирования, предназначенный для поддержки точных и недорогих обновлений модели с сохранением ненацеленных знаний. REPAIR смягчает нестабильность и конфликты крупномасштабных последовательных изменений с помощью механизма обратной связи в замкнутом цикле, дополненного динамическим управлением памятью. Кроме того, за счет включения частого слияния знаний и применения строгих локальных ограничений, REPAIR эффективно устраняет недостатки традиционных подходов, не учитывающих распределение, которые часто игнорируют непреднамеренные побочные эффекты. Наши эксперименты показывают, что REPAIR повышает точность редактирования на 10–30% для различных семейств моделей и значительно снижает забывание знаний. Эта работа представляет собой надежный фреймворк для разработки масштабируемых и постоянно развивающихся LLM.
Реконструкция 3D-сцен и синтез новых ракурсов в последние годы демонстрируют стремительный прогресс. Метод Neural Radiance Fields показал, что непрерывные объемные поля излучения могут достигать высококачественного синтеза изображений, однако длительное время обучения и рендеринга ограничивают их практическое применение. Метод 3D Gaussian Splatting (3DGS) решил эти проблемы, представляя сцены с помощью миллионов гауссовских распределений, что обеспечило рендеринг в реальном времени и быструю оптимизацию. Однако гауссовские примитивы изначально не совместимы с меш-ориентированными конвейерами, используемыми в VR-гарнитурах и приложениях для графики в реальном времени. Существующие решения пытаются преобразовать гауссовы распределения в меши с помощью постобработки или двухэтапных конвейеров, что увеличивает сложность и ухудшает визуальное качество. В данной работе мы представляем метод Triangle Splatting+, который напрямую оптимизирует треугольники — фундаментальные примитивы компьютерной графики — в рамках дифференцируемого сплаттинга. Мы формулируем параметризацию треугольников, чтобы обеспечить связность через общие вершины, и разрабатываем стратегию обучения, которая обеспечивает непрозрачность треугольников. Конечный результат сразу готов к использованию в стандартных графических движках без постобработки. Эксперименты на наборах данных Mip-NeRF360 и Tanks & Temples показывают, что Triangle Splatting+ достигает передовых результатов в синтезе новых ракурсов на основе мешей. Наш метод превосходит предыдущие подходы сплаттинга по визуальной точности, оставаясь эффективным и быстрым в обучении. Кроме того, полученные полу-связанные меши поддерживают дальнейшие приложения, такие как физическое моделирование или интерактивные прогулки. Страница проекта доступна по адресу: https://trianglesplatting2.github.io/trianglesplatting2/.
Написание академических обзоров, которое сводит обширную литературу в последовательный и содержательный нарратив, остается трудоемкой и интеллектуально сложной задачей. Хотя современные подходы, такие как универсальные агенты DeepResearch и специализированные методы для создания обзоров, могут автоматически генерировать обзоры (так называемые LLM4Survey), их результаты часто не соответствуют человеческим стандартам, и отсутствует строгий, ориентированный на читателя бенчмарк для всестороннего выявления их недостатков. Чтобы заполнить этот пробел, мы предлагаем детальную, основанную на тестах систему оценки SurveyBench, которая включает: (1) типичные темы обзоров, извлеченные из 11 343 недавних статей на arXiv и соответствующих 4 947 высококачественных обзоров; (2) многоуровневую систему метрик, оценивающую качество структуры (например, широту охвата, логическую согласованность), качество содержания (например, детализацию синтеза, ясность выводов) и не текстовую насыщенность; и (3) двухрежимный протокол оценки, включающий тесты на основе содержания и тесты на основе вопросов, явно соответствующие информационным потребностям читателей. Результаты показывают, что SurveyBench эффективно выявляет ограничения существующих подходов LLM4Survey (например, в среднем на 21% ниже человеческого уровня в оценке на основе содержания).
Стандартные дискретные диффузионные модели обрабатывают все ненаблюдаемые состояния одинаково, отображая их на поглощающий токен [MASK]. Это создает «информационную пустоту», где семантическая информация, которую можно вывести из немасштабированных токенов, теряется между шагами удаления шума. Мы представляем Continuously Augmented Discrete Diffusion (CADD) — фреймворк, который расширяет дискретное пространство состояний за счет парной диффузии в непрерывном латентном пространстве. Это позволяет получить градуированные, постепенно искаженные состояния, в которых маскированные токены представлены зашумленными, но информативными латентными векторами, а не коллапсированными «информационными пустотами». На каждом обратном шаге CADD может использовать непрерывный латентный вектор как семантическую подсказку для управления дискретным удалением шума. Дизайн является простым и совместимым с существующими методами обучения дискретных диффузионных моделей. Во время генерации сила и выбор оценки для непрерывного латентного вектора позволяют контролировать баланс между охватом мод (генерация разнообразных выходов) и поиском мод (генерация контекстуально точных выходов). Эмпирически мы демонстрируем, что CADD улучшает качество генерации по сравнению с маскированными диффузионными моделями в задачах генерации текста, синтеза изображений и моделирования кода, показывая стабильные улучшения как на качественных, так и на количественных метриках по сравнению с сильными дискретными базовыми моделями.
Мы исследуем, что на самом деле работает, а что нет при обучении крупных языковых моделей (LLM) в качестве агентов с использованием многошагового обучения с подкреплением (RL). Несмотря на быстрый прогресс, существующие подходы и определения остаются разрозненными, и отсутствует систематическая формулировка или анализ того, какие проектные решения имеют значение для различных задач. Мы устраняем этот пробел, сначала разбивая пространство проектирования на три взаимосвязанных компонента — окружение, награда и политика — и эмпирически выводим рецепт для обучения LLM-агентов в текстовых доменах с контекстом. В частности, мы тестируем TextWorld и ALFWorld, популярные домены для проверки контекстного воплощённого мышления, а также SWE-Gym для задач, более близких к программной инженерии. (i) Для окружения мы анализируем влияние сложности задачи с точки зрения размеров пространства состояний и действий, а также длины оптимального решения, обнаруживая, что даже простые среды в рамках домена могут дать представление о том, насколько хорошо агент способен обобщать на более сложные задачи. (ii) Для награды мы исследуем влияние её разреженности, отмечая, что хотя плотные награды на каждом шаге ускоряют обучение, производительность и стабильность сильно зависят от выбора алгоритма RL. (iii) Для политики агента мы изучаем взаимодействие между разреженностью наград и предвзятыми (PPO, GRPO) и беспристрастными (RLOO) методами градиента политики, а также показываем, как найти оптимальное соотношение между обучением с учителем (SFT) и RL при фиксированном бюджете. Мы обобщаем эти результаты в рецепт обучения, который направляет совместное проектирование всех трёх компонентов, способствуя исследованиям и практическим усилиям в области многошагового RL для агентов. Код: https://github.com/pearls-lab/meow-tea-taro
Заболевания позвоночника затрагивают 619 миллионов человек по всему миру и являются одной из основных причин инвалидности, однако диагностика с использованием ИИ остается ограниченной из-за отсутствия мультимодальных наборов данных с учетом уровней позвоночника. Клиническое принятие решений при заболеваниях позвоночника требует сложного анализа данных рентгенографии, КТ и МРТ на уровне конкретных позвонков. Однако прогресс сдерживается отсутствием отслеживаемых, клинически обоснованных обучающих данных и стандартизированных бенчмарков, специфичных для позвоночника. Для решения этой проблемы мы представляем SpineMed — экосистему, разработанную совместно с практикующими хирургами-вертебрологами. Она включает SpineMed-450k, первый крупномасштабный набор данных, специально созданный для анализа на уровне позвонков с использованием различных методов визуализации, содержащий более 450 000 обучающих примеров, и SpineBench, клинически обоснованную систему оценки. SpineMed-450k создан из разнообразных источников, включая учебники, руководства, открытые наборы данных и около 1000 анонимизированных клинических случаев, с использованием клинически контролируемого процесса с двухэтапным методом генерации на основе больших языковых моделей (черновик и доработка) для обеспечения высококачественных, отслеживаемых данных для ответов на вопросы, многоэтапных консультаций и генерации отчетов. SpineBench оценивает модели по клинически значимым аспектам, включая идентификацию уровня, оценку патологий и планирование хирургических вмешательств. Наше всестороннее тестирование нескольких современных больших моделей, объединяющих обработку изображений и текста (LVLM), на SpineBench выявило системные слабости в детализированном, уровне-ориентированном анализе. В то же время наша модель, дообученная на SpineMed-450k, демонстрирует устойчивые и значительные улучшения по всем задачам. Оценки клиницистов подтверждают диагностическую ясность и практическую полезность результатов нашей модели.
Хотя последние достижения в области больших языковых моделей (LLM) успешно обеспечили возможность создания генеративных рекомендательных систем с естественно-языковым взаимодействием, их поведение при рекомендациях остается ограниченным, оставляя другие, более простые, но важные компоненты, такие как фильтрация по метаданным или атрибутам, недостаточно используемыми в системе. Мы предлагаем музыкальную рекомендательную систему на основе LLM с вызовом инструментов, которая служит унифицированным конвейером поиска и повторного ранжирования. Наша система позиционирует LLM как сквозную рекомендательную систему, которая интерпретирует намерения пользователя, планирует вызовы инструментов и координирует специализированные компоненты: булевы фильтры (SQL), разреженный поиск (BM25), плотный поиск (сходство эмбеддингов) и генеративный поиск (семантические ID). Благодаря планированию инструментов система предсказывает, какие типы инструментов использовать, порядок их выполнения и аргументы, необходимые для поиска музыки, соответствующей предпочтениям пользователя, поддерживая разнообразные модальности и бесшовно интегрируя несколько методов фильтрации баз данных. Мы демонстрируем, что этот унифицированный фреймворк вызова инструментов достигает конкурентоспособной производительности в различных сценариях рекомендаций, избирательно применяя подходящие методы поиска на основе запросов пользователя, что открывает новую парадигму для разговорных музыкальных рекомендательных систем.
Привязка к графическому интерфейсу пользователя (GUI grounding) — задача сопоставления инструкций на естественном языке с координатами пикселей — имеет ключевое значение для автономных агентов, однако остается сложной для современных моделей визуального языка (VLMs). Основное узкое место — это надежное отображение патчей на пиксели, которое нарушается при экстраполяции на дисплеи с высоким разрешением, не встречавшиеся во время обучения. Современные подходы генерируют координаты в виде текстовых токенов непосредственно из визуальных признаков, вынуждая модель неявно выводить сложные соответствия между позициями и пикселями; в результате точность снижается, а ошибки множатся на новых разрешениях. Мы решаем эту проблему с помощью двух взаимодополняющих инноваций. Во-первых, токены RULER служат явными маркерами координат, позволяя модели ссылаться на позиции, подобно линиям сетки на карте, и корректировать, а не генерировать координаты с нуля. Во-вторых, чередующаяся MRoPE (I-MRoPE) улучшает пространственное кодирование, обеспечивая равное представление измерений ширины и высоты, что устраняет асимметрию стандартных позиционных схем. Эксперименты на наборах данных ScreenSpot, ScreenSpot-V2 и ScreenSpot-Pro демонстрируют стабильное повышение точности привязки, с наибольшими улучшениями на интерфейсах с высоким разрешением. Предоставляя явное пространственное руководство вместо опоры на неявное обучение, наш подход обеспечивает более надежную автоматизацию GUI на различных разрешениях и платформах.
Веб-агенты, основанные на больших языковых моделях (LLM), должны обрабатывать длинные наблюдения веб-страниц для выполнения пользовательских задач; эти страницы часто превышают десятки тысяч токенов. Это приводит к насыщению ограничений контекста и увеличению вычислительных затрат; более того, обработка полных страниц подвергает агентов рискам безопасности, таким как инъекция промптов. Существующие стратегии обрезки либо отбрасывают релевантный контент, либо сохраняют нерелевантный контекст, что приводит к неоптимальному предсказанию действий. Мы представляем FocusAgent — простой, но эффективный подход, который использует легковесный LLM-ретривер для извлечения наиболее релевантных строк из наблюдений дерева доступности (AxTree), руководствуясь целями задачи. Удаляя шумный и нерелевантный контент, FocusAgent обеспечивает эффективное рассуждение, одновременно снижая уязвимость к атакам инъекции. Эксперименты на бенчмарках WorkArena и WebArena показывают, что FocusAgent соответствует производительности сильных базовых моделей, при этом сокращая размер наблюдений более чем на 50%. Кроме того, вариант FocusAgent значительно снижает успешность атак инъекции промптов, включая баннерные и всплывающие атаки, сохраняя при этом производительность в условиях отсутствия атак. Наши результаты подчеркивают, что целевой LLM-ретриверинг является практичной и надежной стратегией для создания веб-агентов, которые эффективны, производительны и безопасны.
С момента выпуска Deepseek-R1 обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало ключевым подходом для обучения больших языковых моделей (LLM) на задачах логического рассуждения. В последних работах основное внимание уделялось модификации функций потерь для повышения эффективности и результативности RLVR. В данной статье, основываясь на исследованиях феномена "переобдумывания" в LLM, мы предлагаем Length-aware Sampling for Policy Optimization (LSPO) — новый мета-алгоритм RLVR, который динамически выбирает обучающие данные на каждом шаге на основе средней длины ответа. Мы оцениваем LSPO на нескольких базовых моделях и наборах данных, демонстрируя, что он последовательно повышает эффективность обучения. Кроме того, мы проводим детальное исследование с исключением переменных, чтобы изучить альтернативные способы включения сигналов длины в динамическую выборку, предлагая дополнительные инсайты и выделяя перспективные направления для будущих исследований.
Множество атак с использованием инъекции промптов было предложено для веб-агентов. В то же время разработаны различные методы для обнаружения общих атак с инъекцией промптов, но ни один из них не был систематически оценен для веб-агентов. В данной работе мы устраняем этот пробел, представляя первое всестороннее бенчмарк-исследование по обнаружению атак с инъекцией промптов, нацеленных на веб-агентов. Мы начинаем с введения детальной классификации таких атак на основе модели угроз. Затем мы создаем наборы данных, содержащие как вредоносные, так и доброкачественные образцы: вредоносные текстовые сегменты, сгенерированные различными атаками, доброкачественные текстовые сегменты из четырех категорий, вредоносные изображения, созданные атаками, и доброкачественные изображения из двух категорий. Далее мы систематизируем методы обнаружения, основанные как на тексте, так и на изображениях. Наконец, мы оцениваем их производительность в различных сценариях. Наши ключевые выводы показывают, что хотя некоторые детекторы могут идентифицировать атаки, которые полагаются на явные текстовые инструкции или видимые искажения изображений, с умеренной или высокой точностью, они в основном не справляются с атаками, которые не содержат явных инструкций или используют незаметные искажения. Наши наборы данных и код доступны по адресу: https://github.com/Norrrrrrr-lyn/WAInjectBench.
Современная разработка крупных языковых моделей (LLM) рассматривает решение задач и согласование предпочтений как отдельные задачи, сначала оптимизируя для объективной правильности, а затем для соответствия агрегированным человеческим предпочтениям. Этот подход терпит неудачу в приложениях, ориентированных на человека, где правильное решение проблемы недостаточно, если ответ не соответствует потребностям пользователя. Эта проблема усугубляется в сценариях "точно в срок", где отсутствует история предыдущих взаимодействий с пользователем из-за условий "холодного старта" или ограничений конфиденциальности. LLM необходимо определить, что они не знают о предпочтениях пользователя, стратегически выявить значения предпочтений через вопросы, а затем адаптировать свои процессы рассуждения и ответы соответственно — сложную цепочку когнитивных процессов, которую мы называем персонализированным рассуждением. Мы представляем PREFDISCO, методологию оценки, которая преобразует статические тесты в интерактивные задачи персонализации с использованием психологически обоснованных персонажей с ограниченными предпочтениями. Наша структура создает сценарии, где одинаковые вопросы требуют различных цепочек рассуждений в зависимости от контекста пользователя, так как оптимальные подходы к объяснению варьируются в зависимости от индивидуального опыта и предпочтений, сохраняя при этом фактическую точность. Оценка 21 передовой модели по 10 задачам показывает, что 29,0% наивных попыток персонализации приводят к худшему согласованию предпочтений, чем универсальные ответы, однако универсальные ответы также неэффективно удовлетворяют индивидуальные потребности пользователей. Эти результаты указывают на то, что персонализированное рассуждение требует целенаправленной разработки, а не возникает естественным образом. PREFDISCO устанавливает персонализированное рассуждение как измеримую исследовательскую границу и выявляет фундаментальные ограничения в интерактивных возможностях современных LLM, предоставляя основу для разработки систем, способных адаптироваться к индивидуальным пользователям в образовании, здравоохранении и технических областях, где персонализация имеет критическое значение.
Оптимизация дискретных диффузионных моделей (DDM) с использованием вознаграждений остается сложной задачей: неавторегрессивная парадигма делает важность выборки неразрешимой, а процесс rollout — сложным, что затрудняет применение методов обучения с подкреплением, таких как Group Relative Policy Optimization (GRPO). В данном исследовании мы представляем MaskGRPO — первый жизнеспособный подход, позволяющий масштабировать многомодальное обучение с подкреплением в дискретных диффузионных моделях с эффективной важностью выборки и адаптацией для конкретных модальностей. Для этого мы сначала уточняем теоретические основы DDMs, что способствует построению оценщика важности, который учитывает значимые колебания токенов для обновления градиентов. Затем мы тщательно адаптировали метод rollout для визуальных последовательностей, что обеспечивает разнообразие завершений и надежные градиенты оптимизации. На тестах по математическим рассуждениям, программированию и визуальной генерации MaskGRPO демонстрирует более стабильные и эффективные обновления, приводя к улучшенной производительности в рассуждениях и более высокому качеству генерации. Это исследование устанавливает MaskGRPO как систематический подход к оптимизации политик и первый практический метод для дискретизированной визуальной диффузии.
Градиентный спуск доказал свою мощь и эффективность как метод оптимизации в многочисленных задачах машинного обучения. Недавние достижения в вычислительной нейробиологии показали, что обучение в стандартной формулировке градиентного спуска не согласуется с обучением в биологических системах. Это открыло интересные возможности для разработки биологически вдохновленных методов обучения. Один из таких подходов основан на законе Дейла, который утверждает, что ингибиторные и возбуждающие синапсы не меняют свои роли в процессе обучения. Результирующая схема оптимизации экспоненциального градиентного спуска приводит к логнормальному распределению синаптических весов. Интересно, что плотность, удовлетворяющая уравнению Фоккера-Планка, соответствующему стохастическому дифференциальному уравнению (СДУ) с геометрическим броуновским движением (ГБД), является логнормальной плотностью. Используя эту связь, мы начинаем с СДУ, описывающего геометрическое броуновское движение, и показываем, что дискретизация соответствующего обратного по времени СДУ приводит к мультипликативному правилу обновления, которое, что удивительно, совпадает с эквивалентом выборки для обновления экспоненциального градиентного спуска, основанного на законе Дейла. Кроме того, мы предлагаем новый формализм для мультипликативного согласования шумов и оценок, включающий функцию потерь, предложенную Хювяриненом для неотрицательных данных. Действительно, логнормально распределенные данные положительны, и предложенный формализм согласования оценок оказывается естественным выбором. Это позволяет обучать модели, основанные на оценках, для данных изображений и приводит к новой мультипликативной схеме обновления для генерации выборок, начиная с логнормальной плотности. Экспериментальные результаты на наборах данных MNIST, Fashion MNIST и Kuzushiji демонстрируют генеративные возможности новой схемы. Насколько нам известно, это первый пример биологически вдохновленной генеративной модели, использующей мультипликативные обновления и основанной на геометрическом броуновском движении.
Генерация с усилением за счет поиска (Retrieval-Augmented Generation, RAG) объединяет поиск документов с большими языковыми моделями (LLM). Хотя масштабирование генераторов повышает точность, это также увеличивает затраты и ограничивает возможность развертывания. Мы исследуем альтернативный подход: расширение корпуса данных для поиска с целью снижения зависимости от крупных LLM. Экспериментальные результаты показывают, что масштабирование корпуса последовательно усиливает RAG и часто может служить заменой увеличения размера модели, хотя с уменьшающейся отдачей на больших масштабах. Небольшие и средние генераторы в сочетании с более крупными корпусами часто конкурируют с гораздо большими моделями, использующими меньшие корпуса; средние модели получают наибольшую выгоду, в то время как очень маленькие и крупные модели выигрывают меньше. Наш анализ показывает, что улучшения в основном возникают за счет увеличения охвата фрагментов, содержащих ответы, при этом эффективность использования остается практически неизменной. Эти результаты устанавливают принципиальный компромисс между корпусом и генератором: инвестиции в более крупные корпуса предлагают эффективный путь к усилению RAG, часто сопоставимый с увеличением самой LLM.
Генеративные модели видео демонстрируют впечатляющие возможности преобразования текста в видео, что способствует их широкому внедрению во многих реальных приложениях. Однако, как и крупные языковые модели (LLM), модели генерации видео склонны к "галлюцинациям", создавая правдоподобные видео даже в случаях, когда они фактически ошибочны. Хотя количественная оценка неопределенности (UQ) для LLM была подробно изучена в предыдущих работах, для видео моделей такие методы отсутствуют, что вызывает серьезные опасения в плане безопасности. Насколько нам известно, данная работа является первой попыткой количественной оценки неопределенности для видео моделей. Мы представляем фреймворк для оценки неопределенности генеративных видео моделей, который включает: (i) метрику для оценки калибровки видео моделей, основанную на надежной оценке ранговой корреляции без строгих предположений о моделировании; (ii) метод UQ для видео моделей (названный S-QUBED), который использует латентное моделирование для строгого разделения прогностической неопределенности на алеаторную и эпистемическую составляющие; и (iii) набор данных UQ для облегчения тестирования калибровки видео моделей. Условив задачу генерации в латентном пространстве, мы разделяем неопределенность, возникающую из-за нечетких спецификаций задачи, и неопределенность, вызванную недостатком знаний. В ходе обширных экспериментов на эталонных наборах видео данных мы демонстрируем, что S-QUBED вычисляет калиброванные оценки общей неопределенности, которые отрицательно коррелируют с точностью выполнения задачи, и эффективно вычисляет алеаторные и эпистемические составляющие.
Преобладающие модели генерации аудио из видео (Video-to-Audio, V2A) работают в офлайн-режиме, предполагая, что вся последовательность видео или фрагменты кадров доступны заранее. Это существенно ограничивает их использование в интерактивных приложениях, таких как создание контента в реальном времени и развивающиеся генеративные модели миров. Чтобы устранить этот пробел, мы представляем новую задачу генерации аудио из видео на уровне кадров в онлайн-режиме, где модель авторегрессивно генерирует аудио из видео без доступа к будущим кадрам. Кроме того, мы предлагаем SoundReactor, который, насколько нам известно, является первой простой, но эффективной структурой, специально разработанной для этой задачи. Наш подход обеспечивает сквозную причинность и нацелен на низкую задержку на кадр с синхронизацией аудио и видео. Основу нашей модели составляет декодер-трансформер с причинной структурой, работающий с непрерывными латентными представлениями аудио. Для визуального кондиционирования используются сеточные (патч) признаки, извлеченные из наименьшей версии визуального энкодера DINOv2, которые агрегируются в один токен на кадр для поддержания сквозной причинности и эффективности. Модель обучается с использованием предварительного обучения на основе диффузии с последующей тонкой настройкой на согласованность для ускорения декодирования диффузионной головки. На тестовом наборе разнообразных игровых видео из AAA-проектов наша модель успешно генерирует семантически и временно согласованный высококачественный стереозвук с полной полосой частот, что подтверждается как объективными, так и субъективными оценками. Кроме того, наша модель достигает низкой задержки на уровне формы волны на кадр (26,3 мс при NFE=1, 31,5 мс при NFE=4) для видео с частотой 30 кадров в секунду и разрешением 480p с использованием одного GPU H100. Примеры доступны по ссылке: https://koichi-saito-sony.github.io/soundreactor/.
С появлением диффузионных моделей и моделей согласования потоков, достигших наилучших показателей в генерации, внимание сообщества теперь сосредоточено на сокращении времени вывода без ущерба для качества образцов. Модели согласованности (Consistency Models, CMs), которые обучаются быть согласованными на траекториях диффузии или обыкновенных дифференциальных уравнений вероятностного потока (PF-ODE), позволяют выполнять выборку потока или диффузии за один или два шага. Однако CMs обычно требуют длительного обучения с большими размерами пакетов для достижения конкурентоспособного качества образцов. В данной работе мы исследуем динамику обучения CMs вблизи сходимости и обнаруживаем, что касательные CMs — направления обновления выходов CMs — являются довольно осцилляторными, в том смысле, что они движутся параллельно многообразию данных, а не в направлении к нему. Для смягчения осцилляторных касательных мы предлагаем новую функцию потерь, называемую расстоянием по признакам многообразия (Manifold Feature Distance, MFD), которая обеспечивает касательные, выровненные по многообразию и направленные к нему. В результате наш метод, названный Align Your Tangent (AYT), может ускорить обучение CMs на порядки и даже превзойти метрику схожести воспринимаемых изображений (LPIPS). Кроме того, мы обнаруживаем, что наша функция потерь позволяет обучать модели с крайне малыми размерами пакетов без ущерба для качества образцов. Код: https://github.com/1202kbs/AYT
Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокие результаты на общих визуальных тестах, однако испытывают трудности с задачами, выходящими за пределы распределения данных (OOD), в специализированных областях, таких как медицинская визуализация, где размеченные данные ограничены и дорогостоящи. Мы представляем LEAML — фреймворк для адаптации с эффективным использованием меток, который задействует как редкие размеченные примеры визуальных вопросов и ответов (VQA), так и многочисленные неразмеченные изображения. Наш подход генерирует псевдопары вопрос-ответ, релевантные для конкретной области, на основе неразмеченных данных с использованием генератора вопросов и ответов, регуляризованного дистилляцией подписей. Важно отметить, что мы выборочно обновляем только те нейроны, которые наиболее важны для задачи вопросов и ответов, что позволяет генератору эффективно приобретать доменно-специфические знания в процессе дистилляции. Эксперименты на данных гастроэнтерологической эндоскопии и спортивной VQA показывают, что LEAML стабильно превосходит стандартную тонкую настройку при минимальном контроле, подчеркивая эффективность предложенного нами фреймворка LEAML.
Впечатляющие улучшения производительности современных языковых моделей в настоящее время основываются на масштабировании параметров: более крупные модели хранят больше знаний о мире и лучше рассуждают. Однако сжимать все мировые знания в параметры нецелесообразно, так как для каждого запроса используется лишь их часть, и это непрактично для устройств с ограниченной памятью и вычислительными ресурсами на этапе вывода. Мы устраняем этот недостаток с помощью архитектуры, дополненной памятью, и стратегии предварительного обучения, согласованной с существующими аппаратными парадигмами. Мы представляем небольшие языковые модели, которые обращаются к крупным иерархическим параметрическим банкам памяти, кодирующим мировые знания. На этапах предварительного обучения и вывода мы извлекаем небольшой контекстно-зависимый блок памяти и добавляем его к модели. Наше предварительное обучение позволяет сохранять редкие мировые знания в параметрах памяти, в то время как небольшая языковая модель выступает в роли ядра, захватывающего общие знания и способности к рассуждению. В экспериментах с масштабом в триллионы токенов мы демонстрируем значительные улучшения: модель с 160 миллионами параметров, дополненная памятью из 18 миллионов параметров, извлеченной из банка памяти объемом 4,6 миллиарда параметров, показывает сопоставимую производительность с обычной моделью, имеющей более чем в два раза больше параметров. В ходе обширных экспериментов мы исследуем оптимальный тип и размер параметрической памяти в трансформерах, масштабируя их до более чем 21 миллиарда параметров. Мы обнаруживаем, что предложенные нами иерархические прямые памяти эффективно работают в различных архитектурах трансформеров, независимо от того, добавляются ли они на этапе предварительного обучения или постфактум.
Разработка программного обеспечения в значительной степени опирается на обширное модульное тестирование, что делает эффективность автоматизированной генерации модульных тестов (Unit Test Generation, UTG) особенно важной. Однако большинство существующих языковых моделей (LLM) генерируют тестовые случаи по одному токену за каждый прямой проход, что приводит к неэффективной UTG. Недавно появились диффузионные языковые модели (dLLM), предлагающие перспективные возможности параллельной генерации и демонстрирующие значительный потенциал для эффективной UTG. Несмотря на это преимущество, их применение в UTG всё ещё ограничено явным компромиссом между эффективностью и качеством тестов, поскольку увеличение количества токенов, генерируемых на каждом шаге, часто приводит к резкому снижению качества тестовых случаев. Чтобы преодолеть это ограничение, мы представляем DiffTester — фреймворк для ускорения, специально разработанный для dLLM в UTG. Основная идея DiffTester заключается в том, что модульные тесты, нацеленные на один и тот же метод, часто имеют повторяющиеся структурные паттерны. Динамически выявляя эти общие паттерны с помощью анализа абстрактного синтаксического дерева в процессе генерации, DiffTester адаптивно увеличивает количество токенов, создаваемых на каждом шаге, без ущерба для качества выходных данных. Для обеспечения всесторонней оценки мы расширяем оригинальный бенчмарк TestEval, который был ограничен Python, добавляя дополнительные языки программирования, включая Java и C++. Многочисленные эксперименты на трёх бенчмарках с двумя репрезентативными моделями показывают, что DiffTester обеспечивает значительное ускорение при сохранении покрытия тестов. Более того, DiffTester хорошо обобщается на различные dLLM и языки программирования, предоставляя практичное и масштабируемое решение для эффективной UTG в разработке программного обеспечения. Код и данные доступны публично по адресу https://github.com/wellbeingyang/DLM4UTG-open.
Понимание рисков в автономном вождении требует не только восприятия и прогнозирования, но и высокоуровневого анализа поведения агентов и контекста. Современные методы, основанные на моделях Vision Language Models (VLMs), в основном работают со статичными изображениями и предоставляют качественные оценки, не обладая пространственно-временным анализом, необходимым для отслеживания эволюции рисков во времени. Чтобы устранить этот пробел, мы предлагаем NuRisk — всеобъемлющий набор данных для задачи Visual Question Answering (VQA), включающий 2900 сценариев и 1,1 миллиона примеров на уровне агентов, созданный на основе реальных данных из nuScenes и Waymo, дополненных критически важными сценариями из симулятора CommonRoad. Набор данных предоставляет последовательные изображения в виде Bird-Eye-View (BEV) с количественными аннотациями рисков на уровне агентов, что позволяет проводить пространственно-временной анализ. Мы тестируем известные VLMs с использованием различных методов запросов и обнаруживаем, что они не способны выполнять явный пространственно-временной анализ, достигая пиковой точности в 33% при высокой задержке. Чтобы устранить эти недостатки, наша доработанная 7B VLM-модель повышает точность до 41% и сокращает задержку на 75%, демонстрируя явные возможности пространственно-временного анализа, которых не хватало проприетарным моделям. Хотя это представляет собой значительный шаг вперед, скромная точность подчеркивает глубину сложности задачи, устанавливая NuRisk в качестве важного эталонного теста для развития пространственно-временного анализа в автономном вождении.
Оценка соответствия политике представляет собой фундаментальную задачу, заключающуюся в проверке строгого соблюдения входного случая набором правил, определенных человеком, которые в более широком смысле называются политиками. На практике эксперты следуют систематическому, пошаговому процессу для выявления нарушений в отношении конкретных положений, изложенных в политике. Однако документация эталонных процессов рассуждений экспертного уровня является дорогостоящей для получения. В данной статье мы представляем Policy Reasoning Traces (PRT) — специализированные сгенерированные цепочки рассуждений, которые служат мостом для улучшения способностей языковой модели (LLM) в оценке соответствия политике. Наши эмпирические оценки показывают, что использование PRT как на этапе вывода, так и на этапе обучения значительно повышает производительность как открытых, так и коммерческих моделей, устанавливая новый эталон для политик HIPAA и GDPR. Помимо повышения точности, мы также подчеркиваем, как PRT могут улучшить способность LLM точно цитировать пункты политики, а также влиять на решения о соответствии благодаря их активному использованию в исходных цепочках рассуждений.