Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальное рассуждение требует итеративной координации между языком и зрением, однако до сих пор неясно, что представляет собой содержательная чередующаяся цепочка мыслей. Мы предполагаем, что текстовые и визуальные мысли должны функционировать как взаимодополняющие, а не изоморфные модальности, которые взаимно продвигают процесс рассуждения. Руководствуясь этим принципом, мы создали ThinkMorph — унифицированную модель, дообученную на 24 тысячах высококачественных чередующихся трасс рассуждений, охватывающих задачи с разной степенью визуальной вовлеченности. ThinkMorph учится генерировать прогрессивные текстово-визуальные шаги рассуждения, которые конкретно манипулируют визуальным контентом, сохраняя при этом связную вербальную логику. Модель демонстрирует значительный прогресс на визуально-ориентированных бенчмарках (в среднем на 34,7% превосходя базовую модель) и обобщается на задачи из других областей, соответствуя или превосходя более крупные и проприетарные VLM. Помимо производительности, ThinkMorph проявляет emergent-мультимодальный интеллект, включая ранее не встречавшиеся навыки визуального манипулирования, адаптивное переключение между режимами рассуждения и лучшее масштабирование во время тестирования за счет диверсифицированных мультимодальных мыслей. Эти результаты указывают на перспективные направления для характеристики возникающих возможностей унифицированных моделей для мультимодального рассуждения.
Современное аппаратное обеспечение для ИИ, такое как архитектура Blackwell от Nvidia, всё чаще обращается к форматам чисел с плавающей запятой (FP) пониженной точности для обработки повсеместно встречающихся выбросов в активациях больших языковых моделей (LLM). Несмотря на эту отраслевую тенденцию, до сих пор отсутствовало единое сравнение квантования в форматах FP и целочисленном (INT) для различной гранулярности, что оставляло совместное проектирование алгоритмов и оборудования без чётких ориентиров. Данная статья заполняет этот пробел, систематически исследуя компромиссы между форматами FP и INT. Мы выявляем критический перелом в производительности: хотя FP превосходит INT при грубозернистом квантовании, сравнение на мелкозернистом (блочном) уровне является более nuanced. Наше всестороннее сравнение демонстрирует, что для популярных 8-битных мелкозернистых форматов (например, MX с размером блока 32) MXINT8 превосходит свой аналог FP как по алгоритмической точности, так и по аппаратной эффективности. Однако для 4-битных форматов FP (например, MXFP4, NVFP4) часто сохраняет преимущество в точности, хотя мы показываем, что NVINT4 может превзойти NVFP4 при применении методов подавления выбросов, таких как преобразование Адамара. Мы также представляем метод симметричного ограничения (clipping), который устраняет смещение градиента при мелкозернистом INT-обучении с низкой битностью, обеспечивая практически безусловную производительность для обучения MXINT8. Эти результаты ставят под сомнение текущий вектор развития аппаратного обеспечения, демонстрируя, что универсальный подход в пользу FP является неоптимальным, и доказывая, что мелкозернистые INT-форматы, в частности MXINT8, предлагают лучший баланс точности, энергопотребления и эффективности для будущих AI-ускорителей.
Агенты, использующие компьютер и основанные на визуально-языковых моделях (VLM), продемонстрировали способности, подобные человеческим, при работе в цифровых средах, таких как мобильные платформы. Хотя эти агенты открывают большие перспективы для развития цифровой автоматизации, их потенциал к небезопасным операциям, таким как компрометация системы и утечка конфиденциальности, вызывает серьезную озабоченность. Выявление этих угроз безопасности в обширном и сложном операционном пространстве мобильных сред представляет собой значительную проблему, которая остается критически недостаточно изученной. Для создания основы исследований безопасности мобильных агентов мы представляем MobileRisk-Live — динамическую песочницу, сопровождаемую эталонным тестом для обнаружения угроз безопасности, состоящим из реалистичных траекторий с детальной разметкой. На основе этого мы предлагаем OS-Sentinel — новую гибридную систему обнаружения угроз, которая синергетически сочетает Формальный верификатор для выявления явных нарушений на системном уровне и Контекстуальный арбитр на основе VLM для оценки контекстных рисков и действий агента. Эксперименты показывают, что OS-Sentinel демонстрирует улучшение на 10–30% по сравнению с существующими подходами по множеству метрик. Дальнейший анализ дает ключевые идеи, способствующие разработке более безопасных и надежных автономных мобильных агентов.
Эффективность больших языковых моделей (LLM) фундаментально ограничена их последовательным, покмарным процессом генерации. Мы утверждаем, что для преодоления этого узкого места требуется новая ось масштабирования LLM: увеличение семантической пропускной способности каждого генеративного шага. С этой целью мы представляем Непрерывные Авторегрессионные Языковые Модели (CALM) — парадигмальный сдвиг от дискретного предсказания следующей марки к непрерывному предсказанию следующего вектора. CALM использует высокоточный автоэнкодер для сжатия блока из K маркеров в единый непрерывный вектор, из которого исходные маркеры могут быть восстановлены с точностью свыше 99,9%. Это позволяет нам моделировать язык как последовательность непрерывных векторов вместо дискретных маркеров, что сокращает количество генеративных шагов в K раз. Парадигмальный сдвиг требует нового инструментария моделирования; поэтому мы разработали комплексный framework, свободный от правдоподобия, который обеспечивает надежное обучение, оценку и управляемую семплирование в непрерывной области. Эксперименты показывают, что CALM значительно улучшает компромисс между производительностью и вычислениями, достигая производительности сильных дискретных базовых моделей при значительно более низких вычислительных затратах. Что более важно, эти результаты устанавливают предсказание следующего вектора как мощный и масштабируемый путь к созданию сверхэффективных языковых моделей. Код: https://github.com/shaochenze/calm. Проект: https://shaochenze.github.io/blog/2025/CALM.
Модели «Vision-Language-Action» (VLA) позволяют роботам понимать и выполнять сложные задачи на основе мультимодального ввода. Хотя в последних работах исследуется использование обучения с подкреплением (RL) для автоматизации трудоёмкого процесса сбора данных при масштабировании контролируемой тонкой настройки (SFT), применение крупномасштабного RL к потоковым VLA-моделям (например, π₀, π₀.₅) остаётся сложной задачей из-за невычислимой логарифмической правдоподобности действий, возникающей в итеративном процессе удаления шума. Мы решаем эту проблему с помощью π_RL — фреймворка с открытым исходным кодом для обучения потоковых VLA-моделей в параллельной симуляции. π_RL реализует два алгоритма RL: (1) **Flow-Noise** моделирует процесс удаления шума как марковский процесс принятия решений (MDP) с дискретным временем и обучаемой сетью для генерации шума, что позволяет точно вычислять логарифмическую правдоподобность. (2) **Flow-SDE** интегрирует удаление шума с взаимодействием агента и среды, формулируя двухуровневый MDP, который использует преобразование ODE в SDE для эффективного исследования в RL. Мы оцениваем π_RL на бенчмарках LIBERO и ManiSkill. На LIBERO π_RL повышает производительность моделей с few-shot SFT, π₀ и π₀.₅, с 57.6% до 97.6% и с 77.1% до 98.3% соответственно. В ManiSkill мы обучаем π_RL в 320 параллельных средах, улучшая показатели π₀ с 41.6% до 85.7% и π₀.₅ с 40.0% до 84.8% на 4352 задачах «pick-and-place», что демонстрирует масштабируемое многозадачное RL в условиях гетерогенной симуляции. В целом, π_RL демонстрирует значительный прирост производительности и более сильную обобщающую способность по сравнению с SFT-моделями, подтверждая эффективность онлайн RL для потоковых VLA-моделей.
Тонкая настройка крупных языковых моделей (LLM) с помощью обучения с подкреплением (RL) часто страдает от нестабильности из-за численного несоответствия между политиками обучения и вывода. В то время как предыдущие работы пытались смягчить эту проблему с помощью алгоритмических корректировок или инженерных согласований, мы показываем, что её коренная причина кроется в самой точности представления чисел с плавающей запятой. Широко используемый формат BF16, несмотря на свой широкий динамический диапазон, вносит значительные ошибки округления, которые нарушают согласованность между обучением и выводом. В данной работе мы демонстрируем, что простой возврат к формату FP16 эффективно устраняет это несоответствие. Это изменение является простым, полностью поддерживается современными фреймворками с модификацией всего нескольких строк кода и не требует изменений в архитектуре модели или алгоритме обучения. Наши результаты свидетельствуют, что единообразное использование FP16 обеспечивает более стабильную оптимизацию, ускоренную сходимость и улучшенную производительность в разнообразных задачах, алгоритмах и фреймворках. Мы надеемся, что эти выводы побудят к более широкому пересмотру компромиссов, связанных с точностью представления чисел, при RL-тонкой настройке.
Пространственное понимание остается слабым местом больших визуально-языковых моделей (LVLM). Существующие методы контролируемого тонкого настроя (SFT) и недавно появившиеся конвейеры обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) зависят от дорогостоящей разметки, специализированных инструментов или ограниченных сред, что сдерживает масштабирование. Мы представляем Spatial-SSRL, парадигму самообучения с подкреплением, которая извлекает верифицируемые сигналы непосредственно из обычных RGB или RGB-D изображений. Spatial-SSRL автоматически формулирует пять учебных задач, фиксирующих 2D и 3D пространственную структуру: переупорядочивание перемешанных фрагментов, распознавание перевернутых фрагментов, восстановление вырезанных фрагментов, определение порядка глубины по регионам и предсказание относительного 3D положения. Эти задачи предоставляют эталонные ответы, которые легко проверить и которые не требуют аннотирования человеком или LVLM. Обучение на наших задачах существенно улучшает пространственные рассуждения, сохраняя при этом общие визуальные способности. На семи тестах пространственного понимания для изображений и видео Spatial-SSRL демонстрирует средний прирост точности на 4.63% (для 3B) и 3.89% (для 7B) по сравнению с базовыми моделями Qwen2.5-VL. Наши результаты показывают, что простая, внутренняя разметка позволяет масштабировать RLVR и предлагает практический путь к усилению пространственного интеллекта в LVLM.
Метод согласования распределений с дистилляцией (DMD) позволяет дистиллировать генеративные модели на основе оценок в эффективные одношаговые генераторы, не требуя однозначного соответствия траекториям сэмплирования их учителей. Однако ограниченная ёмкость модели приводит к тому, что одношаговые дистиллированные модели демонстрируют низкую производительность на сложных генеративных задачах, например, при синтезе замысловатых движений объектов в генерации видео по тексту. Прямое расширение DMD до многошаговой дистилляции увеличивает потребление памяти и вычислительную глубину, что приводит к нестабильности и снижению эффективности. Хотя предыдущие работы предлагали стохастическое усечение градиента как потенциальное решение, мы наблюдаем, что оно существенно снижает разнообразие генерации многошаговых дистиллированных моделей, опуская его до уровня их одношаговых аналогов. Для преодоления этих ограничений мы предлагаем Phased DMD — фреймворк многошаговой дистилляции, объединяющий идею поэтапной дистилляции с методом смеси экспертов (MoE), что снижает сложность обучения при одновременном увеличении ёмкости модели. Phased DMD основан на двух ключевых идеях: прогрессивном согласовании распределений и согласовании оценок внутри подынтервалов. Во-первых, наша модель делит диапазон SNR на подынтервалы, постепенно улучшая модель до более высоких уровней SNR для лучшего захвата сложных распределений. Далее, для обеспечения точности целевой функции обучения в каждом подынтервале мы провели строгие математические выкладки. Мы проверяем Phased DMD, дистиллируя передовые модели генерации изображений и видео, включая Qwen-Image (20 млрд параметров) и Wan2.2 (28 млрд параметров). Экспериментальные результаты демонстрируют, что Phased DMD сохраняет разнообразие выходных данных лучше, чем DMD, при сохранении ключевых генеративных способностей. Мы опубликуем наш код и модели.
Автономные агенты графического интерфейса пользователя (GUI) полагаются на точное привязывание к GUI, которое сопоставляет языковые инструкции с координатами на экране, для выполнения пользовательских команд. Однако современные модели, обученные посредством контролируемого тонкого настройки (SFT) или тонкого настройки с подкреплением (RFT), не обладают самосознанием границ своих возможностей, что приводит к излишней уверенности и ненадежным прогнозам. Мы сначала систематически оцениваем вероятностную и вербализованную уверенность в общих и специализированных для GUI моделях, выявляя рассогласование между уверенностью и фактической точностью, что особенно критично в задачах автоматизации динамического GUI, где единичные ошибки могут привести к сбою задачи. Для решения этой проблемы мы предлагаем HyperClick, новую структуру, которая повышает надежность привязывания к GUI за счет калибровки неопределенности. HyperClick вводит механизм двойного вознаграждения, сочетающий бинарное вознаграждение за правильные действия с пространственным моделированием уверенности на основе усеченного гауссова распределения, калибруемого с использованием оценки Брайера. Этот подход совместно оптимизирует точность привязывания и надежность уверенности, способствуя интроспективной самокритике. Многочисленные эксперименты на семи тестовых наборах показывают, что HyperClick достигает наилучшей производительности, обеспечивая хорошо калиброванную уверенность. Благодаря явной калибровке уверенности и интроспективной самокритике, HyperClick снижает излишнюю уверенность и обеспечивает более надежную автоматизацию GUI.
Мультимодальное позиционное кодирование играет ключевую роль в моделях "визуальный язык", однако систематические исследования в этой области практически отсутствуют. Мы проводим всесторонний анализ мультимодального ротационного позиционного кодирования (RoPE), исследуя его два основных компонента: дизайн позиций и распределение частот. В результате масштабных экспериментов мы выявили три ключевых принципа: позиционная согласованность, полное использование частотного спектра и сохранение текстовых априорных знаний — что обеспечивает однозначную компоновку, богатое представление и достоверный перенос из предварительно обученной языковой модели. На основе этих инсайтов мы предлагаем Multi-Head RoPE (MHRoPE) и MRoPE-Interleave (MRoPE-I) — два простых и готовых к использованию варианта, не требующих изменений архитектуры. Наши методы стабильно превосходят существующие подходы в различных тестах, демонстрируя значительное улучшение как в общей, так и в детализированной мультимодальной понимающей способности. Код будет доступен по адресу https://github.com/JJJYmmm/Multimodal-RoPEs.
Избыточная длина рассуждений по цепочке мыслей (CoT) препятствует их массовому внедрению в приложениях, критичных к эффективности. Недавно появились подходы с неявной CoT, которые кодируют шаги рассуждений в скрытых эмбеддингах больших языковых моделей (так называемое «неявное рассуждение»), а не в явных токенах. Этот подход ускоряет CoT за счет сокращения длины рассуждений и обхода некоторых компонентов LLM. Однако существующие методы неявной CoT сталкиваются с двумя серьезными проблемами: (1) они не сохраняют семантическое соответствие между неявным рассуждением (при преобразовании в естественный язык) и эталонным рассуждением, что приводит к значительному ухудшению производительности CoT, и (2) они сосредоточены на сокращении длины неявного рассуждения, но игнорируют значительные временные затраты LLM на генерацию одного отдельного токена неявного рассуждения. Для решения этих проблем мы предлагаем новую семантически выровненную структуру неявной CoT, названную SemCoT. В частности, для первой проблемы мы разрабатываем контрастно обученный sentence transformer, который оценивает семантическое соответствие между неявным и явным рассуждением; он используется для обеспечения сохранения семантики в процессе оптимизации неявного рассуждения. Для решения второй проблемы мы представляем эффективный генератор неявных рассуждений путем дообучения облегченной языковой модели с использованием дистилляции знаний. Этот генератор направляется нашим sentence transformer'ом для дистилляции эталонного рассуждения в семантически выровненное неявное рассуждение, одновременно оптимизируя точность. SemCoT — это первый подход, который повышает эффективность CoT за счет совместной оптимизации скорости генерации на уровне токенов и сохранения семантического соответствия с эталонным рассуждением. Многочисленные эксперименты демонстрируют превосходную производительность SemCoT по сравнению с современными методами как по эффективности, так и по результативности. Наш код доступен по адресу https://github.com/YinhanHe123/SemCoT/.
Квадратичная стоимость масштабированного скалярно-продуктового внимания является ключевым препятствием для масштабирования авторегрессионных языковых моделей на длинные контексты. Линейные по времени механизмы внимания и модели пространства состояний (SSM) предлагают масштабируемые альтернативы, но обычно ограничиваются аппроксимациями первого порядка или на основе ядер, что может ограничивать выразительность. Мы представляем Высокоуровневое Линейное Внимание (HLA) — каузальный потоковый механизм, реализующий взаимодействия высшего порядка через компактные достаточные статистики префикса. В случае второго порядка HLA поддерживает состояние постоянного размера и вычисляет выходы для каждого токена за линейное время без материализации каких-либо матриц размера n × n. Мы приводим замкнутые потоковые тождества, строго каузальную маскированную версию с использованием двух дополнительных сводок и схему параллельного обучения на чанках, основанную на ассоциативных сканированиях, которая точно воспроизводит активации последовательной рекуррентности. Мы также намечаем расширения для третьего и более высоких порядков. В совокупности эти результаты позиционируют HLA как принципиально масштабируемый строительный блок, сочетающий зависящее от данных смешивание, подобное вниманию, с эффективностью современных рекуррентных архитектур. Страница проекта: https://github.com/yifanzhang-pro/HLA.
Мультимодальные большие языковые модели (MБЯМ) расширили возможности воплощенных агентов, обеспечивая прямое восприятие, рассуждение и планирование целеориентированных действий на основе визуальных входных данных. Однако такие управляемые зрением воплощенные агенты открывают новую поверхность для атак: визуальные бэкдор-атаки, при которых агент ведет себя нормально до появления визуального триггера в сцене, после чего настойчиво выполняет заданную злоумышленником многошаговую политику. Мы представляем BEAT — первую систему для внедрения таких визуальных бэкдоров в МБЯМ-агенты с использованием объектов окружающей среды в качестве триггеров. В отличие от текстовых триггеров, объектные триггеры демонстрируют значительные вариации между точками обзора и условиями освещенности, что затрудняет их надежное внедрение. BEAT решает эту проблему путем (1) создания обучающей выборки, охватывающей разнообразные сцены, задачи и размещения триггеров, чтобы познакомить агентов с вариабельностью триггеров, и (2) введения двухэтапной схемы обучения, которая сначала применяет контролируемое тонкое настраивание (SFT), а затем нашу новую контрастную триггерную обучаемость (CTL). CTL формулирует распознавание триггеров как обучение с предпочтениями между входами с триггером и без, явно заостряя границы решений для обеспечения точной активации бэкдора. В различных тестах для воплощенных агентов и МБЯМ система BEAT достигает уровня успешности атак до 80%, сохраняя при этом высокую производительность на доброкачественных задачах и надежно обобщаясь на размещения триггеров вне распределения. Примечательно, что по сравнению с наивным SFT, CTL повышает точность активации бэкдора до 39% при ограниченных данных бэкдора. Эти результаты выявляют критический, но неисследованный риск безопасности в МБЯМ-агентах, подчеркивая необходимость разработки надежных защитных механизмов перед развертыванием в реальном мире.
По мере того как большие языковые модели (LLM) занимают все более важное место в обществе, они все чаще сталкиваются с вопросами, которые требуют от них не только опоры на общие знания, но и соответствия определенным человеческим ценностным системам. Следовательно, изучение согласованности LLM с человеческими ценностями стало важной областью исследований. Однако предыдущие работы в основном сосредоточены на оценке согласованности полностью обученных моделей, упуская из виду динамику обучения, в ходе которой модели учатся выражать человеческие ценности. В данной работе мы исследуем, как и на каком этапе возникает ценностное согласование в процессе пост-обучения модели. Наш анализ разделяет влияние алгоритмов и наборов данных пост-обучения, измеряя как величину, так и время ценностных сдвигов в ходе обучения. Экспериментируя с моделями Llama-3 и Qwen-3 различных размеров, а также с популярными наборами данных и алгоритмами контролируемой тонкой настройки (SFT) и оптимизации предпочтений, мы обнаруживаем, что фаза SFT, как правило, формирует ценности модели, а последующая оптимизация предпочтений редко изменяет эти установленные ценности. Кроме того, используя синтетический набор данных о предпочтениях, который позволяет контролируемо манипулировать ценностями, мы выяснили, что разные алгоритмы оптимизации предпочтений приводят к разным результатам ценностного согласования, даже когда данные о предпочтениях остаются неизменными. Наши результаты дают практическое понимание того, как ценности усваиваются в процессе пост-обучения, и помогают проинформировать процессы отбора данных, а также выбора моделей и алгоритмов для оптимизации предпочтений с целью улучшения согласованности моделей с человеческими ценностями.
В последнее время расширение моделей "Видение-Язык-Действие" (VLA) за счет мирового моделирования показало перспективность в улучшении обучения роботизированных политик. Однако совместное предсказание наблюдений следующего состояния и последовательностей действий остается сложной задачей из-за присущего различия между двумя модальностями. Для решения этой проблемы мы предлагаем DUal-STream diffusion (DUST) — фреймворк VLA, дополненный мировым моделированием, который устраняет конфликт модальностей и повышает производительность VLA в разнообразных задачах. В частности, мы предлагаем мультимодальную архитектуру диффузионного трансформера, которая явно поддерживает раздельные потоки модальностей, сохраняя при этом возможность кросс-модального обмена знаниями. Кроме того, мы вводим независимые шумовые возмущения для каждой модальности и развязанную функцию потерь на основе flow matching. Такая конструкция позволяет модели изучать совместное распределение двунаправленным образом, избегая необходимости в унифицированном латентном пространстве. Основываясь на разделении модальностей во время обучения, мы также представляем метод совместной сэмплинга, поддерживающий масштабирование во время тестирования, при котором токены действий и визуальные токены эволюционируют асинхронно с разной скоростью. В экспериментах на симуляционных бенчмарках, таких как RoboCasa и GR-1, DUST демонстрирует до 6% улучшения по сравнению с базовыми методами, а наш подход к масштабированию во время тестирования дает дополнительный прирост в 2-5%. На реальных задачах с Franka Research 3 DUST повышает процент успешных выполнений на 13%, подтверждая свою эффективность за пределами симуляции. Более того, предварительное обучение на видео без действий из BridgeV2 дает значительный перенос улучшений на RoboCasa, подчеркивая потенциал DUST для масштабного предварительного обучения VLA.
Мы представляем Denario — мультиагентную ИИ-систему, предназначенную для работы в качестве научного исследовательского ассистента. Denario способна выполнять множество различных задач, таких как генерация идей, проверка литературы, разработка планов исследований, написание и выполнение кода, построение графиков, а также подготовка и рецензирование научных статей. Система имеет модульную архитектуру, что позволяет ей решать как узкоспециализированные задачи, например генерацию идеи, так и проводить сквозной научный анализ с использованием Cmbagent в качестве бэкенда для глубокого исследования. В данной работе мы подробно описываем Denario и её модули, а также демонстрируем её возможности на примере множества сгенерированных ИИ статей в различных научных дисциплинах: астрофизике, биологии, биофизике, биомедицинской информатике, химии, материаловедении, математической физике, медицине, нейробиологии и планетологии. Denario также преуспевает в комбинировании идей из разных дисциплин, что мы иллюстрируем статьёй, применяющей методы квантовой физики и машинного обучения к астрофизическим данным. Мы сообщаем о результатах оценки этих статей экспертами в соответствующих областях, которые предоставили как численные оценки, так и развернутые рецензии. Далее мы выделяем сильные и слабые стороны, а также ограничения текущей системы. Наконец, мы обсуждаем этические последствия исследований под руководством ИИ и размышляем о том, как такая технология соотносится с философией науки. Мы публикуем код по адресу https://github.com/AstroPilot-AI/Denario. Демонстрационная версия Denario также доступна для запуска непосредственно в веб-браузере по адресу https://huggingface.co/spaces/astropilot-ai/Denario, а полное приложение будет развернуто в облаке.
Математические рассуждения представляют собой ключевую проблему для больших языковых моделей (LLM), требующую не только правильных ответов, но и достоверных процессов логического вывода. Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало перспективным подходом для улучшения таких способностей; однако его способность стимулировать подлинные рассуждения остается неясной. Мы исследуем RLVR на двух комбинаторных задачах с полностью проверяемыми решениями: планирование активностей и поиск самой длинной возрастающей подпоследовательности, используя тщательно отобранные наборы данных с уникальными оптимумами. При различных подходах к проектированию функции вознаграждения мы обнаруживаем, что RLVR улучшает оценочные метрики, но часто за счет закрепления поверхностных эвристик, а не приобретения новых стратегий рассуждения. Эти результаты подчеркивают ограничения обобщающей способности RLVR, акцентируя важность бенчмарков, которые разделяют подлинное математическое рассуждение и использование упрощенных путей, и обеспечивают достоверные меры прогресса. Код доступен по адресу https://github.com/xashru/rlvr-seq-generalization.
Модели «Vision-Language-Action» (VLA) представляют собой важный рубеж в развитии воплощенного интеллекта, целью которого является соединение цифровых знаний с взаимодействием в физическом мире. Несмотря на то, что эти модели продемонстрировали впечатляющие универсальные способности, их практическое применение серьезно ограничивается значительными вычислительными и данными требованиями, присущими лежащим в их основе крупномасштабным фундаментальным моделям. Мотивированные настоятельной необходимостью решения этих проблем, мы представляем первое всестороннее обозрение эффективных моделей «Vision-Language-Action» (Efficient VLA), охватывающее весь процесс работы с данными, моделью и обучением. В частности, мы вводим унифицированную таксономию для систематизации разнородных исследований в этой области, классифицируя современные методы по трем основным направлениям: (1) Эффективное проектирование моделей, фокусирующееся на эффективных архитектурах и сжатии моделей; (2) Эффективное обучение, которое снижает вычислительную нагрузку в процессе обучения модели; и (3) Эффективный сбор данных, который решает проблемы, связанные с получением и использованием робототехнических данных. Благодаря критическому анализу современных методов в рамках данной структуры, это обозрение не только создает фундаментальный ориентир для научного сообщества, но также обобщает репрезентативные приложения, определяет ключевые challenges и намечает roadmap для будущих исследований. Мы поддерживаем постоянно обновляемую страницу проекта для отслеживания наших последних разработок: https://evla-survey.github.io/
Крупные языковые модели (LLM) преобразуют парадигму рекомендательных систем, позволяя пользователям выражать предпочтения и получать рекомендации через диалог. Однако адаптация LLM к задаче рекомендации остается сложной задачей: предобученные LLM часто генерируют элементы вне каталога, нарушают требуемые форматы вывода, а их качество ранжирования резко ухудшается к концу генерируемого списка. Для решения этой проблемы мы предлагаем ConvRec-R1 — двухэтапную структуру для сквозного обучения диалоговых рекомендательных систем на основе LLM. На Этапе 1 мы создаем набор данных поведенческого клонирования с помощью конвейера Remap-Reflect-Adjust, который производит высококачественные, основанные на каталоге демонстрации из мощных чернобоксных LLM для теплого старта обучения с подкреплением. На Этапе 2 мы предлагаем Rank-GRPO — принципиальное расширение групповой относительной оптимизации политики (GRPO), адаптированное для задач с ранговыми выходами. Rank-GRPO рассматривает каждую позицию в рекомендательном списке как единицу вместо токена (слишком мелкозернисто) или последовательности (слишком крупнозернисто), переопределяя вознаграждения для устранения некорректного назначения заслуг и вводя ранговый коэффициент важности на основе геометрического среднего вероятностей токенов по позициям для стабилизации обновлений политики. Эксперименты на публичном наборе данных Reddit-v2 показывают, что ConvRec-R1 сходится быстрее и достигает более высоких показателей Recall и NDCG по сравнению с базовыми методами в стиле GRPO. Код и наборы данных доступны по адресу https://github.com/yaochenzhu/Rank-GRPO.
Точное построчное сегментирование зданий и классификация их высоты имеют критически важное значение для градостроительного планирования, трехмерного моделирования городов и мониторинга инфраструктуры. В данной статье представлен детальный анализ YOLOv11 — последней разработки в серии моделей глубокого обучения YOLO, сфокусированный на её применении для совместного извлечения зданий и дискретной классификации высоты по спутниковым снимкам. YOLOv11 развивает преимущества более ранних моделей YOLO, вводя более эффективную архитектуру, которая лучше комбинирует признаки разных масштабов, повышает точность локализации объектов и улучшает работу в сложных городских сценах. Используя набор данных DFC2023 Track 2, включающий более 125 000 размеченных зданий из 12 городов, мы оценили производительность YOLOv11 с помощью таких метрик, как точность, полнота, F1-мера и средняя точность (mAP). Наши результаты показывают, что YOLOv11 демонстрирует высокую производительность в построчной сегментации с показателями 60,4% mAP@50 и 38,3% mAP@50–95, сохраняя при этом надежную точность классификации по пяти предопределенным категориям высоты. Модель эффективно справляется с окклюзиями, сложными формами зданий и дисбалансом классов, особенно для редко встречающихся высотных сооружений. Сравнительный анализ подтверждает, что YOLOv11 превосходит более ранние многозадачные框架 как по точности детектирования, так и по скорости вывода, что делает её хорошо подходящей для задач крупномасштабного городского картографирования в реальном времени. Данное исследование подчеркивает потенциал YOLOv11 для развития семантической реконструкции городской среды за счет упрощенного категориального моделирования высоты, предлагая практические insights для будущих разработок в области дистанционного зондирования и геопространственной аналитики.
Информация, связанная со здоровьем, часто содержит ложные сведения, которые широко распространены и потенциально опасны. Их сложно идентифицировать, особенно когда утверждения искажают или неверно интерпретируют научные данные. Мы исследуем влияние методов генерации синтетических данных и легкой тонкой настройки на способность больших языковых моделей (LLM) распознавать ошибочные аргументы с использованием набора данных MISSCI и соответствующего фреймворка. В данной работе представлен MisSynth — конвейер, применяющий генерацию с усилением выборкой (RAG) для создания синтетических примеров логических ошибок, которые затем используются для тонкой настройки LLM. Наши результаты демонстрируют существенное повышение точности у донастроенных моделей по сравнению с базовыми версиями. Например, донастроенная модель LLaMA 3.1 8B показала абсолютное улучшение F1-меры более чем на 35% на тестовой выборке MISSCI относительно базовой версии. Мы показываем, что введение синтетических данных об ошибках для расширения ограниченных размеченных ресурсов может значительно улучшить zero-shot классификационную производительность LLM в задачах выявления реальной научной дезинформации, даже при ограниченных вычислительных ресурсах. Код и синтетический набор данных доступны по адресу https://github.com/mxpoliakov/MisSynth.
Модели преобразования текста в изображение (T2I) все чаще используются для генерации синтетических наборов данных, однако создание эффективных синтетических обучающих данных для классификации остается сложной задачей. Дообучение T2I-модели на небольшом количестве реальных примеров может помочь повысить качество синтетических обучающих данных, но также может привести к переобучению и снижению разнообразия генерируемых образцов. Мы предлагаем стратегию дообучения BOB (BeyondOBjects) для решения этих проблем в задачах детальной классификации. Имея небольшой набор реальных примеров, мы сначала извлекаем атрибуты, не зависящие от класса (такие как фон сцены и поза объекта). Затем мы явно учитываем эти атрибуты в процессе дообучения T2I-модели и маргинализуем их в процессе генерации. Такой подход снижает риск переобучения, сохраняет генеративные априорные знания модели, уменьшает ошибки оценки и дополнительно минимизирует непреднамеренные междклассовые ассоциации. Многочисленные эксперименты с различными T2I-моделями, базовыми архитектурами и наборами данных показывают, что наш метод достигает наилучших результатов в задачах детальной классификации с малым количеством примеров при использовании синтетических данных для аугментации. В частности, BOB превосходит DataDream на 7.4% на наборе данных Aircraft (увеличивая точность с 50.0% до 57.4% при дообучении классификатора CLIP на пяти реальных изображениях, аугментированных 100 синтетическими). В трех из четырех тестовых наборов дообучение нижестоящих моделей на 5 реальных изображениях, аугментированных с помощью BOB, дает лучшие результаты, чем дообучение на 10 реальных изображениях. В совокупности BOB превосходит предыдущие методы в 18 из 24 экспериментальных условий, причем в 14 из этих случаев улучшение точности составляет 2% и более.
Карточные игры широко используются для изучения последовательного принятия решений в условиях неопределенности, имея аналоги в реальном мире в сферах переговоров, финансов и кибербезопасности. Эти игры, как правило, делятся на три категории в зависимости от потока управления: строго последовательные (игроки поочередно выполняют одиночные действия), детерминированного ответа (некоторые действия вызывают фиксированный исход) и неограниченного взаимного ответа (допускаются поочередные контрдействия). Менее изученной, но стратегически богатой структурой является ограниченный односторонний ответ, когда действие игрока ненадолго передает управление оппоненту, который должен выполнить фиксированное условие одним или несколькими ходами до разрешения хода. Мы называем игры, обладающие этим механизмом, играми с ограниченным односторонним ответом (ОООИ). Мы представляем модифицированную версию Monopoly Deal в качестве эталонной среды, которая изолирует эту динамику, где действие "Арендная плата" вынуждает оппонента выбирать активы для оплаты. Золотой стандарт среди алгоритмов — минимизация контрфактического сожаления (CFR) — сходится к эффективным стратегиям без новых алгоритмических расширений. Облегченная полнофункциональная исследовательская платформа объединяет среду, параллелизованную среду выполнения CFR и веб-интерфейс, доступный для игры человеком. Обученный агент CFR и исходный код доступны по адресу https://monopolydeal.ai.