Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Being-H0.5 — базовую модель «Зрение-Язык-Действие» (Vision-Language-Action, VLA), разработанную для надежной кросс-эмбодиментной обобщаемости на разнообразных роботизированных платформах. В то время как существующие VLA-модели часто сталкиваются с проблемами морфологической неоднородности и нехватки данных, мы предлагаем ориентированную на человека парадигму обучения, которая рассматривает траектории человеческого взаимодействия как универсальный «родной язык» физического взаимодействия. Для поддержки этого подхода мы представляем UniHand-2.0 — крупнейший на сегодняшний день рецепт эмбодированного предварительного обучения, содержащий более 35 000 часов мультимодальных данных для 30 различных роботизированных воплощений. Наш метод вводит Унифицированное Пространство Действий, которое отображает гетерогенные управления роботами в семантически выровненные слоты, позволяя маломощным роботам заимствовать навыки из человеческих данных и высокопроизводительных платформ. Построенная на этой человеко-ориентированной основе, мы разрабатываем унифицированную парадигму последовательного моделирования и многозадачного предварительного обучения для соединения человеческих демонстраций и роботизированного исполнения. Архитектурно Being-H0.5 использует дизайн Mixture-of-Transformers с новой структурой Mixture-of-Flow (MoF) для разделения общих моторных примитивов и специализированных экспертов, специфичных для воплощения. Наконец, для обеспечения стабильности кросс-эмбодиментных политик в реальном мире мы вводим Manifold-Preserving Gating для устойчивости к сенсорным сдвигам и Universal Async Chunking для универсализации чанкованного управления across воплощений с различной задержкой и профилями управления. Экспериментально мы демонстрируем, что Being-H0.5 достигает state-of-the-art результатов на симуляционных benchmarks, таких как LIBERO (98.9%) и RoboCasa (53.9%), а также проявляет сильные кросс-эмбодиментные способности на пяти роботизированных платформах.
Разрешение проблем, сложная задача в области программной инженерии, неотъемлемая от реальной разработки, стала важным вызовом для искусственного интеллекта. Создание бенчмарков, таких как SWE-bench, показало, что эта задача является чрезвычайно сложной для больших языковых моделей, что, в свою очередь, значительно ускорило развитие автономных агентов программирования. В данной статье представлен систематический обзор этой формирующейся области. Мы начинаем с изучения конвейеров построения данных, охватывающих подходы к автоматизированному сбору и синтезу. Затем мы проводим всесторонний анализ методологий, от беспоисковых фреймворков с их модульными компонентами до методов, основанных на обучении, включая контролируемую тонкую настройку и обучение с подкреплением. Впоследствии мы обсуждаем критический анализ качества данных и поведения агентов, а также практические приложения. Наконец, мы определяем ключевые проблемы и намечаем перспективные направления для будущих исследований. Открытый репозиторий поддерживается по адресу https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution и служит динамическим ресурсом в данной области.
В последние годы наблюдается растущий интерес к расширению возможностей больших языковых моделей в сторону создания агентных систем. Хотя эффективность агентов продолжает повышаться, их производительность — ключевой фактор для реального развертывания — часто остается без должного внимания. В данной статье мы исследуем производительность с точки зрения трех основных компонентов агентов: памяти, обучения работе с инструментами и планирования, учитывая такие затраты, как задержка, количество токенов, шаги выполнения и т.д. Стремясь провести всестороннее исследование, посвященное производительности самой агентной системы, мы рассматриваем широкий спектр современных подходов, которые различаются в реализации, но часто сходятся на общих принципах высокого уровня, включая, но не ограничиваясь: ограничение контекста за счет сжатия и управления, проектирование вознаграждений в обучении с подкреплением для минимизации вызовов инструментов и использование контролируемых механизмов поиска для повышения эффективности, что мы подробно обсуждаем. Соответственно, мы характеризуем производительность двумя взаимодополняющими способами: сравнение эффективности при фиксированном бюджете затрат и сравнение затрат при сопоставимом уровне эффективности. Этот компромисс также можно рассматривать через призму границы Парето между эффективностью и затратами. С этой точки зрения мы также анализируем ориентированные на производительность бенчмарки, обобщая протоколы оценки для этих компонентов и консолидируя часто используемые метрики производительности как из бенчмарков, так и из методических исследований. Кроме того, мы обсуждаем ключевые проблемы и перспективные направления, с целью предоставить полезные инсайты.
Понимание и рассуждение о физическом мире требуют пространственного интеллекта: способности интерпретировать геометрию, перспективу и пространственные отношения, выходящие за рамки 2D-восприятия. Хотя современные большие языково-визуальные модели (BJVM) преуспели в визуальном понимании, они остаются по своей сути 2D-наблюдателями и испытывают трудности с подлинным 3D-мышлением. Мы представляем Think3D — фреймворк, который позволяет агентам на основе BJVM мыслить в терминах 3D-пространства. Используя модели 3D-реконструкции, восстанавливающие облака точек и позы камер из изображений или видео, Think3D позволяет агенту активно манипулировать пространством с помощью операций на основе камеры и переключения между эгоцентрическим и глобальным видом, преобразуя пространственные рассуждения в интерактивный процесс 3D-цепочек мыслей. Без дополнительного обучения Think3D значительно улучшает производительность пространственных рассуждений передовых моделей, таких как GPT-4.1 и Gemini 2.5 Pro, обеспечивая средний прирост +7,8% на BLINK Multi-view и MindCube и +4,7% на VSI-Bench. Мы также показываем, что меньшие модели, которые испытывают трудности с пространственным исследованием, значительно выигрывают от политики обучения с подкреплением, позволяющей модели выбирать информативные точки обзора и операции. С применением RL польза от использования инструментов возрастает с +0,7% до +6,8%. Наши результаты демонстрируют, что не требующее обучения, инструментально-расширенное пространственное исследование является жизнеспособным путем к более гибкому и человеко-подобному 3D-мышлению в мультимодальных агентах, устанавливая новое измерение мультимодального интеллекта. Код и веса опубликованы по адресу https://github.com/zhangzaibin/spagent.
Механистическая интерпретируемость (МИ) стала важным подходом для раскрытия принципов работы «чёрного ящика» больших языковых моделей (БЯМ). Однако существующие обзоры в основном рассматривают МИ как описательную науку, суммируя аналитические наблюдения, но не предлагая систематической основы для практического вмешательства. Чтобы заполнить этот пробел, мы представляем практический обзор, структурированный вокруг конвейера: «Локализация, Управление и Улучшение». Мы формально классифицируем методы локализации (диагностики) и управления (вмешательства) на основе конкретных интерпретируемых объектов, чтобы установить строгий протокол вмешательства. Кроме того, мы демонстрируем, как данный подход позволяет достичь ощутимого улучшения согласованности, возможностей и эффективности моделей, превращая МИ в действенную методологию для их оптимизации. Подборка статей по данной теме доступна по адресу https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Видео передают более богатую информацию, чем изображения или текст, фиксируя как пространственные, так и временные динамики. Однако большинство существующих методов настройки видео полагаются на эталонные изображения или специфические временные априорные данные, не позволяя в полной мере использовать присущее видео богатое пространственно-временное информационное содержание, что ограничивает гибкость и обобщающую способность генерации видео. Для преодоления этих ограничений мы предлагаем OmniTransfer — унифицированную структуру для пространственно-временного переноса в видео. Она использует многовидовую информацию между кадрами для повышения согласованности внешнего вида и задействует временные сигналы для обеспечения детального временного контроля. Для унификации различных задач видеопереноса OmniTransfer включает три ключевых компонента: Позиционное смещение с учетом задачи, которое адаптивно использует информацию эталонного видео для улучшения временного выравнивания или согласованности внешнего вида; Разделенное причинно-следственное обучение, разъединяющее эталонную и целевую ветви для точного переноса эталона при повышении эффективности; и Адаптивное мультимодальное согласование, использующее мультимодальные семантические ориентиры для динамического различения и решения различных задач. Многочисленные эксперименты показывают, что OmniTransfer превосходит существующие методы в задачах переноса внешнего вида (ID и стиля) и временного переноса (движение камеры и видеоэффекты), одновременно достигая результатов методов, управляемых позой, в переносе движения без использования данных о позе, устанавливая новую парадигму для гибкой генерации видео с высокой точностью.
Хотя мультимодальные большие языковые модели (МБЯМ) демонстрируют сильное омни-модальное восприятие, их способность прогнозировать будущие события на основе аудиовизуальных сигналов остается в значительной степени неисследованной, поскольку существующие бенчмарки в основном сосредоточены на ретроспективном понимании. Чтобы заполнить этот пробел, мы представляем FutureOmni — первый бенчмарк, предназначенный для оценки омни-модального прогнозирования будущего из аудиовизуального контекста. От оцениваемых моделей требуется выполнение кросс-модальных причинно-следственных и временных рассуждений, а также эффективное использование внутренних знаний для предсказания будущих событий. FutureOmni создан с помощью масштабируемого конвейера с участием человека в цикле и ассистированием со стороны БЯМ и содержит 919 видео и 1034 пары «вопрос-ответ» с множественным выбором, охватывающих 8 основных доменов. Оценка 13 омни-модальных и 7 видео-ориентированных моделей показывает, что современные системы испытывают трудности с аудиовизуальным прогнозированием будущего, особенно в сценариях с преобладанием речи, при этом лучшая точность в 64,8% достигнута моделью Gemini 3 Flash. Чтобы устранить это ограничение, мы создали набор данных для инструктивного тонкого настроения объемом 7 тыс. примеров и предлагаем стратегию обучения под названием Omni-Modal Future Forecasting (OFF). Оценки на FutureOmni и популярных аудиовизуальных и видео-ориентированных бенчмарках демонстрируют, что OFF улучшает прогнозирование будущего и обобщающую способность. Мы публично выпускаем весь код (https://github.com/OpenMOSS/FutureOmni) и наборы данных (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
Современные исследования все чаще используют механизмы с фокусом на управлении памятью для обработки длинных контекстов сегментным способом, при этом эффективное управление памятью является ключевой способностью, позволяющей большим языковым моделям успешно распространять информацию по всей последовательности. В связи с этим критически важной задачей становится использование ревард-моделей (RM) для автоматической и надежной оценки качества работы с памятью. В данной работе мы представляем MemoryRewardBench — первый бенчмарк для систематического изучения способности RM оценивать процессы управления долговременной памятью. MemoryRewardBench охватывает как задачи понимания длинных контекстов, так и задачи длинного генеративного формата, включая 10 различных сценариев с разными паттернами управления памятью и длиной контекста от 8K до 128K токенов. Оценка 13 передовых RM показывает сокращающийся разрыв в производительности между открытыми и проприетарными моделями, при этом модели нового поколения стабильно превосходят своих предшественников независимо от количества параметров. Мы также выявляем возможности и фундаментальные ограничения современных RM при оценке управления памятью в LLM в разнообразных условиях.
Мы представляем LightOnOCR-2-1B — эндо-энд модель для обработки визуальной и языковой информации с 1 миллиардом параметров, которая преобразует изображения документов (например, PDF) в чистый, естественно упорядоченный текст без использования хрупких OCR-конвейеров. Обученная на крупномасштабной, высококачественной дистилляционной смеси с широким охватом сканов, французских документов и научных PDF-файлов, модель LightOnOCR-2 достигает наилучших результатов на тестовом наборе OlmOCR-Bench, будучи при этом в 9 раз меньше и значительно быстрее предыдущих наиболее производительных моделей. Мы также расширяем формат вывода для прогнозирования нормализованных ограничивающих рамок для встроенных изображений, вводя локализацию на этапе предварительного обучения с помощью стратегии возобновления и дорабатывая её с помощью RLVR на основе вознаграждений, вычисляемых по метрике IoU. Наконец, мы повышаем устойчивость модели за счёт усреднения контрольных точек и слияния с помощью task arithmetic. Мы публикуем контрольные точки модели под лицензией Apache 2.0, а также открыто выпускаем набор данных и оценочный тест LightOnOCR-bbox-bench под соответствующими лицензиями.
Достижение человеческого уровня в навигации на основе зрения и языка (VLN) требует от воплощенного агента способности совместно понимать мультимодальные инструкции и визуально-пространственный контекст, одновременно рассуждая над длинными последовательностями действий. Недавние работы, такие как NavCoT и NavGPT-2, демонстрируют потенциал рассуждений по цепочке мыслей (CoT) для повышения интерпретируемости и планирования на длительных горизонтах. Более того, мультимодальные расширения, подобные OctoNav-R1 и CoT-VLA, дополнительно подтверждают, что CoT является перспективным путем к достижению человеко-подобного навигационного мышления. Однако существующие подходы имеют серьезные недостатки: чисто текстовые CoT лишены пространственной привязки и легко переобучаются на разреженные аннотированные шаги рассуждений, в то время как мультимодальные CoT приводят к значительной инфляции токенов из-за генерации воображаемых визуальных наблюдений, что делает навигацию в реальном времени непрактичной. В данной работе мы предлагаем FantasyVLN — унифицированную систему неявных рассуждений, которая сохраняет преимущества CoT без явных затрат на токены. В частности, воображаемые визуальные токены кодируются в компактное латентное пространство с помощью предварительно обученного визуального авторегрессора (VAR) в процессе обучения CoT-рассуждениям, а модель обучается совместно на текстовых, визуальных и мультимодальных режимах CoT в рамках единой стратегии multi-CoT. На этапе вывода наша модель выполняет прямое отображение "инструкция-действие", сохраняя при этом репрезентации, обогащенные рассуждениями. Экстенсивные эксперименты на LH-VLN показывают, что наш подход обеспечивает осознанную рассуждениями, но при этом работающую в реальном времени навигацию, повышая процент успеха и эффективность, одновременно сокращая задержку вывода на порядок по сравнению с методами, использующими явные CoT.
Недавно появился мощный парадигматический подход — агентный поиск, в котором агент чередует многошаговые рассуждения с поиском по требованию для решения сложных вопросов. Несмотря на успехи, вопрос о том, как разрабатывать системы поиска для агентного поиска, остается малоизученным. Существующие поисковые агенты обычно полагаются на поисковые системы, основанные на схожести, однако похожие фрагменты текстов не всегда полезны для генерации окончательного ответа. В данной статье мы предлагаем новую систему обучения поисковых систем, адаптированную специально для агентного поиска. В отличие от поисковых систем, разработанных для однократного поиска с усиленной генерацией (RAG), которые опираются только на локальную полезность фрагмента, мы предлагаем использовать как локальную релевантность запроса и фрагмента, так и глобальную корректность ответа для оценки полезности фрагмента в многошаговом агентном поиске. Мы также представляем итеративную стратегию обучения, в которой поисковый агент и поисковая система оптимизируются двунаправленно и итеративно. В отличие от поисковых систем RAG, которые обучаются однократно на фиксированных вопросах, наша поисковая система постоянно совершенствуется с использованием развивающихся и более качественных запросов от агента. Многочисленные эксперименты на семи эталонных тестах QA с одно- и многоуровневыми вопросами демонстрируют, что наша поисковая система, названная , стабильно превосходит сильные базовые модели в различных поисковых агентах. Наш код доступен по адресу: https://github.com/8421BCD/Agentic-R.
Несмотря на недавний прогресс, медицинские базовые модели по-прежнему испытывают трудности с объединением визуального понимания и генерации, поскольку эти задачи имеют принципиально противоречивые цели: семантическую абстракцию против пиксельной реконструкции. Существующие подходы, обычно основанные на авторегрессионных архитектурах с общими параметрами, часто приводят к компромиссной производительности в одной или обеих задачах. Для решения этой проблемы мы представляем UniX — базовую модель нового поколения для анализа и генерации рентгеновских снимков грудной клетки. UniX разделяет две задачи на авторегрессионное ответвление для анализа и диффузионное ответвление для высококачественной генерации. Ключевым моментом является введение механизма кросс-модального self-attention для динамического управления процессом генерации с помощью признаков понимания. В сочетании с тщательным пайплайном очистки данных и многоэтапной стратегией обучения эта архитектура позволяет обеспечить синергетическое взаимодействие между задачами, одновременно используя преимущества диффузионных моделей для превосходной генерации. На двух репрезентативных бенчмарках UniX демонстрирует улучшение производительности анализа (Micro-F1) на 46,1% и повышение качества генерации (FD-RadDino) на 24,2%, используя лишь четверть параметров модели LLM-CXR. Достигая производительности на уровне специализированных моделей, наша работа устанавливает масштабируемую парадигму для синергетического анализа и генерации медицинских изображений. Код и модели доступны по адресу https://github.com/ZrH42/UniX.
Методы поиска с управлением через вознаграждение продемонстрировали значительный потенциал в улучшении агентов, использующих инструменты, за счет эффективного управления семплированием и исследованием в сложных пространствах действий. В качестве ключевого элемента эти методы используют модели пошагового вознаграждения (Process Reward Models, PRM) для предоставления вознаграждений на уровне шагов, что позволяет осуществлять более детальный мониторинг. Однако для PRM в условиях использования инструментов отсутствуют систематические и надежные бенчмарки для оценки. В данной статье мы представляем ToolPRMBench — крупномасштабный бенчмарк, специально разработанный для оценки PRM для агентов, использующих инструменты. ToolPRMBench построен на основе нескольких репрезентативных бенчмарков по использованию инструментов и преобразует траектории агентов в пошаговые тестовые случаи. Каждый случай содержит историю взаимодействия, правильное действие, правдоподобное, но неверное альтернативное действие и соответствующие метаданные инструментов. Мы используем оффлайн-семплирование для изоляции локальных ошибок на одном шаге и онлайн-семплирование для фиксации реалистичных многошаговых сбоев из полных прогонов агентов. Предложен конвейер верификации с использованием нескольких больших языковых моделей (LLM) для снижения шума в разметке и обеспечения качества данных. Мы проводим обширные эксперименты на ToolPRMBench с большими языковыми моделями, универсальными PRM и специализированными для инструментов PRM. Результаты выявляют четкие различия в эффективности PRM и подчеркивают потенциал специализированных PRM для работы с инструментами. Код и данные будут доступны по адресу https://github.com/David-Li0406/ToolPRMBench.
Современные крупные языковые модели (LLM) демонстрируют критический модальный разрыв: они обладают обширными семантическими знаниями, но лишены процедурной заземленности для соблюдения незыблемых законов физического мира. Как следствие, хотя эти агенты неявно функционируют как модели мира, их симуляции часто страдают от физических галлюцинаций — генерации планов, которые логически состоятельны, но физически невыполнимы. Существующие стратегии согласования в основном опираются на ресурсоемкое обучение или дообучение, пытаясь сжать динамические правила среды в статические параметры модели. Однако такая параметрическая инкапсуляция по своей природе ригидна и с трудом адаптируется к открытой вариативности физической динамики без непрерывного дорогостоящего переобучения. Для преодоления этого разрыва мы представляем WorldMind — фреймворк, который автономно строит символический Репозиторий знаний о мире, синтезируя обратную связь от среды. В частности, он унифицирует Процессуальный опыт для обеспечения физической осуществимости через ошибки предсказания и Целевой опыт для руководства оптимальностью задач через успешные траектории. Эксперименты на EB-ALFRED и EB-Habitat демонстрируют, что WorldMind достигает превосходной производительности по сравнению с базовыми методами, обладая при этом замечательной межмодельной и межсредовой переносимостью.
Самоигра с использованием больших языковых моделей стала перспективной парадигмой для создания самосовершенствующегося искусственного интеллекта. Однако существующие фреймворки самоигры часто страдают от нестабильности оптимизации из-за (i) нестационарных целей, вызванных зависимой от решателя обратной связью в виде вознаграждения для Задающего вопросы, и (ii) ошибок бутстрэппинга, возникающих из-за самостоятельно сгенерированных псевдометок, используемых для обучения Решателя. Для смягчения этих проблем мы представляем DARC (Decoupled Asymmetric Reasoning Curriculum — декомпозированный асимметричный учебный план для рассуждений) — двухэтапный фреймворк, стабилизирующий процесс саморазвития. Сначала мы обучаем Задающего вопросы синтезировать вопросы, калиброванные по сложности, с учетом явных уровней сложности и внешних корпусов. Затем мы обучаем Решателя с помощью механизма асимметричной самодистилляции, при котором учитель, усиленный документами, генерирует высококачественные псевдометки для обучения студента-Решателя, не имеющего доступа к документам. Экспериментальные результаты показывают, что DARC является модельно-агностичным, обеспечивая среднее улучшение на 10.9 пунктов по девяти тестам на рассуждения и трем базовым моделям. Более того, DARC стабильно превосходит все базовые методы и приближается к производительности полностью обученных с учителем моделей, не используя человеческие аннотации. Код доступен по адресу https://github.com/RUCBM/DARC.
Промышленные системы больших языковых моделей (LLM) часто используют отдельные модели для обеспечения безопасности и других задач, требующих интенсивной классификации, что увеличивает задержку, объем видеопамяти (VRAM) и операционную сложность. Мы предлагаем альтернативный подход: повторно использовать вычисления, уже выполненные обслуживающей LLM. Для этого мы обучаем легковесные "зонды" на ее скрытых состояниях и предсказываем метки в рамках того же прямого прохода, который используется для генерации. Мы формулируем задачу классификации как проблему выбора репрезентации из полного тензора скрытых состояний (токен-слой), вместо того чтобы фиксировать конкретный токен или слой (например, логиты первого токена или пулинг последнего слоя). Для реализации этого подхода мы представляем двухуровневый агрегатор, который (i) агрегирует информацию по токенам внутри каждого слоя и (ii) агрегирует полученные сводки по слоям, формируя единое представление для классификации. Мы реализуем этот шаблон с помощью прямого пулинга, 100-тысячного параметрического механизма взвешенного внимания (scoring-attention gate) и зонда на основе понижающей версии много-голового самовнимания (MHA) с числом обучаемых параметров до 35 миллионов. На наборах данных по безопасности и сентимент-анализу наши зонды превосходят подходы, повторно использующие только логиты (например, MULI), и конкурируют со значительно более крупными специализированными моделями, при этом сохраняя задержку, близкую к исходной при обслуживании, и избегая затрат на VRAM и задержку, связанных с использованием отдельного конвейера моделей-фильтров.
Объяснения на основе концепций количественно оценивают влияние высокоуровневых понятий (например, пола или опыта) на поведение модели, что крайне важно для лиц, принимающих решения в областях с высокими ставками. В последних работах достоверность таких объяснений оценивается путем их сравнения с референсными причинно-следственными эффектами, оцененными на основе контрфактических данных. На практике существующие бенчмарки полагаются на дорогостоящие контрфактические примеры, написанные человеком, которые служат несовершенным прокси. Чтобы решить эту проблему, мы представляем фреймворк для создания наборов данных, содержащих структурные контрфактические пары: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy основан на явно определенных Структурных Причинно-Следственных Моделях (СПСМ) генерации текста: вмешательства в концепцию распространяются через СПСМ до тех пор, пока языковая модель не сгенерирует контрфактическое высказывание. Мы представляем три набора данных (выявление заболеваний, скрининг резюме и прогнозирование насилия на рабочем месте) вместе с новой метрикой оценки — порядковой достоверностью (order-faithfulness). Используя их, мы оцениваем широкий спектр методов на пяти моделях и выявляем значительный потенциал для улучшения объяснений на основе концепций. LIBERTy также позволяет проводить систематический анализ чувствительности моделей к вмешательствам: мы обнаружили, что проприетарные языковые модели демонстрируют заметно сниженную чувствительность к демографическим концепциям, вероятно, из-за пост-тренировочной коррекции. В целом, LIBERTy предоставляет столь необходимый бенчмарк для разработки достоверных методов объясняемости.
Пиксельные агенты обучения с подкреплением часто демонстрируют сбои при чисто визуальном сдвиге распределения, даже когда латентная динамика и функция вознаграждения остаются неизменными. Однако существующие бенчмарки смешивают несколько источников сдвига, что затрудняет систематический анализ. Мы представляем KAGE-Env — платформер на JAX, который факторизует процесс наблюдения в независимо управляемые визуальные оси при фиксированной базовой задаче управления. По построению, изменение визуальной оси влияет на производительность только через индуцированное условно-стационарное распределение действий пиксельной политики, обеспечивая чёткую абстракцию для исследования визуальной обобщающей способности. На основе этой среды мы определяем KAGE-Bench — бенчмарк из шести наборов с известными осями, включающий 34 пары конфигураций "обучение-оценка", которые изолируют отдельные визуальные сдвиги. Используя стандартный базовый алгоритм PPO-CNN, мы наблюдаем выраженные сбои, зависящие от оси: сдвиги фона и фотометрические параметры часто приводят к полному провалу, тогда как изменения внешнего вида агента оказываются сравнительно безопасными. Некоторые сдвиги сохраняют поступательное движение, но нарушают выполнение задачи, демонстрируя, что одна лишь совокупная награда может маскировать failures обобщения. Наконец, полностью векторизованная реализация на JAX позволяет достигать до 33 миллионов шагов среды в секунду на одном GPU, обеспечивая быстрое и воспроизводимое исследование визуальных факторов. Код: https://avanturist322.github.io/KAGEBench/.
Длинные цепочки рассуждений (CoT) предоставляют богатые сигналы обучения для дистилляции логического вывода от учителя к студенческим большим языковым моделям (LLM). Однако как предыдущие работы, так и наши эксперименты показывают, что траектории от более сильных учителей не обязательно приводят к лучшим студенческим моделям, что подчеркивает важность соответствия данных и студенческой модели при дистилляции. Существующие методы оценивают это соответствие в основном через правдоподобие студенческой модели, отдавая предпочтение траекториям, которые тесно согласуются с текущим поведением модели, но упуская из виду более информативные траектории. Для решения этой проблемы мы предлагаем **Rank-Surprisal Ratio (RSR)** — простой метрику, которая учитывает как соответствие, так и информативность для оценки пригодности траектории рассуждений. RSR мотивирован наблюдением, что эффективные траектории обычно сочетают низкую абсолютную вероятность с относительно высоким рангом токенов в студенческой модели, балансируя между силой обучающего сигнала и соответствием поведению. Конкретно, RSR определяется как отношение среднего покомпонентного ранга траектории к её среднему отрицательному логарифмическому правдоподобию, и его вычисление и интерпретация straightforward. На пяти студенческих моделях и траекториях рассуждений от 11 разнообразных учителей RSR демонстрирует сильную корреляцию с итоговой производительностью (средний коэффициент Спирмена 0.86), превосходя существующие метрики. Мы также демонстрируем его практическую полезность как для отбора траекторий, так и для выбора учителя.
Распознавание фонем (PR) служит атомарным интерфейсом для языково-независимого моделирования в кросс-лингвистической обработке речи и фонетическом анализе. Несмотря на длительные усилия по разработке систем PR, современные методы оценки измеряют лишь поверхностную точность транскрипции. Мы представляем PRiSM — первый открытый бенчмарк, предназначенный для выявления слепых зон в фонетическом восприятии посредством внутренней и внешней оценки систем PR. PRiSM стандартизирует оценку на основе транскрипции и проверяет практическую полезность систем в клинических, образовательных и мультиязычных сценариях с помощью проб на транскрипцию и репрезентативность. Мы обнаружили, что разнообразие языков в обучающих данных является ключевым фактором производительности PR, модели типа encoder-CTC демонстрируют наибольшую стабильность, а специализированные модели PR по-прежнему превосходят большие аудио-языковые модели. PRiSM предоставляет код, методики и наборы данных для продвижения области в сторону создания мультиязычных речевых моделей с устойчивой фонетической способностью: https://github.com/changelinglab/prism.
Поведенческое обучение с подкреплением (Reinforcement Learning, RL), основанное на результате-вознаграждении, доказало свою эффективность в улучшении способностей к рассуждению у больших языковых моделей (LLM). Однако стандартный RL присваивает кредит только на уровне окончательного ответа: наказывает все цепочки рассуждений, если итог неверен, и равномерно усиливает все шаги, если он корректен. В результате правильные промежуточные шаги в неудачных траекториях могут быть подавлены, а ошибочные шаги в успешных траекториях — усилены. Мы называем этот недостаток проблемой распределения заслуг (credit assignment). Естественным решением было бы обучение модели вознаграждения за процесс, однако точная оптимизация таких моделей для идентификации корректирующих шагов рассуждения остается сложной задачей. Мы представляем Интервенционное обучение (Intervention Training, InT) — парадигму обучения, в рамках которой модель выполняет детализированное распределение заслуг для собственных траекторий рассуждений, предлагая краткие, целевые корректировки, которые направляют траекторию к более высокому вознаграждению. Используя эталонные решения, обычно доступные в наборах данных для математических рассуждений, и тот факт, что проверить сгенерированное моделью решение проще, чем сгенерировать корректное с нуля, модель идентифицирует первую ошибку в своих рассуждениях и предлагает одношаговую интервенцию, чтобы перенаправить траекторию к верному решению. Затем мы применяем контролируемое тонкое настройку (Supervised Fine-Tuning, SFT) к он-политичной траектории вплоть до точки ошибки, объединенной с интервенцией, локализуя ошибку на конкретном шаге, вызвавшем сбой. Мы показываем, что полученная модель служит гораздо лучшей инициализацией для RL-обучения. После проведения InT и последующей тонкой настройки с помощью RL мы улучшаем точность почти на 14% по сравнению с базовой моделью на 4 миллиарда параметров на IMO-AnswerBench, превосходя более крупные открытые модели, такие как gpt-oss-20b.
Мы представляем гибридную методологию для генерации масштабных наборов данных семантических отношений в языках с ограниченными ресурсами, демонстрируя её на примере создания всеобъемлющего корпуса семантических отношений для турецкого языка. Наш подход интегрирует три этапа: (1) использование эмбеддингов FastText с агломеративной кластеризацией для выявления семантических кластеров, (2) применение модели Gemini 2.5-Flash для автоматической классификации семантических отношений и (3) интеграция с курируемыми словарными источниками. Полученный набор данных включает 843 000 уникальных семантических пар турецкого языка по трём типам отношений (синонимы, антонимы, ко-гипонимы), что представляет собой 10-кратное увеличение масштаба по сравнению с существующими ресурсами при минимальной стоимости ($65). Мы валидируем набор данных с помощью двух прикладных задач: модель эмбеддингов демонстрирует точность top-1 извлечения 90%, а классификационная модель достигает 90% по метрике F1-макро. Наш масштабируемый протокол решает проблему критической нехватки данных для турецкого NLP и демонстрирует применимость к другим языкам с ограниченными ресурсами. Мы публично выпускаем набор данных и модели.
Нейронные эмбеддинги имеют известный слепой участок: они не могут надежно отличать синонимы от антонимов. Как следствие, повышение порогов схожести часто не предотвращает объединение противоположностей в одну группу. Мы создали крупномасштабную систему семантической кластеризации, специально разработанную для решения этой проблемы. Наш конвейер обрабатывает 15 миллионов лексических единиц, оценивает колоссальные 520 миллионов потенциальных отношений и в конечном итоге генерирует 2,9 миллиона высокоточных семантических кластеров. Система вносит три основных вклада. Во-первых, мы представляем размеченный набор данных из 843 000 пар концепций, охватывающих синонимию, антонимию и ко-гипонимию, созданный с помощью аугментации на основе LLM Gemini 2.5-Flash и проверенный с использованием курируемых человеком словарных ресурсов. Во-вторых, мы предлагаем специализированный дискриминатор трехсторонних семантических отношений, который достигает макро-F1 90%, обеспечивая надежное разрешение неоднозначности за пределами простой схожести эмбеддингов. В-третьих, мы представляем новый алгоритм мягко-жесткой кластеризации, который смягчает семантический дрейф, предотвращая ошибочные транзитивные цепочки (например, горячий -> острый -> боль -> депрессия), и одновременно разрешает полисемию. Наш подход использует топологически-осознанную двухэтапную процедуру расширения-обрезки с топологическим голосованием, гарантируя, что каждый термин назначается ровно одному семантически связному кластеру. Полученный ресурс обеспечивает высокоточный семантический поиск и генерацию с усилением за счет извлечения информации, особенно для морфологически богатых и малоресурсных языков, где существующие базы данных синонимов остаются скудными.
По мере того как большие языковые модели (БЯМ) обучаются на всё более непрозрачных корпусах, для проверки использования защищенных авторским правом текстов в процессе обучения были предложены атаки методом вывода членства (МВЧ), несмотря на растущие опасения относительно их надежности в реальных условиях. Мы исследуем, могут ли МВЧ служить допустимыми доказательствами в состязательных спорах об авторских правах, где обвиняемый разработчик модели может обфусцировать обучающие данные, сохраняя семантическое содержание, и формализуем эту ситуацию с помощью протокола взаимодействия судьи, обвинителя и обвиняемого. Для проверки устойчивости в рамках этого протокола мы представляем SAGE (Structure-Aware SAE-Guided Extraction) — фреймворк парафразирования на основе разреженных автокодировщиков (SAE), который переписывает обучающие данные, изменяя лексическую структуру при сохранении семантического содержания и практической полезности. Наши эксперименты показывают, что современные МВЧ теряют эффективность, когда модели дообучаются на парафразах, сгенерированных SAGE, что свидетельствует о неустойчивости их сигналов к семантически сохраняющим преобразованиям. Хотя в некоторых режимах дообучения сохраняется некоторая утечка, эти результаты указывают на хрупкость МВЧ в состязательных условиях и их недостаточность в качестве самостоятельного механизма аудита авторских прав для БЯМ.
Мы представляем SciCoQA — набор данных для выявления расхождений между научными публикациями и их кодобазами с целью обеспечения достоверности реализаций. Мы создали SciCoQA на основе вопросов (issues) из GitHub и статей о воспроизводимости результатов, а для масштабирования набора данных предложили метод синтетической генерации данных для создания расхождений между статьями и кодом. Мы детально анализируем эти расхождения, предлагая типы и категории несоответствий для лучшего понимания возникающих рассогласований. В общей сложности наш набор данных включает 611 случаев расхождений (81 реальный и 530 синтетических), охватывающих различные дисциплины вычислительной науки, включая ИИ, физику, количественную биологию и другие. Наша оценка 21 крупной языковой модели (LLM) демонстрирует сложность задач из SciCoQA, особенно для примеров, связанных с опущенными в статьях деталями, длинными контекстными входами и данными, отсутствующими в корпусе предварительного обучения моделей. Лучшая модель в нашем исследовании, GPT-5, способна обнаружить лишь 45,7% реальных расхождений между статьями и кодом.
Дифференциально-приватный стохастический градиентный спуск (DP-SGD) является доминирующей парадигмой для приватного обучения, однако его фундаментальные ограничения в рамках наихудших адверсарных определений приватности остаются слабо изученными. Мы анализируем DP-SGD в рамках f-дифференциальной приватности, которая характеризует приватность с помощью кривых компромисса между ошибками проверки гипотез, и исследуем перемешанную выборку за одну эпоху с M обновлениями градиента. Мы выводим явную субоптимальную верхнюю границу для достижимой кривой компромисса. Этот результат влечет геометрическую нижнюю границу для разделения κ, которое представляет собой максимальное расстояние между кривой компромисса механизма и идеальной линией случайного угадывания. Поскольку большое разделение подразумевает значительное адверсарное преимущество, содержательная приватность требует малого κ. Однако мы доказываем, что обеспечение малого разделения накладывает строгую нижнюю границу на множитель гауссовского шума σ, что напрямую ограничивает достижимую полезность. В частности, в рамках стандартной наихудшей адверсарной модели перемешанный DP-SGD должен удовлетворять условию σ ≥ 1/√(2 ln M) или κ ≥ 1/8 * (1 - 1/(4π ln M)), и, следовательно, не может одновременно достичь высокой приватности и высокой полезности. Хотя эта граница асимптотически стремится к нулю при M → ∞, сходимость является крайне медленной: даже для практически релевантного числа обновлений требуемая величина шума остается существенной. Мы также показываем, что то же ограничение распространяется на пуассоновское подвыборку с точностью до постоянных множителей. Наши эксперименты подтверждают, что уровни шума, подразумеваемые этой границей, приводят к значительной деградации точности в реалистичных настройках обучения, что демонстрирует критическое узкое место в DP-SDG при стандартных наихудших адверсарных предположениях.
Настройка на инструкциях является стандартной парадигмой для адаптации больших языковых моделей (LLM), однако современные наборы данных с инструкциями отличаются большим объемом, зашумленностью и избыточностью, что делает тонкую настройку на полных данных дорогостоящей и часто излишней. Существующие методы отбора данных либо строят дорогостоящие градиентные хранилища, либо присваивают статические оценки на основе слабого прокси-моделя, в значительной степени игнорируя изменяющуюся неопределенность и тем самым упуская ключевой источник интерпретируемости LLM. Мы предлагаем GRADFILTERING — агностичный к целевой задаче и учитывающий неопределенность фреймворк для отбора данных, который использует небольшую прокси-модель GPT-2 с ансамблем LoRA и агрегирует градиенты для каждого примера в показатель полезности — отношение градиентного сигнала к шуму (G-SNR). Наш метод соответствует или превосходит случайные подвыборки и сильные базовые методы в большинстве оценок по схеме «LLM-как-эксперт», а также при оценке человеком. Более того, подвыборки, отобранные с помощью GRADFILTERING, сходятся быстрее, чем подвыборки от конкурирующих фильтров при одинаковом вычислительном бюджете, что отражает преимущество оценки, учитывающей неопределенность.
Задача обнаружения изменений по данным дистанционного зондирования заключается в локализации и характеристике изменений на сцене между двумя моментами времени и является ключевой для таких приложений, как мониторинг окружающей среды и оценка последствий стихийных бедствий. В то же время визуальные авторегрессионные модели (VAR) недавно продемонстрировали впечатляющие возможности генерации изображений, но их применение для задач пиксельной дискриминации остается ограниченным из-за слабой управляемости, неоптимальной производительности при плотном прогнозировании и смещения воздействия. Мы представляем RemoteVAR — новую систему обнаружения изменений на основе VAR, которая устраняет эти ограничения за счет обусловливания авторегрессионного прогноза мультиразрешенными слиянными разновременными признаками с помощью перекрестного внимания, а также за счет использования стратегии авторегрессионного обучения, специально разработанной для прогнозирования карты изменений. Многочисленные эксперименты на стандартных бенчмарках обнаружения изменений показывают, что RemoteVAR обеспечивает стабильное и значительное улучшение по сравнению с сильными базовыми методами на основе диффузионных моделей и трансформеров, устанавливая конкурентоспособную авторегрессионную альтернативу для обнаружения изменений в дистанционном зондировании. Код будет доступен по адресу https://github.com/yilmazkorkmaz1/RemoteVAR.
Современные агенты на основе больших языковых моделей (LLM) стремятся автоматизировать задачи науки о данных — от анализа данных до глубокого обучения. Однако открытый характер реальных проблем в этой области, которые часто охватывают несколько таксономий и не имеют стандартных решений, создает серьезные трудности для оценки. Для решения этой проблемы мы представляем DSAEval — эталонный набор, включающий 641 реальную задачу из 285 разнообразных наборов данных, охватывающих как структурированные, так и неструктурированные данные (например, изображения и текст). DSAEval обладает тремя ключевыми особенностями: (1) мультимодальное восприятие среды, позволяющее агентам интерпретировать наблюдения из различных модальностей, включая текст и изображения; (2) многоэтапные интерактивные запросы, отражающие итеративную и кумулятивную природу реальных проектов по анализу данных; и (3) многомерная оценка, обеспечивающая комплексный анализ рассуждений, кода и результатов. Мы систематически оценили 11 продвинутых агентских LLM с помощью DSAEval. Результаты показывают, что Claude-Sonnet-4.5 демонстрирует наивысшую общую производительность, GPT-5.2 является наиболее эффективным по скорости, а MiMo-V2-Flash — наиболее экономичным. Кроме того, мы показываем, что мультимодальное восприятие consistently улучшает результаты при работе с задачами, связанными с изображениями, прирост составляет от 2,04% до 11,30%. В целом, хотя современные агенты успешно справляются со структурированными данными и рутинными рабочими процессами анализа, значительные трудности сохраняются при работе с неструктурированными доменами. В заключение мы предлагаем критические выводы и определяем перспективные направления для дальнейшего развития агентов в области науки о данных.
Многие студенты не имеют доступа к наставничеству со стороны экспертов-исследователей. Мы исследуем, может ли ИИ-наставник помочь студентам бакалавриата пройти путь от идеи до научной статьи. Мы создали METIS — инструментально расширенного, учитывающего этапы работы ассистента с функцией поиска литературы, курируемыми руководствами, проверкой методологии и памятью. Мы оцениваем METIS в сравнении с GPT-5 и Claude Sonnet 4.5 на шести этапах написания работы, используя попарные предпочтения LLM-судей, рубрики в персонах студентов, короткие многоходовые сеансы обучения, а также проверки доказательной базы и соответствия требованиям. На 90 одноходовых промптах LLM-судьи предпочли METIS модели Claude Sonnet 4.5 в 71% случаев, а GPT-5 — в 54%. Оценки студентов (по критериям ясности/действенности/соответствия ограничениям; 90 промптов × 3 судьи) оказались выше на всех этапах. В многоходовых сессиях (пять сценариев на агента) METIS демонстрирует несколько более высокое итоговое качество, чем GPT-5. Улучшения сконцентрированы на этапах, основанных на работе с документами (D-F), что согласуется с маршрутизацией, учитывающей этап, и использованием заземляющей информации. К типичным ошибкам относятся преждевременное задействование инструментов, поверхностное заземление и occasionalная ошибочная классификация этапа.
Лингвистические выражения эмоций, таких как депрессия, тревога и состояния, связанные с травмой, широко распространены в клинических записях, консультационных диалогах и онлайн-сообществах по психическому здоровью, а их точное распознавание крайне важно для клинического триажа, оценки рисков и своевременного вмешательства. Хотя большие языковые модели (БЯМ) продемонстрировали высокую способность к обобщению в задачах анализа эмоций, их диагностическая надежность в высокорисковых, контекстно-насыщенных медицинских условиях остается крайне чувствительной к дизайну промптов. Более того, существующие методы сталкиваются с двумя ключевыми проблемами: эмоциональной коморбидностью, когда множественные переплетенные эмоциональные состояния усложняют прогнозирование, и неэффективным исследованием клинически релевантных маркеров. Для решения этих проблем мы предлагаем APOLO (Automated Prompt Optimization for Linguistic Emotion Diagnosis) — фреймворк, который систематически исследует более широкое и детализированное пространство промптов для повышения диагностической эффективности и устойчивости. APOLO формулирует уточнение инструкций как частично наблюдаемый марковский процесс принятия решений и использует механизм многокомпонентного взаимодействия, включающего роли Планировщика, Учителя, Критика, Ученика и Цели. В рамках этой замкнутой системы Планировщик определяет траекторию оптимизации, в то время как агенты Учитель-Критик-Ученик итеративно уточняют промпты для повышения стабильности и эффективности рассуждений, а агент Цели определяет, следует ли продолжать оптимизацию на основе оценки производительности. Результаты экспериментов показывают, что APOLO последовательно повышает диагностическую точность и устойчивость на предметно-ориентированных и стратифицированных тестах, демонстрируя масштабируемую и обобщаемую парадигму для надежного применения БЯМ в сфере психического здоровья.
Активное обучение (АО) обладает потенциалом для значительного снижения затрат на разметку при сегментации 3D биомедицинских изображений, где экспертная аннотация объемных данных является как трудоемкой, так и дорогостоящей. Однако существующие методы АО не способны стабильно превосходить улучшенные базовые методы случайной выборки, адаптированные для 3D данных, что оставляет область без надежного решения. Мы представляем Class-stratified Scheduled Power Predictive Entropy (ClaSP PE) — простую и эффективную стратегию запросов, которая устраняет два ключевых ограничения стандартных методов АО, основанных на неопределенности: дисбаланс классов и избыточность на ранних этапах отбора. ClaSP PE объединяет стратифицированный по классам запрос для обеспечения покрытия слабо представленных структур и добавление шума к логарифмической степени с затухающим расписанием для обеспечения разнообразия запросов на ранней стадии АО и поощрения эксплуатации на поздних этапах. В нашей оценке в 24 экспериментальных условиях с использованием четырех наборов 3D биомедицинских данных в рамках комплексного бенчмарка nnActive, ClaSP PE является единственным методом, который стабильно превосходит улучшенные случайные базовые методы как по качеству сегментации со статистически значимым улучшением, так и по эффективности аннотирования. Кроме того, мы явно моделируем реальное применение, тестируя наш метод на четырех ранее не встречавшихся наборах данных без ручной адаптации, где все параметры эксперимента устанавливаются в соответствии с предопределенными руководствами. Результаты подтверждают, что ClaSP PE надежно обобщается на новые задачи без необходимости настройки под конкретный набор данных. В рамках инфраструктуры nnActive мы представляем убедительные доказательства того, что метод АО может стабильно превосходить адаптированные для 3D сегментации случайные базовые методы как по производительности, так и по эффективности аннотирования в реалистичном, близком к производственному сценарии. Наша открытая реализация и четкие руководства по развертыванию делают метод легко применимым на практике. Код доступен по адресу https://github.com/MIC-DKFZ/nnActive.