Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном техническом отчете мы представляем серию моделей Ring-linear, включая конкретно Ring-mini-linear-2.0 и Ring-flash-linear-2.0. Ring-mini-linear-2.0 состоит из 16 миллиардов параметров и 957 миллионов активаций, тогда как Ring-flash-linear-2.0 содержит 104 миллиарда параметров и 6,1 миллиарда активаций. Обе модели используют гибридную архитектуру, которая эффективно интегрирует линейное внимание и внимание с использованием softmax, значительно снижая накладные расходы на ввод-вывод и вычисления в сценариях вывода с длинным контекстом. По сравнению с плотной моделью на 32 миллиарда параметров, данная серия снижает стоимость вывода до 1/10, а по сравнению с оригинальной серией Ring стоимость также снижена более чем на 50%. Более того, благодаря систематическому исследованию соотношения различных механизмов внимания в гибридной архитектуре, мы определили оптимальную на данный момент структуру модели. Дополнительно, за счет использования нашей собственной высокопроизводительной библиотеки операторов FP8 — linghe, общая эффективность обучения повышена на 50%. Благодаря высокой согласованности операторов движка обучения и вывода, модели могут проходить долгосрочную, стабильную и высокоэффективную оптимизацию на этапе обучения с подкреплением, сохраняя стабильно передовые результаты (SOTA) на множестве сложных тестовых наборов для проверки рассуждений.
Обучение с подкреплением (RL) в последнее время стало ключевой парадигмой для согласования и усиления больших языковых моделей (LLM). Однако применение RL в условиях off-policy — когда для обучения используются устаревшие данные из прошлых политик — повышает эффективность использования данных, но остается сложной задачей: энтропия политики резко снижается, оптимизация часто становится нестабильной и может даже разрушиться. Благодаря теоретическому и эмпирическому анализу мы выделяем два ключевых инсайта: (i) дисбаланс в оптимизации, где образцы с отрицательным преимуществом доминируют в градиенте политики, подавляя полезные поведения и рискуя вызвать взрыв градиентов; и (ii) выведенное правило Entropy-Clip, которое показывает, что фиксированный механизм отсечения в целях, подобных PPO, систематически блокирует обновления, увеличивающие энтропию, тем самым направляя политику к чрезмерной эксплуатации в ущерб исследованию. На основе этих инсайтов мы предлагаем BAlanced Policy Optimization with Adaptive Clipping (BAPO) — простой, но эффективный метод, который динамически регулирует границы отсечения для адаптивного перебалансирования положительных и отрицательных вкладов, сохранения энтропии и стабилизации оптимизации RL. В различных сценариях off-policy — включая повторное использование образцов и частичные прогоны — BAPO обеспечивает быстрое, стабильное и эффективное с точки зрения данных обучение. На бенчмарках AIME 2024 и AIME 2025 наша модель BAPO с 7B параметров превосходит открытые аналоги, такие как SkyWork-OR1-7B, а наша модель BAPO с 32B параметров не только достигает передовых результатов среди моделей того же масштаба, но и превосходит ведущие проприетарные системы, такие как o3-mini и Gemini-2.5-Flash-Thinking.
Рассуждения в рамках длинных контекстов имеют ключевое значение для больших языковых моделей. Хотя обучение с подкреплением (RL) улучшает рассуждения в коротких контекстах, вызывая "моменты озарения" в цепочке мыслей, сложные паттерны мышления, необходимые для рассуждений в длинных контекстах, остаются малоизученными, а данные RL высокой сложности — редкими. В данной работе мы представляем LoongRL, метод RL, основанный на данных, для продвинутых рассуждений в длинных контекстах. Основой LoongRL является KeyChain — синтетический подход, который преобразует короткие многошаговые вопросы-ответы (QA) в задачи высокой сложности с длинными контекстами путем вставки цепочек UUID, скрывающих истинный вопрос среди большого количества отвлекающих документов. Решение таких задач требует от модели пошагового отслеживания правильной цепочки, идентификации истинного вопроса, извлечения релевантных фактов и рассуждений над ними для получения правильного ответа. Обучение RL на данных KeyChain вызывает появление паттерна рассуждений "планирование-извлечение-рассуждение-проверка", который обобщается далеко за пределы длины обучения. Модели, обученные на 16K токенах, эффективно решают задачи длиной 128K без затрат на полномасштабные RL-вычисления. На моделях Qwen2.5-7B и 14B LoongRL значительно улучшает точность многошаговых QA в длинных контекстах, показывая абсолютный прирост на +23,5% и +21,1%. В результате LoongRL-14B достигает показателя 74,2, конкурируя с гораздо более крупными передовыми моделями, такими как o3-mini (74,5) и DeepSeek-R1 (74,9). Он также улучшает извлечение информации в длинных контекстах, успешно проходит все стресс-тесты "иголка в стоге сена" длиной 128K и сохраняет способности к рассуждениям в коротких контекстах.
Обучение моделей Vision-Language-Action (VLA) для универсальных роботов обычно требует крупномасштабных данных, собранных в реальном мире, что является дорогостоящим и трудоемким процессом. Неэффективность сбора физических данных серьезно ограничивает масштабируемость и способность к обобщению современных систем VLA. Для решения этой проблемы мы представляем GigaBrain-0 — новую базовую модель VLA, основанную на данных, сгенерированных с помощью моделей мира (например, генерация видео, перенос из реальности в реальность, перенос от человека, перенос точек обзора, перенос из симуляции в реальность). Используя модели мира для масштабной генерации разнообразных данных, GigaBrain-0 значительно снижает зависимость от реальных данных роботов, одновременно улучшая обобщение между задачами. Наш подход дополнительно повышает устойчивость политик за счет моделирования RGBD-входов и воплощенного контроля Chain-of-Thought (CoT), что позволяет модели рассуждать о пространственной геометрии, состояниях объектов и долгосрочных зависимостях в процессе выполнения задач. Это приводит к значительному улучшению производительности в реальных задачах, таких как точная манипуляция, долгосрочные задачи и мобильная манипуляция. Многочисленные эксперименты демонстрируют, что GigaBrain-0 достигает превосходного обобщения при изменениях внешнего вида (например, текстуры, цвета), расположения объектов и точек обзора камеры. Кроме того, мы представляем GigaBrain-0-Small — оптимизированную облегченную версию, разработанную для эффективной работы на устройствах, таких как NVIDIA Jetson AGX Orin.
Компоненты трансформаторов, такие как нелинейные функции активации и нормализация, по своей природе неинъективны, что предполагает возможность отображения разных входных данных в один и тот же выход, что препятствует точному восстановлению входных данных из представлений модели. В данной работе мы оспариваем эту точку зрения. Во-первых, мы математически доказываем, что языковые модели на основе трансформаторов, отображающие дискретные входные последовательности в соответствующие последовательности непрерывных представлений, являются инъективными и, следовательно, сохраняют информацию без потерь — свойство, которое устанавливается при инициализации и сохраняется в процессе обучения. Во-вторых, мы подтверждаем этот результат эмпирически, проведя миллиарды тестов на коллизии для шести современных языковых моделей, и не наблюдаем ни одного случая коллизии. В-третьих, мы операционализируем инъективность: представляем SipIt — первый алгоритм, который гарантированно и эффективно восстанавливает точный входной текст из скрытых активаций, обеспечивая линейное время выполнения и демонстрируя точную обратимость на практике. В целом, наша работа устанавливает инъективность как фундаментальное и применимое свойство языковых моделей, имеющее прямое значение для прозрачности, интерпретируемости и безопасного развертывания.
Обучение агентов для работы с компьютерами требует огромного количества данных о взаимодействии с графическим интерфейсом пользователя (GUI), однако ручная аннотация траекторий действий в больших масштабах является чрезмерно дорогостоящей. Мы представляем VideoAgentTrek — масштабируемый конвейер, который автоматически извлекает обучающие данные из общедоступных видеозаписей экрана в интернете, устраняя необходимость в ручной аннотации. Наш подход решает ключевую проблему: исходные видеозаписи содержат неявные демонстрации, но не имеют явных меток действий. Для решения этой задачи мы разработали Video2Action — модуль обратной динамики (IDM), состоящий из двух компонентов: (1) модели локализации в видео, которая обнаруживает и определяет действия в GUI с точными временными границами и контекстом, и (2) распознавателя содержимого действий, который извлекает структурированные параметры, такие как координаты кликов и введённый текст, с высокой точностью. Применённый к 39 000 обучающих видео на YouTube, наш конвейер автоматически генерирует 1,52 миллиона шагов взаимодействия. Мы используем эти данные через дополнительное предобучение с последующей контролируемой тонкой настройкой. На OSWorld-Verified наш подход повышает успешность выполнения задач с 9,3% (базовый уровень только с тонкой настройкой) до 15,8%, что составляет относительное улучшение на 70%. На AgentNetBench точность шагов увеличивается с 64,1% до 69,3%. Наши результаты демонстрируют, что пассивные интернет-видео могут быть преобразованы в высококачественные данные для обучения агентов, работающих с компьютерами, предоставляя масштабируемую альтернативу дорогостоящей ручной аннотации.
Мобильные телефонные агенты (MPAs) стали перспективным направлением исследований благодаря их широкой применимости в различных сценариях. Хотя мультимодальные большие языковые модели (MLLMs) служат основой для MPAs, их эффективность в одновременном выполнении множества задач на мобильных устройствах остается ограниченной. Хотя многозадачное обучение с контролируемой тонкой настройкой (SFT) широко используется для многозадачного обучения, существующие подходы испытывают трудности с определением оптимального состава обучающих данных для достижения максимальной производительности. Для решения этой проблемы мы предлагаем DaMo (Data Mixture Optimizer) — новое решение, использующее обучаемую сеть, которая предсказывает оптимальные смеси данных, прогнозируя производительность на последующих задачах для любого заданного соотношения данных. Для поддержки всесторонней оценки мы представляем PhoneAgentBench — первый специализированный бенчмарк для оценки MLLMs на мультимодальных задачах мобильных устройств, включающий 1235 пар вопросов и ответов, охватывающих разнообразные реальные сценарии промышленных мобильных приложений. Продемонстрировав высокую прогностическую способность (R^2=0.81) в небольших пилотных экспериментах, DaMo эффективно экстраполирует оптимальные конфигурации смешивания данных. Наши результаты показывают, что DaMo обеспечивает улучшение производительности на 3.38% на PhoneAgentBench по сравнению с альтернативными методами. Кроме того, обширные эксперименты на устоявшихся бенчмарках, включая BFCL-v3, MME-Reasoning, MME-Perception и OCRBench, выявляют превосходную обобщающую способность DaMo, превосходящую другие подходы на 2.57% по среднему баллу. При использовании исключительно для оптимизации MLLMs на задаче BFCL-v3, DaMo улучшает метрики на 12.47% по сравнению с другими методами. Примечательно, что DaMo сохраняет устойчивую масштабируемость, сохраняя свою эффективность при применении к другим архитектурам моделей. Код и набор данных доступны по адресу https://github.com/OPPO-Mente-Lab/DaMo.git.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), достигли значительных успехов, однако их большой масштаб часто делает их непрактичными для сред с ограниченными ресурсами. В данной статье представлен Unified Reinforcement and Imitation Learning (RIL) — новый и эффективный алгоритм обучения, разработанный для создания мощных и легковесных VLMs. RIL уникальным образом сочетает преимущества обучения с подкреплением и состязательного имитационного обучения. Это позволяет более компактным студенческим VLMs не только имитировать сложное генеративное поведение крупных учительских моделей, но и систематически улучшать свои генеративные способности с помощью сигналов подкрепления. Ключевым элементом нашей имитационной структуры является дискриминатор на основе LLM, который эффективно различает выходы студенческих и учительских моделей, дополненный руководством со стороны нескольких крупных учительских VLMs для обеспечения разнообразия в обучении. Эта унифицированная стратегия обучения, использующая как подкрепление, так и имитацию, позволяет студенческим моделям достигать значительного прироста производительности, делая их конкурентоспособными с ведущими проприетарными VLMs. Многочисленные эксперименты на различных бенчмарках для задач, связанных с зрением и языком, демонстрируют, что RIL существенно сокращает разрыв в производительности с передовыми открытыми и закрытыми VLMs, а в ряде случаев превосходит их.
Последние достижения в области мультимодальных моделей продемонстрировали впечатляющие возможности редактирования изображений на основе текстовых инструкций, при этом системы, такие как GPT-4o и Nano-Banana, установили новые стандарты. Однако прогресс научного сообщества остается ограниченным из-за отсутствия крупномасштабных, высококачественных и открыто доступных наборов данных, созданных на основе реальных изображений. Мы представляем Pico-Banana-400K — обширный набор данных, содержащий 400 тысяч изображений для редактирования на основе инструкций. Наш набор данных создан с использованием Nano-Banana для генерации разнообразных пар редактирования из реальных фотографий коллекции OpenImages. Отличительной особенностью Pico-Banana-400K по сравнению с предыдущими синтетическими наборами данных является наш систематический подход к обеспечению качества и разнообразия. Мы применяем детализированную таксономию редактирования изображений, чтобы обеспечить полное покрытие типов редактирования, сохраняя при этом точность содержания и соответствие инструкциям с помощью оценки качества на основе MLLM и тщательной курации. Помимо одношагового редактирования, Pico-Banana-400K позволяет исследовать сложные сценарии редактирования. Набор данных включает три специализированных подмножества: (1) коллекцию из 72 тысяч примеров для изучения последовательного редактирования, рассуждений и планирования в ходе последовательных модификаций; (2) подмножество из 56 тысяч примеров для исследований в области согласования и обучения моделей вознаграждения; (3) парные инструкции для редактирования с длинными и короткими формулировками, предназначенные для развития способностей переписывания и суммирования инструкций. Предоставляя этот крупномасштабный, высококачественный и многофункциональный ресурс, Pico-Banana-400K создает прочную основу для обучения и тестирования следующего поколения моделей редактирования изображений на основе текстовых инструкций.
Создание профессиональных финансовых отчетов — это трудоемкий и интеллектуально сложный процесс, который современные системы ИИ пока не могут полностью автоматизировать. Для решения этой задачи мы представляем FinSight (Financial InSight) — инновационную мультиагентную платформу для создания высококачественных мультимодальных финансовых отчетов. Основой FinSight является архитектура Code Agent with Variable Memory (CAVM), которая объединяет внешние данные, разработанные инструменты и агентов в программируемое переменное пространство, обеспечивая гибкий сбор данных, анализ и генерацию отчетов через исполняемый код. Для достижения профессионального уровня визуализации мы предлагаем Итеративный Механизм Улучшения Визуализации, который постепенно преобразует сырые визуальные данные в отточенные финансовые графики. Кроме того, двухэтапная Писательская Структура расширяет краткие сегменты Chain-of-Analysis в связные, цитируемые и мультимодальные отчеты, гарантируя как аналитическую глубину, так и структурную согласованность. Эксперименты на различных задачах уровня компаний и отраслей демонстрируют, что FinSight значительно превосходит все базовые системы, включая ведущие глубокие исследовательские системы, по точности фактов, глубине анализа и качеству презентации, показывая четкий путь к созданию отчетов, приближающихся к уровню экспертов-людей.
По мере того как крупные языковые модели (LLM) всё чаще используются во взаимодействиях человека и ИИ, их способности к социальному рассуждению в межличностных контекстах становятся критически важными. Мы представляем SCRIPTS — набор данных из 1 тысячи диалогов на английском и корейском языках, взятых из киносценариев. Задача заключается в оценке способности моделей к социальному рассуждению для вывода межличностных отношений (например, друзья, сёстры, влюблённые) между участниками каждого диалога. Каждый диалог аннотирован вероятностными метками отношений (Highly Likely, Less Likely, Unlikely) носителями (или эквивалентными) корейского и английского языков из Кореи и США. Оценивая девять моделей на нашей задаче, современные проприетарные LLM достигают около 75-80% на английском наборе данных, тогда как их производительность на корейском падает до 58-69%. Более того, модели выбирают маловероятные отношения (Unlikely) в 10-25% своих ответов. Кроме того, мы обнаруживаем, что модели с мышлением и цепочкой рассуждений (chain-of-thought prompting), эффективные для общего рассуждения, приносят минимальную пользу для социального рассуждения и иногда усиливают социальные предубеждения. Наши результаты выявляют значительные ограничения в способностях современных LLM к социальному рассуждению, подчеркивая необходимость усилий по разработке социально-осознанных языковых моделей.
Модели мира для автономного вождения должны эффективно работать в трех ключевых измерениях: состояние, действие и вознаграждение. Однако существующие модели обычно ограничены узким набором модальностей состояния, короткими видеопоследовательностями, неточным управлением действиями и отсутствием осведомленности о вознаграждении. В данной статье мы представляем OmniNWM — всеобъемлющую панорамную навигационную модель мира, которая охватывает все три измерения в рамках единой структуры. В отношении состояния OmniNWM совместно генерирует панорамные видео в форматах RGB, семантики, метрической глубины и 3D-оккупации. Гибкая стратегия принуждения обеспечивает высококачественную авторегрессионную генерацию на длительных временных горизонтах. Для действий мы вводим нормализованное представление панорамных лучей Плюккера, которое кодирует входные траектории в пиксельные сигналы, обеспечивая высокоточное и обобщаемое управление генерацией панорамных видео. В отношении вознаграждения мы выходим за рамки обучения функций вознаграждения с помощью внешних моделей на основе изображений: вместо этого мы используем сгенерированную 3D-оккупацию для прямого определения плотных вознаграждений на основе правил, обеспечивающих соблюдение правил вождения и безопасность. Многочисленные эксперименты демонстрируют, что OmniNWM достигает передовых результатов в генерации видео, точности управления и стабильности на длительных временных горизонтах, предоставляя надежную структуру для замкнутой оценки через вознаграждения, основанные на оккупации. Страница проекта доступна по адресу https://github.com/Arlo0o/OmniNWM.
Маскированные диффузионные языковые модели (DLMs) недавно появились как перспективная альтернатива традиционным авторегрессивным моделям (ARMs). DLMs используют трансформерные энкодеры с двунаправленным вниманием, что позволяет параллельно генерировать токены, сохраняя при этом конкурентоспособную производительность. Хотя их эффективность и производительность были тщательно изучены, внутренние механизмы, управляющие DLMs, остаются в значительной степени неисследованными. В данной работе мы проводим эмпирический анализ паттернов внимания в DLMs, уделяя особое внимание феномену "поглощения внимания" (attention sinking), который ранее наблюдался в различных архитектурах на основе трансформеров. Наши результаты показывают, что DLMs также демонстрируют поглощение внимания, но с характерными особенностями. Во-первых, в отличие от ARMs, позиции поглощения в DLMs имеют тенденцию смещаться в процессе генерации, проявляя динамическое поведение. Во-вторых, хотя ARMs крайне чувствительны к удалению поглощений внимания, DLMs остаются устойчивыми: маскирование поглощений приводит лишь к незначительному ухудшению производительности. Эти результаты дают новые представления о внутренней работе диффузионных языковых моделей и подчеркивают фундаментальные различия в том, как они распределяют и используют внимание по сравнению с авторегрессивными моделями.
Мы представляем Chart2Code — новый эталонный тест для оценки способностей крупных мультимодальных моделей (LMM) к пониманию диаграмм и генерации кода. Chart2Code разработан с явным учетом пользовательской перспективы, охватывая разнообразные реальные сценарии и постепенно увеличивая сложность задач. Он состоит из трех уровней: Уровень 1 (Воспроизведение диаграмм) воссоздает диаграммы на основе эталонного изображения и пользовательского запроса; Уровень 2 (Редактирование диаграмм) включает сложные изменения, такие как смена типа диаграммы или добавление элементов; а Уровень 3 (Генерация диаграмм из длинных таблиц) требует от моделей преобразования длинных, насыщенных информацией таблиц в точные диаграммы в соответствии с инструкциями пользователя. Насколько нам известно, это первый иерархический эталонный тест, который отражает практическое использование chart2code, систематически увеличивая сложность задач. В общей сложности Chart2Code содержит 2 023 задачи, охватывающие 22 типа диаграмм, и сопровождается многоуровневыми метриками оценки, которые проверяют как корректность кода, так и визуальное соответствие созданных диаграмм. Мы тестируем 25 современных (SoTA) LMM, включая как проприетарные, так и последние открытые модели, такие как GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL и Seed-1.6-VL. Результаты экспериментов показывают, что даже самая передовая модель GPT-5 в среднем набирает только 0,57 по оценке на основе кода и 0,22 по оценке качества диаграмм в задачах редактирования, что подчеркивает сложность Chart2Code. Мы ожидаем, что этот эталонный тест будет способствовать прогрессу в области мультимодального мышления и стимулировать разработку более надежных и универсальных LMM. Наш код и данные доступны на Chart2Code.
Крупные мультимодальные модели кодируют обширные фактические знания в своих предварительно обученных весах. Однако их знания остаются статичными и ограниченными, неспособными успевать за изменениями в реальном мире, что препятствует непрерывному приобретению знаний. Таким образом, эффективное внедрение знаний становится критически важным, включая две цели: адаптацию знаний (внедрение новых знаний) и сохранение знаний (сохранение старых знаний). Существующие методы часто испытывают трудности с изучением новых знаний и страдают от катастрофического забывания. Для решения этой проблемы мы предлагаем KORE, синергетический метод, основанный на KnOwledge-oRientEd аугментациях и ограничениях, для внедрения новых знаний в крупные мультимодальные модели при сохранении старых знаний. В отличие от общей аугментации текстовых или изображений, KORE автоматически преобразует отдельные элементы знаний в структурированные и всеобъемлющие знания, чтобы обеспечить точное изучение новых знаний моделью, что позволяет точную адаптацию. В то же время KORE сохраняет предыдущие знания в ковариационной матрице активаций линейного слоя LMM и инициализирует адаптер, проецируя исходные веса в нулевое пространство матрицы, определяя направление тонкой настройки, которое минимизирует вмешательство в предыдущие знания, обеспечивая мощное сохранение. Многочисленные эксперименты на различных LMM, включая LLaVA-v1.5-7B, LLaVA-v1.5-13B и Qwen2.5-VL-7B, показывают, что KORE достигает превосходной производительности при внедрении новых знаний и эффективно смягчает катастрофическое забывание.
Мы представляем olmOCR 2 — новейшую разработку в нашем семействе мощных систем оптического распознавания текста (OCR), предназначенных для преобразования оцифрованных печатных документов, таких как PDF, в чистый, естественно структурированный простой текст. olmOCR 2 работает на основе olmOCR-2-7B-1025 — специализированной 7-миллиардной визуально-языковой модели (VLM), обученной с использованием обучения с подкреплением с проверяемыми наградами (RLVR), где наши награды представляют собой разнообразный набор бинарных модульных тестов. Для масштабирования создания модульных тестов мы разработали конвейер генерации синтетических документов с разнообразными и сложными макетами, известным исходным HTML-кодом и извлеченными тестовыми случаями. Мы демонстрируем, что обучение с подкреплением на этих тестовых случаях приводит к передовым результатам на нашем англоязычном OCR-бенчмарке olmOCR-Bench, с наибольшим улучшением в преобразовании математических формул, разборе таблиц и обработке многоколоночных макетов по сравнению с предыдущими версиями. Мы публикуем нашу модель, данные и код под разрешительными открытыми лицензиями.
С момента появления Model Context Protocol (MCP) количество доступных инструментов для больших языковых моделей (LLM) значительно увеличилось. Эти специализированные наборы инструментов предлагают альтернативу универсальным инструментам, таким как веб-браузеры, при этом их разработка и поддержка проще, чем у графических интерфейсов. Однако современные универсальные агенты в основном полагаются на веб-браузеры для взаимодействия с окружающей средой. В данной работе мы представляем TheMCPCompany — эталонный набор для оценки агентов, вызывающих инструменты, на задачах, связанных с взаимодействием с различными реальными сервисами. Мы используем REST API этих сервисов для создания MCP-серверов, которые включают более 18 000 инструментов. Также мы предоставляем вручную аннотированные эталонные инструменты для каждой задачи. В наших экспериментах мы используем эталонные инструменты, чтобы показать потенциал агентов, вызывающих инструменты, как для повышения производительности, так и для снижения затрат при условии идеального извлечения инструментов. Затем мы исследуем производительность агентов с использованием извлечения инструментов, чтобы изучить практическую применимость инструмент-ориентированных агентов в реальных условиях. Хотя все модели с извлечением инструментов показывают схожую или лучшую производительность по сравнению с агентами, использующими браузеры, меньшие модели не могут в полной мере воспользоваться доступными инструментами через извлечение. С другой стороны, производительность GPT-5 с извлечением инструментов очень близка к её производительности с эталонными инструментами. В целом наша работа показывает, что наиболее продвинутые модели рассуждений эффективны в обнаружении инструментов в простых средах, но испытывают серьёзные трудности при навигации в сложных корпоративных средах. TheMCPCompany демонстрирует, что навигация по десяткам тысяч инструментов и их нетривиальное комбинирование для решения сложных задач остаётся сложной задачей для современных моделей и требует как улучшенных моделей рассуждений, так и моделей извлечения.
Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокий уровень понимания видео, фокусируясь на визуальных токенах, релевантных текстовым запросам. Чтобы адаптировать это для локализации без необходимости обучения, мы преобразуем задачу сегментации на основе рассуждений в видео в задачу вопросно-ответной системы (QA) и извлекаем карты внимания с помощью механизма rollout. Однако исходные карты внимания зашумлены и плохо согласованы с областями объектов. Мы предлагаем метод Decomposed Attention Fusion (DecAF), который уточняет эти карты с помощью двух механизмов: (1) контрастного слияния объекта и фона и (2) комплементарного слияния кадров видео. Этот метод подавляет нерелевантные активации и усиливает сигналы, связанные с объектами, что позволяет напрямую преобразовывать карты внимания в грубые маски сегментации. Кроме того, мы вводим метод attention-guided SAM2 prompting для получения детализированных масок. В отличие от существующих подходов, которые совместно обучают MLLMs с SAM, наш метод полностью обходится без переобучения. DecAF превосходит методы, не требующие обучения, и достигает производительности, сопоставимой с методами, основанными на обучении, на бенчмарках для задач ссылочной и рассуждающей сегментации видео (VOS). Код будет доступен по адресу https://github.com/HYUNJS/DecAF.
С развитием аппаратного обеспечения, программного обеспечения и технологий больших языковых моделей взаимодействие между человеком и операционными системами эволюционировало от интерфейса командной строки к быстро развивающимся взаимодействиям с ИИ-агентами. Создание агента операционной системы (ОС), способного выполнять пользовательские инструкции и точно следовать желаниям пользователя, становится реальностью. В данном техническом отчете мы представляем ColorAgent — агента ОС, разработанного для долгосрочного и устойчивого взаимодействия с окружающей средой, а также для персонализированного и проактивного взаимодействия с пользователем. Для обеспечения долгосрочного взаимодействия с окружающей средой мы улучшаем возможности модели с помощью пошагового обучения с подкреплением и саморазвивающегося обучения, а также разрабатываем специализированную мультиагентную структуру, обеспечивающую универсальность, согласованность и устойчивость. В части взаимодействия с пользователем мы исследуем персонализированное распознавание намерений пользователя и проактивное взаимодействие, позиционируя агента ОС не просто как инструмент автоматизации, а как теплого и сотрудничающего партнера. Мы оцениваем ColorAgent на бенчмарках AndroidWorld и AndroidLab, достигая показателей успешности 77,2% и 50,7% соответственно, устанавливая новый уровень передовых технологий. Тем не менее, мы отмечаем, что текущие бенчмарки недостаточны для всесторонней оценки агентов ОС, и предлагаем дальнейшие направления исследований в будущих работах, особенно в областях парадигм оценки, сотрудничества агентов и безопасности. Наш код доступен по адресу https://github.com/MadeAgents/mobile-use.
Крупные мультимодальные модели (LMMs) кодируют богатые фактические знания посредством кросс-модального предварительного обучения, однако их статические представления испытывают трудности с поддержанием точного понимания временно-чувствительных фактов. Существующие бенчмарки остаются ограниченными статичными подходами, недостаточно оценивая способность LMMs понимать временно-чувствительные знания. Для устранения этого пробела мы предлагаем MINED — комплексный бенчмарк, который оценивает временную осведомлённость по 6 ключевым направлениям и 11 сложным задачам: познание, осведомлённость, достоверность, понимание, рассуждение и устойчивость. MINED создан на основе Википедии двумя профессиональными аннотаторами и содержит 2 104 образца временно-чувствительных знаний, охватывающих шесть типов знаний. Оценка 15 широко используемых LMMs на MINED показывает, что Gemini-2.5-Pro достигает наивысшего среднего показателя CEM в 63.07, в то время как большинство открытых LMMs всё ещё не обладают способностью понимать время. При этом LMMs демонстрируют наилучшие результаты в области знаний об организациях, тогда как их производительность наиболее слаба в спортивной тематике. Для решения этих проблем мы исследуем возможность обновления временно-чувствительных знаний в LMMs с помощью методов редактирования знаний и наблюдаем, что LMMs могут эффективно обновлять знания в сценариях единичного редактирования.
Моделирование оптимизации позволяет принимать ключевые решения в различных отраслях, но остается сложным для автоматизации: неформальный язык необходимо преобразовать в точные математические формулировки и исполняемый код для решателей. Предыдущие подходы с использованием больших языковых моделей (LLM) либо полагаются на ненадежные подсказки, либо требуют дорогостоящего переобучения с ограниченной обобщающей способностью. Мы представляем AlphaOPT — самообучающуюся библиотеку опыта, которая позволяет LLM учиться на ограниченных демонстрациях (даже только на ответах, без эталонных программ) и обратной связи от решателя — без аннотированных трассировок рассуждений или обновления параметров. AlphaOPT работает в непрерывном двухфазном цикле: (i) фаза обучения библиотеки, которая анализирует неудачные попытки, извлекая проверенные решателем структурированные инсайты в виде {таксономия, условие, объяснение, пример}; и (ii) фаза эволюции библиотеки, которая диагностирует несоответствия при извлечении и уточняет условия применимости сохраненных инсайтов, улучшая перенос знаний между задачами. Этот дизайн (1) эффективно обучается на ограниченных демонстрациях без тщательно подготовленных обоснований, (2) непрерывно расширяется без дорогостоящего переобучения, обновляя библиотеку вместо весов модели, и (3) делает знания явными и интерпретируемыми для проверки и вмешательства со стороны человека. Эксперименты показывают, что AlphaOPT стабильно улучшается с увеличением объема данных (с 65% до 72% при увеличении обучающих элементов с 100 до 300) и превосходит самый сильный базовый метод на 7,7% на наборе данных OptiBench вне распределения, обучаясь только на ответах. Код и данные доступны по адресу: https://github.com/Minw913/AlphaOPT.
Существующие методы параметрически эффективной тонкой настройки (PEFT) в основном делятся на две категории: основанные на добавлении и селективная адаптация на месте. Первые, такие как LoRA, вводят дополнительные модули для адаптации модели к последующим задачам, обеспечивая высокую эффективность использования памяти. Однако их репрезентационная способность часто ограничена, что делает их менее подходящими для тонкой адаптации. В отличие от этого, вторые напрямую настраивают тщательно выбранное подмножество параметров исходной модели, что позволяет более точно и эффективно адаптировать модель, но за счет значительного увеличения потребления памяти. Чтобы устранить этот компромисс, мы предлагаем NeuroAda, новый метод PEFT, который позволяет проводить тонкую настройку модели, сохраняя при этом высокую эффективность использования памяти. Наш подход сначала идентифицирует важные параметры (т.е. связи внутри сети), как в селективной адаптации, а затем вводит обходные соединения для этих выбранных параметров. Во время тонкой настройки обновляются только обходные соединения, оставляя параметры исходной модели замороженными. Эмпирические результаты на более чем 23 задачах, охватывающих как генерацию, так и понимание естественного языка, демонстрируют, что NeuroAda достигает наилучших результатов с использованием всего leq 0.02% обучаемых параметров, при этом сокращая использование памяти CUDA до 60%. Мы публикуем наш код здесь: https://github.com/FightingFighting/NeuroAda.git.
Мультимодальные крупные языковые модели (MLLMs) быстро развиваются, однако их способность к рассуждению часто отстаёт от сильных текстовых аналогов. Существующие методы для преодоления этого разрыва основываются на контролируемом тонком обучении на больших объёмах мультимодальных данных для рассуждений или на обучении с подкреплением, что требует значительных ресурсов. Перспективной альтернативой является слияние моделей, при котором параметры интерполируются между языковыми моделями с улучшенными способностями к рассуждениям и их мультимодальными вариантами. Однако наш анализ показывает, что простое слияние не всегда является "бесплатным обедом": его эффективность сильно варьируется в зависимости от семейств моделей, причём некоторые (например, LLaVA, Idefics) выигрывают, а другие (например, Qwen) теряют в производительности. Чтобы решить эту проблему, мы предлагаем метод Directional Reasoning Injection for Fine-Tuning (DRIFT) MLLMs — лёгкий подход, который переносит знания о рассуждениях в пространстве градиентов, не нарушая мультимодального выравнивания. DRIFT предварительно вычисляет приоритет рассуждений как разницу в пространстве параметров между моделями с улучшенными рассуждениями и их мультимодальными вариантами, а затем использует его для смещения градиентов во время тонкого мультимодального обучения. Этот подход сохраняет простоту стандартных конвейеров контролируемого тонкого обучения, обеспечивая при этом эффективный перенос способностей к рассуждениям. Экстенсивные эксперименты на мультимодальных бенчмарках для рассуждений, включая MathVista и MathVerse, демонстрируют, что DRIFT стабильно улучшает производительность в рассуждениях по сравнению с простым слиянием и контролируемым тонким обучением, при этом сопоставляя или превосходя ресурсоёмкие методы при значительно меньших затратах.
Высококачественные данные для предварительного обучения имеют решающее значение для больших языковых моделей, где качество охватывает фактологическую надежность и семантическую ценность, а разнообразие обеспечивает широкий охват и распределительную неоднородность. Существующие подходы обычно полагаются на одно- или многомерный отбор на основе оценок. Однако прямой выбор данных с наивысшими оценками часто ухудшает производительность, и требуется выборка из более широкого диапазона для восстановления результатов. Указанная немонотонность между оценками набора данных и результатами на эталонных тестах выявляет фундаментальное смещение: методы, основанные на оценках, объединяют коррелированные измерения, что приводит к тому, что данные с наивысшими оценками кажутся высококачественными, но систематически упускают разнообразие. Мы утверждаем, что обеспечение разнообразия требует декомпозиции коррелированных метрик на ортогональные измерения признаков, из которых можно напрямую выбирать данные с наивысшими оценками. Поэтому мы предложили алгоритм Orthogonal Diversity-Aware Selection (ODiS), который сохраняет как качество, так и разнообразие при отборе данных. Во-первых, ODiS оценивает данные по нескольким измерениям, охватывая качество языка, качество знаний и сложность понимания. Многомерные оценки затем декоррелируются с помощью метода главных компонент (PCA), что дает ортогональные измерения оценки. Для каждого измерения обучается модель на основе Roberta для регрессии данных на PCA-проектированные оценки, что позволяет масштабировать вывод на большие корпуса. Наконец, ODiS формирует обучающий набор данных, выбирая данные с наивысшими оценками в каждом ортогональном измерении, тем самым обеспечивая как качество, так и разнообразие. Эмпирические результаты показывают, что данные, отобранные с помощью ODiS, имеют менее 2% перекрытия между измерениями, подтверждая ортогональность измерений. Что более важно, модели, обученные на данных, отобранных с помощью ODiS, значительно превосходят другие базовые подходы на эталонных тестах, подчеркивая необходимость ортогонального, учитывающего разнообразие отбора данных для больших языковых моделей.
Импульсные характеристики помещения (RIR) являются ключевым ресурсом для устранения реверберации, устойчивого распознавания речи, локализации источников звука и оценки акустики помещений. Мы представляем RIR-Mega — обширную коллекцию смоделированных RIR, описанных компактной, удобной для машин метаданной схемой и распространяемую с простыми инструментами для проверки и повторного использования. Набор данных поставляется с загрузчиком Hugging Face Datasets, скриптами для проверки метаданных и контрольных сумм, а также эталонной регрессионной моделью, которая предсказывает целевые значения RT60 на основе звуковых волн. На обучающей и валидационной выборках из 36 000 и 4 000 примеров небольшая модель Random Forest, использующая легковесные временные и спектральные признаки, достигает средней абсолютной ошибки около 0,013 с и среднеквадратичной ошибки около 0,022 с. Мы размещаем подмножество из 1 000 RIR для линейных массивов и 3 000 RIR для круговых массивов на Hugging Face для потоковой передачи и быстрых тестов, а полный архив из 50 000 RIR сохраняем на Zenodo. Набор данных и код находятся в открытом доступе для поддержки воспроизводимых исследований.
Оценка прогресса в крупных языковых моделях (LLM) часто ограничивается сложностью проверки ответов, что сужает область оценивания до таких задач, как математика, программирование и краткие ответы на вопросы. Однако многие реальные приложения требуют оценки LLM в обработке профессиональных документов, синтезе информации и создании комплексных отчетов в ответ на пользовательские запросы. Мы представляем ProfBench: набор из более чем 7000 пар "ответ-критерий", оцененных экспертами с профессиональными знаниями в областях PhD по физике, PhD по химии, MBA в финансах и MBA в консалтинге. Мы создаем надежные и доступные LLM-оценщики для анализа критериев ProfBench, устраняя предвзятость самоусиления и снижая стоимость оценки на 2-3 порядка величины, чтобы сделать ее справедливой и доступной для широкого сообщества. Наши результаты показывают, что ProfBench представляет значительные вызовы даже для современных LLM, при этом лучшие модели, такие как GPT-5-high, достигают лишь 65,9% общей производительности. Кроме того, мы выявляем заметные различия в производительности между проприетарными и открытыми моделями и предоставляем инсайты о роли расширенного мышления в решении сложных задач профессиональной области. Данные: https://huggingface.co/datasets/nvidia/ProfBench и код: https://github.com/NVlabs/ProfBench.
Люди воспринимают текст. Человеческое чтение основано на распознавании слов как визуальных объектов, включая их формы, расположение и паттерны, прежде чем связать их со смыслом, что позволяет эффективно справляться с опечатками, искажёнными шрифтами и различными системами письма. Однако современные крупные языковые модели (LLM) полагаются на субсловную токенизацию, разбивая текст на фрагменты из фиксированного словаря. Хотя этот подход эффективен для языков с большими ресурсами, он чрезмерно сегментирует языки с ограниченными ресурсами, создавая длинные, лингвистически бессмысленные последовательности и увеличивая вычислительные затраты. В данной работе мы бросаем вызов этой устоявшейся парадигме и движемся в сторону визуально-ориентированной альтернативы. Наш метод, SeeTok, преобразует текст в изображения (визуальный текст) и использует предобученные мультимодальные LLM для их интерпретации, повторно применяя сильные способности OCR и выравнивания текста и изображений, полученные в ходе масштабного мультимодального обучения. В трёх различных языковых задачах SeeTok демонстрирует результаты, сопоставимые или превосходящие субсловные токенизаторы, при этом требуя в 4,43 раза меньше токенов и сокращая FLOPs на 70,5%, с дополнительными преимуществами в кросс-лингвистической генерализации, устойчивости к типографическим искажениям и лингвистической иерархии. SeeTok знаменует переход от символической токенизации к визуальному чтению, подобному человеческому, и делает шаг в сторону более естественных и когнитивно вдохновлённых языковых моделей.
Модели генерации изображений по текстовому описанию (Text-to-Image, T2I) быстро развиваются, однако они остаются уязвимыми к семантической утечке — непреднамеренному переносу семантически связанных признаков между различными объектами. Существующие методы устранения этой проблемы часто основаны на оптимизации или зависят от внешних данных. Мы представляем DeLeaker — легковесный подход, не требующий оптимизации и работающий на этапе вывода, который устраняет утечку путем прямого вмешательства в карты внимания модели. На протяжении процесса диффузии DeLeaker динамически перевзвешивает карты внимания, чтобы подавить чрезмерное взаимодействие между объектами, одновременно усиливая идентичность каждого из них. Для систематической оценки мы представляем SLIM (Semantic Leakage in IMages) — первый набор данных, посвященный семантической утечке, включающий 1130 образцов, проверенных вручную и охватывающих разнообразные сценарии, а также новую автоматизированную систему оценки. Эксперименты показывают, что DeLeaker стабильно превосходит все базовые методы, даже когда они используют внешнюю информацию, эффективно устраняя утечку без ущерба для точности или качества. Эти результаты подчеркивают ценность управления вниманием и прокладывают путь к созданию более семантически точных T2I-моделей.
Хотя атаки на вывод членства (membership inference attacks, MIAs) и обнаружение машинно-сгенерированного текста преследуют разные цели — идентификацию обучающих выборок и синтетических текстов, — их методы часто используют схожие сигналы, основанные на вероятностном распределении языковой модели. Несмотря на эту общую методологическую основу, две задачи изучались независимо, что может приводить к выводам, упускающим более сильные методы и ценные инсайты, разработанные в рамках другой задачи. В данной работе мы теоретически и эмпирически исследуем переносимость, то есть насколько хорошо метод, изначально разработанный для одной задачи, работает на другой, между MIAs и обнаружением машинного текста. В качестве теоретического вклада мы доказываем, что метрика, достигающая асимптотически наивысшей производительности в обеих задачах, является одинаковой. Мы объединяем значительную часть существующей литературы в контексте этой оптимальной метрики и выдвигаем гипотезу, что точность, с которой данный метод аппроксимирует эту метрику, напрямую коррелирует с его переносимостью. Наши масштабные эмпирические эксперименты, включающие 7 современных методов MIAs и 5 современных детекторов машинного текста в 13 доменах и с 10 генераторами, демонстрируют очень сильную ранговую корреляцию (rho > 0,6) в кросс-задачной производительности. Мы особенно отмечаем, что Binoculars, изначально разработанный для обнаружения машинного текста, достигает современных результатов на бенчмарках MIAs, что демонстрирует практическое влияние переносимости. Наши результаты подчеркивают необходимость большего кросс-задачного осознания и сотрудничества между двумя исследовательскими сообществами. Для облегчения кросс-задачных разработок и объективных оценок мы представляем MINT, унифицированный набор для оценки MIAs и обнаружения машинно-сгенерированного текста, с реализацией 15 современных методов из обеих задач.
Трансформеры часто не способны изучать обобщаемые алгоритмы, вместо этого полагаясь на хрупкие эвристики. Используя связность графов в качестве тестовой задачи, мы объясняем это явление как теоретически, так и эмпирически. Мы рассматриваем упрощённую архитектуру трансформера — разъединённый трансформер — и доказываем, что модель с L слоями способна решать задачи для графов с диаметром вплоть до 3^L, реализуя алгоритм, эквивалентный вычислению степеней матрицы смежности. Мы анализируем динамику обучения и показываем, что выученная стратегия зависит от того, находятся ли большинство обучающих примеров в пределах этой ёмкости модели. Графы, находящиеся в пределах ёмкости (диаметр ≤ 3^L), способствуют изучению корректного алгоритмического решения, тогда как графы, выходящие за пределы ёмкости, приводят к изучению простой эвристики, основанной на степенях вершин. Наконец, мы эмпирически демонстрируем, что ограничение обучающих данных в пределах ёмкости модели приводит к тому, что как стандартные, так и разъединённые трансформеры изучают точный алгоритм вместо эвристики, основанной на степенях вершин.