Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем FlashWorld, генеративную модель, которая создает 3D-сцены из одного изображения или текстового запроса за секунды, что в 10–100 раз быстрее, чем предыдущие работы, при этом обеспечивая превосходное качество рендеринга. Наш подход отходит от традиционной парадигмы, ориентированной на многовидовые изображения (MV-ориентированной), которая генерирует многовидовые изображения для последующей 3D-реконструкции, к 3D-ориентированному подходу, где модель напрямую создает 3D-гауссовы представления в процессе многовидовой генерации. Хотя 3D-ориентированный метод обеспечивает 3D-согласованность, он обычно страдает от низкого визуального качества. FlashWorld включает двухэтапный процесс предварительного обучения, за которым следует кросс-модовое пост-обучение, эффективно интегрируя преимущества обеих парадигм. В частности, используя априорные данные из видео-диффузионной модели, мы сначала предварительно обучаем двухмодовую многовидовую диффузионную модель, которая поддерживает как MV-ориентированный, так и 3D-ориентированный режимы генерации. Чтобы устранить разрыв в качестве 3D-ориентированной генерации, мы предлагаем кросс-модовое пост-обучение с дистилляцией, сопоставляя распределения из согласованного 3D-ориентированного режима с высококачественным MV-ориентированным режимом. Это не только улучшает визуальное качество, сохраняя 3D-согласованность, но и сокращает количество шагов шумоподавления, необходимых для вывода. Кроме того, мы предлагаем стратегию использования большого количества одновидовых изображений и текстовых запросов в этом процессе для улучшения обобщающей способности модели на входные данные, выходящие за пределы распределения. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего метода.
Последние достижения в области унифицированных мультимодальных моделей указывают на явную тенденцию к созданию комплексных систем генерации контента. Однако аудиодомен остается значительным вызовом, поскольку музыка и речь часто разрабатываются изолированно, что препятствует прогрессу в направлении универсального синтеза аудио. Это разделение обусловлено внутренними конфликтами задач и серьезным дисбалансом данных, что затрудняет разработку действительно унифицированной модели генерации аудио. Для решения этой проблемы мы предлагаем UniMoE-Audio — унифицированную модель генерации речи и музыки в рамках новой архитектуры Dynamic-Capacity Mixture-of-Experts (MoE). Архитектурно UniMoE-Audio представляет стратегию маршрутизации Top-P для динамического распределения числа экспертов, а также гибридный дизайн экспертов, включающий маршрутизируемых экспертов для доменно-специфических знаний, общих экспертов для доменно-независимых признаков и нулевых экспертов для адаптивного пропуска вычислений. Для устранения дисбаланса данных мы предлагаем трехэтапную учебную программу: 1) Независимое обучение специалистов использует исходные наборы данных для внедрения доменно-специфических знаний в каждого "прото-эксперта" без помех; 2) Интеграция MoE и разогрев включает этих специалистов в архитектуру UniMoE-Audio, разогревая модуль шлюза и общего эксперта с использованием сбалансированного подмножества данных; и 3) Синергетическое совместное обучение обучает всю модель end-to-end на полностью сбалансированном наборе данных, способствуя усилению кросс-доменной синергии. Многочисленные эксперименты показывают, что UniMoE-Audio не только достигает наилучших результатов на основных бенчмарках генерации речи и музыки, но и демонстрирует превосходное синергетическое обучение, смягчая снижение производительности, обычно наблюдаемое при наивном совместном обучении. Наши результаты подчеркивают значительный потенциал специализированной архитектуры MoE и тщательно разработанных стратегий обучения в продвижении области универсальной генерации аудио. Домашняя страница: https://mukioxun.github.io/Uni-MoE-site/home.html
Механизм рассуждения больших языковых моделей (LLM) остается непрозрачным, а обучение с подкреплением (RL) обычно применяет равномерное распределение "заслуг" на весь процесс генерации, что размывает различие между ключевыми и рутинными шагами. В данной работе внимание позиционируется как привилегированный субстрат, который делает внутреннюю логику LLM понятной, не просто как побочный продукт вычислений, а как механистическую схему самого процесса рассуждения. Сначала мы разделяем механизмы внимания на локально и глобально ориентированные процессы обработки информации и показываем, что локально ориентированные механизмы создают пилообразный паттерн вблизи диагонали, указывающий на фразовые фрагменты, в то время как глобально ориентированные механизмы выявляют токены, оказывающие широкое влияние на последующие токены. Мы формализуем это с помощью двух метрик: 1) Среднее расстояние внимания в окне, которое измеряет степень обратного внимания в ограниченном окне; 2) Влияние внимания на будущее, которое количественно определяет глобальную важность токена как среднее внимание, получаемое им от последующих токенов. В совокупности эти сигналы раскрывают повторяющийся механизм предварительного планирования и закрепления, при котором модель сначала выполняет долгосрочную контекстуальную ссылку для генерации вводного токена, за которым сразу следует или совпадает с ним семантический якорный токен, организующий последующие рассуждения. Используя эти инсайты, мы представляем три новые стратегии RL, которые динамически выполняют целевое распределение "заслуг" на критические узлы (токены предварительного планирования, якорные токены и их временную связь) и демонстрируют стабильное улучшение производительности в различных задачах рассуждения. Согласовывая оптимизацию с внутренним ритмом рассуждения модели, мы стремимся превратить непрозрачную оптимизацию в осознанный процесс, учитывающий структуру, что, как мы надеемся, станет шагом к более прозрачной и эффективной оптимизации рассуждений LLM.
Полностью открытые многомодальные большие языковые модели (MLLMs) в настоящее время отстают от проприетарных аналогов, что в первую очередь связано с существенным разрывом в качестве данных для контролируемой тонкой настройки (SFT). Существующие открытые наборы данных часто страдают от повсеместного шума и критического дефицита данных, связанных со сложными рассуждениями, такими как цепочка мыслей (Chain-of-Thought, CoT), что препятствует развитию продвинутых возможностей моделей. Решая эти проблемы, наша работа вносит три основных вклада. Во-первых, мы представляем Honey-Data-15M — новый набор данных для SFT, содержащий около 15 миллионов пар вопросов и ответов, обработанных с использованием нескольких методов очистки и дополненных новой стратегией обогащения CoT на двух уровнях (кратком и длинном). Во-вторых, мы представляем HoneyPipe — конвейер обработки данных и его базовую платформу DataStudio, предоставляя сообществу прозрачную и адаптируемую методологию обработки данных, выходящую за рамки статических выпусков наборов данных. Наконец, чтобы подтвердить эффективность нашего набора данных и конвейера, мы обучаем модель Bee-8B на основе Honey-Data-15M. Эксперименты показывают, что Bee-8B устанавливает новый эталонный уровень (SOTA) для полностью открытых MLLMs, демонстрируя производительность, которая конкурирует, а в некоторых случаях превосходит последние полуоткрытые модели, такие как InternVL3.5-8B. Наша работа предоставляет сообществу набор фундаментальных ресурсов, включая: корпус Honey-Data-15M; полный стек инструментов, состоящий из HoneyPipe и DataStudio; рецепты обучения; систему оценки; и веса модели. Этот проект демонстрирует, что принципиальный акцент на качестве данных является ключевым путем к разработке полностью открытых MLLMs, которые могут успешно конкурировать с полуоткрытыми аналогами.
Модели Visual-Language-Action (VLA) демонстрируют впечатляющие результаты на тестах по роботизированному манипулированию, однако эти успехи могут скрывать фундаментальные слабости в их устойчивости. Мы провели систематический анализ уязвимостей, введя контролируемые возмущения по семи параметрам: расположение объектов, точки обзора камеры, начальные состояния робота, текстовые инструкции, условия освещения, текстуры фона и сенсорный шум. Мы всесторонне проанализировали несколько современных моделей и выявили последовательную хрупкость, скрывающуюся за видимой компетентностью. Наш анализ выявил критические слабости: модели демонстрируют чрезвычайную чувствительность к факторам возмущения, включая точки обзора камеры и начальные состояния робота, при этом производительность падает с 95% до менее 30% даже при умеренных возмущениях. Удивительно, но модели практически не реагируют на вариации в текстовых инструкциях, а дополнительные эксперименты показали, что модели склонны полностью игнорировать текстовые команды. Наши результаты ставят под сомнение предположение о том, что высокие баллы на тестах эквивалентны истинной компетентности, и подчеркивают необходимость практик оценки, которые учитывают надежность в условиях реальных вариаций.
Современные модели генерации видео способны создавать визуально реалистичные видеоролики, но часто не соблюдают физические законы, что ограничивает их способность генерировать физически правдоподобные видео и выступать в роли «моделей мира». Для решения этой проблемы мы предлагаем PhysMaster, который извлекает физические знания в виде представления для управления моделями генерации видео с целью повышения их физической осведомленности. В частности, PhysMaster основан на задаче преобразования изображения в видео, где модель должна предсказать физически правдоподобную динамику на основе входного изображения. Поскольку входное изображение предоставляет физические априорные данные, такие как относительные положения и потенциальные взаимодействия объектов в сцене, мы разработали PhysEncoder для кодирования физической информации из него в качестве дополнительного условия, чтобы внедрить физические знания в процесс генерации видео. Отсутствие надлежащего контроля над физической производительностью модели, выходящего за пределы простого внешнего вида, побуждает PhysEncoder применять обучение с подкреплением с обратной связью от человека для обучения физическим представлениям, что позволяет использовать обратную связь от моделей генерации для оптимизации физических представлений с помощью Direct Preference Optimization (DPO) в сквозной манере. PhysMaster предлагает практическое решение для повышения физической осведомленности PhysEncoder и, следовательно, генерации видео, демонстрируя свои возможности на простой тестовой задаче и обобщаемость на широкий спектр физических сценариев. Это подразумевает, что наш PhysMaster, который объединяет решения для различных физических процессов через обучение представлениям в парадигме обучения с подкреплением, может выступать в качестве универсального и подключаемого решения для физически осознанной генерации видео и более широких применений.
Эффективное пространственно-временное представление является основополагающим для моделирования, понимания и прогнозирования динамики в видео. Атомарная единица видео, пиксель, описывает непрерывную 3D траекторию во времени, выступая в качестве примитивного элемента динамики. Основываясь на этом принципе, мы предлагаем представлять любое видео как Поле Траекторий: плотное отображение, которое присваивает каждому пикселю в каждом кадре непрерывную 3D функцию траектории от времени. С этим представлением мы представляем Trace Anything — нейронную сеть, которая предсказывает всё поле траекторий за один прямой проход. В частности, для каждого пикселя в каждом кадре наша модель предсказывает набор контрольных точек, параметризующих траекторию (например, B-сплайн), что позволяет определить его 3D позицию в произвольные моменты времени. Мы обучили модель Trace Anything на крупномасштабных 4D данных, включая данные с нашей новой платформы, и наши эксперименты демонстрируют, что: (i) Trace Anything достигает наилучших результатов на нашем новом бенчмарке для оценки поля траекторий и конкурентоспособно показывает себя на устоявшихся бенчмарках для отслеживания точек; (ii) она обеспечивает значительный прирост эффективности благодаря своей одношаговой парадигме, не требуя итеративной оптимизации или вспомогательных оценщиков; и (iii) она демонстрирует возникающие способности, включая манипуляции с условиями цели, прогнозирование движения и пространственно-временное слияние. Страница проекта: https://trace-anything.github.io/.
Мы представляем InteractiveOmni — унифицированную и открытую мультимодальную большую языковую модель для аудиовизуального многозадачного взаимодействия, масштабируемую от 4 до 8 миллиардов параметров, которая призвана стать лидером в области легковесных моделей благодаря всеобъемлющему мультимодальному пониманию и возможностям генерации речи. Для достижения этой цели мы интегрируем визуальный кодировщик, аудиокодировщик, большую языковую модель и декодер речи в единую архитектуру для задач понимания и генерации. Мы разработали многоэтапную стратегию обучения, обеспечивающую устойчивые кросс-модальные способности, включая предварительное обучение для мультимодального понимания с последующим пост-обучением на данных речевых диалогов и аудиовизуального взаимодействия. Для реализации человеко-подобной способности к долгосрочным диалогам мы тщательно подготовили многозадачный обучающий набор данных, который улучшает способность модели справляться со сложными и многозадачными взаимодействиями. Для эффективной оценки многозадачной памяти и речевого взаимодействия мы создали мультимодальный бенчмарк многозадачной памяти и бенчмарк многозадачного речевого взаимодействия. Эксперименты показывают, что InteractiveOmni значительно превосходит ведущие открытые модели и обеспечивает более интеллектуальный многозадачный аудиовизуальный опыт, особенно в части долгосрочной памяти. Примечательно, что InteractiveOmni-4B сопоставима с гораздо более крупной моделью, такой как Qwen2.5-Omni-7B, на общих бенчмарках, сохраняя 97% производительности InteractiveOmni-8B при использовании лишь 50% размера модели. Достигая передовых результатов среди моделей сопоставимого размера в задачах понимания изображений, аудио, видео и генерации речи, InteractiveOmni представляет собой доступную открытую основу для интеллектуальных интерактивных систем следующего поколения.
Обучение с подкреплением (RL) стало ключевым подходом для обучения больших языковых моделей (LLM), однако в этой области отсутствуют методики прогнозирования масштабирования, сопоставимые с теми, что разработаны для предварительного обучения. Несмотря на стремительно растущие вычислительные бюджеты, нет систематического понимания того, как оценивать улучшения алгоритмов для масштабирования вычислительных ресурсов в RL. Мы представляем первое крупномасштабное систематическое исследование, эквивалентное более чем 400 000 GPU-часов, которое определяет принципиальную основу для анализа и прогнозирования масштабирования RL в LLM. Мы аппроксимируем сигмовидные кривые зависимости производительности от вычислительных ресурсов для обучения RL и исследуем широкий спектр распространённых проектных решений, чтобы проанализировать их влияние на асимптотическую производительность и вычислительную эффективность. Мы наблюдаем: (1) Не все подходы обеспечивают схожую асимптотическую производительность, (2) Детали, такие как агрегация потерь, нормализация, учебный план и алгоритмы вне политики, в основном влияют на вычислительную эффективность, незначительно изменяя асимптоту, и (3) Стабильные и масштабируемые подходы следуют предсказуемым траекториям масштабирования, что позволяет экстраполировать результаты с меньших масштабов. Объединяя эти наблюдения, мы предлагаем оптимальный подход, ScaleRL, и демонстрируем его эффективность, успешно масштабируя и прогнозируя производительность на валидации в рамках одного запуска RL, масштабированного до 100 000 GPU-часов. Наша работа предоставляет как научную основу для анализа масштабирования в RL, так и практический подход, который приближает обучение RL к предсказуемости, давно достигнутой в предварительном обучении.
Хотя большинство авторегрессивных больших языковых моделей (LLM) ограничены последовательным декодированием, диффузионные LLM (dLLM) привлекают всё больше внимания благодаря их потенциалу для значительного ускорения вывода за счёт параллельного декодирования. Несмотря на это преимущество, предположение об условной независимости в dLLM приводит к тому, что параллельное декодирование игнорирует зависимости между токенами, что неизбежно ухудшает качество генерации, когда эти зависимости сильны. Однако существующие работы в значительной степени упускают из виду эти фундаментальные проблемы, а оценки на стандартных бенчмарках (например, математика и программирование) недостаточны для выявления ухудшения качества, вызванного параллельным декодированием. Чтобы устранить этот пробел, мы сначала проводим информационно-теоретический анализ параллельного декодирования. Затем мы исследуем аналитически доступные синтетические операции со списками с точки зрения распределения данных и стратегий декодирования, предлагая количественные инсайты, которые подчеркивают фундаментальные ограничения параллельного декодирования. На основе этих инсайтов мы предлагаем ParallelBench — первый бенчмарк, специально разработанный для dLLM, включающий реалистичные задачи, которые тривиальны для людей и авторегрессивных LLM, но исключительно сложны для dLLM при параллельном декодировании. Используя ParallelBench, мы систематически анализируем как dLLM, так и авторегрессивные LLM, выявляя, что: (i) dLLM при параллельном декодировании могут демонстрировать значительное ухудшение качества в реальных сценариях, и (ii) текущие стратегии параллельного декодирования не способны адаптировать степень параллелизма в зависимости от сложности задачи, что не позволяет достичь значительного ускорения без компромисса по качеству. Наши результаты подчеркивают острую необходимость в инновационных методах декодирования, которые смогут преодолеть текущий компромисс между скоростью и качеством. Мы публикуем наш бенчмарк, чтобы ускорить разработку действительно эффективных dLLM.
Мультиагентные системы (MAS) и обучение с подкреплением (RL) широко используются для повышения агентных возможностей больших языковых моделей (LLM). MAS улучшает выполнение задач за счет ролевой оркестрации, в то время как RL использует вознаграждения из среды для обучения более эффективным стратегиям, таким как оптимизация в стиле GRPO. Однако применение on-policy RL в контексте MAS остается недостаточно изученным и сопряжено с уникальными трудностями. На алгоритмическом уровне стандартные предположения группировки GRPO нарушаются, поскольку запросы варьируются в зависимости от роли и хода. На системном уровне обучающий стек должен поддерживать развертывание рабочих процессов MAS и on-policy обновления как для моделей с одной стратегией, так и для моделей с несколькими стратегиями. Мы предлагаем AT-GRPO, который включает (i) алгоритм RL с группировкой по агентам и ходам, адаптированный для MAS, и (ii) обучающую систему, поддерживающую как одно-, так и многополитические режимы. В задачах, связанных с играми, планированием, программированием и математикой, AT-GRPO демонстрирует значительные улучшения. В долгосрочном планировании он повышает точность с базового уровня 14,0–47,0% для одноагентного RL до 96,0–99,5%. Он также улучшает производительность в задачах на рассуждение, показывая средний прирост на 3,87–7,62% в задачах по программированию и на 9,0–17,93% в математических задачах. Код и среды доступны по адресу: https://github.com/pettingllms-ai/PettingLLMs.
Мы представляем Generative Universal Verifier — новую концепцию и плагин, разработанные для мультимодального рассуждения следующего поколения в моделях, работающих с визуальными и языковыми данными, а также в унифицированных мультимодальных моделях. Этот инструмент обеспечивает фундаментальную возможность рефлексии и уточнения визуальных результатов в процессе рассуждения и генерации. Данная работа вносит три основных вклада: (1) Мы создаем ViVerBench — комплексный бенчмарк, охватывающий 16 категорий критически важных задач для оценки визуальных результатов в мультимодальном рассуждении. Результаты показывают, что существующие модели обработки визуальных и языковых данных (VLMs) стабильно демонстрируют низкую производительность в этих задачах, что подчеркивает значительный разрыв с человеческим уровнем надежной визуальной верификации. (2) Мы разрабатываем два автоматизированных конвейера для создания крупномасштабных данных визуальной верификации и обучаем OmniVerifier-7B — первый универсальный генеративный верификатор, способный выполнять задачи визуальной верификации и демонстрирующий значительный прогресс на ViVerBench (+8.3). В процессе обучения мы выделяем три базовые способности в визуальной верификации и показываем, как они обобщаются и взаимодействуют синергетически. (3) Мы предлагаем OmniVerifier-TTS — последовательную парадигму масштабирования на этапе тестирования, которая использует универсальный верификатор для объединения генерации и редактирования изображений в рамках унифицированных моделей, повышая верхний предел генеративных способностей за счет итеративной детализированной оптимизации. Помимо генерации, мы расширяем применение универсального верификатора на более широкие сценарии рассуждений, связанные с моделированием мира. Эмпирически OmniVerifier-TTS демонстрирует улучшения на T2I-ReasonBench (+3.7) и GenEval++ (+4.3), превосходя существующие методы параллельного масштабирования на этапе тестирования, такие как Best-of-N. Наделяя мультимодальное рассуждение надежной визуальной верификацией, OmniVerifier способствует как надежной рефлексии в процессе генерации, так и масштабируемому уточнению на этапе тестирования, делая шаг к созданию более доверяемых и управляемых систем рассуждения следующего поколения.
Генеративные модели широко применяются для моделирования окружающей среды в целях симуляции и прогнозирования будущих состояний. С развитием автономного вождения растет спрос не только на создание высококачественных видео под различными управляющими воздействиями, но и на генерацию разнообразной и значимой информации, такой как оценка глубины. Для решения этой задачи мы предлагаем CVD-STORM — кросс-вьюшную видео-диффузионную модель, использующую пространственно-временной реконструкционный вариационный автоэнкодер (VAE), которая генерирует долгосрочные многовидовые видео с возможностью 4D-реконструкции при различных управляющих воздействиях. Наш подход сначала донастраивает VAE с помощью вспомогательной задачи 4D-реконструкции, улучшая его способность кодировать 3D-структуры и временную динамику. Затем мы интегрируем этот VAE в процесс видео-диффузии, что значительно повышает качество генерации. Экспериментальные результаты показывают, что наша модель достигает существенного улучшения по метрикам FID и FVD. Кроме того, совместно обученный декодер на основе гауссовского сплайнинга эффективно реконструирует динамические сцены, предоставляя ценную геометрическую информацию для всестороннего понимания сцены.
Мы представляем InternVLA-M1, унифицированную платформу для пространственного заземления и управления роботами, которая продвигает роботов, следующих инструкциям, к масштабируемому и универсальному интеллекту. Её ключевая идея заключается в пространственно направленном обучении на стыке зрения, языка и действий, где пространственное заземление служит критической связью между инструкциями и действиями робота. InternVLA-M1 использует двухэтапный процесс: (i) предварительное обучение пространственному заземлению на более чем 2,3 млн данных для пространственного рассуждения, чтобы определить «где действовать», согласовывая инструкции с визуальными, независимыми от воплощения позициями, и (ii) пространственно направленное пост-обучение действиям для определения «как действовать», генерируя действия, учитывающие воплощение, через модульное пространственное подсказывание. Этот подход пространственно направленного обучения обеспечивает стабильные улучшения: InternVLA-M1 превосходит свою версию без пространственного руководства на +14,6% в SimplerEnv Google Robot, на +17% в WidowX и на +4,3% в LIBERO Franka, демонстрируя более сильные способности к пространственному рассуждению в задачах предсказания коробок, точек и траекторий. Для дальнейшего масштабирования следования инструкциям мы разработали симулятор для сбора 244 тыс. универсальных эпизодов pick-and-place, что обеспечило среднее улучшение на 6,2% по 200 задачам и более чем 3 тыс. объектов. В реальных задачах pick-and-place в сложных условиях InternVLA-M1 улучшил результаты на 7,3%, а с синтетическим совместным обучением достиг +20,6% на неизвестных объектах и новых конфигурациях. Более того, в сценариях с длительным горизонтом и интенсивным рассуждением он превзошёл существующие работы более чем на 10%. Эти результаты подчеркивают пространственно направленное обучение как объединяющий принцип для создания масштабируемых и устойчивых универсальных роботов. Код и модели доступны по адресу https://github.com/InternRobotics/InternVLA-M1.
Передовые исследования в области искусственного интеллекта (ИИ) требуют значительных ресурсов, включая графические процессоры (GPU), данные и человеческие ресурсы. В данной статье мы оцениваем взаимосвязь между этими ресурсами и научным прогрессом в разработке базовых моделей (Foundation Models, FM). Мы проанализировали 6517 научных статей по FM, опубликованных в период с 2022 по 2024 год, и провели опрос 229 первых авторов, чтобы изучить влияние вычислительных ресурсов на научные результаты. Мы обнаружили, что увеличение вычислительных мощностей коррелирует с национальным финансированием и количеством цитирований, однако не наблюдали сильной зависимости от исследовательской среды (академической или промышленной), области исследования или методологии. Мы рекомендуем отдельным исследователям и учреждениям сосредоточиться на создании общих и доступных вычислительных возможностей, чтобы снизить барьер входа для недостаточно обеспеченных ресурсами исследователей. Такие шаги могут способствовать расширению участия в исследованиях FM, стимулированию разнообразия идей и участников, а также поддержанию инноваций и прогресса в области ИИ. Данные будут доступны по адресу: https://mit-calc.csail.mit.edu/.
В данной статье мы утверждаем, что 3D-визуальное заземление является краеугольным камнем пространственного рассуждения и представляем Grounded-Spatial Reasoner (GS-Reasoner) для исследования эффективных пространственных представлений, которые устраняют разрыв между ними. Существующие 3D-языковые модели (LLM) страдают от отсутствия унифицированного 3D-представления, способного одновременно захватывать семантическую и геометрическую информацию. Этот недостаток проявляется либо в низкой производительности на задачах заземления, либо в чрезмерной зависимости от внешних модулей, что в конечном итоге препятствует бесшовной интеграции заземления и пространственного рассуждения. Для решения этой проблемы мы предлагаем простой, но эффективный механизм двойного пулинга, который тесно связывает геометрические признаки с семантическими и позиционными сигналами, создавая унифицированное 3D-представление на основе патчей изображений, которое инкапсулирует всю необходимую информацию без увеличения количества входных токенов. Используя это целостное представление, GS-Reasoner становится первой 3D-языковой моделью, которая достигает авторегрессивного заземления полностью без внешних модулей, демонстрируя производительность, сопоставимую с современными моделями, и устанавливая унифицированную и самодостаточную структуру для 3D-пространственного рассуждения. Для дальнейшего устранения разрыва между заземлением и пространственным рассуждением мы представляем набор данных Grounded Chain-of-Thought (GCoT). Этот набор данных тщательно отобран и включает как аннотации 3D-ограничивающих рамок для объектов, упомянутых в вопросах рассуждения, так и пошаговые пути рассуждения, которые интегрируют заземление как ключевой компонент процесса решения задач. Многочисленные эксперименты демонстрируют, что GS-Reasoner достигает впечатляющих результатов в 3D-визуальном заземлении, что, в свою очередь, значительно улучшает его способности к пространственному рассуждению, приводя к передовым показателям производительности.
Успешные универсальные модели Vision-Language-Action (VLA) основываются на эффективном обучении на разнообразных роботизированных платформах с использованием крупномасштабных, кросс-эмбодиментных и гетерогенных наборов данных. Для облегчения и использования гетерогенности в богатых и разнообразных источниках роботизированных данных мы предлагаем новый подход Soft Prompt с минимальным добавлением параметров, внедряя концепции обучения подсказок в кросс-эмбодиментное обучение роботов и вводя отдельные наборы обучаемых вложений для каждого уникального источника данных. Эти вложения служат эмбодимент-специфичными подсказками, которые в совокупности наделяют модели VLA эффективным использованием различных кросс-эмбодиментных особенностей. Наша новая модель X-VLA, основанная на аккуратном подходе к сопоставлению потоков, полагается исключительно на стандартные кодировщики Transformer с мягкими подсказками, сочетая масштабируемость и простоту. Протестированная на 6 симуляциях и 3 реальных роботах, наша реализация X-VLA-0.9B с 0.9 миллиардами параметров одновременно демонстрирует наилучшие результаты на множестве тестов, показывая превосходные результаты по широкому спектру возможностей — от гибкой ловкости до быстрой адаптации к различным эмбодиментам, средам и задачам. Веб-сайт: https://thu-air-dream.github.io/X-VLA/
Универсальные мультимодальные модели эмбеддингов являются основой для решения различных задач. Существующие подходы обычно используют внутрибатчевое негативное майнинг, измеряя сходство пар запрос-кандидат. Однако эти методы часто не способны уловить тонкие семантические различия между кандидатами и страдают от недостатка разнообразия в негативных примерах. Кроме того, эмбеддинги демонстрируют ограниченную способность различать ложные и сложные негативные примеры. В данной работе мы используем расширенные возможности понимания MLLM (многоязыковых языковых моделей) для улучшения обучения представлений и представляем новую модель Universal Multimodal Embedding (UniME-V2). Наш подход сначала строит набор потенциальных сложных негативных примеров через глобальный поиск. Затем мы вводим механизм MLLM-as-a-Judge, который использует MLLM для оценки семантического соответствия пар запрос-кандидат и генерации мягких семантических оценок соответствия. Эти оценки служат основой для майнинга сложных негативных примеров, смягчая влияние ложных негативов и позволяя идентифицировать разнообразные, высококачественные сложные негативные примеры. Кроме того, семантические оценки соответствия используются как мягкие метки для смягчения жесткого ограничения однозначного соответствия. Выравнивая матрицу сходства с матрицей мягких семантических оценок соответствия, модель учится различать семантические различия между кандидатами, значительно повышая свою дискриминационную способность. Для дальнейшего улучшения производительности мы предлагаем UniME-V2-Reranker, модель ранжирования, обученную на наших сложных негативных примерах с использованием совместного попарного и спискового оптимизационного подхода. Мы проводим всесторонние эксперименты на бенчмарке MMEB и нескольких задачах поиска, демонстрируя, что наш метод достигает наилучших результатов в среднем по всем задачам.
В данном исследовании представлен метод предварительного обучения с классификацией замаскированных искажений (MaskDCPT), разработанный для облегчения классификации типов искажений во входных изображениях, что способствует комплексному предварительному обучению восстановлению изображений. В отличие от традиционных методов предварительного обучения, MaskDCPT использует тип искажения изображения в качестве крайне слабого надзора, одновременно используя восстановление изображения для повышения производительности и устойчивости. MaskDCPT включает в себя кодировщик и два декодера: кодировщик извлекает признаки из замаскированного изображения низкого качества. Классификационный декодер использует эти признаки для определения типа искажения, тогда как реконструкционный декодер стремится восстановить соответствующее изображение высокого качества. Такая конструкция позволяет предварительному обучению извлекать выгоду как из моделирования замаскированных изображений, так и из контрастного обучения, что приводит к обобщенному представлению, подходящему для задач восстановления. Благодаря простому, но мощному методу MaskDCPT, предварительно обученный кодировщик может быть использован для решения универсальных задач восстановления изображений и достижения выдающихся результатов. Реализация MaskDCPT значительно улучшает производительность как сверточных нейронных сетей (CNN), так и трансформеров, с минимальным увеличением PSNR на 3.77 дБ в задаче 5D all-in-one восстановления и снижением PIQE на 34.8% по сравнению с базовым уровнем в сценариях реальных искажений. Также наблюдается сильная обобщающая способность к ранее не встречавшимся типам и уровням искажений. Кроме того, мы создали и опубликовали набор данных UIR-2.5M, который включает 2.5 миллиона парных образцов для восстановления по 19 типам искажений и более чем 200 уровням искажений, включая как синтетические, так и реальные данные. Набор данных, исходный код и модели доступны по адресу https://github.com/MILab-PKU/MaskDCPT.
Используя большие языковые модели (LLMs) для извлечения документов и генерации естественно-языковых ответов, генеративные движки, такие как Google AI Overview и ChatGPT, значительно улучшают пользовательский опыт и быстро становятся новой формой поиска. Их стремительное внедрение также стимулирует потребность в оптимизации для генеративных движков (Generative Engine Optimization, GEO), поскольку поставщики контента стремятся получить больше внимания с их помощью. В данной статье мы представляем AutoGEO — фреймворк для автоматического изучения предпочтений генеративных движков при использовании извлеченного контента для генерации ответов и переписывания веб-контента для повышения его привлекательности. AutoGEO сначала запрашивает передовые LLM для объяснения предпочтений генеративных движков и извлекает значимые правила предпочтений из этих объяснений. Затем он использует эти правила как контекстную инженерию для AutoGEO_API — системы GEO на основе промптов, и как основанные на правилах награды для обучения AutoGEO_Mini — экономически эффективной модели GEO. Эксперименты на стандартном GEO-Bench и двух новых бенчмарках, созданных с использованием реальных пользовательских запросов, демонстрируют эффективность AutoGEO в повышении привлекательности контента при сохранении полезности поиска. Анализ подтверждает устойчивость изученных правил и их способность учитывать уникальные предпочтения в различных доменах, а также способность систем AutoGEO внедрять их в оптимизацию контента. Код доступен по адресу https://github.com/cxcscmu/AutoGEO.
Унифицированные мультимодальные модели направлены на совместное обеспечение визуального понимания и генерации, однако современные тестовые наборы редко исследуют их истинную интеграцию. Существующие оценки либо рассматривают эти две способности изолированно, либо упускают задачи, которые изначально их связывают. Для устранения этого пробела мы представляем Uni-MMMU — всеобъемлющий и дисциплинарно-ориентированный тестовый набор, который систематически раскрывает двунаправленную синергию между генерацией и пониманием в восьми областях, ориентированных на рассуждения, включая науку, программирование, математику и головоломки. Каждая задача двунаправленно связана, требуя от моделей (i) использовать концептуальное понимание для точного визуального синтеза или (ii) применять генерацию как когнитивную опору для аналитического рассуждения. Uni-MMMU включает проверяемые промежуточные шаги рассуждений, уникальные эталонные данные и воспроизводимый протокол оценки как для текстовых, так и для визуальных выходных данных. Благодаря обширной оценке современных унифицированных, генерационных и моделей, ориентированных только на понимание, мы выявляем значительные различия в производительности и кросс-модальные зависимости, предлагая новые инсайты о том, когда и как эти способности усиливают друг друга, и устанавливая надежную основу для развития унифицированных моделей.
Точное понимание визуально-языковых данных требует четкого соответствия между визуальным содержанием и лингвистическими описаниями, что остается ограниченным в современных моделях, особенно в неанглоязычных контекстах. Хотя модели, такие как CLIP, хорошо справляются с глобальным выравниванием, они часто испытывают трудности с захватом деталей на уровне атрибутов объектов, пространственных отношений и лингвистических выражений, а также имеют ограниченную поддержку двуязычного понимания. Для решения этих проблем мы представляем FG-CLIP 2 — двуязычную визуально-языковую модель, разработанную для улучшения точного выравнивания как для английского, так и для китайского языков. Наш подход использует богатое детализированное обучение, включая сопоставление регионов с текстом и моделирование длинных описаний, а также несколько дискриминативных задач. Мы также вводим функцию потерь Textual Intra-modal Contrastive (TIC) для лучшего различения семантически схожих описаний. Обучив модель на тщательно отобранной смеси крупномасштабных данных на английском и китайском языках, FG-CLIP 2 демонстрирует мощную двуязычную производительность. Для обеспечения строгой оценки мы представляем новый эталонный тест для китайского мультимодального понимания, включающий извлечение длинных описаний и классификацию ограничивающих рамок. Многочисленные эксперименты на 29 наборах данных по 8 задачам показывают, что FG-CLIP 2 превосходит существующие методы, достигая наилучших результатов на обоих языках. Мы публикуем модель, код и эталонный тест для содействия будущим исследованиям в области двуязычного точного выравнивания.
Слияние моделей, особенно в случае Instruct и Thinking моделей, продемонстрировало впечатляющую производительность для эффективного рассуждения. В данной работе мы систематически возвращаемся к простейшему методу слияния, который напрямую интерполирует два набора весов. В частности, мы наблюдаем, что интерполяция моделей следует трехэтапной эволюционной парадигме с различными поведенческими характеристиками на траектории рассуждения. Эти динамики предоставляют принципиальное руководство для навигации в компромиссе между производительностью и затратами. Эмпирические результаты показывают, что стратегически интерполированная модель неожиданно превосходит сложные базовые методы слияния моделей как по эффективности, так и по результативности. Мы дополнительно подтверждаем наши выводы с помощью обширных исследований абляции на уровнях моделей, модулях и стратегиях декодирования. В конечном итоге, эта работа раскрывает суть интерполяции моделей и предлагает практическую основу для создания моделей с точно заданными возможностями рассуждения. Код доступен по адресу https://github.com/wutaiqiang/MI{Github}.
Недавние достижения в области больших языковых моделей (LLM) были сосредоточены на масштабировании во время тестирования для улучшения способности к рассуждению за счет увеличения вычислительных ресурсов на этапе вывода, однако часто это происходит в ущерб эффективности. Мы пересматриваем поведение моделей на этапе тестирования и обнаруживаем простой, но малоизученный феномен: неопределенность в рассуждениях является высоко локализованной — лишь небольшое подмножество токенов с высокой энтропией существенно влияет на корректность выходных данных. Вдохновленные этим, мы предлагаем Минимальное Вмешательство на Этапе Тестирования (MTI), бесплатную от обучения структуру, которая повышает точность и стабильность рассуждений с минимальными накладными расходами. MTI включает: (i) Селективное вмешательство CFG, применяя классификатор-фри гайдинг только в неопределенных позициях; и (ii) Легковесное негативное подсказывание, повторно используя кэш KV основной модели для эффективного приближения безусловного декодирования. MTI демонстрирует стабильные улучшения в общих, кодировочных и STEM задачах — например, среднее улучшение на 1.35% на восьми бенчмарках для Qwen3-8B-Base и на 5% на AIME2024 с использованием Qwen3-32B-Reasoning, сохраняя при этом высокую эффективность.
Трансформеры с декодером стали стандартной архитектурой для больших языковых моделей (LLM) благодаря их высокой производительности. Недавние исследования показывают, что в предобученных LLM ранние, средние и поздние слои могут выполнять различные функции: ранние слои сосредоточены на понимании контекста входных данных, средние слои обрабатывают задачи, специфичные для конкретной задачи, а поздние слои преобразуют абстрактные представления в выходные токены. Мы предполагаем, что после обработки представлений ранними и средними слоями, полученные скрытые состояния могут содержать достаточно информации для генерации нескольких токенов с использованием только поздних слоев, устраняя необходимость повторного прохождения через ранние и средние слои. Мы называем этот подход к выводу Direct Multi-Token Decoding (DMTD). В отличие от спекулятивного декодирования, наш метод не вводит дополнительных параметров, вспомогательных процедур или проверки после генерации. Несмотря на обучение на ограниченном наборе данных, доработанная модель DMTD Qwen3-4B уже показала многообещающие результаты, достигнув ускорения до 2x с незначительной потерей производительности. Более того, как показано в нашем анализе масштабирования, её производительность, как ожидается, будет улучшаться с увеличением объемов обучающих данных.
Обучаемое разреженное внимание стало перспективным решением для устранения узкого места в эффективности декодирования крупных языковых моделей (LLM) при обработке длинных контекстов, значительно сокращая количество обращений к памяти при минимальном влиянии на производительность задач. Однако существующие методы разреженного внимания не решают одну ключевую проблему: размер кэша ключей и значений (KV) остается неизменным, что ограничивает размеры пакетов на GPU и снижает пропускную способность декодирования, особенно при крупномасштабном пакетном выводе. В данной работе мы показываем, что обучаемое разреженное внимание естественным образом демонстрирует сильную локальность в выборе токенов на соседних шагах декодирования, что позволяет выгружать KV-кэш без изменения базовых вычислений внимания. Однако встроенной локальности недостаточно для эффективной выгрузки, так как передача выбранных KV-пар между CPU и GPU продолжает доминировать в общих затратах на декодирование. На основе этого наблюдения мы представляем NOSA — фреймворк обучаемого разреженного внимания, разработанный для нативной поддержки выгрузки KV-кэша. NOSA вводит явные ограничения локальности путем декомпозиции выбора токенов на компоненты, зависящие и не зависящие от запроса, что сокращает передачу KV-данных при сохранении тех же вычислений внимания, что и во время обучения. Мы предварительно обучаем модель с 1 миллиардом параметров с использованием NOSA и проводим обширные тесты, показывая, что она сохраняет почти без потерь производительность, достигая при этом улучшения пропускной способности декодирования до 2,3 раз по сравнению с базовым вариантом обучаемого разреженного внимания (InfLLM-V2).
Политики роботизированного манипулирования часто сталкиваются с трудностями в обобщении на новые объекты, что ограничивает их практическую применимость. В то же время когнитивная наука указывает на то, что дети развивают обобщаемые навыки ловкого манипулирования, осваивая небольшой набор простых игрушек и затем применяя эти знания к более сложным предметам. Вдохновленные этим, мы исследуем, могут ли роботы достичь аналогичных способностей к обобщению. Наши результаты показывают, что роботы могут обучаться обобщаемому захвату, используя случайно собранные объекты, состоящие всего из четырех примитивных форм: сфер, параллелепипедов, цилиндров и колец. Мы демонстрируем, что обучение на таких "игрушках" позволяет достичь устойчивого обобщения на реальные объекты, обеспечивая высокую производительность в условиях нулевого сходства. Ключевым фактором такого обобщения является объектно-ориентированное визуальное представление, индуцированное предложенным нами механизмом пулинга детекции. Оцененная как в симуляции, так и на физических роботах, наша модель достигает 67% успешности захвата на наборе данных YCB, превосходя современные подходы, которые полагаются на значительно большее количество данных из целевой области. Мы также исследуем, как производительность обобщения в условиях нулевого сходства масштабируется при изменении количества и разнообразия обучающих игрушек, а также количества демонстраций на одну игрушку. Мы считаем, что эта работа открывает перспективный путь к масштабируемому и обобщаемому обучению в роботизированном манипулировании. Видео демонстраций, код, контрольные точки и наш набор данных доступны на странице проекта: https://lego-grasp.github.io/.
Модели автономного вождения, обученные с использованием исключительно имитационного обучения (IL), часто демонстрируют слабую обобщающую способность. В то же время обучение с подкреплением (RL) способствует исследованию через максимизацию награды, но сталкивается с такими проблемами, как низкая эффективность использования данных и нестабильная сходимость. Естественным решением является комбинация IL и RL. Выходя за рамки традиционного двухэтапного подхода (предварительное обучение с помощью IL с последующей доработкой через RL), мы предлагаем CoIRL-AD — конкурентную двухполитическую архитектуру, которая позволяет агентам IL и RL взаимодействовать в процессе обучения. CoIRL-AD вводит механизм, основанный на конкуренции, который способствует обмену знаниями, предотвращая при этом конфликты градиентов. Эксперименты на наборе данных nuScenes показали снижение частоты столкновений на 18% по сравнению с базовыми методами, а также улучшенную обобщающую способность и производительность в редких сценариях. Код доступен по адресу: https://github.com/SEU-zxj/CoIRL-AD.
Последние достижения в области мультиагентных систем, основанных на крупных языковых моделях, продемонстрировали впечатляющий коллективный интеллект благодаря эффективной коммуникации. Однако существующие подходы сталкиваются с двумя основными проблемами: (i) Неэффективное моделирование группового взаимодействия, поскольку они полагаются на попарные представления связей в графовых структурах, что ограничивает их способность учитывать отношения между несколькими агентами; и (ii) Ограниченная адаптивность проектирования топологии коммуникации к задачам, что приводит к избыточным затратам на коммуникацию для простых задач и недостаточной координации в сложных сценариях. Эти проблемы ограничивают масштабируемость и практическое применение адаптивных фреймворков для совместной работы. Для решения этих задач мы предлагаем HyperAgent — фреймворк на основе гиперграфов, который оптимизирует топологии коммуникации и эффективно учитывает паттерны группового взаимодействия с использованием прямых представлений гиперребер. В отличие от подходов, основанных на ребрах, HyperAgent использует гиперребра для связи нескольких агентов в рамках одной подзадачи и применяет сверточные слои гиперграфов для одношаговой агрегации информации в группах взаимодействия. Кроме того, он включает фреймворк вариационного автоэнкодера с регуляризацией разреженности для динамической настройки топологий гиперграфов в зависимости от сложности задачи. Эксперименты подчеркивают превосходство HyperAgent как по производительности, так и по эффективности. Например, на GSM8K HyperAgent достигает точности 95,07%, сокращая потребление токенов на 25,33%, что демонстрирует потенциал оптимизации коммуникации мультиагентных систем на основе гиперграфов.
Системы рассуждений на основе больших языковых моделей (LLM) недавно достигли уровня золотых медалей на соревновании IMO 2025, создавая математические доказательства, где для получения полного балла каждый шаг должен быть не только правильным, но и достаточно обоснованным. Для обучения LLM-рассуждателей в таких сложных, открытых условиях необходимы мощные верификаторы, способные выявлять ошибки на уровне шагов. Мы представляем Hard2Verify — эталонный набор данных для пошаговой верификации, созданный с участием более 500 часов человеческого труда. Hard2Verify предназначен для строгой оценки пошаговых верификаторов на переднем крае: верификаторы должны предоставлять аннотации на уровне шагов или идентифицировать первую ошибку в ответах, сгенерированных передовыми LLM для недавних, сложных и открытых математических задач. Мы оцениваем 29 генеративных критиков и моделей вознаграждения процессов, демонстрируя, что, за исключением нескольких выдающихся примеров, открытые верификаторы отстают от закрытых моделей. Впоследствии мы анализируем причины низкой производительности в пошаговой верификации, влияние масштабирования вычислительных ресурсов верификаторов, а также фундаментальные вопросы, такие как самоверификация и динамика взаимодействия верификации и генерации.
Многошаговый Text-to-SQL направлен на преобразование реплик пользователя в диалоге в исполняемые SQL-запросы, сохраняя при этом связность диалога и привязку к целевой схеме. Однако большинство существующих систем рассматривают эту задачу как простую задачу перевода текста и следуют краткосрочной парадигме, генерируя запрос на каждый шаг без выполнения, явной проверки и уточнения, что приводит к неисполнимым или несвязным результатам. Мы представляем MTSQL-R1, агентскую обучающую структуру для долгосрочного многошагового Text-to-SQL. Мы формулируем задачу как Марковский процесс принятия решений (MDP), в котором агент взаимодействует (i) с базой данных для получения обратной связи по выполнению и (ii) с постоянной памятью диалога для проверки связности, выполняя итеративный цикл "предложить -> выполнить -> проверить -> уточнить" до тех пор, пока все проверки не будут пройдены. Эксперименты на COSQL и SPARC демонстрируют, что MTSQL-R1 стабильно превосходит сильные базовые подходы, подчеркивая важность проверки, основанной на окружении, и уточнения, направляемого памятью, для семантического анализа в диалогах. Полные рецепты (включая код, обученные модели, логи, траектории рассуждений и т.д.) будут опубликованы после внутреннего рецензирования для вклада в исследования сообщества.
Многоагентные системы с использованием больших языковых моделей (LLM) всё чаще применяются для решения сложных задач обработки языка, требующих взаимодействия и координации между агентами. Однако такие системы часто сталкиваются с существенными накладными расходами из-за повторной обработки перекрывающихся контекстов между агентами. В типичных конвейерах, как только агент получает сообщение от своего предшественника, полный контекст, включая предыдущие шаги, должен быть обработан заново, что приводит к неэффективности. Хотя кэширование ключей и значений (KV) является эффективным решением для избежания избыточных вычислений в однозадачных сценариях, где префиксы остаются неизменными, оно не может быть напрямую применено в многоагентных сценариях из-за расхождения префиксов, вызванного расширением контекста, специфичным для каждого агента. Основная проблема заключается в изменении смещений KV-кэшей между агентами. Для решения этой проблемы мы предлагаем KVCOMM — не требующий обучения фреймворк, который обеспечивает эффективное предзаполнение в многоагентных сценариях за счёт повторного использования KV-кэшей и выравнивания смещений кэшей для перекрывающихся контекстов при различных префиксах. KVCOMM оценивает и корректирует KV-кэши для общего содержимого, ссылаясь на пул кэшированных примеров, называемых якорями, которые хранят наблюдаемые отклонения кэшей при различных префиксах. Пул якорей поддерживается и обновляется в режиме реального времени, что позволяет динамически адаптироваться к различным запросам пользователей и структурам контекста. KVCOMM достигает уровня повторного использования более 70% для различных многоагентных задач, включая генерацию с использованием поиска, математические рассуждения и совместное программирование, без ухудшения качества. В частности, в условиях пяти агентов, где каждый полностью связанный агент получает 1K входных токенов с 512 префиксными токенами и 512 выходными токенами, KVCOMM обеспечивает ускорение до 7,8 раз по сравнению со стандартным конвейером предзаполнения, сокращая время до первого токена (TTFT) с ~430 мс до ~55 мс.
Трекеры и генераторы видео решают тесно связанные задачи: первые анализируют движение, а вторые синтезируют его. Мы показываем, что эта связь позволяет предобученным моделям диффузии видео выполнять трекинг точек "с нуля", просто запрашивая у них визуальное обозначение точек по мере их перемещения во времени. Мы размещаем маркер с уникальным цветом на искомой точке, а затем воссоздаем остальную часть видео, начиная с промежуточного уровня шума. Это распространяет маркер по кадрам, отслеживая траекторию точки. Чтобы гарантировать, что маркер остается видимым в этой контрфактуальной генерации, несмотря на маловероятность таких маркеров в естественных видео, мы используем нередактированный начальный кадр в качестве негативного запроса. Эксперименты с несколькими моделями диффузии видео, основанными на изображениях, показывают, что эти "возникающие" треки превосходят результаты предыдущих методов "с нуля" и сохраняются при окклюзиях, часто достигая производительности, сопоставимой со специализированными моделями с самоконтролем.
Обучение согласованию имеет свои компромиссы: оно помогает языковым моделям (LM) улучшить способность к рассуждению и следованию инструкциям, но может привести к потере таких навыков, как креативность и калибровка, в которых преуспевают несогласованные базовые модели. Мы стремимся объединить лучшее из обоих миров через совместную работу моделей, где различные модели в процессе обучения взаимодействуют и дополняют друг друга. Поскольку ответы LM включают чередующиеся навыки, которые лучше подходят для разных моделей, мы предлагаем подход Switch Generation, где предобученные и согласованные версии моделей поочередно "говорят" в последовательности ответов. Конкретно, мы обучаем модель-переключатель (switcher LM), изучая результаты выбора различных моделей для генерации следующего сегмента в разнообразных запросах и контекстах. На этапе вывода модель-переключатель направляет различные контрольные точки моделей для динамической генерации следующего сегмента там, где их сильные стороны наиболее востребованы. Масштабные эксперименты с 8 базовыми подходами совместной работы моделей и 18 наборами данных показывают, что 1) совместная работа моделей стабильно превосходит отдельные модели в 16 из 18 задач, и 2) Switch Generation дополнительно превосходит базовые подходы в среднем на 12,9%. Дополнительный анализ показывает, что Switch Generation обнаруживает композиционные навыки для решения задач, с которыми отдельные модели не справляются, и обобщает на неизвестные модели и задачи, повторно используя и перепрофилируя побочные продукты дорогостоящих процессов обучения моделей, которые в противном случае были бы отброшены.
Многоагентные системы, основанные на крупных языковых моделях, превосходно справляются со сложными задачами благодаря скоординированному взаимодействию, однако они сталкиваются с высоким уровнем сбоев в сценариях многошагового глубокого поиска. Существующие методы временной атрибуции не способны точно диагностировать корневые причины, особенно когда ошибки распространяются между несколькими агентами. Попытки автоматизировать атрибуцию сбоев путем анализа последовательностей действий остаются неэффективными из-за неспособности учитывать информационные зависимости, охватывающие нескольких агентов. В данной статье выделены две ключевые проблемы: (i) различение симптомов и корневых причин в распространении ошибок в многоагентных системах и (ii) отслеживание информационных зависимостей за пределами временного порядка. Для решения этих проблем мы представляем GraphTracer — фреймворк, который переосмысливает атрибуцию сбоев через анализ информационных потоков. GraphTracer строит Графы Информационных Зависимостей (IDG), чтобы явно фиксировать, как агенты ссылаются и основываются на предыдущих выводах. Он локализует корневые причины, отслеживая эти структуры зависимостей, вместо того чтобы полагаться на временные последовательности. GraphTracer также использует генерацию синтетических данных с учетом графов для выделения критических узлов, создавая реалистичные сценарии сбоев. Оценки на бенчмарке Who\&When и интеграция в производственные системы демонстрируют, что GraphTracer-8B достигает до 18,18\% более высокой точности атрибуции по сравнению с современными моделями и обеспечивает улучшение производительности на 4,8\% до 14,2\% в развернутых многоагентных фреймворках, устанавливая надежное решение для отладки многоагентных систем.
С ростом популярности языковых моделей, способных к рассуждению, и методов масштабирования на этапе тестирования как парадигмы для повышения производительности моделей, часто требуется значительный объем вычислений для генерации нескольких кандидатных последовательностей из одного и того же запроса. Это позволяет исследовать различные пути рассуждений для достижения правильного решения, однако выделяет одинаковый бюджет вычислений для каждого запроса. Основываясь на предположении, что разные запросы обладают разной степенью сложности и, следовательно, разными потребностями в вычислениях, мы предлагаем EAGer — метод генерации, не требующий обучения, который использует неопределенность модели через распределение энтропии на уровне токенов для сокращения избыточных вычислений и одновременного повышения общей производительности. EAGer позволяет ветвиться на несколько путей рассуждений только при наличии токенов с высокой энтропией, а затем перераспределяет сэкономленный бюджет вычислений на те случаи, где исследование альтернативных путей наиболее необходимо. Мы обнаружили, что на множестве моделей с открытым исходным кодом на сложных тестах на рассуждение, таких как AIME 2025, EAGer может перераспределять бюджет без доступа к целевым меткам, достигая наилучшего компромисса между эффективностью и производительностью с точки зрения длины рассуждений и Pass@k. Когда целевые метки доступны, EAGer генерирует до 65% меньше токенов (тем самым экономя вычисления) и достигает улучшения в Pass@k до 37% по сравнению с методом Full Parallel Sampling.
Современные крупные языковые модели (LLM) с длинным контекстом демонстрируют хорошие результаты на синтетических тестах типа "иголка в стоге сена" (NIAH), однако такие тесты упускают из виду, как шумные контексты возникают из-за предвзятости поиска и агентных рабочих процессов. Мы утверждаем, что инженерия стога сена необходима для создания шумных длинных контекстов, которые достоверно отражают ключевые факторы реального мира — отвлечение из-за разнородных предвзятых поисковых систем и каскадные ошибки в агентных рабочих процессах — для проверки устойчивости моделей к длинному контексту. Мы реализуем это через HaystackCraft, новый NIAH-бенчмарк, построенный на полной сети гиперссылок английской Википедии с вопросами, требующими многошагового рассуждения. HaystackCraft оценивает, как разнородные стратегии поиска (например, разреженные, плотные, гибридные и основанные на графах) влияют на состав отвлекающих элементов, порядок стога сена и производительность LLM. HaystackCraft также расширяет NIAH до динамических, зависящих от LLM сценариев, которые имитируют агентные операции, где модели уточняют запросы, анализируют свои прошлые рассуждения и решают, когда остановиться. Эксперименты с 15 моделями с длинным контекстом показывают, что (1) хотя более мощные плотные поисковые системы могут вводить более сложные отвлекающие элементы, ранжирование на основе графов одновременно улучшает эффективность поиска и снижает влияние более вредоносных отвлекающих элементов; (2) в агентных тестах даже продвинутые модели, такие как Gemini 2.5 Pro и GPT-5, страдают от каскадных сбоев из-за самостоятельно созданных отвлекающих элементов или испытывают трудности с ранней остановкой. Эти результаты подчеркивают сохраняющиеся проблемы в агентном рассуждении с длинным контекстом и устанавливают HaystackCraft как ценный полигон для будущих достижений.
Крупные языковые модели (LLM) демонстрируют языковые способности на уровне человека или даже превосходящие его, эффективно моделируя синтаксические структуры, однако конкретные вычислительные модули, ответственные за это, остаются неясными. Ключевой вопрос заключается в том, обусловлены ли поведенческие возможности LLM механизмами, схожими с теми, что используются в человеческом мозге. Для решения этих вопросов мы представляем зонд иерархической частотной маркировки (HFTP) — инструмент, который использует анализ в частотной области для идентификации компонентов LLM на уровне нейронов (например, отдельных нейронов многослойного перцептрона (MLP)) и корковых областей (с помощью внутричерепных записей), кодирующих синтаксические структуры. Наши результаты показывают, что модели, такие как GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 и GLM-4, обрабатывают синтаксис в аналогичных слоях, тогда как человеческий мозг полагается на различные корковые области для разных уровней синтаксиса. Анализ сходства представлений выявляет более сильное соответствие между представлениями LLM и левым полушарием мозга (доминирующим в обработке языка). Примечательно, что усовершенствованные модели демонстрируют различные тенденции: Gemma 2 показывает большее сходство с мозгом, чем Gemma, тогда как Llama 3.1 меньше соответствует мозгу по сравнению с Llama 2. Эти результаты предлагают новые взгляды на интерпретируемость улучшений поведенческих характеристик LLM, поднимая вопросы о том, обусловлены ли эти улучшения механизмами, схожими с человеческими, или иными, и устанавливают HFTP как ценный инструмент, связывающий вычислительную лингвистику и когнитивную нейронауку. Проект доступен по адресу https://github.com/LilTiger/HFTP.
С появлением DeepSeek-R1 возникла новая волна методов обучения с подкреплением (RL), которые, как кажется, открывают более сильные возможности для математического рассуждения. Однако при более внимательном рассмотрении экосистемы с открытым исходным кодом выявляется критическое ограничение: при достаточно большом количестве попыток (например, pass@1024) многие существующие базовые модели уже решают почти все задачи на широко используемых математических бенчмарках, таких как MATH-500 и AIME 2024. Это говорит о том, что методы тонкой настройки с использованием RL, преобладающие в литературе по рассуждениям в больших языковых моделях (LLM), в основном улучшают существующие режимы решения, а не открывают совершенно новые. Такое улучшение контрастирует с более широкими обещаниями RL: стимулировать исследование и приобретать новые навыки. Чтобы выйти за пределы этого плато, мы представляем MATH-Beyond (MATH-B) — бенчмарк, специально разработанный для того, чтобы преодолеть возможности распространенных моделей с открытым исходным кодом до 8 миллиардов параметров даже при больших бюджетах выборки. Улучшение производительности на нашем бенчмарке с помощью RL требует методов, которые учатся рассуждать способами, выходящими за пределы возможностей базовых моделей при повторной выборке. Поскольку задачи взяты из подмножеств наборов данных DAPO-Math-17K и DeepScaleR, они остаются тематически эквивалентными стандартной школьной математике. Подтверждая нашу гипотезу, модели, тонко настроенные с использованием RL, такие как Nemotron-Research-Reasoning-Qwen-1.5B и DeepScaleR-1.5B-Preview, показывают низкие результаты на MATH-B при pass@1024, демонстрируя, как существующие подходы не справляются с более сложными задачами. Мы надеемся, что MATH-B станет катализатором для исследовательских подходов RL, которые стимулируют более глубокие способности к рассуждению. Мы публикуем MATH-B по адресу https://huggingface.co/datasets/brendel-group/MATH-Beyond.
Удаленный вывод позволяет легковесным устройствам использовать мощные облачные модели. Однако задержки в сети связи делают прогнозы устаревшими и непригодными для задач в реальном времени. Для решения этой проблемы мы представляем Dedelayed — метод коррекции задержек, который смягчает произвольные задержки удаленного вывода, позволяя локальному устройству выдавать результаты с низкой задержкой в реальном времени. Наш метод использует легковесную локальную модель, которая обрабатывает текущий кадр и объединяет признаки, вычисленные мощной удаленной моделью на основе прошлых кадров. На видео из набора данных BDD100K, посвященного вождению, Dedelayed повышает точность семантической сегментации по сравнению с более сильным из локального и удаленного базовых подходов при всех реалистичных задержках в сети связи, превышающих 33 мс. Не вызывая дополнительных задержек, метод улучшает точность на 6,4 mIoU по сравнению с полностью локальным выводом и на 9,8 mIoU по сравнению с удаленным выводом при задержке в 100 мс. Преимущество возрастает при более длительных задержках и в сценах с высокой динамикой, так как разделенный вывод с коррекцией задержек эффективнее поддерживает точность, что обеспечивает явные преимущества для задач в реальном времени, которые должны оставаться синхронизированными с текущим состоянием окружающего мира.
Модели рассуждений улучшают свою способность решать задачи за счет масштабирования на этапе вывода, выделяя больше вычислительных ресурсов через увеличение бюджета токенов. Определение того, какие траектории рассуждений с большей вероятностью приведут к успеху, остается ключевой возможностью: надежное прогнозирование продуктивных путей может существенно сократить бесполезные вычисления и повысить общую эффективность. Мы представляем сигналы Latent-Trajectory, которые характеризуют временную эволюцию внутренних представлений модели в процессе генерации промежуточных токенов рассуждений. Измеряя общее изменение латентных представлений между началом и концом рассуждения, накопленное изменение на промежуточных шагах и степень, в которой эти изменения приближают к конечному состоянию, мы показываем, что эти сигналы предсказывают точность решения более надежно, чем как кросс-слойные метрики, так и меры уверенности, основанные на выходных данных. При использовании для выбора ответа среди множества сгенерированных вариантов сигналы Latent-Trajectory делают масштабирование на этапе тестирования более эффективным и экономичным, чем метод большинства голосов, сокращая использование токенов до 70% при сохранении и даже улучшении точности в среднем на 2,6%. Более того, эти прогностические сигналы часто появляются на ранних этапах траектории рассуждений, что позволяет раньше выбирать и выделять вычислительные ресурсы наиболее перспективным кандидатам. Наши результаты вносят вклад не только в практические стратегии повышения эффективности на этапе вывода, но и в более глубокое понимание того, как процессы рассуждений представлены и дифференцируются в латентном пространстве.
Появление крупных языковых моделей (LLM) открыло новые возможности для создания динамичных неигровых персонажей (NPC) в игровых средах, позволяя как выполнение функциональных задач, так и генерацию диалогов, соответствующих персонажу. В данной статье мы (Tu_Character_lab) сообщаем о нашем участии в конкурсе Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025, раунд 2, который оценивает агентов по трем направлениям: целевые диалоги, контекстно-зависимые диалоги и их интеграция. Наш подход сочетает две взаимодополняющие стратегии: (i) легковесные техники промптинга в API-треке, включая метод Deflanderization для подавления избыточной ролевой игры и повышения точности выполнения задач, и (ii) тонко настроенные крупные модели в GPU-треке, использующие Qwen3-14B с контролируемым дообучением (SFT) и адаптацией низкого ранга (LoRA). Наши лучшие результаты заняли 2-е место в Задаче 1, 2-е место в Задаче 3 (API-трек) и 4-е место в Задаче 3 (GPU-трек).
Рассуждение — это не только решение задач, но и оценка того, какие задачи вообще стоит решать. Исторически оценка систем искусственного интеллекта (ИИ) в основном сосредотачивалась на решении задач, например, на изучении того, как модели играют в такие игры, как шахматы и го. В этой статье мы предлагаем новую парадигму, которая оценивает способность систем ИИ оценивать игры. Сначала мы вводим формализм для оценки таких оценок. Затем мы используем масштабный набор данных, включающий более 100 новых настольных игр и более 450 человеческих суждений, чтобы сравнить оценки, созданные современными языковыми и моделями рассуждений, с оценками людей и символических вычислительных агентов. Мы рассматриваем два типа оценочных запросов: оценку выигрыша (или справедливости) и увлекательности игр. Эти запросы охватывают два аспекта, важных для разработки оценок ИИ: насколько сложен запрос для вычисления и насколько трудно его количественно оценить. Наши результаты показывают, что модели рассуждений в целом более согласованы с людьми в оценке игр, чем языковые модели, не ориентированные на рассуждения. Однако мы наблюдаем немонотонную зависимость: по мере того, как модели приближаются к теоретико-игровому оптимуму, их соответствие человеческим данным ослабевает. Мы также отмечаем большую "неровность" в оценке увлекательности моделями, что согласуется с большей сложностью количественной оценки этого запроса. В различных запросах и играх модели рассуждений демонстрируют высокую изменчивость и непредсказуемость использования ресурсов при оценке запросов, что подчеркивает важность внедрения более ресурсно-рационального мета-рассуждения в языковые и модели рассуждений.