Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мульти-LLM системы используют комплементарные преимущества различных крупных языковых моделей (LLM), достигая показателей производительности и эффективности, недостижимых для одной модели. В существующих подходах LLM взаимодействуют через текст, что требует преобразования внутренних представлений в последовательности выходных токенов. Этот процесс приводит как к потере богатой семантической информации, так и к задержкам, связанным с пошаговой генерацией токенов. Вдохновленные этими ограничениями, мы задаемся вопросом: Могут ли LLM взаимодействовать за пределами текста? Эксперименты показывают, что обогащение семантики KV-Cache может улучшить качество ответов без увеличения размера кэша, что подтверждает эффективность KV-Cache как средства межмодельного взаимодействия. Таким образом, мы предлагаем Cache-to-Cache (C2C) — новую парадигму для прямого семантического взаимодействия между LLM. C2C использует нейронную сеть для проекции и объединения KV-cache исходной модели с KV-cache целевой модели, что обеспечивает прямой семантический перенос. Обучаемый механизм выбора определяет целевые слои, которые получают преимущество от взаимодействия через кэш. По сравнению с текстовым взаимодействием, C2C использует глубокую специализированную семантику обеих моделей, избегая явной генерации промежуточного текста. Эксперименты показывают, что C2C достигает на 8,5–10,5% более высокой средней точности, чем отдельные модели. Кроме того, он превосходит парадигму текстового взаимодействия примерно на 3,0–5,0%, обеспечивая при этом среднее ускорение задержки в 2,0 раза. Наш код доступен по адресу https://github.com/thu-nics/C2C.
Визуальная токенизация остается ключевой проблемой в объединении задач визуального понимания и генерации в рамках авторегрессивной парадигмы. Существующие методы обычно используют токенизаторы в дискретных латентных пространствах для согласования с токенами из крупных языковых моделей, где ошибки квантования могут ограничивать семантическую выразительность и ухудшать способность к пониманию визуально-языковых данных. Для решения этой проблемы мы представляем MingTok — новое семейство визуальных токенизаторов с непрерывным латентным пространством, предназначенное для унифицированной авторегрессивной генерации и понимания. В то время как задачи понимания требуют дискриминативных высокоразмерных признаков, задачи генерации предпочитают компактные низкоуровневые коды. Чтобы согласовать эти противоречивые требования, MingTok использует трехэтапную последовательную архитектуру, включающую низкоуровневое кодирование, семантическое расширение и визуальную реконструкцию. На основе этой архитектуры Ming-UniVision устраняет необходимость в специализированных визуальных представлениях для конкретных задач и объединяет разнообразные визуально-языковые задачи в рамках единой авторегрессивной парадигмы прогнозирования. Формулируя как понимание, так и генерацию как предсказание следующего токена в общем непрерывном пространстве, система легко поддерживает многозадачные, контекстно-зависимые задачи, такие как итеративное понимание, генерация и редактирование. Экспериментально мы обнаружили, что использование унифицированного непрерывного визуального представления согласует противоречивые требования к токенизаторам со стороны задач понимания и генерации, что приводит к достижению уровня современных достижений в обеих областях. Мы надеемся, что наши результаты будут способствовать развитию унифицированной визуальной токенизации в непрерывной области. Код для вывода и веса модели опубликованы для пользы сообщества.
Мы представляем Lumina-DiMOO — открытую базовую модель для бесшовной генерации и понимания мультимодальных данных. Lumina-DiMOO выделяется среди предыдущих унифицированных моделей благодаря использованию полностью дискретного диффузионного моделирования для обработки входных и выходных данных в различных модальностях. Этот инновационный подход позволяет Lumina-DiMOO достичь более высокой эффективности выборки по сравнению с предыдущими авторегрессивными (AR) или гибридными AR-диффузионными парадигмами, а также успешно поддерживать широкий спектр мультимодальных задач, включая генерацию текста в изображения, генерацию изображений на основе изображений (например, редактирование изображений, генерация на основе объектов и восстановление изображений), а также понимание изображений. Lumina-DiMOO демонстрирует передовые результаты на множестве бенчмарков, превосходя существующие открытые унифицированные мультимодальные модели. Для стимулирования дальнейших исследований в области мультимодальных и дискретных диффузионных моделей мы публикуем наш код и контрольные точки для сообщества. Страница проекта: https://synbol.github.io/Lumina-DiMOO.
Современные крупные языковые модели (LLM) и модели разговорной речи (SLM) начинают думать и действовать только после того, как пользователь завершил свою реплику. Это препятствует взаимодействию модели во время реплики пользователя и может привести к высокой задержке ответа, пока модель ожидает завершения ввода для начала обработки. Следовательно, обработка после получения полного ввода не подходит для речевого взаимодействия, где важны реальное время и низкая задержка. Мы решаем эту проблему, отмечая, что люди естественным образом "думают во время слушания". В данной статье мы предлагаем SHANKS — общий фреймворк для вывода, который позволяет SLM генерировать неозвученную цепочку рассуждений во время прослушивания ввода пользователя. SHANKS обрабатывает входную речь фрагментами фиксированной длительности и, как только фрагмент получен, генерирует неозвученные рассуждения на основе всей предыдущей речи и рассуждений, пока пользователь продолжает говорить. SHANKS использует эти неозвученные рассуждения для принятия решения о прерывании пользователя и вызова инструментов для выполнения задачи. Мы демонстрируем, что SHANKS улучшает взаимодействие пользователя и SLM в реальном времени в двух сценариях: (1) когда пользователь представляет пошаговое решение математической задачи, SHANKS может слушать, рассуждать и прерывать, если пользователь допускает ошибку, достигая на 37,1% более высокой точности прерывания по сравнению с базовым подходом, который прерывает без рассуждений; и (2) в диалоге с использованием инструментов SHANKS может завершить 56,9% вызовов инструментов до того, как пользователь закончит свою реплику. В целом, SHANKS продвигает модели, которые продолжают думать на протяжении всего разговора, а не только после завершения реплики. Анимированные иллюстрации SHANKS можно найти по адресу https://d223302.github.io/SHANKS/.
Видео DiTs продвинули генерацию видео, однако они всё ещё испытывают трудности с моделированием взаимодействий между несколькими объектами или субъектами. Это поднимает ключевой вопрос: как эти модели внутренне представляют взаимодействия? Чтобы ответить на него, мы создали MATRIX-11K — видеодатасет с аннотациями, учитывающими взаимодействия, и треками масок для нескольких объектов. Используя этот датасет, мы провели систематический анализ, который формализует два аспекта видео DiTs: семантическую привязку через внимание видео-к-тексту, которая оценивает, захватывают ли токены существительных и глаголов объекты и их отношения; и семантическое распространение через внимание видео-к-видео, которое проверяет, сохраняются ли связи между объектами на протяжении кадров. Мы обнаружили, что оба эффекта сосредоточены в небольшом подмножестве слоёв, доминирующих в обработке взаимодействий. Вдохновлённые этим, мы представляем MATRIX — простую и эффективную регуляризацию, которая выравнивает внимание в определённых слоях видео DiTs с треками масок для нескольких объектов из датасета MATRIX-11K, улучшая как привязку, так и распространение. Мы также предлагаем InterGenEval — протокол оценки для генерации видео с учётом взаимодействий. В экспериментах MATRIX улучшает как точность взаимодействий, так и семантическое соответствие, одновременно уменьшая дрейф и галлюцинации. Обширные абляции подтверждают наши проектные решения. Коды и веса будут опубликованы.
Недавние достижения в области базовых моделей для обработки зрения и языка значительно продвинули мультимодальное понимание, рассуждение и генерацию, что вызвало всплеск интереса к расширению таких возможностей в физических средах с помощью моделей "зрение-язык-действие" (VLA). Однако большинство VLA-моделей по-прежнему обучаются с использованием контролируемой тонкой настройки (SFT), которая плохо справляется с обобщением при сдвигах распределения из-за накопления ошибок. Обучение с подкреплением (RL) предлагает перспективную альтернативу, напрямую оптимизируя выполнение задач через взаимодействие, но существующие попытки остаются разрозненными и не имеют единой платформы для справедливого и систематического сравнения архитектур моделей и алгоритмических решений. Чтобы устранить этот пробел, мы представляем RLinf-VLA — унифицированную и эффективную платформу для масштабируемого RL-обучения VLA-моделей. Система использует гибкий дизайн распределения ресурсов, решающий задачу интеграции рендеринга, обучения и вывода в RL+VLA обучении. В частности, для GPU-параллелизованных симуляторов RLinf-VLA реализует новый гибридный режим распределения с мелкозернистой конвейеризацией, достигая ускорения обучения в 1,61–1,88 раза. Через унифицированный интерфейс RLinf-VLA поддерживает разнообразные архитектуры VLA (например, OpenVLA, OpenVLA-OFT), несколько RL-алгоритмов (например, PPO, GRPO) и различные симуляторы (например, ManiSkill, LIBERO). В симуляции унифицированная модель достигает 98,11% на 130 задачах LIBERO и 97,66% на 25 задачах ManiSkill. Помимо эмпирической производительности, наше исследование формулирует набор лучших практик для применения RL к обучению VLA и выявляет новые закономерности в этой интеграции. Кроме того, мы представляем предварительное развертывание на реальном роботе Franka, где политики, обученные с помощью RL, демонстрируют более сильное обобщение по сравнению с политиками, обученными с использованием SFT. Мы видим RLinf-VLA как основу для ускорения и стандартизации исследований в области воплощенного интеллекта.
Крупные языковые модели (LLM) стимулировали развитие "виб-кодинга", где пользователи используют LLM для генерации и итеративного улучшения кода через взаимодействие на естественном языке до тех пор, пока он не пройдет их "виб-проверку". Виб-проверка связана с реальными человеческими предпочтениями и выходит за рамки функциональности: решение должно казаться правильным, выглядеть чистым, сохранять замысел и оставаться корректным. Однако текущая оценка кода остается привязанной к метрике pass@k и учитывает только функциональную корректность, игнорируя нефункциональные инструкции, которые пользователи регулярно применяют. В этой статье мы выдвигаем гипотезу, что следование инструкциям — это недостающий элемент, лежащий в основе виб-проверки, который отражает человеческие предпочтения в кодировании помимо функциональной корректности. Чтобы количественно оценить способности моделей следовать инструкциям в коде с измеримыми сигналами, мы представляем VeriCode — таксономию из 30 проверяемых инструкций для кода вместе с соответствующими детерминированными верификаторами. Мы используем эту таксономию для расширения существующих наборов оценки, создавая Vibe Checker — тестовую среду для оценки как следования инструкциям, так и функциональной корректности. Оценив 31 ведущую LLM, мы показываем, что даже самые сильные модели с трудом соблюдают несколько инструкций и демонстрируют явный функциональный регресс. Важнее всего, что комбинированный показатель функциональной корректности и следования инструкциям лучше всего коррелирует с человеческими предпочтениями, причем последнее становится основным дифференцирующим фактором в реальных задачах программирования. Наша работа выявляет ключевые факторы виб-проверки, предлагая конкретный путь для бенчмаркинга и разработки моделей, которые лучше соответствуют предпочтениям пользователей в кодировании.
Крупные языковые модели (LLM) всё чаще полагаются на многошаговое планирование с интеграцией инструментов для выполнения задач, требующих интенсивного использования знаний и сложных рассуждений. Существующие реализации обычно основываются на одном агенте, однако они сталкиваются с ограниченной длиной контекста и зашумлёнными ответами инструментов. Естественным решением является использование многоагентной структуры с агентами-планировщиками и агентами-исполнителями для управления контекстом. Однако существующие методы не поддерживают эффективное обучение с подкреплением после тренировки для многоагентных структур с интеграцией инструментов. Чтобы устранить этот пробел, мы предлагаем метод Multi-Agent Tool-Integrated Policy Optimization (MATPO), который позволяет обучать различные роли (планировщик и исполнитель) в рамках одного экземпляра LLM с использованием ролевых подсказок посредством обучения с подкреплением. MATPO основан на принципиальном механизме распределения заслуг между эпизодами планировщика и исполнителя. Такой подход устраняет необходимость развёртывания нескольких LLM, что было бы ресурсоёмким, сохраняя при этом преимущества специализации. Эксперименты на наборах данных GAIA-text, WebWalkerQA и FRAMES показывают, что MATPO стабильно превосходит одноагентные базовые методы, демонстрируя среднее относительное улучшение производительности на 18,38%, а также проявляет большую устойчивость к зашумлённым выходам инструментов. Наши результаты подчеркивают эффективность объединения нескольких агентных ролей в рамках одной LLM и предоставляют практические рекомендации для стабильного и эффективного обучения с подкреплением в многоагентных системах.
Моделирование длинных последовательностей сталкивается с фундаментальным компромиссом между эффективностью сжатой памяти фиксированного размера в моделях, подобных рекуррентным нейронным сетям (RNN), и точностью без потерь растущей памяти в трансформерах на основе механизма внимания. Вдохновленные Многоуровневой Моделью Памяти из когнитивной науки, мы представляем концепцию памяти для искусственных нейронных сетей. Наш метод поддерживает скользящее окно кэша ключей и значений (KV) трансформера как без потерь кратковременной памяти, в то время как обучаемый модуль, названный Искусственной Сетью Гиппокампа (Artificial Hippocampus Network, AHN), рекурсивно сжимает информацию за пределами окна в компактную долговременную память фиксированного размера. Для проверки этой концепции мы реализуем AHN с использованием современных архитектур, подобных RNN, включая Mamba2, DeltaNet и Gated DeltaNet. Многочисленные эксперименты на бенчмарках для длинных контекстов LV-Eval и InfiniteBench демонстрируют, что модели, дополненные AHN, стабильно превосходят базовые подходы со скользящим окном и достигают производительности, сопоставимой или даже превосходящей модели с полным вниманием, при этом значительно снижая вычислительные и ресурсные затраты. Например, добавление AHN к модели Qwen2.5-3B-Instruct сокращает количество операций с плавающей запятой (FLOPs) на 40,5% и объем кэша памяти на 74,0%, одновременно улучшая средний балл на LV-Eval (длина последовательности 128k) с 4,41 до 5,88. Код доступен по адресу: https://github.com/ByteDance-Seed/AHN.
Современные передовые модели используют длинные цепочки рассуждений для исследования пространства решений в контексте и достижения более высокой производительности. Хотя многие работы изучают дистилляцию для создания более компактных, но способных моделей, большинство из них сосредоточено на английском языке, и мало что известно о языково-специфических рассуждениях. Чтобы устранить этот пробел, мы впервые представляем **Language-Mixed CoT** — схему рассуждений, которая переключается между английским и целевым языком, используя английский как якорь для улучшения рассуждений при минимизации артефактов перевода. В качестве кейса для корейского языка мы создаем **Yi-Sang**: 5,79 млн нативных корейских запросов из веб-вопросов и ответов, экзаменов, STEM и кода; 3,7 млн длинных трасс рассуждений, сгенерированных с помощью Qwen3-32B; и целенаправленное подмножество из 260 тыс. высокоэффективных примеров. Мы обучаем девять моделей (4B–35B) из шести семейств (Qwen2.5, Llama-3.1, Gemma-3 и др.). Наша лучшая модель, **KO-REAson-35B**, достигает наивысшей производительности с наивысшим общим средним баллом (64,0 ± 25), занимая первое место на 5 из 9 бенчмарков и второе — на остальных. Меньшие и средние модели также значительно выигрывают, демонстрируя среднее улучшение на +18,6 баллов по всем девяти бенчмаркам. Абляционные исследования показывают, что **Language-Mixed CoT** эффективнее, чем монолингвальные CoT, а также приводит к улучшениям в кросс-лингвальных и мультимодальных задачах. Мы публикуем наш конвейер подготовки данных, систему оценки, наборы данных и модели для продвижения исследований в области языково-специфических рассуждений. Данные и коллекция моделей доступны по ссылке: https://huggingface.co/KOREAson.
Несмотря на то, что африканские языки составляют почти треть всех языков мира, они остаются крайне недостаточно охваченными современными технологиями обработки естественного языка (NLP), причем 88\% из них классифицируются как сильно недооцененные или полностью игнорируемые в вычислительной лингвистике. Мы представляем African Languages Lab (All Lab) — комплексную исследовательскую инициативу, направленную на устранение этого технологического разрыва через систематический сбор данных, разработку моделей и развитие потенциала. Наши вклады включают: (1) качественно контролируемый процесс сбора данных, который привел к созданию крупнейшего проверенного мультимодального набора данных для африканских языков, охватывающего 40 языков с 19 миллиардами токенов монолингвального текста и 12 628 часами выровненных речевых данных; (2) обширную экспериментальную проверку, демонстрирующую, что наш набор данных в сочетании с тонкой настройкой обеспечивает значительное улучшение по сравнению с базовыми моделями, в среднем на +23,69 ChrF++, +0,33 COMET и +15,34 BLEU по 31 оцениваемому языку; и (3) структурированную исследовательскую программу, которая успешно наставила пятнадцать начинающих исследователей, создав устойчивый локальный потенциал. Наше сравнительное тестирование с Google Translate показывает конкурентоспособные результаты для нескольких языков, одновременно выявляя области, требующие дальнейшего развития.
Стремление к вычислительной эффективности привело к широкому использованию низкоточных форматов для обучения трансформаторных моделей. Однако этот прогресс часто сдерживается известными проблемами нестабильности обучения. В данной статье впервые предлагается механистическое объяснение давней и нерешенной проблемы, при которой обучение с использованием flash attention в условиях низкой точности приводит к катастрофическим взрывам потерь. Наш детальный анализ показывает, что эта проблема не является случайным артефактом, а вызвана двумя взаимосвязанными явлениями: возникновением схожих низкоранговых представлений в механизме внимания и кумулятивным эффектом смещенных ошибок округления, присущих низкоточной арифметике. Мы демонстрируем, как эти факторы создают порочный цикл накопления ошибок, который искажает обновления весов и в конечном итоге нарушает динамику обучения. Для подтверждения наших выводов мы предлагаем минимальную модификацию flash attention, которая устраняет смещение в ошибках округления. Это простое изменение стабилизирует процесс обучения, подтверждая наш анализ и предлагая практическое решение этой давней проблемы.
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали высокие способности в сложных многошаговых рассуждениях, открывая новые возможности для автоматизации задач оптимизационного моделирования. Однако существующие методы адаптации к предметной области, изначально разработанные для более ранних моделей, настроенных на инструкции, часто не способны использовать продвинутые паттерны рассуждений современных LRMs. В частности, мы показываем, что прямое тонкое настраивание на традиционных нерефлексивных наборах данных приводит к ограниченным улучшениям. Чтобы полностью раскрыть встроенные способности LRMs к рассуждениям, мы предлагаем CALM (Corrective Adaptation with Lightweight Modification) — фреймворк, который постепенно улучшает LRMs в их естественных режимах рассуждений для задач оптимизационного моделирования. В CALM эксперт-интервентор выявляет ошибки в рассуждениях и предоставляет краткие корректирующие подсказки, которые LRM использует для создания улучшенных траекторий рассуждений. Эти вмешательства изменяют менее 2,6% сгенерированных токенов, но создают высококачественные данные для мягкой адаптации через тонкое настраивание с учителем. Затем адаптированная модель дополнительно улучшается с помощью обучения с подкреплением. На основе CALM мы разрабатываем STORM (Smart Thinking Optimization Reasoning Model) — LRM с 4 миллиардами параметров, которая достигает нового рекордного среднего показателя точности 68,9% на пяти популярных бенчмарках оптимизационного моделирования, сопоставимого с производительностью LRM с 671 миллиардом параметров. Эти результаты демонстрируют, что динамический синтез данных на основе подсказок сохраняет и усиливает естественные паттерны рассуждений современных LRMs, предлагая более эффективный и масштабируемый путь к экспертному уровню производительности в сложных задачах оптимизационного моделирования.
Обучение с подкреплением (RL) недавно стало мощным инструментом для тренировки языковых моделей (LLM), способных генерировать длинные цепочки рассуждений (LongCoT). Однако стандартная "среда мышления" RL, где состояние включает промт и все предыдущие токены рассуждений, делает состояние неограниченным и вынуждает политики, основанные на внимании, тратить квадратичные вычислительные ресурсы по мере увеличения длины рассуждений. Мы пересматриваем саму среду. Мы предлагаем подход "Марковское мышление" — парадигму, в которой политика продвигает рассуждения, основываясь на состоянии фиксированного размера, что отделяет длину мышления от размера контекста. Это сразу приводит к линейным вычислениям с постоянной памятью. Мы реализуем эту идею в среде Delethink, которая структурирует рассуждения в блоки фиксированного размера. Внутри каждого блока модель рассуждает как обычно; на границе блока среда сбрасывает контекст и переинициализирует промт с кратким переносом. С помощью RL политика учится записывать текстовое состояние ближе к концу каждого блока, достаточное для бесшовного продолжения рассуждений после сброса. Обученная в этой среде модель R1-Distill 1.5B рассуждает в блоках по 8K токенов, но мыслит до 24K токенов, сопоставимо или превосходя LongCoT-RL, обученную с бюджетом в 24K токена. При масштабировании во время тестирования Delethink продолжает улучшаться там, где LongCoT выходит на плато. Эффект линейных вычислений значителен: мы эмпирически оцениваем, что при средней длине рассуждений в 96K токенов LongCoT-RL требует 27 месяцев работы на H100 против 7 для Delethink. Анализ на этапе инициализации RL показывает, что готовые модели рассуждений (1.5B-120B) часто генерируют марковские траектории "из коробки" на различных бенчмарках, предоставляя положительные примеры, которые делают RL эффективным в масштабе. Наши результаты показывают, что перепроектирование среды мышления — это мощный рычаг: оно позволяет осуществлять очень длинные рассуждения без квадратичных накладных расходов и открывает путь к созданию эффективных и масштабируемых LLM для рассуждений.
Модели с длинным контекстом (LCM) продемонстрировали значительный потенциал в обработке длинных последовательностей, что способствует реализации многих практических приложений. Успех LCM можно объяснить их способностью находить скрытую критическую информацию в контексте для дальнейшего прогнозирования. Однако последние исследования показывают, что LCM часто подвержены влиянию контекстного шума, то есть нерелевантных токенов, которые могут вводить внимание модели в заблуждение. В данной работе мы проводим детальный анализ контекстного шума и предлагаем эффективную метрику — оценку интегрированного градиента (IG), — для обнаружения и количественной оценки шумовой информации в контексте. Наши результаты показывают, что даже простое устранение обнаруженного контекстного шума может существенно усилить внимание модели на критических токенах и улучшить последующие прогнозы. На основе этого наблюдения мы предлагаем стратегию обучения с очисткой контекста (Context Denoising Training, CDT), простой, но эффективный метод, который улучшает внимание на критических токенах и усиливает их влияние на прогнозы модели. Многочисленные эксперименты на четырех задачах, как в условиях масштабирования контекстного окна, так и в настройках выравнивания длинного контекста, демонстрируют превосходство CDT. Примечательно, что при обучении с использованием CDT открытая модель на 8 миллиардов параметров может достичь производительности (50.92), сопоставимой с GPT-4o (51.00).
Трансформеры демонстрируют превосходные результаты в моделировании последовательностей, но сталкиваются с квадратичной сложностью, в то время как линейное внимание предлагает улучшенную эффективность, но часто жертвует точностью воспроизведения в длинных контекстах. В данной работе мы представляем Native Hybrid Attention (NHA) — новую гибридную архитектуру, объединяющую линейное и полное внимание, которая интегрирует как внутрислойную, так и межслойную гибридизацию в единый дизайн слоя. NHA сохраняет долгосрочный контекст в ключевых и значениивых слотах, обновляемых линейной RNN, и дополняет их краткосрочными токенами из скользящего окна. Затем применяется единая операция softmax-внимания ко всем ключам и значениям, что позволяет осуществлять контекстно-зависимое взвешивание для каждого токена и каждой головы без необходимости в дополнительных параметрах слияния. Межслойное поведение контролируется с помощью одного гиперпараметра — размера скользящего окна, что позволяет плавно регулировать переход между чисто линейным и полным вниманием, сохраняя структурную однородность всех слоев. Экспериментальные результаты показывают, что NHA превосходит трансформеры и другие гибридные базовые модели на задачах, требующих интенсивного воспроизведения и здравого смысла. Кроме того, предобученные крупные языковые модели (LLM) могут быть структурно гибридизированы с NHA, достигая конкурентоспособной точности при значительном повышении эффективности. Код доступен по адресу https://github.com/JusenD/NHA.
Крупномасштабные диффузионные модели для генерации изображений по тексту, несмотря на свою мощь, страдают от чрезмерно высоких вычислительных затрат. Существующие методы одноэтапного сжатия нейронных сетей (pruning) практически неприменимы к ним из-за итеративной природы процесса удаления шума в диффузионных моделях. Чтобы устранить этот разрыв, в данной статье представлен OBS-Diff — новый одноэтапный фреймворк для сжатия, который позволяет точно и без дополнительного обучения сжимать крупномасштабные диффузионные модели. В частности: (i) OBS-Diff возрождает классический метод Optimal Brain Surgeon (OBS), адаптируя его к сложным архитектурам современных диффузионных моделей и поддерживая различные уровни сжатия, включая неструктурированное, полуструктурированное N:M и структурированное (головы MHA и нейроны FFN) разрежение; (ii) Чтобы согласовать критерии сжатия с итеративной динамикой диффузионного процесса, рассматривая проблему с точки зрения накопления ошибок, мы предлагаем новую конструкцию гессиана, учитывающую временные шаги, которая включает схему весового убывания по логарифмическому закону, придавая большее значение ранним шагам для минимизации потенциального накопления ошибок; (iii) Кроме того, предлагается вычислительно эффективная стратегия последовательного группового сжатия, чтобы распределить затраты на дорогостоящий процесс калибровки. Эксперименты показывают, что OBS-Diff достигает наилучших результатов в одноэтапном сжатии диффузионных моделей, обеспечивая ускорение вывода с минимальной деградацией визуального качества.
Быстрое развитие крупных языковых моделей (LLM) и реального мира опередило статичный характер широко используемых оценочных бенчмарков, вызывая опасения относительно их надежности для оценки фактической точности LLM. Хотя многие исследования продолжают полагаться на популярные, но устаревшие бенчмарки, их временное несоответствие реальным фактам и современным LLM, а также их влияние на оценку фактической точности LLM остаются недостаточно изученными. Поэтому в данной работе мы представляем систематическое исследование этой проблемы, анализируя пять популярных бенчмарков на фактическую точность и восемь LLM, выпущенных в разные годы. Актуальный конвейер извлечения фактов и три метрики были адаптированы для количественной оценки устаревания бенчмарков и их влияния на оценку фактической точности LLM. Результаты экспериментов и анализ показывают, что значительная часть образцов в широко используемых бенчмарках на фактическую точность устарела, что приводит к ненадежным оценкам фактической точности LLM. Мы надеемся, что наша работа может предоставить тестовую площадку для оценки надежности бенчмарков в оценке фактической точности LLM и вдохновить на дальнейшие исследования проблемы устаревания бенчмарков. Код доступен по адресу: https://github.com/JiangXunyi/BenchAge.
Существующие методы извлечения сигналов вознаграждения в обучении с подкреплением обычно полагаются на размеченные данные и выделенные обучающие выборки, что контрастирует с тем, как люди обучаются непосредственно из окружающей среды. В данной работе мы предлагаем TTRV для улучшения понимания визуально-языковых моделей путем адаптации модели на лету во время вывода, без необходимости в каких-либо размеченных данных. Конкретно, мы улучшаем фреймворк Group Relative Policy Optimization (GRPO), разрабатывая вознаграждения на основе частоты вывода базовой модели, при этом выполняя вывод для каждого тестового образца несколько раз. Кроме того, мы также предлагаем контролировать разнообразие вывода модели, одновременно вознаграждая модель за достижение низкой энтропии эмпирического распределения вывода. Наш подход демонстрирует стабильные улучшения как в задачах распознавания объектов, так и в визуальном ответе на вопросы (VQA), с повышением до 52,4% и 29,8% соответственно, и средним увеличением на 24,6% и 10,0% на 16 наборах данных. Примечательно, что в задачах распознавания изображений TTRV, примененный к InternVL 8B, превосходит GPT-4o в среднем на 2,3% на 8 бенчмарках, оставаясь при этом высококонкурентоспособным в задачах VQA, что демонстрирует, что обучение с подкреплением во время тестирования может соответствовать или превосходить самые сильные проприетарные модели. Наконец, мы обнаруживаем множество интересных свойств обучения с подкреплением во время тестирования для визуально-языковых моделей: например, даже в крайне ограниченных сценариях, где адаптация выполняется на одном случайно выбранном неразмеченном тестовом примере, TTRV все еще дает значительные улучшения до 5,5% в задачах распознавания.
Фундаментальная проблема в воплощённом интеллекте заключается в разработке выразительных и компактных представлений состояний для эффективного моделирования мира и принятия решений. Однако существующие методы часто не достигают этого баланса, создавая представления, которые либо избыточны, либо лишены критически важной для задачи информации. Мы предлагаем неконтролируемый подход, который обучает высоко сжатое двухтокеновое представление состояния с использованием лёгкого кодировщика и предварительно обученного декодера на основе Diffusion Transformer (DiT), используя его сильный генеративный априор. Наше представление эффективно, интерпретируемо и легко интегрируется в существующие модели на основе VLA, улучшая производительность на 14,3% на LIBERO и на 30% в успешности выполнения реальных задач при минимальных накладных расходах на вывод. Более того, мы обнаруживаем, что разница между этими токенами, полученная через латентную интерполяцию, естественным образом служит высокоэффективным латентным действием, которое может быть декодировано в исполняемые действия робота. Эта возникающая способность показывает, что наше представление захватывает структурированную динамику без явного контроля. Мы называем наш метод StaMo за его способность обучать обобщаемые движения робота из компактного представления состояния, которое кодируется из статических изображений, бросая вызов преобладающей зависимости от обучения латентных действий на сложных архитектурах и видеоданных. Полученные латентные действия также улучшают совместное обучение политик, превосходя предыдущие методы на 10,4% с улучшенной интерпретируемостью. Более того, наш подход эффективно масштабируется на различные источники данных, включая данные реальных роботов, симуляции и эгоцентрическое видео человека.
Последние усилия по ускорению вывода в мультимодальных больших языковых моделях (MLLM) в основном сосредоточены на сжатии визуальных токенов. Эффективность этих методов обычно оценивается путем измерения снижения точности на установленных эталонных тестах, сравнивая производительность модели до и после сжатия. Однако эти тесты изначально разработаны для оценки восприятия и способности к рассуждению MLLM, а не для оценки методов сжатия. В результате их прямое применение к сжатию визуальных токенов приводит к несоответствию задач. Примечательно, что наше исследование показывает, что простое уменьшение разрешения изображения стабильно превосходит многие продвинутые методы сжатия на нескольких широко используемых тестах. В ходе обширных экспериментов мы сделали следующие наблюдения: (i) Текущие тесты являются зашумленными для задачи сжатия визуальных токенов. (ii) Уменьшение разрешения может служить фильтром данных для оценки сложности образцов в задаче сжатия визуальных токенов. Вдохновленные этими выводами, мы представляем VTC-Bench — оценочную платформу, которая включает механизм фильтрации данных для устранения шума в существующих тестах, что позволяет проводить более справедливую и точную оценку методов сжатия визуальных токенов. Все данные и код доступны по адресу https://github.com/Chenfei-Liao/VTC-Bench.
Мультимодальные большие языковые модели (MLLMs) в последние годы быстро развиваются. Однако существующие подходы для задач компьютерного зрения часто полагаются на косвенные представления, такие как генерация координат в виде текста для детекции, что ограничивает производительность и препятствует выполнению задач плотного предсказания, таких как сегментация. Чтобы преодолеть эти ограничения, мы представляем Patch-as-Decodable Token (PaDT) — унифицированную парадигму, которая позволяет MLLMs напрямую генерировать как текстовые, так и разнообразные визуальные выходы. Основой PaDT являются Visual Reference Tokens (VRTs), полученные из визуальных патч-эмбеддингов запрашиваемых изображений и интегрированные с текстовыми токенами, выводимыми языковой моделью. Легковесный декодер затем преобразует выходы языковой модели в предсказания для задач детекции, сегментации и локализации. В отличие от предыдущих методов, PaDT обрабатывает VRTs независимо на каждом шаге и динамически расширяет таблицу эмбеддингов, что улучшает локализацию и различение схожих объектов. Мы также разработали стратегию обучения для PaDT, случайным образом выбирая VRTs для контролируемой тонкой настройки и вводя устойчивую потерю кросс-энтропии на уровне токенов. Наши эмпирические исследования на четырех задачах визуального восприятия и понимания показывают, что PaDT стабильно достигает наилучших результатов, даже по сравнению с значительно более крупными моделями MLLM. Код доступен по адресу https://github.com/Gorilla-Lab-SCUT/PaDT.
Разработка современных крупных языковых моделей обычно понимается как двухэтапный процесс, включающий предварительное обучение и пост-обучение. Мы указываем на необходимость дополнительного промежуточного этапа, называемого усиленным срединным обучением, который обладает потенциалом для значительного повышения производительности. В данной работе мы формально определяем проблему и выделяем три ключевых вызова: (1) неэффективное обучение из-за избыточного количества шагов рассуждения, (2) игнорирование несбалансированного распределения энтропии токенов и (3) недостаточное использование информации токенов. Для решения этих проблем мы предлагаем RMT — фреймворк для эффективного, адаптивного и унифицированного усиленного срединного обучения, включающий различные инновационные компоненты. В частности, мы сначала вводим механизм динамического бюджета токенов, который ограничивает ненужные шаги рассуждения и смягчает проблему "переобдумывания" модели. Затем мы разрабатываем метод адаптивной выборки на основе учебного плана, который способствует прогрессивной траектории обучения от простых к сложным токенам. Наконец, мы представляем двойную стратегию обучения, сочетающую обучение с подкреплением и предсказание следующего токена, что обеспечивает целенаправленное обучение ключевым токенам и полное использование всей информации токенов. Многочисленные эксперименты демонстрируют превосходство RMT над современными методами, достигая улучшения производительности до +64,91% при использовании всего 21% длины рассуждения в языковом моделировании. Мы также показываем, что контрольные точки, полученные после усиленного срединного обучения, могут улучшить последующее пост-обучение, обеспечивая улучшение до +18,76% в математической области.
Наблюдения с точки зрения запястья имеют решающее значение для моделей VLA, так как они фиксируют детализированные взаимодействия руки с объектами, что напрямую улучшает производительность манипуляций. Однако крупномасштабные наборы данных редко включают такие записи, что приводит к значительному разрыву между обилием опорных видов и скудностью видов с запястья. Существующие мировые модели не могут устранить этот разрыв, поскольку они требуют начального кадра с вида запястья и, следовательно, не способны генерировать видео с запястья только на основе опорных видов. В условиях этого разрыва появляются недавние модели визуальной геометрии, такие как VGGT, которые обладают геометрическими и кросс-видовыми априорными знаниями, что делает возможным решение задач с экстремальными сдвигами точек зрения. Вдохновленные этими идеями, мы предлагаем WristWorld — первую 4D мировую модель, которая генерирует видео с запястья исключительно на основе опорных видов. WristWorld работает в два этапа: (i) Реконструкция, которая расширяет VGGT и включает наш Spatial Projection Consistency (SPC) Loss для оценки геометрически согласованных поз с запястья и 4D облаков точек; (ii) Генерация, которая использует нашу модель генерации видео для синтеза временно согласованных видео с запястья на основе восстановленной перспективы. Эксперименты на наборах данных Droid, Calvin и Franka Panda демонстрируют передовые результаты в генерации видео с превосходной пространственной согласованностью, а также улучшают производительность VLA, увеличивая среднюю длину выполнения задач на Calvin на 3.81% и сокращая разрыв между опорными видами и видами с запястья на 42.4%.
Хотя языковые модели (Language Models, LMs) достигли значительного прогресса в автоматизации инженерии машинного обучения (machine learning engineering, MLE), получение высококачественных обучающих данных для MLE остается серьезно ограниченным. Современные бенчмарки MLE страдают от низкой масштабируемости и ограниченной применимости, поскольку они полагаются на статические, вручную отобранные задачи, требующие значительного времени и ручного труда для создания. Мы представляем MLE-Smith — полностью автоматизированный мультиагентный конвейер, который преобразует исходные наборы данных в соревновательные задачи MLE через эффективную парадигму "генерация-верификация-выполнение", обеспечивая масштабирование задач MLE с проверяемым качеством, практической применимостью и богатым разнообразием. Предложенный мультиагентный конвейер в MLE-Smith способствует структурированному проектированию задач и стандартизированному рефакторингу, дополненному гибридным механизмом проверки, который обеспечивает соблюдение строгих структурных правил и семантической корректности на высоком уровне. Он также подтверждает эмпирическую решаемость и практическую достоверность через интерактивное выполнение. Мы применяем MLE-Smith к 224 реальным наборам данных и генерируем 606 задач, охватывающих множество категорий, целей и модальностей, демонстрируя, что MLE-Smith может эффективно работать с широким спектром реальных данных. Оценка на сгенерированных задачах показывает, что производительность восьми ведущих и передовых LLM на задачах MLE-Smith сильно коррелирует с их производительностью на тщательно разработанных человеком задачах, подчеркивая эффективность MLE-Smith в масштабировании задач MLE при сохранении их качества.
Интеграция онлайн-обучения с подкреплением (RL) в модели диффузии и потоков недавно стала перспективным подходом для согласования генеративных моделей с предпочтениями человека. Стохастическая выборка с использованием Стохастических Дифференциальных Уравнений (SDE) применяется в процессе удаления шума для генерации разнообразных направлений денизинга, что способствует исследованию в RL. Хотя существующие методы эффективно исследуют потенциально высокоценные образцы, они страдают от субоптимального согласования предпочтений из-за редких и узких сигналов вознаграждения. Для решения этих проблем мы предлагаем новый фреймворк Granular-GRPO (G^2RPO), который обеспечивает точную и всестороннюю оценку вознаграждений направлений выборки в обучении с подкреплением моделей потоков. В частности, вводится стратегия Singular Stochastic Sampling, которая поддерживает пошаговое стохастическое исследование, одновременно обеспечивая высокую корреляцию между вознаграждением и введенным шумом, что способствует достоверному вознаграждению для каждого возмущения SDE. Одновременно, чтобы устранить смещение, присущее денизингу с фиксированной гранулярностью, мы вводим модуль Multi-Granularity Advantage Integration, который агрегирует преимущества, вычисленные на нескольких масштабах диффузии, создавая более полную и устойчивую оценку направлений выборки. Эксперименты, проведенные на различных моделях вознаграждения, включая внутридоменные и внедоменные оценки, демонстрируют, что наш G^2RPO значительно превосходит существующие базовые методы GRPO, основанные на потоках, подчеркивая его эффективность и устойчивость.
Гипотеза равномерной плотности информации (Uniform Information Density, UID) предполагает, что эффективная коммуникация поддерживает стабильный поток информации. В данной работе мы возвращаемся к этому принципу в контексте трасс рассуждений больших языковых моделей (LLM), задаваясь вопросом, отражает ли равномерность на уровне шагов качество рассуждений. Для этого мы предлагаем метрику пошаговой плотности информации на основе энтропии и вводим две дополнительные меры равномерности: локальный и глобальный показатели равномерности. В ходе экспериментов на шести различных бенчмарках для рассуждений мы обнаруживаем, что равномерность на уровне шагов не только предоставляет мощную теоретическую основу, но и приносит практическую пользу; например, выбор трасс рассуждений с более равномерной плотностью информации на уровне шагов повышает точность на 10–32% относительно базовых показателей на AIME2025. Наш анализ также показывает, что корректные трассы рассуждений склонны избегать резких скачков плотности информации, тогда как некорректные трассы демонстрируют нерегулярные всплески информации. Эти результаты демонстрируют, что меры плотности информации, вдохновленные UID, превосходят альтернативные внутренние сигналы в качестве предикторов качества рассуждений. Результаты подчеркивают равномерность плотности информации как надежный диагностический и селекционный критерий для создания более надежных и точных систем рассуждений.
За последнее десятилетие U-Net стала доминирующей архитектурой в сегментации медицинских изображений, что привело к разработке тысяч U-образных вариантов. Несмотря на широкое распространение, до сих пор отсутствует всеобъемлющий бенчмарк для систематической оценки их производительности и полезности, в основном из-за недостаточной статистической валидации и ограниченного учета эффективности и обобщаемости на различных наборах данных. Чтобы устранить этот пробел, мы представляем U-Bench — первый крупномасштабный, статистически строгий бенчмарк, который оценивает 100 вариантов U-Net на 28 наборах данных и 10 модальностях изображений. Наши вклады заключаются в следующем: (1) Всесторонняя оценка: U-Bench оценивает модели по трем ключевым направлениям: статистическая устойчивость, обобщение с нулевым обучением (zero-shot) и вычислительная эффективность. Мы вводим новый метрический показатель, U-Score, который совместно учитывает компромисс между производительностью и эффективностью, предлагая ориентированный на практическое применение взгляд на прогресс моделей. (2) Систематический анализ и рекомендации по выбору моделей: Мы обобщаем ключевые выводы из крупномасштабной оценки и систематически анализируем влияние характеристик наборов данных и архитектурных парадигм на производительность моделей. На основе этих инсайтов мы предлагаем агента-советника по моделям, который помогает исследователям выбирать наиболее подходящие модели для конкретных наборов данных и задач. (3) Открытая доступность: Мы предоставляем весь код, модели, протоколы и веса, что позволяет сообществу воспроизвести наши результаты и расширить бенчмарк будущими методами. В итоге, U-Bench не только выявляет пробелы в предыдущих оценках, но и закладывает основу для справедливого, воспроизводимого и практически значимого бенчмаркинга в следующем десятилетии моделей сегментации на основе U-Net. Проект доступен по адресу: https://fenghetan9.github.io/ubench. Код доступен по адресу: https://github.com/FengheTan9/U-Bench.
Обнаружение общих границ событий (Generic Event Boundary Detection, GEBD) направлено на интерпретацию длинных видео с точки зрения человеческого восприятия. Однако современные методы GEBD требуют обработки полных кадров видео для выполнения предсказаний, в отличие от людей, которые обрабатывают данные в режиме реального времени и онлайн. Чтобы устранить этот разрыв, мы представляем новую задачу — Обнаружение общих границ событий в режиме реального времени (Online Generic Event Boundary Detection, On-GEBD), цель которой — немедленно обнаруживать границы общих событий в потоковых видео. Эта задача сталкивается с уникальными вызовами, такими как идентификация тонких, неклассифицированных изменений событий в реальном времени без доступа к будущим кадрам. Для решения этих проблем мы предлагаем новый фреймворк On-GEBD, Estimator, вдохновленный Теорией сегментации событий (Event Segmentation Theory, EST), которая объясняет, как люди разделяют текущую активность на события, используя расхождения между предсказанными и фактическими данными. Наш фреймворк состоит из двух ключевых компонентов: Предсказателя согласованных событий (Consistent Event Anticipator, CEA) и Дискриминатора границ в режиме реального времени (Online Boundary Discriminator, OBD). В частности, CEA генерирует предсказание будущего кадра, отражающего текущую динамику событий, основываясь исключительно на предыдущих кадрах. Затем OBD измеряет ошибку предсказания и адаптивно корректирует порог, используя статистические тесты на основе прошлых ошибок, чтобы захватывать разнообразные, тонкие переходы между событиями. Экспериментальные результаты показывают, что Estimator превосходит все базовые модели, адаптированные из современных методов анализа видео в реальном времени, и достигает производительности, сопоставимой с предыдущими методами offline-GEBD на наборах данных Kinetics-GEBD и TAPOS.
Мы представляем Heptapod — авторегрессионную модель для работы с изображениями, которая следует фундаментальным принципам языкового моделирования. Heptapod использует каузальное внимание, устраняет зависимость от CFG и отказывается от тенденции использования семантических токенизаторов. Нашим ключевым нововведением является предсказание двумерного распределения: каузальный Transformer с визуальным токенизатором, ориентированным на реконструкцию, обучается предсказывать распределение по всей двумерной пространственной сетке изображений на каждом временном шаге. Эта задача обучения объединяет последовательное моделирование авторегрессионной структуры с целостным самообучением маскированного автокодирования, что позволяет модели захватывать полную семантику изображений через генеративное обучение. На бенчмарке генерации ImageNet Heptapod достигает FID 2.70, значительно превосходя предыдущие каузальные авторегрессионные подходы. Мы надеемся, что наша работа вдохновит на принципиальный пересмотр языкового моделирования для визуальных сигналов и не только.
Фреймворки агентов для работы с компьютером (CUA), основанные на крупных языковых моделях (LLM) или мультимодальных языковых моделях (MLLM), быстро развиваются как помощники, способные воспринимать контекст, рассуждать и действовать непосредственно в программных средах. Одним из их наиболее важных применений является управление операционными системами (ОС). По мере того как CUA в области ОС всё глубже внедряются в повседневные операции, крайне важно изучить их реальные последствия для безопасности, в частности, могут ли CUA быть использованы для выполнения реалистичных атак, связанных с безопасностью. Существующие работы имеют четыре основных ограничения: отсутствие модели знаний злоумышленника о тактиках, техниках и процедурах (TTP), неполное покрытие цепочек атак от начала до конца, нереалистичная среда без учёта многомашинных систем и зашифрованных учётных данных пользователей, а также ненадёжная оценка, зависящая от LLM-как-судьи. Для устранения этих пробелов мы предлагаем AdvCUA — первый бенчмарк, соответствующий реальным TTP из матрицы MITRE ATT&CK Enterprise, который включает 140 задач, в том числе 40 прямых вредоносных задач, 74 задачи на основе TTP и 26 полных цепочек атак, систематически оценивая CUA в реалистичной среде угроз безопасности корпоративных ОС в многомашинной песочнице с использованием жёстко заданной оценки. Мы оцениваем пять существующих популярных CUA, включая ReAct, AutoGPT, Gemini CLI, Cursor CLI и Cursor IDE, на основе 8 базовых LLM. Результаты показывают, что современные передовые CUA недостаточно охватывают угрозы, связанные с безопасностью ОС. Эти возможности CUA снижают зависимость от специализированного вредоносного ПО и глубоких экспертных знаний, позволяя даже неопытным злоумышленникам осуществлять сложные корпоративные вторжения, что вызывает социальную озабоченность в отношении ответственности и безопасности CUA.
Выбор оптимизатора существенно влияет на эффективность обучения и вычислительные затраты больших языковых моделей (LLM). Недавно оптимизатор Muon продемонстрировал многообещающие результаты за счет ортогонализации обновлений параметров, улучшая геометрию оптимизации через лучшее обусловливание. Несмотря на появление Muon как потенциального преемника Adam, возможность совместного использования их преимуществ систематически не исследовалась. В данной работе мы устраняем этот пробел, предлагая NorMuon (Neuron-wise Normalized Muon) — оптимизатор, который синергетически сочетает ортогонализацию с адаптивными скоростями обучения на уровне нейронов. Наш анализ показывает, что хотя Muon эффективно снижает числа обусловленности, результирующие обновления демонстрируют высокую неравномерность норм нейронов, что приводит к доминированию некоторых нейронов в процессе оптимизации. NorMuon устраняет этот дисбаланс, поддерживая статистику второго момента для каждого нейрона и применяя построчную нормализацию после ортогонализации, обеспечивая сбалансированное использование параметров при сохранении преимуществ обусловленности Muon. Для практического масштабирования мы разработали эффективную распределенную реализацию в рамках FSDP2, стратегически распределяя вычисления ортогонализации между устройствами. Эксперименты на моделях различных масштабов демонстрируют, что NorMuon стабильно превосходит как Adam, так и Muon, достигая на 21,74% лучшей эффективности обучения по сравнению с Adam и на 11,31% улучшения по сравнению с Muon в настройке предварительного обучения на 1,1 млрд параметров, при этом сохраняя сопоставимый с Muon объем памяти. Наши результаты свидетельствуют о том, что ортогонализация и адаптивные скорости обучения являются взаимодополняющими, а не конкурирующими подходами, открывая новые направления в разработке оптимизаторов для крупномасштабного глубокого обучения.
Технология генерации видео из текста (Text-to-Video, T2V) обладает потенциалом для преобразования множества областей, таких как образование, маркетинг, развлечения и вспомогательные технологии для людей с нарушениями зрения или понимания текста, создавая связный визуальный контент на основе естественноязыковых запросов. С момента своего появления эта область прошла путь от моделей, основанных на состязательных сетях (GAN), до моделей, использующих диффузионные подходы, что привело к созданию более качественных и временно согласованных результатов. Однако сохраняются такие проблемы, как согласованность, долгосрочная связность и вычислительная эффективность. В рамках этого развивающегося ландшафта мы представляем всесторонний обзор моделей генерации видео из текста, прослеживая их развитие от ранних GAN и вариационных автоэнкодеров (VAE) до гибридных архитектур, сочетающих диффузионные модели и трансформеры (DiT). Мы детализируем, как работают эти модели, какие ограничения их предшественников они устранили и почему переход к новым архитектурным парадигмам был необходим для преодоления проблем качества, связности и управляемости. Мы систематически описываем наборы данных, на которых обучались и оценивались рассмотренные модели, а также, для обеспечения воспроизводимости и оценки доступности обучения таких моделей, детализируем их конфигурации обучения, включая аппаратные характеристики, количество GPU, размеры пакетов, скорости обучения, оптимизаторы, количество эпох и другие ключевые гиперпараметры. Кроме того, мы описываем метрики оценки, обычно используемые для тестирования таких моделей, и представляем их производительность на стандартных бенчмарках, одновременно обсуждая ограничения этих метрик и растущий переход к более целостным стратегиям оценки, ориентированным на восприятие. Наконец, основываясь на нашем анализе, мы выделяем текущие открытые проблемы и предлагаем несколько перспективных направлений для будущих исследований, задавая вектор для дальнейшего изучения и развития T2V-технологий и их приложений.
Представляем AlphaApollo — саморазвивающуюся систему агентного рассуждения, направленную на устранение двух ключевых ограничений в рассуждениях базовых моделей (FM): ограниченной внутренней ёмкости модели и ненадёжной итерации на этапе тестирования. AlphaApollo координирует работу нескольких моделей с использованием профессиональных инструментов для обеспечения обдуманного и проверяемого рассуждения. Система объединяет (i) вычислительный инструмент (Python с численными и символьными библиотеками) и (ii) инструмент поиска (внешняя информация, релевантная задаче) для выполнения точных вычислений и обоснования решений. Кроме того, система поддерживает многораундовую эволюцию решений с участием нескольких моделей через общую карту состояний, которая фиксирует кандидатов, проверки на выполнимость и обратную связь для итеративного улучшения. В оценках на данных AIME 2024/2025 для нескольких моделей AlphaApollo демонстрирует стабильные улучшения: +5,15% Average@32 и +23,34% Pass@32 для Qwen2.5-14B-Instruct, а также +8,91% Average@32 и +26,67% Pass@32 для Llama-3.3-70B-Instruct. Анализ использования инструментов показывает, что более 80% вызовов инструментов успешно выполняются, что стабильно превосходит базовые подходы без использования инструментов, тем самым повышая пределы возможностей FM. Дополнительные эмпирические результаты и детали реализации будут обновляться на https://github.com/tmlr-group/AlphaApollo.
В стандартных подходах к оценке больших языковых моделей (LLM) используются демонстрационные примеры для направления ответов модели в желаемый стиль. Хотя количество используемых примеров было изучено и стандартизировано, выбор формата примеров исследован в меньшей степени. В протоколах оценки и реальном использовании пользователи сталкиваются с выбором, как разделять примеры в контексте: использовать запятую? новую строку? точку с запятой? хэштег? и т.д. Удивительно, но мы обнаружили, что этот, казалось бы, незначительный выбор может существенно повлиять на качество ответов модели. Для ведущих семейств моделей (Llama, Qwen, Gemma) производительность на тесте MMLU, например, может варьироваться на ±23% в зависимости от выбранного разделителя. Фактически, можно манипулировать рейтингами моделей, выводя любую модель на первое место, просто изменяя один символ, разделяющий примеры. Мы обнаружили, что хрупкость LLM проявляется в различных темах и семействах моделей и не улучшается с увеличением масштаба. Исследуя показатели внимания (attention head scores), мы выяснили, что хорошо работающие разделители направляют внимание на ключевые токены во входных данных. Наконец, мы исследуем методы повышения устойчивости LLM к выбору разделителя. Мы обнаружили, что указание выбранного разделителя в промпте повышает устойчивость, и предлагаем практические рекомендации по выбору наиболее эффективных разделителей.
Кодовое переключение (CSW), то есть чередование языков и письменностей в рамках одного высказывания, остается фундаментальной проблемой для многоязычной обработки естественного языка (NLP), даже на фоне стремительного прогресса крупных языковых моделей (LLM). Большинство LLM по-прежнему испытывают трудности с обработкой смешанных языковых входных данных, ограниченными наборами данных для CSW и предвзятостью оценки, что затрудняет их внедрение в многоязычных обществах. Этот обзор представляет собой первый всесторонний анализ исследований LLM с учетом CSW, охватывающий уникальные исследования в пяти областях, 12 задачах NLP, более 30 наборах данных и более 80 языках. Мы классифицируем последние достижения по архитектуре, стратегии обучения и методологии оценки, описывая, как LLM изменили моделирование CSW и какие вызовы остаются актуальными. В заключение статьи предлагается дорожная карта, подчеркивающая необходимость создания инклюзивных наборов данных, справедливой оценки и лингвистически обоснованных моделей для достижения подлинного многоязычного интеллекта. Все ресурсы собраны и поддерживаются по адресу: https://github.com/lingo-iitgn/awesome-code-mixing/.
С увеличением использования генерации, дополненной поиском (Retrieval-Augmented Generation, RAG), важность мощных моделей поиска стала как никогда высока. В здравоохранении мультимодальные модели поиска, объединяющие информацию из текста и изображений, предлагают значительные преимущества для многих последующих задач, таких как ответы на вопросы, кросс-модальный поиск и мультимодальное суммирование, поскольку медицинские данные часто включают оба формата. Однако в настоящее время отсутствует стандартный эталон для оценки эффективности таких моделей в медицинских условиях. Чтобы устранить этот пробел, мы представляем M3Retrieve — мультимодальный медицинский эталон для оценки поиска. M3Retrieve охватывает 5 областей, 16 медицинских направлений и 4 различные задачи, включая более 1,2 миллиона текстовых документов и 164 тысячи мультимодальных запросов, собранных с одобренных лицензий. Мы оцениваем ведущие мультимодальные модели поиска на этом эталоне, чтобы изучить проблемы, характерные для различных медицинских специальностей, и понять их влияние на производительность поиска. Публикуя M3Retrieve, мы стремимся обеспечить систематическую оценку, стимулировать инновации в моделях и ускорить исследования в направлении создания более эффективных и надежных мультимодальных систем поиска для медицинских приложений. Набор данных и код базовых моделей доступны на странице GitHub: https://github.com/AkashGhosh/M3Retrieve.
Крупные языковые модели (LLM) часто "галлюцинируют" при ответах на сложные вопросы, создавая правдоподобные, но фактически неверные ответы. Распространённой стратегией для снижения этой проблемы является предоставление атрибуции выходным данным LLM. Однако существующие бенчмарки в основном сосредоточены на простой атрибуции, которая извлекает поддерживающие текстовые доказательства в качестве ссылок. Мы утверждаем, что в реальных сценариях, таких как финансовые приложения, атрибуция выходит за рамки извлечения ссылок. Мы представляем FinLFQA — бенчмарк, разработанный для оценки способности LLM генерировать развёрнутые ответы на сложные финансовые вопросы с надёжной и детализированной атрибуцией. FinLFQA оценивает три критических аспекта атрибуции с помощью аннотаций, выполненных людьми: (1) поддерживающие доказательства, извлечённые из финансовых отчётов, (2) промежуточные шаги численного рассуждения и (3) специализированные финансовые знания, которые информируют процесс рассуждения. Мы также предоставляем автоматизированную систему оценки, охватывающую как качество ответов, так и качество атрибуции. В ходе масштабных экспериментов с восемью LLM в рамках нескольких парадигм генерации атрибуции мы обнаружили, что детализированные метрики важны для различения возможностей моделей, что сквозная генерация достигает сопоставимой производительности с постобработкой и что итеративное уточнение помогает только при наличии внешней обратной связи.
Агент планирования путешествий (Travel Planning, TP) недавно стал важным компонентом для взаимодействия с внешними инструментами и ресурсами при создании маршрутов, обеспечивая приятный пользовательский опыт. Несмотря на свои преимущества, существующие исследования опираются на ручное создание подсказок и фиксированные рабочие процессы агента, что ограничивает гибкость и автономность TP-агента. В данной статье предлагается DeepTravel, сквозная фреймворк агентного обучения с подкреплением для создания автономного агента планирования путешествий, способного самостоятельно планировать, выполнять инструменты и анализировать их ответы для исследования, проверки и уточнения промежуточных действий в многошаговых рассуждениях. Для достижения этого мы сначала создаем надежную песочницу, кэшируя данные о транспорте, жилье и достопримечательностях, что облегчает обучение TP-агента без ограничений, связанных с реальными API (например, нестабильными выходами). Кроме того, мы разрабатываем иерархическую систему моделирования вознаграждений, где проверка на уровне траектории сначала оценивает пространственно-временную осуществимость и отфильтровывает неудовлетворительные маршруты, а затем проверка на уровне шага дополнительно подтверждает согласованность деталей маршрута с ответами инструментов, обеспечивая эффективное и точное вознаграждение. Наконец, мы предлагаем метод обучения с подкреплением с усилением ответов, который позволяет TP-агенту периодически повторять опыт из буфера ошибок, развивая значительные агентные способности. Мы развертываем обученного TP-агента в приложении DiDi Enterprise Solutions и проводим всесторонние онлайн- и офлайн-оценки, демонстрируя, что DeepTravel позволяет небольшим языковым моделям (например, Qwen3 32B) значительно превосходить существующие передовые модели, такие как OpenAI o1, o3 и DeepSeek R1, в задачах планирования путешествий.
Несмотря на впечатляющую визуальную достоверность, современные модели генерации видео часто создают последовательности, нарушающие интуитивные физические законы, такие как парение объектов, их телепортация или трансформация, противоречащие причинно-следственным связям. Хотя люди легко обнаруживают такие несоответствия, до сих пор не существует надежного метода для количественной оценки физической реалистичности в видео. В данной работе мы исследуем, можно ли обучить видео-языковые модели (VLMs) для надежной оценки физической правдоподобности. Мы обнаруживаем, что существующие VLMs испытывают трудности с выявлением нарушений физики, что указывает на фундаментальные ограничения в их временном и причинно-следственном анализе. Для решения этой проблемы мы представляем TRAVL — метод тонкой настройки, который сочетает сбалансированный набор данных для обучения с модулем внимания, учитывающим траектории, чтобы улучшить кодирование и распознавание движения в VLMs. Для более строгой оценки физического анализа мы предлагаем ImplausiBench — эталонный набор из 300 видео (150 реальных, 150 сгенерированных), который устраняет языковые предубеждения и изолирует визуально-временное понимание. Результаты оцениваются как с помощью эталонных суждений людей, так и с использованием более строгих метрик на основе LLM-судей. Вместе TRAVL и ImplausiBench предлагают унифицированную структуру для исследования и улучшения физической правдоподобности в мультимодальных моделях, проливая свет на сложный и малоизученный аспект визуально-временного понимания.
В данной работе исследуются способности базовых моделей к рассуждению и планированию, а также их масштабируемость в сложных динамических средах. Мы представляем PuzzlePlex — эталонный набор, разработанный для оценки этих способностей с помощью разнообразных головоломок. PuzzlePlex включает 15 типов головоломок, среди которых детерминированные и стохастические игры различной сложности, а также сценарии для одного и двух игроков. Фреймворк PuzzlePlex предоставляет комплексную среду для каждой игры и поддерживает расширяемость для создания более сложных задач по мере развития базовых моделей. Кроме того, мы реализуем специализированные стратегии для игры, предназначенные для сравнения. На основе этого эталонного набора мы разрабатываем детализированные метрики для измерения производительности и проводим углубленный анализ передовых базовых моделей в двух режимах: на основе инструкций и на основе кода. Также мы систематически исследуем их пределы масштабируемости. Наши результаты показывают, что модели рассуждений превосходят другие в режиме на основе инструкций, тогда как выполнение на основе кода представляет большие сложности, но предлагает масштабируемую и эффективную альтернативу. PuzzlePlex позволяет проводить целенаправленную оценку и направляет будущие улучшения в области рассуждений, планирования и обобщения для базовых моделей.
Появление визуальных авторегрессионных (AR) моделей произвело революцию в генерации изображений, одновременно представив новые вызовы для обнаружения синтетических изображений. В отличие от предыдущих методов, основанных на GAN или диффузии, AR-модели генерируют изображения через предсказание дискретных токенов, демонстрируя как значительные улучшения в качестве синтеза изображений, так и уникальные характеристики в их векторно-квантованных представлениях. В данной статье мы предлагаем использовать метод обнаружения изображений, сгенерированных авторегрессионными моделями, основанный на осведомленности о дискретных распределениях и ошибках квантования (D^3QE), который использует характерные паттерны и смещение частотного распределения кодовой книги, существующие в реальных и синтетических изображениях. Мы представляем трансформер, учитывающий различия в дискретных распределениях, который интегрирует динамическую статистику частот кодовой книги в механизм внимания, объединяя семантические признаки и скрытые ошибки квантования. Для оценки нашего метода мы создали всеобъемлющий набор данных под названием ARForensics, охватывающий 7 основных визуальных AR-моделей. Эксперименты демонстрируют превосходную точность обнаружения и сильную обобщаемость D^3QE для различных AR-моделей, а также устойчивость к реальным искажениям. Код доступен по адресу https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
Восстановление временных рядов (Time Series Imputation, TSI), направленное на восстановление пропущенных значений во временных данных, остается фундаментальной задачей из-за сложного и часто высокого уровня пропусков в реальных сценариях. Существующие модели обычно оптимизируют потери при точечной реконструкции, сосредотачиваясь на восстановлении числовых значений (локальная информация). Однако мы наблюдаем, что при высоких уровнях пропусков эти модели по-прежнему хорошо работают на этапе обучения, но дают плохие результаты восстановления и искажают распределения латентных представлений (глобальная информация) на этапе вывода. Это раскрывает критическую дилемму оптимизации: текущие цели не учитывают глобальное руководство, что приводит к переобучению моделей на локальных шумах и неспособности улавливать глобальную информацию данных. Для решения этой проблемы мы предлагаем новую парадигму обучения — Глобально-локальный информационный бутылочный метод (Glocal Information Bottleneck, Glocal-IB). Glocal-IB является модель-независимым и расширяет стандартную структуру IB, вводя функцию потерь глобального выравнивания, основанную на вычислимом приближении взаимной информации. Эта функция потерь выравнивает латентные представления замаскированных входных данных с их изначально наблюдаемыми аналогами. Это помогает модели сохранять глобальную структуру и локальные детали, подавляя шумы, вызванные пропущенными значениями, что способствует лучшей обобщаемости при высоких уровнях пропусков. Многочисленные эксперименты на девяти наборах данных подтверждают, что Glocal-IB приводит к стабильно улучшенной производительности и выровненным латентным представлениям при наличии пропусков. Наша реализация кода доступна по адресу https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.