Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем ERNIE 5.0 — нативно авторегрессионную базовую модель, разработанную для унифицированного мультимодального понимания и генерации текста, изображений, видео и аудио. Все модальности обучаются с нуля в рамках единой задачи предсказания следующей группы токенов на основе сверхразреженной архитектуры смеси экспертов (MoE) с модально-независимой маршрутизацией экспертов. Для решения практических задач масштабного развертывания в условиях разнородных ресурсных ограничений ERNIE 5.0 использует новую парадигму эластичного обучения. В рамках единого цикла предварительного обучения модель осваивает семейство подмоделей с варьируемой глубиной, пропускной способностью экспертов и разреженностью маршрутизации, что позволяет гибко балансировать между производительностью, размером модели и задержкой вывода в сценариях с ограничениями по памяти или времени. Кроме того, мы системно решаем проблемы масштабирования обучения с подкреплением для унифицированных базовых моделей, гарантируя эффективный и стабильный посттренинг в условиях сверхразреженных MoE-архитектур и разнообразных мультимодальных настроек. Многочисленные эксперименты демонстрируют, что ERNIE 5.0 достигает высокой и сбалансированной производительности across multiple modalities. Насколько нам известно, среди публично раскрытых моделей ERNIE 5.0 является первой промышленной реализацией унифицированной авторегрессионной модели триллионного масштаба, поддерживающей как мультимодальное понимание, так и генерацию. Для содействия дальнейшим исследованиям мы представляем детальную визуализацию модально-независимой маршрутизации экспертов в унифицированной модели, а также всесторонний эмпирический анализ эластичного обучения, стремясь предложить научному сообществу глубокие инсайты.
Развертывание больших языковых моделей (LLM) сталкивается с критическим узким местом при обработке длинных входных данных: непомерно большим объемом памяти, занимаемым кэшем ключей-значений (KV). Для решения этой проблемы парадигма прунинга токенов использует разреженность внимания для выборочного сохранения небольшого критического подмножества токенов. Однако существующие подходы несовершенны: статические методы рискуют необратимой потерей информации, а динамические стратегии используют эвристики, которые недостаточно отражают зависимый от запроса характер важности токенов. Мы предлагаем FASA — новую структуру, которая обеспечивает осведоженное о запросе вытеснение токенов за счет динамического прогнозирования их важности. FASA основана на новом взгляде на RoPE: открытии функциональной разреженности на уровне частотных чанков (FC). Наше ключевое открытие заключается в том, что небольшое, идентифицируемое подмножество «доминирующих» FC постоянно демонстрирует высокую контекстуальную согласованность с полным механизмом внимания. Это обеспечивает надежный и вычислительно бесплатный прокси-метод для выявления значимых токенов. Опираясь на это наблюдение, FASA сначала идентифицирует критический набор токенов с помощью доминирующих FC, а затем выполняет фокусированное вычисление внимания исключительно на этом прунированном подмножестве. Поскольку доступ осуществляется лишь к небольшой части кэша KV, FASA радикально снижает требования к пропускной способности памяти и вычислительную стоимость. В широком спектре задач с длинным контекстом, от моделирования последовательностей до сложных рассуждений CoT, FASA стабильно превосходит все базовые методы вытеснения токенов и достигает точности, близкой к оракульной, демонстрируя замечательную надежность даже при ограниченных бюджетах. Примечательно, что на LongBench-V1 FASA достигает почти 100% производительности полного кэша KV при сохранении всего 256 токенов и обеспечивает ускорение в 2.56 раза, используя лишь 18.9% кэша на AIME24.
Последние достижения в области больших языковых моделей (LLM) в основном были сосредоточены на масштабировании по глубине, когда единый агент решает долгосрочные задачи с помощью многошаговых рассуждений и использования инструментов. Однако по мере усложнения задач ключевым ограничением становится уже не компетентность отдельного агента, а организационная способность системы. В данной работе мы исследуем комплементарное направление — масштабирование по ширине с помощью мульти-агентных систем для решения широких информационных запросов. Существующие мульти-агентные системы часто полагаются на рутинные рабочие процессы и пошаговые взаимодействия, которые не позволяют эффективно распараллеливать работу. Чтобы устранить этот разрыв, мы предлагаем WideSeek-R1 — фреймворк «ведущий агент — подчиненные агенты», обученный с помощью мульти-агентного обучения с подкреплением (MARL) для синергии масштабируемой оркестрации и параллельного выполнения. Используя общую LLM с изолированными контекстами и специализированными инструментами, WideSeek-R1 совместно оптимизирует ведущего агента и параллельных подчиненных агентов на курируемом наборе данных из 20 000 широких информационных задач. Многочисленные эксперименты показывают, что WideSeek-R1-4B достигает показателя F1 40,0% по элементам на бенчмарке WideSearch, что сопоставимо с результатами одно-агентной модели DeepSeek-R1-671B. Более того, WideSeek-R1-4B демонстрирует стабильное улучшение производительности с увеличением числа параллельных подчиненных агентов, что подчеркивает эффективность масштабирования по ширине.
Мультимодальные модели вознаграждения процессов (MPRM) играют ключевую роль в пошаговом контроле для визуального мышления в MLLM. Обучение MPRM обычно требует крупномасштабных корпусов с аннотацией методом Монте-Карло (MC), что сопряжено со значительными затратами на обучение. В данной статье исследуется эффективность использования данных для обучения MPRM. Наши предварительные эксперименты показывают, что обучение MPRM быстро насыщается при случайном субдискретизации обучающих данных, что указывает на существенную избыточность существующих корпусов с MC-аннотацией. Чтобы объяснить это, мы формализуем теоретическую основу и выявляем, что информативные градиентные обновления зависят от двух факторов: смеси меток положительных/отрицательных шагов и надежности меток (средние MC-оценки положительных шагов). Руководствуясь этими выводами, мы предлагаем Сбалансированный-Информационный Показатель (Balanced-Information Score, BIS), который отдает приоритет как смеси, так и надежности на основе существующих MC-сигналов на уровне rollout, не требуя никаких дополнительных затрат. На двух базовых архитектурах (InternVL2.5-8B и Qwen2.5-VL-7B) в рамках VisualProcessBench подмножества, отобранные по BIS, последовательно соответствуют и даже превосходят производительность на полном наборе данных, используя лишь малую его часть. Примечательно, что подмножество, отобранное по BIS, достигает производительности полного набора данных, используя только 10% обучающих данных, улучшая результат по сравнению со случайной субдискретизацией на относительные 4.1%.
Омни-модальные большие языковые модели (Omni-LLM) продемонстрировали высокие способности в задачах аудио-видео понимания. Однако их зависимость от длинных мультимодальных последовательностей токенов приводит к значительным вычислительным затратам. Несмотря на эту проблему, методы сжатия токенов, разработанные специально для Omni-LLM, остаются ограниченными. Чтобы заполнить этот пробел, мы предлагаем OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression) — асимметричную по модальностям структуру сжатия токенов, адаптированную для Omni-LLM. В частности, OmniSIFT использует двухэтапную стратегию сжатия: (i) модуль пространственно-временного сокращения видео, который удаляет избыточность, вызванную как внутрикадровой структурой, так и межкадровым перекрытием, и (ii) модуль визуально-управляемого отбора аудио токенов, который фильтрует аудио токены. Вся структура оптимизируется сквозным образом с помощью дифференцируемого прямого оценщика. Многочисленные эксперименты на пяти репрезентативных тестовых наборах демонстрируют эффективность и надежность OmniSIFT. Примечательно, что для Qwen2.5-Omni-7B OmniSIFT вводит всего 4.85 млн параметров, сохраняя при этом более низкую задержку по сравнению с бесплатными базовыми методами, такими как OmniZip. Используя всего 25% исходного контекста токенов, OmniSIFT стабильно превосходит все базовые методы сжатия и даже превышает производительность модели с полным набором токенов в нескольких задачах.
Данная работа представляет Hybrid Sparse Attention (HySparse) — новую архитектуру, в которой каждый слой полного внимания чередуется с несколькими слоями разреженного внимания. Несмотря на концептуальную простоту, HySparse стратегически выводит выбор токенов и KV-кэши для каждого разреженного слоя непосредственно из предшествующего слоя полного внимания. Эта архитектура устраняет два фундаментальных ограничения предыдущих методов разреженного внимания. Во-первых, традиционные подходы обычно полагаются на дополнительные прокси-метрики для прогнозирования важности токенов, что вносит дополнительную сложность и может приводить к неоптимальной производительности. В отличие от них, HySparse использует слой полного внимания в качестве точного оракула для идентификации важных токенов. Во-вторых, существующие схемы разреженного внимания часто сокращают вычисления, но не экономят KV-кэш. HySparse позволяет слоям разреженного внимания повторно использовать KV-кэш полного внимания, тем самым уменьшая как объем вычислений, так и потребление памяти. Мы оцениваем HySparse на плотных моделях размером 7B и MoE-моделях размером 80B. Во всех конфигурациях HySparse последовательно превосходит как базовые модели с полным вниманием, так и гибридные модели SWA. Примечательно, что в MoE-модели на 80B параметров с общим количеством 49 слоев только 5 слоев используют полное внимание, однако HySparse демонстрирует существенный прирост производительности при сокращении объема хранения KV-кэша почти в 10 раз.
Развертывание человекоподобных роботов в реальных условиях является фундаментально сложной задачей, поскольку требует тесной интеграции восприятия, локомоции и манипулирования при частичной наблюдаемости и в динамически изменяющихся средах, а также надежного перехода между подзадачами разного типа. Для решения этих проблем мы предлагаем новую задачу — EgoActing, которая требует непосредственного преобразования высокоуровневых инструкций в разнообразные, точные и пространственно-осознанные действия человекоподобного робота. Мы конкретизируем эту задачу, представив EgoActor — унифицированную и масштабируемую визуально-языковую модель (VLM), способную предсказывать примитивы локомоции (например, ходьбу, повороты, движение вбок, изменение высоты), движения головы, команды манипулирования и сценарии взаимодействия человека и робота для координации восприятия и исполнения в реальном времени. Мы используем широкий спектр данных обучения на основе эгоцентрических RGB-данных из реальных демонстраций, вопросно-ответных заданий на пространственное мышление и демонстраций в симулированной среде, что позволяет EgoActor принимать надежные, контекстно-зависимые решения и выполнять плавный вывод действий (менее чем за 1 секунду) как в моделях с 8 млрд, так и с 4 млрд параметров. Обширные оценки в симулированных и реальных условиях показывают, что EgoActor эффективно связывает абстрактное планирование задач с конкретным моторным исполнением, одновременно демонстрируя обобщение на разнообразные задачи и ранее не встречавшиеся среды.
Несмотря на быстрый прогресс в авторегрессионной видео-диффузии, возникающее системное алгоритмическое узкое место — память KV-кэша — ограничивает как возможность развертывания, так и генеративные возможности. В авторегрессионных моделях генерации видео KV-кэш растет вместе с историей генерации и быстро начинает доминировать в памяти GPU, часто превышая 30 ГБ, что препятствует развертыванию на широко доступном оборудовании. Что более критично, ограниченный бюджет KV-кэша сужает эффективную рабочую память, напрямую ухудшая долгосрочную согласованность идентичности, композиции и движения. Для решения этой проблемы мы представляем Quant VideoGen (QVG) — не требующую дообучения систему квантования KV-кэша для авторегрессионных диффузионных моделей видео. QVG использует пространственно-временную избыточность видео с помощью семантического сглаживания, создавая остатки с низкой амплитудой, удобные для квантования. Кроме того, вводится прогрессивное квантование остатков — многостадийная схема от грубой к точной, которая снижает ошибку квантования, обеспечивая плавный компромисс между качеством и памятью. На бенчмарках LongCat Video, HY WorldPlay и Self Forcing QVG устанавливает новый парето-фронт между качеством и эффективностью использования памяти, сокращая объем памяти KV-кэша до 7.0 раз с увеличением сквозной задержки менее чем на 4%, при этом стабильно превосходя существующие базовые методы по качеству генерации.
Последние достижения в области автономных LLM-агентов демонстрируют их способность повышать производительность за счет итерационного взаимодействия со средой. Мы определяем эту парадигму как улучшение во время тестирования (Test-Time Improvement, TTI). Однако механизмы, объясняющие, как и почему TTI приводит к успеху или неудаче, остаются малоизученными, а существующие метрики оценки не позволяют зафиксировать эффективность оптимизации задач, адаптацию поведения после ошибочных действий и конкретную полезность рабочей памяти для выполнения задачи. Для устранения этих пробелов мы предлагаем Диагностическую оценку улучшения во время тестирования (Test-time Improvement Diagnostic Evaluation, TIDE) — агент-независимую и сред-независимую структуру, которая декомпозирует TTI на три всеобъемлющих и взаимосвязанных измерения. Данная структура измеряет (1) общую временную динамику выполнения задачи и (2) определяет, ограничивается ли производительность в первую очередь рекурсивными циклическими поведениями или (3) обременительной накопленной памятью. В ходе масштабных экспериментов с различными агентами и средами TIDE показывает, что для повышения производительности агента недостаточно просто наращивать внутренние рассуждения, что указывает на необходимость явной оптимизации динамики взаимодействия между агентом и средой.
Моделирование деформируемых объектов в условиях интенсивного взаимодействия остается фундаментальной проблемой для реалистичной симуляции роботизированного манипулирования, где динамика совместно определяется воздействием окружающей среды и действиями робота. Существующие симуляторы полагаются на предопределенную физику или данные о динамике без учета управляющих воздействий со стороны робота, что ограничивает точность, стабильность и обобщающую способность. В данной статье представлен SoMA — симулятор на основе 3D гауссовских сплатов для манипулирования мягкими телами. SoMA объединяет динамику деформируемых объектов, силы окружающей среды и действия сочленений робота в едином латентном нейросетевом пространстве для сквозной реалистичной симуляции. Моделирование взаимодействий на основе обученных гауссовских сплатов обеспечивает управляемое, стабильное манипулирование на длительных горизонтах и обобщение за пределы наблюдаемых траекторий без использования предопределенных физических моделей. SoMA повышает точность повторной симуляции и обобщающую способность для реального роботизированного манипулирования на 20%, обеспечивая стабильное моделирование сложных задач, таких как складывание ткани на длительных горизонтах.
Диффузионные большие языковые модели (dLLM) стали перспективной альтернативой чисто авторегрессионным языковым моделям благодаря возможности параллельного декодирования нескольких токенов. Однако современные блочные dLLM полагаются на механизм «повторного маскирования», который декодирует только наиболее уверенные токены и отбрасывает остальные, фактически растрачивая вычислительные ресурсы. Мы показываем, что повторное использование вычислений от отброшенных токенов полезно, поскольку эти токены сохраняют контекстную информацию, необходимую для последующих итераций декодирования. В свете этого мы предлагаем модуль Residual Context Diffusion (RCD), который преобразует представления отброшенных токенов в контекстные остатки и внедряет их обратно на следующий шаг дениойзинга. RCD использует разделенный двухэтапный конвейер обучения, чтобы обойти проблемы с памятью, связанные с обратным распространением ошибки. Мы проверяем наш метод на моделях как для длинных рассуждений с цепочкой мыслей (CoT) (SDAR), так и для следования коротким CoT-инструкциям (LLaDA). Мы демонстрируем, что стандартную dLLM можно эффективно преобразовать в парадигму RCD всего на ~1 миллиарде токенов. RCD стабильно улучшает передовые dLLM на 5–10 пунктов по точности при минимальных дополнительных вычислительных затратах в широком спектре тестов. Примечательно, что на наиболее сложных задачах AIME RCD почти удваивает точность базового уровня и позволяет достичь эквивалентного уровня точности при в 4–5 раз меньшем количестве шагов дениойзинга.
Подкрепляющее обучение (Reinforcement Learning, RL) стало краеугольным камнем для тонкой настройки больших языковых моделей (Large Language Models, LLMs), а алгоритм Proximal Policy Optimization (PPO) де-факто является стандартом. Несмотря на его повсеместное распространение, мы утверждаем, что базовый механизм ограничения вероятностного отношения (ratio clipping) в PPO структурно плохо подходит для больших словарей, присущих LLM. PPO ограничивает обновления политики на основе отношения вероятностей выбранных токенов, которое служит зашумлённой односэмпловой оценкой Монте-Карло истинной дивергенции политик. Это создаёт неоптимальную динамику обучения: обновления для токенов с низкой вероятностью агрессивно и чрезмерно штрафуются, в то время как потенциально катастрофические сдвиги для высоковероятностных токенов недостаточно ограничены, что приводит к неэффективности и нестабильности обучения. Для решения этой проблемы мы предлагаем Divergence Proximal Policy Optimization (DPPO), который заменяет эвристическое ограничение на более принципиальное, основанное на прямой оценке дивергенции политик (например, полной вариации или дивергенции Кульбака-Лейблера). Чтобы избежать большого объёма используемой памяти, мы вводим эффективные бинарную и Top-K аппроксимации для захвата существенной дивергенции с пренебрежимо малыми накладными расходами. Многочисленные эмпирические оценки демонстрируют, что DPPO обеспечивает превосходную стабильность и эффективность обучения по сравнению с существующими методами, предлагая более надёжную основу для RL-тонкой настройки LLM.
Современные DiT-модели генерации изображений по тексту всё чаще используют большие языковые модели (LLM) в качестве текстовых энкодеров, однако текстовое кондиционирование остаётся в основном статичным и часто задействует лишь один слой LLM, несмотря на выраженную семантическую иерархию между слоями LLM и нестационарную динамику денойзинга как во времени диффузии, так и по глубине сети. Чтобы лучше согласовать кондиционирование с динамическим процессом генерации в DiT и тем самым повысить генеративную способность диффузионной модели, мы предлагаем унифицированную нормализованную схему выпуклого слияния, оснащённую лёгкими механизмами внимания (gates), для систематической организации скрытых состояний многослойной LLM посредством временного, глубинного и совместного слияния. Эксперименты показывают, что семантическая маршрутизация по глубине (Depth-wise Semantic Routing) является наилучшей стратегией кондиционирования, последовательно улучшая соответствие текста и изображения и композиционную генерацию (например, +9.97 на задаче Counting в GenAI-Bench). Напротив, мы обнаружили, что чисто временное слияние может парадоксальным образом ухудшить качество визуальной генерации. Мы объясняем это несоответствием траекторий обучения и вывода: при использовании классификатор-фри guidance номинальные временные шаги не отслеживают эффективное отношение сигнал-шум (SNR), что приводит к семантически несвоевременной инъекции признаков на этапе вывода. В целом, наши результаты позиционируют глубинную маршрутизацию как сильный и эффективный базовый подход и подчёркивают критическую важность траекторно-aware сигналов для обеспечения надёжного временно-зависимого кондиционирования.
В то время как последние достижения в области нейронных представлений и генеративных моделей произвели революцию в создании 3D-контента, эта область по-прежнему ограничена значительными узкими местами в обработке данных. Для решения этой проблемы мы представляем HY3D-Bench — экосистему с открытым исходным кодом, предназначенную для создания единой высококачественной основы для 3D-генерации. Наш вклад трехгранен: (1) Мы создали библиотеку из 250 тысяч высококачественных 3D-объектов, отобранных из крупномасштабных репозиториев, используя строгий конвейер обработки для предоставления готовых к обучению артефактов, включая водонепроницаемые сетки и рендеры с нескольких ракурсов; (2) Мы вводим структурированную декомпозицию на уровне деталей, обеспечивая необходимую детализацию для тонкого восприятия и контролируемого редактирования; и (3) Мы преодолеваем разрыв распределений реального мира с помощью масштабируемого конвейера AIGC-синтеза, добавляя 125 тысяч синтетических активов для повышения разнообразия в редко встречающихся категориях. Эмпирически подтвержденная на примере обучения модели Hunyuan3D-2.1-Small, система HY3D-Bench демократизирует доступ к надежным данным, стремясь стимулировать инновации в сферах 3D-восприятия, робототехники и создания цифрового контента.
Высококачественные научные иллюстрации играют ключевую роль в эффективной передаче сложных научных и технических концепций, однако их ручное создание остается общепризнанным узким местом как в академической среде, так и в промышленности. Мы представляем FigureBench — первый масштабный бенчмарк для генерации научных иллюстраций из объемных научных текстов. Он содержит 3300 высококачественных пар «текст-иллюстрация», охватывающих разнообразные задачи преобразования текста в иллюстрацию из научных статей, обзоров, блогов и учебников. Кроме того, мы предлагаем AutoFigure — первую агентскую систему, которая автоматически генерирует высококачественные научные иллюстрации на основе длинных научных текстов. В частности, перед финальной визуализацией AutoFigure выполняет глубокий анализ, рекомбинацию и валидацию для создания компоновки, которая является как структурно обоснованной, так и эстетически проработанной, выдавая научную иллюстрацию, достигающую структурной целостности и визуальной привлекательности. Используя высококачественные данные из FigureBench, мы провели обширные эксперименты для оценки производительности AutoFigure в сравнении с различными базовыми методами. Результаты демонстрируют, что AutoFigure стабильно превосходит все базовые методы, создавая научные иллюстрации, готовые к публикации. Код, набор данных и демонстрационное пространство доступны по адресу https://github.com/ResearAI/AutoFigure.
Group Relative Policy Optimization (GRPO) недавно стала практическим методом для согласования больших языковых моделей с верифицируемыми целями. Однако при разреженных терминальных вознаграждениях GRPO часто останавливается, поскольку траектории внутри группы часто получают идентичные награды, что приводит к коллапсу относительных преимуществ и исчезновению обновлений. Мы предлагаем метод GRPO с самоподсказками и привилегированным контролем (SAGE) — фреймворк обучения с подкреплением на политике, который внедряет привилегированные подсказки во время обучения для изменения распределения траекторий при том же терминальном верифицируемом вознаграждении. Для каждого промпта x модель семплирует компактную подсказку h (например, план или декомпозицию) и затем генерирует решение τ, обусловленное (x,h). Ключевой момент: целевое вознаграждение R(x,τ) остается неизменным; подсказки лишь увеличивают разнообразие исходов внутри группы при конечной выборке, предотвращая коллапс преимуществ GRPO при разреженных вознаграждениях. На этапе тестирования мы устанавливаем h=∅ и развертываем политику без подсказок, без какого-либо привилегированного доступа. Более того, семплирование разнообразных самоподсказок служит адаптивным учебным планом, который отслеживает узкие места обучаемой модели эффективнее, чем фиксированные подсказки от начальной политики или более сильной внешней модели. Эксперименты на 6 бенчмарках с 3 LLM показывают, что SAGE стабильно превосходит GRPO, в среднем на +2.0 для Llama-3.2-3B-Instruct, на +1.2 для Qwen2.5-7B-Instruct и на +1.3 для Qwen3-4B-Instruct. Код доступен по адресу https://github.com/BaohaoLiao/SAGE.
Современные языковые модели (ЯМ) преуспевают в рассуждениях на основе промптов, используя предварительно обученные знания. Однако реальные задачи гораздо сложнее и контекстно-зависимы: модели должны обучаться на основе специфичного для задачи контекста и использовать новые знания, выходящие за рамки усвоенных в ходе предварительного обучения, чтобы рассуждать и решать задачи. Мы называем эту способность **контекстным обучением** — ключевым умением, которым люди обладают от природы, но которое до сих пор в значительной степени игнорировалось. С этой целью мы представляем CL-bench — эталонный набор данных для реальных задач, состоящий из 500 сложных контекстов, 1 899 задач и 31 607 оценочных критериев, созданных опытными экспертами в предметных областях. Каждая задача разработана таким образом, что новая информация, необходимая для её решения, содержится в соответствующем контексте. Решение задач в CL-bench требует от моделей способности обучаться на основе контекста, который может включать новые предметные знания, системы правил, сложные процедуры или законы, выведенные из эмпирических данных, — всё это отсутствует в данных предварительного обучения. Это выходит далеко за рамки задач с длинным контекстом, которые в основном проверяют поиск информации или понимание прочитанного, и задач обучения в контексте, где модели усваивают простые шаблоны задач с помощью инструкций и примеров. Наша оценка десяти передовых ЯМ показала, что модели в среднем решают лишь 17,2% задач. Даже лучшая модель, GPT-5.1, справляется только с 23,7%, что свидетельствует о том, что ЯМ ещё не достигли эффективного контекстного обучения, что создаёт серьёзное препятствие для решения реальных, сложных, контекстно-зависимых задач. CL-bench представляет собой шаг к созданию ЯМ с этой фундаментальной способностью, что сделает их более интеллектуальными и продвинет их применение в реальных сценариях.
На протяжении последнего десятилетия траекторию развития генеративного искусственного интеллекта (ИИ) определяла модель-центричная парадигма, движимая законами масштабирования. Несмотря на значительные прорывы в визуальном качестве, этот подход столкнулся с «потолком применимости», проявляющимся как Разрыв между Замыслом и Исполнением (фундаментальное несоответствие между высокоуровневым замыслом создателя и стохастической, «чернокобоксистой» природой современных одношаговых моделей). В данной статье, вдохновляясь концепцией Vibe Coding, мы представляем Vibe AIGC — новую парадигму генерации контента через агентную оркестровку, которая представляет собой автономный синтез иерархических мульти-агентных рабочих процессов. В рамках этой парадигмы роль пользователя выходит за рамки традиционного промпт-инжиниринга, эволюционируя в Командующего, который предоставляет Vibe — высокоуровневое представление, охватывающее эстетические предпочтения, функциональную логику и т.д. Централизованный Мета-Планировщик затем функционирует как системный архитектор, декомпозируя этот «Vibe» в исполняемые, проверяемые и адаптивные агентные пайплайны. Переходя от стохастического вывода к логической оркестровке, Vibe AIGC преодолевает разрыв между человеческим воображением и машинным исполнением. Мы утверждаем, что этот сдвиг переопределит экономику человеко-ИИ коллаборации, превращая ИИ из хрупкого движка для вывода в надежного партнера на уровне системной инженерии, что демократизирует создание сложных, долгосрочных цифровых активов.
Почему предобученные политики диффузии или согласования потоков терпят неудачу при выполнении той же задачи вблизи препятствия, на смещенной опорной поверхности или в условиях легкого беспорядка? Такие сбои редко отражают отсутствие моторных навыков; вместо этого они выявляют ограничение обучения с подражанием при сдвигах между обучением и тестированием, когда генерация действий тесно связана со специфичными для обучения пространственными конфигурациями и постановками задач. Переобучение или дообучение для устранения этих сбоев является затратным и концептуально неверным, поскольку требуемые поведения уже существуют, но не могут быть выборочно адаптированы во время тестирования. Мы предлагаем Vision-Language Steering (VLS) — не требующую дообучения структуру для адаптации на этапе вывода замороженных генеративных роботизированных политик. VLS рассматривает адаптацию как проблему управления на этапе вывода, направляя процесс сэмплирования предобученной политики диффузии или согласования потоков в ответ на входные данные (наблюдение-язык) вне распределения обучения без изменения параметров политики. Используя Vision-Language модели для синтеза дифференцируемых по траектории функций вознаграждения, VLS направляет удаление шума к траекториям действий, которые удовлетворяют пространственным и task-требованиям времени тестирования. В симуляциях и натурных экспериментах VLS стабильно превосходит предыдущие методы управления, демонстрируя улучшение на 31% на CALVIN и на 13% на LIBERO-PRO. Развертывание в реальном мире на роботе Franka дополнительно демонстрирует надежную адаптацию на этапе вывода при пространственных и семантических сдвигах во время тестирования. Страница проекта: https://vision-language-steering.github.io/webpage/
Передовые языковые модели демонстрируют мощные способности к рассуждениям и использованию инструментов для решения сложных многоэтапных задач. Однако существующие системы RAG (Retrieval-Augmented Generation) не используют эти возможности в полной мере. Они по-прежнему опираются на две парадигмы: (1) проектирование алгоритма, который извлекает фрагменты текста за один шаг и объединяет их во входные данные модели, или (2) предварительное определение рабочего процесса, который модель выполняет пошагово согласно инструкциям. Ни одна из парадигм не позволяет модели участвовать в принятии решений о поиске, что препятствует эффективному масштабированию по мере улучшения моделей. В данной статье мы представляем A-RAG, агентскую RAG-структуру, которая предоставляет модели прямой доступ к иерархическим интерфейсам поиска. A-RAG предлагает три инструмента поиска: поиск по ключевым словам, семантический поиск и чтение фрагментов, что позволяет агенту адаптивно осуществлять поиск и извлекать информацию на разных уровнях детализации. Эксперименты на нескольких наборах данных для вопросно-ответных задач в открытой предметной области показывают, что A-RAG стабильно превосходит существующие подходы при сопоставимом или меньшем количестве извлеченных токенов, что демонстрирует эффективное использование возможностей модели и динамическую адаптацию к различным RAG-задачам. Мы также систематически исследуем, как A-RAG масштабируется в зависимости от размера модели и вычислительных ресурсов на этапе тестирования. Мы опубликуем наш код и набор для оценки, чтобы способствовать дальнейшим исследованиям. Код и набор для оценки доступны по адресу: https://github.com/Ayanami0730/arag.
Поисковые агенты — это языковые модели, которые рассуждают и исследуют базы знаний (или Интернет) для ответа на вопросы; современные методы контролируют только точность конечного ответа с помощью обучения с подкреплением с верифицируемыми вознаграждениями (RLVR). Большинство RLVR-агентов решают задачи вопросно-ответных систем общей тематики, что ограничивает их применимость в технических системах ИИ в науке, технике и медицине. В данной работе мы предлагаем обучать агентов для поиска и рассуждений на основе научных статей — это позволяет проверить технические вопросно-ответные возможности, напрямую актуально для реальных ученых, и такие способности будут ключевыми для будущих систем «ИИ-Ученый». Конкретно мы публикуем поисковый корпус из 16 миллионов аннотаций биомедицинских статей и создаем сложный фактоидный вопросно-ответный набор данных PaperSearchQA, содержащий 60 тысяч примеров, ответы на которые можно найти в корпусе, а также соответствующие тесты. Мы обучаем поисковых агентов в этой среде, чтобы превзойти базовые методы поиска без обучения с подкреплением; также мы проводим дополнительный количественный анализ и наблюдаем интересные поведения агентов, такие как планирование, рассуждение и самопроверка. Наш корпус, наборы данных и тесты совместимы с популярной кодовой базой Search-R1 для RLVR-обучения и опубликованы на https://huggingface.co/collections/jmhb/papersearchqa. Наконец, наши методы создания данных масштабируемы и легко применимы в других научных областях.
Быстрый рост больших языковых моделей (LLM) опередил эволюцию однопроцессорного графического оборудования, в результате чего масштабируемость моделей все больше ограничивается объемом памяти, а не вычислительной мощностью. Хотя современные системы обучения расширяют память GPU за счет распределенного параллелизма и оффлоудинга на уровни CPU и хранилищ, они в основе сохраняют GPU-центричную парадигму выполнения, в которой GPU размещают постоянные реплики модели и полные графы автоградиента. Как следствие, масштабирование больших моделей остается жестко связанным с многопроцессорными кластерами, сложными распределенными средами выполнения и непредсказуемым потреблением памяти хоста, создавая существенные барьеры для посттренировочных задач на уровне узла, таких как тонкая настройка инструкций, выравнивание и адаптация к домену. Мы представляем Horizon-LM — память-центричную систему обучения, которая переопределяет роли CPU и GPU для оптимизации больших моделей. Horizon-LM рассматривает память хоста как авторитетное хранилище параметров и использует GPU исключительно в качестве транзитных вычислительных движков через модель выполнения CPU-master, GPU-template. Благодаря устранению резидентных в GPU модулей и графов автоградиента, использованию явного пересчета с ручным распространением градиентов и внедрению конвейерного двухбуферного механизма выполнения, Horizon-LM отделяет масштаб модели от количества GPU и ограничивает использование памяти теоретическим объемом параметров. На одном GPU H200 с 1,5 ТБ оперативной памяти хоста Horizon-LM стабильно обучает модели до 120 млрд параметров. На стандартной машине с одним A100 Horizon-LM достигает до 12,2-кратного увеличения пропускной способности обучения по сравнению с DeepSpeed ZeRO-3 с оффлоудингом на CPU при сохранении численной корректности. На разных платформах и масштабах Horizon-LM поддерживает высокую утилизацию устройств и предсказуемый рост памяти, демонстрируя, что именно память хоста, а не память GPU, определяет истинную границу осуществимости обучения больших моделей на уровне узла.
Развитие агентов на основе больших языковых моделей (LLM) для задач программной инженерии (SWE) сдерживается нехваткой верифицируемых наборов данных — узким местом, вызванным сложностью создания исполняемых сред для различных языков программирования. Для решения этой проблемы мы представляем MEnvAgent — мультиязыковую платформу для автоматизированного построения сред, которая обеспечивает масштабируемое генерирование проверяемых задач. MEnvAgent использует архитектуру «Планирование-Исполнение-Верификация» на основе мультиагентного подхода для автономного устранения сбоев сборки и включает новый механизм повторного использования сред, снижающий вычислительные затраты за счёт инкрементного исправления исторических сред. Оценка на MEnvBench — новом бенчмарке, содержащем 1000 задач для 10 языков — показывает, что MEnvAgent превосходит базовые методы, повышая показатель Fail-to-Pass (F2P) на 8,6% при сокращении временных затрат на 43%. Кроме того, мы демонстрируем практическую ценность MEnvAgent, создав MEnvData-SWE — крупнейший на сегодняшний день открытый полиглотный набор данных реалистичных верифицируемых Docker-сред, дополненный траекториями решений, которые обеспечивают стабильное улучшение производительности моделей на задачах SWE. Наш код, бенчмарк и набор данных доступны по адресу https://github.com/ernie-research/MEnvAgent.
Крупные языковые модели (LLMs) могут приобретать непреднамеренные смещения из, казалось бы, безобидных обучающих данных даже без явных указаний или вредоносного контента. Существующие методы с трудом выявляют такие риски до тонкой настройки, что делает последующую оценку дорогостоящей и неэффективной. Для решения этой проблемы мы представляем Data2Behavior — новую задачу прогнозирования непреднамеренного поведения модели до начала обучения. Мы также предлагаем Manipulating Data Features (MDF), легковесный подход, который суммирует кандидатные данные через их усредненные представления и инжектирует их в прямой проход базовой модели. Это позволяет латентным статистическим сигналам в данных формировать активации модели и выявлять потенциальные смещения и риски безопасности без обновления каких-либо параметров. MDF обеспечивает надежное прогнозирование, потребляя при этом лишь около 20% GPU-ресурсов, необходимых для тонкой настройки. Эксперименты на моделях Qwen3-14B, Qwen2.5-32B-Instruct и Gemma-3-12b-it подтверждают, что MDF способен предсказывать непреднамеренное поведение и дает представление об уязвимостях, заложенных на этапе предварительного обучения.
Управление мыслями и наблюдениями агента в ходе многошаговых взаимодействий агента со средой является перспективной стратегией повышения эффективности агентов. Однако существующие подходы рассматривают все траектории взаимодействия как равнозначные, игнорируя тот факт, что необходимость генерации мыслей и полезность наблюдений варьируется на разных шагах. В данной работе мы сначала проводим количественное исследование влияния мыслей и наблюдений на результативность и эффективность агента. На основе полученных результатов мы предлагаем Agent-Omit — унифицированную框架 обучения, которая позволяет LLM-агентам адаптивно пропускать избыточные мысли и наблюдения. В частности, мы сначала синтезируем небольшой объем стартовых данных, включающих сценарии пропуска как на одиночных, так и на многошаговых взаимодействиях, для тонкой настройки агента на поведение с пропусками. Кроме того, мы представляем подход агентного обучения с подкреплением с учетом пропусков, включающий механизм двойной выборки и специализированное вознаграждение за пропуск для стимулирования адаптивной способности агента к пропускам. Теоретически мы доказываем, что отклонение нашей политики пропусков ограничено сверху KL-дивергенцией. Эксперименты на пяти агентных бенчмарках показывают, что наш Agent-Omit-8B демонстрирует результативность, сопоставимую с семью передовыми LLM-агентами, и достигает наилучшего баланса между результативностью и эффективностью по сравнению с семью методами эффективных LLM-агентов. Наш код и данные доступны по адресу https://github.com/usail-hkust/Agent-Omit.
Эффективное использование инструментов и логические рассуждения являются ключевыми способностями больших моделей рассуждений~(БМР) для решения сложных практических задач. Эмпирический анализ показывает, что современные БМР не обладают способностью декомпозиции подзадач в сложных сценариях использования инструментов, что приводит к феномену «ленивого рассуждения». Для решения этой проблемы мы предлагаем двухэтапную обучающую структуру D-CORE~(\textbf{D}екомпозиция задач и \textbf{Ко}мпозиция процессов \textbf{Р}ассуждения), которая сначала стимулирует способность БМР к рассуждению через декомпозицию задач с помощью самодистилляции, а затем применяет RL-обучение с учетом разнообразия~(обучение с подкреплением) для восстановления рефлексивной способности рассуждений. D-CORE демонстрирует устойчивое улучшение использования инструментов в различных тестах и масштабах моделей. Эксперименты на BFCLv3 подтверждают превосходство нашего метода: D-CORE-8B достигает точности 77,7%, превосходя лучшую 8B-модель на 5,7%. При этом D-CORE-14B устанавливает новый рекорд в 79,3%, превосходя модели объемом 70B, несмотря на пятикратно меньший размер. Исходный код доступен по адресу https://github.com/alibaba/EfficientAI.
Последние достижения в области унифицированных мультимодальных моделей (UMM) продемонстрировали значительный прогресс в задачах как понимания, так и генерации. Однако остается неясным, являются ли эти две способности действительно согласованными и интегрированными в рамках единой модели. Для исследования этого вопроса мы представляем GapEval — двунаправленный бенчмарк, предназначенный для количественной оценки разрыва между способностями к пониманию и генерации и измерения когерентности двух «унифицированных» направлений. Каждый вопрос может быть решен в обеих модальностях (изображение и текст), что позволяет провести симметричную оценку двунаправленной способности модели к выводу и кросс-модальной согласованности. Эксперименты выявляют устойчивый разрыв между двумя направлениями для широкого спектра UMM с различными архитектурами, что позволяет предположить, что современные модели достигают лишь поверхностного объединения, а не глубокой когнитивной конвергенции двух способностей. Для дальнейшего изучения лежащих в основе механизмов мы проводим эмпирическое исследование с точки зрения манипулирования знаниями, чтобы проиллюстрировать фундаментальные ограничения. Наши результаты показывают, что знания внутри UMM часто остаются разрозненными. Возникновение способностей и передача знаний между модальностями не синхронизированы, что открывает путь для дальнейших исследований.
Пространственное мышление является фундаментальным аспектом человеческого познания, однако оно остается серьезной проблемой для современных моделей «визуальный язык» (VLMs). Предыдущие исследования в основном опирались на синтетические или сгенерированные большими языковыми моделями среды с ограниченным дизайном задач и головоломочными сценариями, которые не способны передать реальную сложность, визуальный шум и разнообразие пространственных отношений, с которыми сталкиваются VLMs. Для решения этой проблемы мы представляем SpatiaLab — комплексный бенчмарк для оценки пространственного мышления VLMs в реалистичных, неограниченных контекстах. SpatiaLab включает 1400 визуальных вопросно-ответных пар по шести основным категориям: Относительное позиционирование, Глубина и окклюзия, Ориентация, Размер и масштаб, Пространственная навигация и 3D-геометрия, каждая из которых содержит пять подкатегорий, что в сумме дает 30 различных типов задач. Каждая подкатегория содержит не менее 25 вопросов, а каждая основная категория — не менее 200 вопросов, поддерживая оценку как в формате множественного выбора, так и в открытой форме. Эксперименты с различными современными VLMs, включая модели с открытым и закрытым исходным кодом, модели, ориентированные на логические рассуждения, и специализированные модели для пространственного мышления, выявили существенный разрыв в возможностях пространственного мышления по сравнению с человеком. В настройке с множественным выбором модель InternVL3.5-72B достигает точности 54,93% против 87,57% у человека. В открытой настройке все модели демонстрируют снижение производительности примерно на 10–25%, при этом GPT-5-mini показывает наивысший результат в 40,93% против 64,93% у человека. Эти результаты подчеркивают ключевые ограничения в обработке сложных пространственных отношений, восприятии глубины, навигации и 3D-геометрии. Предоставляя разнообразную систему оценки в условиях реального мира, SpatiaLab выявляет критические проблемы и возможности для развития пространственного мышления VLMs, предлагая бенчмарк для направления будущих исследований в сторону создания надежного, соответствующего человеческому, пространственного понимания. SpatiaLab доступен по адресу: https://spatialab-reasoning.github.io/.
Обучение больших языковых моделей (LLM) для задач, связанных с кодом, обычно зависит от пар "код-документация" высокого качества, создание которых требует больших затрат и которые часто являются дефицитом для узкоспециализированных языков программирования. Мы представляем BatCoder — самообучающуюся framework-систему с подкреплением, предназначенную для совместной оптимизации генерации кода и создания документации. BatCoder использует стратегию обратного перевода: сначала из кода генерируется документация, а затем сгенерированная документация используется для реконструкции исходного кода. Семантическое сходство между исходным и реконструированным кодом служит неявной наградой, что позволяет обучению с подкреплением улучшать производительность модели как в генерации кода из документации, так и наоборот. Такой подход позволяет обучать модели, используя только код, что существенно увеличивает количество доступных обучающих примеров. При оценке на наборах данных HumanEval и MBPP с моделью на 7 миллиардов параметров BatCoder достиг показателей pass@1 в 83,5% и 81,0% соответственно, превзойдя сильные модели с открытым исходным кодом. Более того, framework демонстрирует последовательное масштабирование как относительно размера обучающего корпуса, так и относительно емкости модели.
Тонкая настройка больших языковых моделей (LLM) на наборах данных для проверки рассуждений с помощью обучения с подкреплением требует специфической функции вознаграждения, часто бинарной, для каждого набора данных. Это сопряжено с двумя потенциальными ограничениями: необходимостью проектирования вознаграждения и потенциально разреженным характером бинарных вознаграждений. В данной работе мы систематически исследуем вознаграждения, получаемые из вероятности или логарифма вероятности генерации эталонного ответа (или любого другого продолжения промпта, присутствующего в данных), которые имеют то преимущество, что не зависят от специфических верификаторов и доступны в больших масштабах. Несколько недавних работ выступили за использование аналогичных вознаграждений (например, VeriFree, JEPO, RLPR, NOVER). Мы систематически сравниваем варианты вознаграждений на основе правдоподобия со стандартными базовыми методами, тестируя производительность как на стандартных наборах данных для математических рассуждений, так и на задачах с развернутыми ответами, где внешний верификатор недоступен. Мы обнаруживаем, что использование логарифма вероятности эталонного ответа в качестве вознаграждения для обучения с цепочкой рассуждений (CoT) является единственным вариантом, который хорошо работает во всех сценариях. Это вознаграждение также согласуется с функцией потерь на основе логарифма правдоподобия следующего токена, используемой во время предварительного обучения. В условиях, где возможна верификация, вознаграждения на основе логарифма вероятности обеспечивают сопоставимый или более высокий процент успеха, чем подкрепление стандартными бинарными вознаграждениями, и дают значительно лучшую перплексию. В условиях, где верификация невозможна, они работают наравне с SFT. С другой стороны, методы, основанные на вероятности, такие как VeriFree, не работают в условиях без верификации из-за ничтожно малой вероятности получения правильного ответа. В целом, это устанавливает вознаграждения на основе логарифма вероятности как жизнеспособный метод для тонкой настройки CoT, объединяющий сценарии с короткими, верифицируемыми и длинными, неверифицируемыми ответами.
Современная оценка воплощенных VLMs опирается на статические, экспертно-определенные, ручным образом аннотированные бенчмарки, которые демонстрируют серьезную избыточность и дисбаланс охвата. Эта трудоемкая парадигма истощает вычислительные и аннотационные ресурсы, завышает стоимость и искажает рейтинги моделей, в конечном счете сдерживая итеративную разработку. Для решения этой проблемы мы предлагаем Agentic Automatic Evaluation (A2Eval) — первую агентскую структуру, которая автоматизирует курацию бенчмарков и оценку с помощью двух совместно работающих агентов. Data Agent автономно выявляет параметры способностей и формирует сбалансированный, компактный набор для оценки, в то время как Eval Agent синтезирует и проверяет исполняемые конвейеры оценки, обеспечивая полностью автономную оценку с высокой точностью. Протестированная на 10 бенчмарках и 13 моделях, A2Eval сжимает наборы для оценки на 85%, сокращает общие вычислительные затраты на 77% и обеспечивает ускорение в 4,6 раза при сохранении качества оценки. Что особенно важно, A2Eval корректирует системные смещения в ранжировании, улучшает соответствие человеческим оценкам до коэффициента Спирмена ρ=0,85 и сохраняет высокую достоверность ранжирования (тау Кендалла τ=0,81), устанавливая новый стандарт для высокоточной и низкозатратной воплощенной оценки. Наш код и данные скоро будут опубликованы.
Грунтованная мультимодальная идентификация именованных сущностей (GMNER) ставит целью извлечение текстовых сущностей, присвоение им семантических категорий и их привязку к соответствующим областям изображения. В данной работе мы исследуем потенциал мультимодальных больших языковых моделей (MLLM) для выполнения GMNER в сквозном режиме, выходя за рамки их традиционной роли вспомогательных инструментов в каскадных конвейерах. Ключевым результатом нашего исследования является выявление фундаментальной проблемы: MLLM демонстрируют модальную предвзятость, включая визуальную и текстовую, которая проистекает из их склонности использовать унимодальные сокращения вместо строгой кросс-модальной верификации. Для решения этой проблемы мы предлагаем метод согласованного модально-ориентированного рассуждения (Modality-aware Consistency Reasoning, MCR), который обеспечивает структурированное кросс-модальное рассуждение посредством инжекции многоуровневых схем рассуждения (Multi-style Reasoning Schema Injection, MRSI) и верифицируемой оптимизации с ограничениями (Constraint-guided Verifiable Optimization, CVO). MRSI преобразует абстрактные ограничения в исполняемые цепочки рассуждений, тогда как CVO позволяет модели динамически выравнивать свои траектории рассуждений с помощью оптимизации относительной групповой политики (Group Relative Policy Optimization, GRPO). Эксперименты на задачах GMNER и визуального grounding демонстрируют, что MCR эффективно снижает модальную предвзятость и превосходит по производительности существующие базовые методы.
Авторегрессионные модели видео-диффузии в последнее время вызывают значительный исследовательский интерес благодаря своему каузальному моделированию и итеративному шумоподавлению. В данной работе мы выявляем, что многоголовые механизмы самовнимания в этих моделях недостаточно используют исторические кадры: приблизительно 25% голов внимания практически полностью фокусируются на текущем кадре, а удаление их KV-кэшей приводит лишь к незначительной деградации качества. На основе этого наблюдения мы предлагаем Dummy Forcing — простой, но эффективный метод управления доступностью контекста для различных голов. В частности, предложенное гетерогенное распределение памяти снижает избыточность контекста на уровне голов, дополненное динамическим программированием голов для адаптивной классификации их типов. Кроме того, мы разработали технику упаковки контекста для достижения более агрессивного сжатия кэша. Без дополнительного обучения наш метод Dummy Forcing обеспечивает до 2-кратного ускорения по сравнению с базовым подходом, поддерживая генерацию видео со скоростью 24.3 кадра в секунду при падении качества менее чем на 0.5%. Страница проекта доступна по адресу https://csguoh.github.io/project/DummyForcing/.
Мы исследуем машинный перевод для пяти тюркских языковых пар: русский-башкирский, русский-казахский, русский-киргизский, английский-татарский, английский-чувашский. Дообучение модели nllb-200-distilled-600M с помощью LoRA на синтетических данных позволило достичь chrF++ 49,71 для казахского и 46,94 для башкирского языков. Использование DeepSeek-V3.2 с промптами на основе извлеченных схожих примеров показало результат chrF++ 39,47 для чувашского языка. Для татарского языка подходы без дообучения или на основе извлечения примеров достигли chrF++ 41,6, в то время как для киргизского языка метод без дообучения показал результат 45,6. Мы публикуем набор данных и полученные веса моделей.
Метод многоагентного обсуждения (MAD) в последнее время привлекает все больше внимания, где несколько экземпляров больших языковых моделей совместно решают проблемы посредством структурированной дискуссии. Однако мы обнаружили, что современные методы MAD легко страдают от несогласованности обсуждения, когда языковые модели не могут прийти к последовательному решению из-за рассогласования их индивидуальных контекстов. В данной статье мы представляем метод обучения контекста для множества языковых моделей (M2CL), который обучает генератор контекста для каждого агента, способного динамически генерировать контекстные инструкции для каждого раунда обсуждения посредством автоматической организации и уточнения информации. В частности, основываясь на наших теоретических инсайтах о контекстных инструкциях, M2CL обучает генераторы управлять согласованностью контекста и расхождениями выходных данных с помощью тщательно разработанного самоадаптивного механизма. Это позволяет языковым моделям избегать преждевременной сходимости к шуму большинства и постепенно достигать верного консенсуса. Мы оцениваем M2CL на сложных задачах, включая академические рассуждения, воплощенные задачи и мобильное управление. Результаты показывают, что производительность M2CL значительно превосходит существующие методы на 20–50%, одновременно демонстрируя благоприятную трансферабельность и вычислительную эффективность.
Быстрое распространение генеративных 3D-моделей создало критическое узкое место в анимационных конвейерах: риггинг. Существующие автоматизированные методы фундаментально ограничены своим подходом к скиннингу, рассматривая его как некорректную, многомерную регрессионную задачу, которую неэффективно оптимизировать и которая обычно отделена от генерации скелета. Мы предполагаем, что это проблема представления данных и вводим SkinTokens: изученное, компактное и дискретное представление для весов скиннинга. Используя FSQ-CVAE для захвата внутренней разреженности скиннинга, мы переформулируем задачу из непрерывной регрессии в более управляемую проблему предсказания последовательности токенов. Это представление позволяет создать TokenRig — унифицированную авторегрессионную框架, которая моделирует весь риг как единую последовательность параметров скелета и SkinTokens, изучая сложные зависимости между скелетами и скин-деформациями. Затем унифицированная модель становится пригодной для этапа обучения с подкреплением, где специализированные геометрические и семантические вознаграждения улучшают обобщающую способность для сложных активов, выходящих за пределы распределения обучающих данных. Количественно представление SkinTokens приводит к улучшению точности скиннинга на 98–133% по сравнению с современными методами, в то время как полная框架 TokenRig, доработанная с помощью RL, улучшает предсказание костей на 17–22%. Наша работа представляет унифицированный генеративный подход к риггингу, который обеспечивает более высокую точность и устойчивость, предлагая масштабируемое решение давней проблемы в создании 3D-контента.
В данной работе представлен метод последовательного Монте-Карло с самовознаграждением (self-rewarding SMC) — алгоритм масштабирования на этапе вывода, который обеспечивает эффективную выборку для маскированных диффузионных языковых моделей (MDLM). Наш алгоритм основан на наблюдении, что большинство существующих MDLM полагаются на стратегию выборки, основанную на уверенности, когда на каждом шаге сохраняются только токены с наивысшей прогнозируемой уверенностью. Это ограничивает генерацию шумочувствительной жадной парадигмой декодирования, что приводит к неизбежному коллапсу разнообразия возможных путей. Мы решаем эту проблему, запуская несколько взаимодействующих диффузионных процессов параллельно, называемых частицами, для исследования траекторий. Важно, что мы вводим траекторную уверенность в качестве сигнала самовознаграждения для назначения весов важности частиц. В процессе выборки частицы итеративно взвешиваются и перевыбираются для систематического направления генерации в сторону глобально уверенных, высококачественных образцов. Наш метод самовознаграждающего SMC проверен на различных маскированных диффузионных языковых моделях и бенчмарках, демонстрируя значительное улучшение без дополнительного обучения или руководства вознаграждением, при этом эффективно преобразуя возможности параллельного вывода в повышение качества выборки. Наш код доступен по адресу https://github.com/Algolzw/self-rewarding-smc.
Мы представляем авторегрессионное моделирование белков (PAR) — первую мультимасштабную авторегрессионную архитектуру для генерации белковых остовов по принципу «от грубого к точному» через прогнозирование следующего масштаба. Используя иерархическую природу белков, PAR генерирует структуры, имитирующие процесс ваяния скульптуры: формирование грубой топологии с последующим уточнением структурных деталей across scales. Для достижения этого PAR включает три ключевых компонента: (i) операции мультимасштабного понижения разрешения, представляющие белковые структуры на различных масштабах во время обучения; (ii) авторегрессионный трансформер, кодирующий мультимасштабную информацию и генерирующий условные эмбеддинги для управления генерацией структур; (iii) flow-based декодер остова, генерирующий атомы остова с учетом этих эмбеддингов. Кроме того, авторегрессионные модели страдают от экспозиционного смещения, вызванного несоответствием процедур обучения и генерации, что существенно снижает качество генерации структур. Мы эффективно смягчаем эту проблему за счет обучения с зашумленным контекстом и планируемого сэмплирования, обеспечивая robust генерацию остовов. Примечательно, что PAR демонстрирует сильную zero-shot генерализацию, поддерживая гибкую условную генерацию по человеческим промптам и каркасирование мотивов без необходимости дообучения. На бенчмарке безусловной генерации PAR эффективно изучает распределения белков и производит остовы высокого качества для дизайна, демонстрируя благоприятные scaling свойства. В совокупности эти свойства устанавливают PAR как перспективную архитектуру для генерации белковых структур.
Радиологический анализ все чаще использует преимущества предварительно обученных визуальных представлений, способных поддерживать гетерогенные последующие задачи в различных методах визуализации. В данной работе мы представляем OmniRad — самообучаемую радиологическую базовую модель, предварительно обученную на 1,2 миллиона медицинских изображений, разработанную с учетом принципов, вдохновленных радиологией, которые подчеркивают повторное использование представлений и межзадачную переносимость. Мы оцениваем предварительно обученный энкодер в нескольких режимах адаптации для последующих задач, включая легковесные адаптеры для конкретных задач с замороженной основной архитектурой, а также полную сквозную тонкую настройку для классификации, что позволяет оценить как качество представлений, так и производительность для конкретных задач. OmniRad тестируется на широком наборе публичных бенчмарков, охватывающих классификацию и сегментацию в различных модальностях. В коллекции MedMNISTv2 OmniRad улучшает F1-меру классификации до 2,05% по сравнению с конкурирующими базовыми моделями. Для задач плотного прогнозирования OmniRad демонстрирует улучшение среднего показателя Dice в шести наборах данных MedSegBench при использовании замороженных представлений. Качественный анализ и визуализации латентного пространства указывают на улучшенную кластеризацию признаков и разделение по модальностям.
Оптимизация политик ближайшего предпочтения (PPO) позиционируется в современной литературе как канонический метод для RL-составляющей RLHF. Несмотря на хорошую эмпирическую производительность, PPO имеет эвристическую мотивацию, ad-hoc обработку ограничения KL-дивергенции, используемого в LM-RLHF, и страдает от колебаний вознаграждений, коллапса энтропии, дрейфа функции ценности и внезапной дивергенции политик, что требует частых перезапусков и тщательного подбора гиперпараметров. В данной статье мы разрабатываем новый чисто онлайновый актор-критиковый RL-метод для настройки LM-RLHF. Мы представляем SAFE (Stable Alignment Finetuning with Entropy-aware control) — новый алгоритм RLHF, сочетающий Double Soft-Min Critic для пессимистичной оценки ценности с новой многоуровневой стабилизационной структурой, объединяющей KL-регуляцию с управлением по энтропии и адаптивные пороги с PID-регулятором. В отличие от симметричных KL-штрафов стандартного PPO, SAFE различает исследование с высокой энтропией и коллапс режима с низкой энтропией, динамически корректируя штрафы на основе скорости изменения вознаграждения. Эксперименты на модели с 3B параметров показывают, что SAFE достигает на +5.15% большего среднего вознаграждения при обучении, чем PPO (0.725 против 0.689), демонстрирует пренебрежимо редкие сбои вознаграждений и превосходный контроль KL-дивергенции. Наш метод добавляет минимальные вычислительные затраты и предоставляет интерпретируемую, устойчивую к сбоям структуру RLHF, которая сохраняет высокую скорость обучения, обеспечивая при этом стабильную долгосрочную оптимизацию, пригодную для промышленного развертывания. Код доступен по адресу https://github.com/ryyzn9/SAFE.
Современные языковые модели обучаются почти исключительно на последовательностях токенов, создаваемых фиксированным токенизатором — внешним безубыточным компрессором, часто работающим поверх последовательностей байтов UTF-8, что связывает модель с этим компрессором. Данная работа представляет прокси-сжатие — альтернативную схему обучения, которая сохраняет преимущества эффективности сжатых входных данных, обеспечивая при этом сквозной интерфейс на уровне сырых байтов во время вывода. В процессе обучения одна языковая модель совместно обучается на последовательностях сырых байтов и сжатых представлениях, генерируемых внешними компрессорами; в ходе этого процесса модель учится внутренне выравнивать сжатые последовательности и сырые байты. Это выравнивание обеспечивает эффективный перенос между двумя форматами, даже когда обучение ведется преимущественно на сжатых входных данных, которые отбрасываются на этапе вывода. Обширные эксперименты по языковому моделированию кода демонстрируют, что прокси-сжатие существенно повышает эффективность обучения и значительно превосходит базовые методы, работающие исключительно на уровне байтов, при фиксированных вычислительных бюджетах. С увеличением масштаба модели эти преимущества становятся более выраженными, и модели, обученные с прокси-сжатием, в конечном итоге сравниваются или превосходят подходы, основанные на токенизаторах, при этом работая исключительно с сырыми байтами и сохраняя присущую байтовому моделированию устойчивость.
Генерация 4D-контента достигла значительного прогресса в синтезе динамических 3D-объектов из входного текста, изображений или видео. Однако существующие методы часто представляют движение как неявное поле деформации, что ограничивает прямое управление и редактируемость. Для решения этой проблемы мы предлагаем SkeletonGaussian — новый фреймворк для генерации редактируемых динамических 3D-гаусссианов из монокулярного видео. Наш подход вводит иерархическое артикулированное представление, которое декомпозирует движение на разреженное жесткое движение, явно управляемое скелетом, и мелкозернистое нежесткое движение. Конкретно, мы извлекаем устойчивый скелет и управляем жестким движением с помощью линейной скиннинговой деформации, после чего применяем основанное на гексаплейнах уточнение для нежестких деформаций, повышая интерпретируемость и редактируемость. Результаты экспериментов показывают, что SkeletonGaussian превосходит существующие методы по качеству генерации, обеспечивая при этом интуитивное редактирование движения, и устанавливает новую парадигму для редактируемой 4D-генерации. Страница проекта: https://wusar.github.io/projects/skeletongaussian/
Хотя системы с множеством агентов на основе больших языковых моделей (LLM) демонстрируют превосходные результаты в рассуждениях благодаря итеративным дебатам, их практическое применение ограничено высокими вычислительными затратами и распространением ошибок. В данной статье предлагается AgentArk — новая фреймворк для дистилляции динамики множественных агентов в веса одной модели, эффективно преобразуя явные взаимодействия во время тестирования в неявные возможности модели. Это наделяет единственного агента интеллектом систем с множеством агентов, сохраняя вычислительную эффективность. В частности, мы исследуем три иерархические стратегии дистилляции для различных моделей, задач, масштабирования и сценариев: дообучение с усилением рассуждений; аугментация на основе траекторий; и процессно-ориентированная дистилляция. Перекладывая вычислительную нагрузку с этапа вывода на этап обучения, дистиллированные модели сохраняют эффективность одного агента, демонстрируя при этом мощные способности к рассуждениям и самокоррекции, характерные для множества агентов. Они также показывают повышенную устойчивость и способность к обобщению в разнообразных задачах на рассуждение. Мы надеемся, что эта работа послужит стимулом для будущих исследований в области разработки эффективных и устойчивых систем с множеством агентов. Наш код доступен по адресу https://github.com/AIFrontierLab/AgentArk.
Сбои в логических рассуждениях крупных языковых моделей (LLM) обычно измеряются только по итоговому результату генерации, однако многие ошибки проявляются как сбой на уровне процесса: модель "теряет нить" рассуждений в середине процесса. Мы исследуем, можно ли обнаружить такие сбои по наблюдаемым параметрам, доступным во время вывода через стандартные API (вероятности токенов), без какого-либо обучения или дообучения. Мы определяем простой сигнал нестабильности, который комбинирует распределительный сдвиг (JSD) на последовательных шагах и неопределенность (энтропию), суммируем каждый траекторию рассуждений по пиковой силе нестабильности и показываем, что этот сигнал надежно предсказывает ошибку. На примерах GSM8K и HotpotQA сила нестабильности предсказывает неверные ответы с AUC выше случайного уровня и демонстрирует монотонное снижение точности на уровне групп (bucket-level accuracy) при масштабировании размеров моделей. Ключевым является то, что мы показываем, что нестабильность не всегда вредна: ранняя нестабильность может отражать последующую стабилизацию и верный конечный ответ (корректирующая нестабильность), тогда как поздняя нестабильность чаще приводит к ошибке (деструктивная нестабильность), даже при сравнимых пиковых величинах. Это указывает на то, что возможность восстановления зависит не только от силы изменения распределения, но и от того, когда такие изменения происходят относительно оставшегося горизонта декодирования. Метод является модельно-независимым, не требующим обучения и воспроизводимым, и представлен как диагностический инструмент, а не как механизм коррекции или управления.
Методы прямого согласования все чаще используются для согласования больших языковых моделей (LLM) с человеческими предпочтениями. Однако многие реальные задачи согласования связаны с множеством конфликтующих целей, где наивная агрегация предпочтений может привести к нестабильности обучения и плохим компромиссным решениям. В частности, методы взвешенных потерь могут не выявлять направления обновления, которые одновременно улучшают все цели, а существующие многокритериальные подходы часто полагаются на явные модели вознаграждения, что вносит дополнительную сложность и искажает предпочтения, заданные пользователем. Вклад данной работы двунаправлен. Во-первых, мы предлагаем Безмасштабную (Свободную от вознаграждений) систему согласования для конфликтующих целей (RACO), которая непосредственно использует данные о парных предпочтениях и разрешает конфликты градиентов с помощью нового ограниченного варианта градиентного спуска, устойчивого к конфликтам. Мы предоставляем гарантии сходимости к Парето-критическим точкам, которые учитывают заданные пользователем веса целей, и дополнительно показываем, что ограничение может строго улучшить скорость сходимости в случае двух целей. Во-вторых, мы улучшаем наш метод с помощью некоторых эвристик и проводим эксперименты, демонстрирующие совместимость предложенной системы для согласования LLM. Как качественные, так и количественные оценки на задачах многокритериального суммаризации и согласования безопасности для различных семейств LLM (Qwen 3, Llama 3, Gemma 3) показывают, что наш метод последовательно достигает лучших Парето-компромиссов по сравнению с существующими базовыми методами многокритериального согласования.
Мы представляем LongVPO — новую двухэтапную структуру Прямой Оптимизации Предпочтений, которая позволяет моделям «визуальный язык» с коротким контекстом надежно понимать сверхдлинные видео без каких-либо аннотаций длинных видео. На Этапе 1 мы синтезируем тройки предпочтений, привязывая вопросы к отдельным коротким клипам, чередуя их с отвлекающими элементами и применяя фильтрацию по визуальному сходству и специфичности вопросов, чтобы снизить позиционное смещение и обеспечить однозначный контроль. Мы также аппроксимируем оценку референсной модели для длинных контекстов, оценивая только якорный клип, что снижает вычислительные затраты. На Этапе 2 мы используем рекурсивный конвейер генерации описаний для длинных видео, чтобы создать метаданные на уровне сцен, а затем применяем большую языковую модель для формирования многосегментных логических запросов и нежелательных ответов, выравнивая предпочтения модели через задачи многосегментного логического вывода. Всего на 16 тыс. синтетических примерах и без дорогостоящих человеческих разметок LongVPO превосходит современные открытые модели по нескольким бенчмаркам длинных видео, сохраняя при этом высокую производительность на коротких видео (например, на MVBench), предлагая масштабируемую парадигму для эффективного понимания длинных видеоформатов.
Мы представляем FOTBCD — масштабный набор данных для обнаружения изменений зданий, созданный на основе авторитетных французских ортофотопланов и топографических данных о зданиях, предоставленных IGN France. В отличие от существующих бенчмарков, географически ограниченных отдельными городами или небольшими регионами, FOTBCD охватывает 28 департаментов континентальной Франции, из которых 25 используются для обучения, а три географически изолированных департамента зарезервированы для оценки. Набор данных включает разнообразные городские, пригородные и сельские территории с разрешением 0.2 м/пиксель. Мы публикуем FOTBCD-Binary — набор, содержащий приблизительно 28 000 пар снимков "до/после" с пиксельными бинарными масками изменений зданий, каждая из которых снабжена метаданными о пространственном расположении патча. Набор данных предназначен для крупномасштабного тестирования и оценки в условиях географического доменного сдвига, при этом валидационные и тестовые выборки взяты из изолированных департаментов и вручную проверены для обеспечения качества разметки. Дополнительно мы публикуем FOTBCD-Instances — общедоступное подмножество с инстансной разметкой, содержащее несколько тысяч пар изображений, которое иллюстрирует полную схему аннотации, используемую в полной инстансной версии FOTBCD. Используя фиксированный базовый уровень, мы проводим сравнительный анализ FOTBCD-Binary с наборами LEVIR-CD+ и WHU-CD, предоставляя убедительные эмпирические доказательства того, что географическое разнообразие на уровне набора данных связано с улучшением междоменной обобщающей способности в задаче обнаружения изменений зданий.
Трансформеры с архитектурой только энкодера остаются незаменимыми в системах поиска, классификации и ранжирования, где критически важны задержка, стабильность и стоимость. Однако большинство универсальных энкодеров обучаются на общих корпусах с ограниченным охватом специализированных предметных областей. Мы представляем RexBERT — семейство BERT-подобных энкодеров, разработанных специально для семантики электронной коммерции. Наш вклад состоит из трёх частей. Во-первых, мы публикуем Ecom-niverse, корпус объёмом 350 миллиардов токенов, собранный из разнообразных источников, связанных с розничной торговлей и покупками. Мы описываем модульный конвейер, который изолирует и извлекает контент, относящийся к e-commerce, из FineFineWeb и других открытых веб-ресурсов, и характеризуем получившееся доменное распределение. Во-вторых, мы представляем воспроизводимый рецепт предварительного обучения, основанный на архитектурных усовершенствованиях ModernBERT. Рецепт состоит из трёх фаз: общего предварительного обучения, расширения контекста и отжига доменной специализации. В-третьих, мы обучаем модели RexBERT с числом параметров от 17 млн до 400 млн и оцениваем их на задачах классификации токенов, семантического сходства и общего понимания естественного языка с использованием наборов данных электронной коммерции. Несмотря на то, что RexBERT имеет в 2–3 раза меньше параметров, он превосходит более крупные универсальные энкодеры и сравнивается или превосходит современные модели с длинным контекстом на предметно-ориентированных бенчмарках. Наши результаты демонстрируют, что высококачественные данные из целевой области в сочетании с принципиальным подходом к обучению обеспечивают более прочную основу для приложений электронной коммерции, чем просто неразборчивое масштабирование.
Крупные языковые модели (LLМ) по-прежнему генерируют правдоподобные, но необоснованные фактические утверждения. Эта проблема усугубляется в многотурных диалогах по мере роста контекста и накопления ошибок на ранних этапах. Мы представляем HalluHard — сложный бенчмарк для оценки многотурных галлюцинаций, содержащий 950 исходных вопросов из четырёх критически важных областей: судебные дела, исследовательские вопросы, медицинские рекомендации и программирование. Мы операционализируем обоснованность, требуя прямых цитат для фактологических утверждений. Для обеспечения надёжной оценки в условиях открытых сценариев предлагается конвейер проверки, который итеративно извлекает доказательства через веб-поиск. Система способна находить, фильтровать и анализировать полные тексты источников (включая PDF), чтобы оценить, действительно ли цитируемый материал подтверждает сгенерированное содержание. Среди разнообразного набора передовых проприетарных и открытых моделей уровень галлюцинаций остаётся значительным даже с использованием веб-поиска (примерно 30% для сильнейшей конфигурации — Opus-4.5 с веб-поиском), причём ошибки обоснования содержания сохраняются на высоком уровне. Наконец, мы демонстрируем, что характер галлюцинаций определяется ёмкостью модели, позицией в диалоге, эффективностью рассуждений и типом требуемых знаний.