Ежедневно отобранные исследовательские статьи по ИИ с переводами
Автономное научное открытие с использованием агентов на основе больших языковых моделей (LLM) в последнее время достигло значительного прогресса, продемонстрировав возможность автоматизации сквозных исследовательских процессов. Однако существующие системы в значительной степени опираются на парадигмы выполнения, ориентированные на исполнение в реальном времени, многократно считывая, суммируя и проводя рассуждения над большими объемами научной литературы в онлайн-режиме. Эта стратегия вычислений «на месте» влечет за собой высокие вычислительные затраты, страдает от ограничений контекстного окна и часто приводит к хрупким рассуждениям и галлюцинациям. Мы предлагаем Idea2Story, фреймворк для автономного научного открытия, управляемый предварительными вычислениями, который переносит понимание литературы из онлайн-рассуждений в офлайн-построение знаний. Idea2Story непрерывно собирает рецензируемые статьи вместе с отзывами рецензентов, извлекает основные методологические единицы, компилирует переиспользуемые исследовательские паттерны и организует их в структурированный методологический граф знаний. Во время выполнения неспецифицированные исследовательские интенции пользователя сопоставляются с установленными исследовательскими парадигмами, что обеспечивает эффективный поиск и повторное использование высококачественных исследовательских паттернов вместо открытой генерации и проб и ошибок. Основывая планирование и выполнение исследований на предварительно построенном графе знаний, Idea2Story смягчает проблему ограничения контекстного окна для LLM и существенно сокращает повторные рассуждения над литературой в режиме реального времени. Мы проводим качественный анализ и предварительные эмпирические исследования, демонстрирующие, что Idea2Story способен генерировать согласованные, методологически обоснованные и новые исследовательские паттерны, а также может создавать несколько высококачественных исследовательских демонстраций в сквозной среде. Эти результаты позволяют предположить, что офлайн-построение знаний обеспечивает практичную и масштабируемую основу для надежного автономного научного открытия.
Модели преобразования текста в изображение (T2I) достигли значительных успехов в генерации изображений с высокой точностью, однако часто не справляются с обработкой сложных пространственных отношений, таких как пространственное восприятие, логические рассуждения или взаимодействие. Эти важнейшие аспекты в значительной степени игнорируются современными системами оценки из-за использования коротких или информационно бедных промптов. В данной статье мы представляем SpatialGenEval — новую систему оценки, разработанную для систематического тестирования пространственного интеллекта моделей T2I, охватывающую два ключевых аспекта: (1) SpatialGenEval включает 1230 длинных, информационно насыщенных промптов, охватывающих 25 реальных сцен. Каждый промпт интегрирует 10 пространственных поддоменов и соответствующих 10 пар вопрос-ответ с множественным выбором, от позиции и расположения объектов до окклюзии и причинно-следственных связей. Наше масштабное тестирование 21 передовой модели показывает, что пространственные рассуждения высшего порядка остаются основным узким местом. (2) Чтобы продемонстрировать, что полезность нашего подхода с информационной насыщенностью выходит за рамки простой оценки, мы также создали набор данных SpatialT2I. Он содержит 15 400 пар текст-изображение с переработанными промптами для обеспечения согласованности изображений при сохранении информационной плотности. Результаты дообучения современных базовых моделей (таких как Stable Diffusion-XL, Uniworld-V1, OmniGen2) демонстрируют стабильное улучшение производительности (+4,2%, +5,7%, +4,4%) и более реалистичное отображение пространственных отношений, что подчеркивает потенциал центрированного на данных подхода для достижения пространственного интеллекта в моделях T2I.
Хотя архитектуры смеси экспертов (MoE) стали стандартом для масштабирования разреженности в больших языковых моделях, они все чаще сталкиваются с уменьшающейся отдачей и системными узкими местами. В данной работе мы исследуем масштабирование эмбеддингов как мощное, ортогональное направление для масштабирования разреженности. Посредством всестороннего анализа и экспериментов мы выявляем конкретные режимы, в которых масштабирование эмбеддингов достигает более высокой границы Парето по сравнению с масштабированием экспертов. Мы систематически характеризуем ключевые архитектурные факторы, определяющие эту эффективность — от распределения параметров до взаимодействия с шириной и глубиной модели. Более того, интегрируя специализированные системные оптимизации и спекулятивный декодинг, мы эффективно преобразуем эту разреженность в реальное ускорение вывода. Руководствуясь этими инсайтами, мы представляем LongCat-Flash-Lite — модель с 68.5 млрд параметров, из которых активируется ~3 млрд, обученную с нуля. Несмотря на выделение свыше 30 млрд параметров под эмбеддинги, LongCat-Flash-Lite не только превосходит MoE-базисы с эквивалентным количеством параметров, но и демонстрирует исключительную конкурентоспособность по сравнению с существующими моделями сопоставимого масштаба, особенно в агентских и кодовых областях.
Манипулирование динамическими объектами остается сложной задачей для моделей Vision-Language-Action (VLA), которые, несмотря на хорошую обобщающую способность в статических сценариях, испытывают трудности в динамических условиях, требующих быстрого восприятия, временного прогнозирования и непрерывного управления. Мы представляем DynamicVLA — фреймворк для манипулирования динамическими объектами, который интегрирует временные рассуждения и адаптацию в замкнутом контуре благодаря трем ключевым особенностям: 1) компактная VLA-модель на 0.4B параметров с сверточной визуальной энкодерой для пространственно эффективного и структурно точного кодирования, обеспечивающего быстрый мультимодальный вывод; 2) непрерывный вывод, позволяющий совмещать рассуждения и исполнение для снижения задержки и своевременной адаптации к движению объектов; и 3) потоковое исполнение действий с учетом латентных состояний, которое устраняет разрыв между восприятием и исполнением за счет временного выравнивания выполнения действий. Для восполнения недостатка данных по динамическому манипулированию мы представляем бенчмарк Dynamic Object Manipulation (DOM), созданный с нуля с помощью автоматизированного конвейера сбора данных, который эффективно собирает 200K синтетических эпизодов в 2.8K сценах с 206 объектами и позволяет быстро собрать 2K реальных эпизодов без телеробототехники. Масштабные оценки демонстрируют значительное улучшение скорости реакции, восприятия и обобщающей способности, что позиционирует DynamicVLA как унифицированный фреймворк для общего манипулирования динамическими объектами в различных воплощениях.
Развитие больших визуально-языковых моделей стимулирует спрос на управление и применение огромных объемов мультимодальных данных, что делает технологию оптического распознавания символов (OCR), извлекающую информацию из визуальных изображений, все более популярной. Однако существующие методы OCR в основном сосредоточены на распознавании текстовых элементов из изображений или сканированных документов (тексто-ориентированное OCR), пренебрегая идентификацией визуальных элементов из визуально насыщенных источников изображений (визуально-ориентированное OCR), таких как диаграммы, веб-страницы и научные графики. В реальности эти визуально насыщенные изображения широко распространены в интернете и имеют значительную практическую ценность, например, для визуализации данных и анализа веб-страниц. В данном техническом отчете мы представляем OCRVerse — первый целостный метод OCR, работающий end-to-end, который обеспечивает унифицированное тексто-ориентированное и визуально-ориентированное распознавание. Для этого мы создали комплексную систему обработки данных, охватывающую широкий спектр тексто-ориентированных документов, таких как газеты, журналы и книги, а также визуально-ориентированных рендеренных композитов, включая диаграммы, веб-страницы и научные графики. Кроме того, мы предлагаем двухэтапный метод мультидоменного обучения SFT-RL для OCRVerse. SFT напрямую смешивает кросс-доменные данные для обучения и установления начальных доменных знаний, в то время как RL фокусируется на разработке персонализированных стратегий вознаграждения с учетом характеристик каждого домена. В частности, поскольку разные домены требуют различных форматов вывода и ожидаемых результатов, мы обеспечиваем достаточную гибкость на этапе RL для настройки адаптивных сигналов вознаграждения для каждого домена, тем самым улучшая кросс-доменное объединение и избегая конфликтов данных. Экспериментальные результаты демонстрируют эффективность OCRVerse, показывая конкурентоспособные результаты на тексто-ориентированных и визуально-ориентированных типах данных, сопоставимые даже с крупномасштабными открытыми и проприетарными моделями.
Последние достижения в области визуально-языковых моделей (VLM) способствовали значительному прогрессу в области визуального мышления. Однако открытые VLM по-прежнему отстают от проприетарных систем, в основном из-за отсутствия высококачественных данных для рассуждений. Существующие наборы данных предлагают ограниченный охват сложных областей, таких как STEM-диаграммы и визуальные головоломки, и не имеют последовательных, развернутых аннотаций в формате "цепочки мыслей" (CoT), которые необходимы для выявления мощных способностей к рассуждению. Чтобы устранить этот пробел, мы представляем MMFineReason — крупномасштабный мультимодальный набор данных для рассуждений, содержащий 1,8 млн примеров и 5,1 млрд токенов решений, с высококачественными аннотациями рассуждений, извлеченными из Qwen3-VL-235B-A22B-Thinking. Набор данных создан с помощью системного трехэтапного конвейера: (1) массовый сбор и стандартизация данных, (2) генерация обоснований в формате CoT и (3) комплексный отбор на основе качества рассуждений и учета сложности. Результирующий набор данных охватывает STEM-задачи, визуальные головоломки, игры и сложные диаграммы, причем каждый пример снабжен визуально обоснованными трассировками рассуждений. Мы дообучили Qwen3-VL-Instruct на MMFineReason, чтобы создать версии MMFineReason-2B/4B/8B. Наши модели устанавливают новые state-of-the-art результаты для своего класса размеров. Примечательно, что MMFineReason-4B успешно превосходит Qwen3-VL-8B-Thinking, а MMFineReason-8B даже превосходит Qwen3-VL-30B-A3B-Thinking, приближаясь к результатам Qwen3-VL-32B-Thinking, что демонстрирует замечательную параметрическую эффективность. Ключевым моментом является открытие нами феномена "меньше — значит лучше" с помощью нашей стратегии фильтрации с учетом сложности: подмножество всего из 7% (123 тыс. примеров) достигает производительности, сопоставимой с полным набором данных. Примечательно, что мы выявили синергетический эффект, при котором композиция данных, ориентированных на рассуждения, одновременно повышает общие способности.
Крупные языковые модели распределяют вычислительные ресурсы равномерно по всем токенам, игнорируя тот факт, что некоторые последовательности тривиально предсказуемы, а другие требуют глубоких рассуждений. Мы представляем ConceptMoE — модель, которая динамически объединяет семантически схожие токены в концептуальные представления, осуществляя неявное распределение вычислений на уровне токенов. Обучаемый модуль чанкинга определяет оптимальные границы путем измерения межтокенного сходства, сжимая последовательности в целевое число раз R до их поступления в вычислительно интенсивную концептуальную модель. Ключевым преимуществом архитектуры MoE является возможность контролируемой оценки: мы перераспределяем сэкономленные вычисления для соответствия базовым активированным FLOPам (исключая вычисление карт внимания) и общему количеству параметров, изолируя истинные преимущества архитектуры. В этих условиях ConceptMoE стабильно превосходит стандартную MoE в языковых и визуально-языковых задачах, демонстрируя прирост +0.9 пункта при языковом предобучении, +2.3 пункта в понимании длинного контекста и +0.6 пункта в мультимодальных тестах. При конвертации предобученной MoE во время непрерывного обучения с циклическим повторением слоев прирост достигает +5.5 пунктов, что подтверждает практическую применимость. Помимо производительности, ConceptMoE сокращает вычисления механизма внимания до R^2 раз и кэш KV-пар до R раз. При R=2 эмпирические измерения показывают ускорение фазы предзаполнения до 175% и ускорение декодирования до 117% на длинных последовательностях. Минимальные модификации архитектуры позволяют легко интегрировать метод в существующие MoE, демонстрируя, что адаптивная обработка на концептуальном уровне принципиально улучшает как эффективность, так и производительность крупных языковых моделей.
Потоковая реконструкция по монокулярным последовательностям изображений остается сложной задачей, поскольку существующие методы обычно ориентированы либо на высококачественную визуализацию, либо на точную геометрию, но редко на оба аспекта одновременно. Мы представляем PLANING — эффективную framework для реконструкции на лету, построенную на гибридном представлении, которое свободно связывает явные геометрические примитивы с нейросетевыми гауссоидами, что позволяет моделировать геометрию и внешний вид раздельным образом. Такое разделение поддерживает стратегию онлайн-инициализации и оптимизации, разделяющую обновления геометрии и внешнего вида, что обеспечивает стабильную потоковую реконструкцию со значительным снижением структурной избыточности. PLANING улучшает метрику Chamfer-L2 для плотных мешей на 18.52% по сравнению с PGSR, превосходит ARTDECO на 1.31 дБ по PSNR и реконструирует сцены ScanNetV2 менее чем за 100 секунд, что более чем в 5 раз быстрее, чем 2D Gaussian Splatting, при сохранении качества офлайн-оптимизации для отдельных сцен. Помимо качества реконструкции, структурная четкость и вычислительная эффективность PLANING делают его хорошо подходящим для широкого спектра прикладных задач, таких как моделирование крупномасштабных сцен и создание сред, готовых для симуляции, в embodied AI. Страница проекта: https://city-super.github.io/PLANING/.
В данном отчете представлено семейство моделей Qwen3-ASR, включающее две мощные всеобъемлющие модели распознавания речи и новую неавторегрессионную модель форсированного выравнивания речи. Qwen3-ASR-1.7B и Qwen3-ASR-0.6B — это модели ASR, поддерживающие идентификацию языка и распознавание речи для 52 языков и диалектов. Обе модели используют крупномасштабные данные обучения речи и мощные способности к аудиопониманию базовой модели Qwen3-Omni. Мы провели всестороннюю внутреннюю оценку в дополнение к открытым бенчмаркам, поскольку модели ASR могут незначительно отличаться по показателям на открытых бенчмарках, но демонстрировать существенную разницу в качестве в реальных сценариях. Эксперименты показывают, что версия 1.7B достигает состояния искусства (SOTA) среди открытых моделей ASR и конкурирует с самыми мощными проприетарными API, тогда как версия 0.6B предлагает наилучший баланс точности и эффективности. Qwen3-ASR-0.6B способна достигать среднего времени до первого токена (TTFT) всего 92 мс и транскрибировать 2000 секунд речи за 1 секунду при параллелизме 128. Qwen3-ForcedAligner-0.6B — это предиктор временных меток на основе LLM с неавторегрессионной архитектурой, способный выравнивать текстово-речевые пары на 11 языках. Эксперименты по точности временных меток демонстрируют, что предложенная модель превосходит три сильнейшие модели форсированного выравнивания и имеет преимущества в эффективности и универсальности. Для дальнейшего ускорения исследований в области ASR и аудиопонимания в сообществе мы выпускаем эти модели под лицензией Apache 2.0.
Эволюция больших языковых моделей (LLM) в автономные агенты требует управления обширными, динамическими контекстами. Однако современные бенчмарки остаются в основном статичными, полагаясь на пассивные задачи поиска, которые не способны моделировать сложности взаимодействия агента со средой, такие как нелинейные рассуждения и итеративная обратная связь. Для решения этой проблемы мы представляем AgentLongBench — систему, оценивающую агентов через симуляцию развертывания сред на основе головоломок латерального мышления. Данный фреймворк генерирует строгие траектории взаимодействия в сценариях, как требующих, так и не требующих обширных знаний. Эксперименты с передовыми моделями и системами памяти (от 32 тыс. до 4 млн токенов) выявляют ключевую слабость: хотя агенты успешно справляются со статичным поиском, они испытывают трудности с динамическим синтезом информации, критически важным для рабочих процессов. Наш анализ показывает, что это ухудшение обусловлено минимальным количеством токенов, необходимым для разрешения запроса. Данный фактор объясняет, почему высокая информационная плотность, присущая массовым ответам инструментов, представляет значительно более серьезную проблему, чем фрагментация памяти, характерная для длинных диалогов.
Агентное обучение с подкреплением (Agentic RL) достигло значительных успехов в обеспечении способности агентов к сложным рассуждениям и использованию инструментов. Однако большинство методов по-прежнему опираются на разреженные вознаграждения, основанные на итоговом результате. Такая обратная связь не позволяет дифференцировать качество промежуточных рассуждений, что приводит к неоптимальным результатам обучения. В данной статье мы представляем Модель вознаграждения за рассуждения агента (Agent-RRM) — многогранную модель вознаграждения, которая формирует структурированную обратную связь для агентных траекторий, включающую: (1) явную трассировку рассуждений, (2) сфокусированную критику, предоставляющую руководство по улучшению за счет выделения логических ошибок, и (3) интегральную оценку, измеряющую эффективность процесса. Используя эти сигналы, мы систематически исследуем три стратегии интеграции: Reagent-C (уточнение с текстовым дополнением), Reagent-R (руководство с дополнением вознаграждением) и Reagent-U (унифицированная интеграция обратной связи). Масштабные оценки на 12 разнообразных бенчмарках демонстрируют, что Reagent-U обеспечивает существенный скачок производительности, достигая 43.7% на GAIA и 46.2% на WebWalkerQA, что подтверждает эффективность нашей модели вознаграждения за рассуждения и схем обучения. Код, модели и наборы данных опубликованы для содействия будущим исследованиям.
Современные исследования в области генерации длинных видео сместились от двунаправленных моделей к авторегрессионным, однако эти методы часто страдают от накопления ошибок и потери долгосрочной согласованности. Хотя для смягчения этого снижения производительности были введены кадры-приёмники внимания (attention sink frames), они часто вызывают критический режим сбоя, который мы называем коллапсом приёмника: сгенерированное содержание неоднократно возвращается к кадру-приёмнику, что приводит к резким сбросам сцены и циклическим паттернам движения. Наш анализ показывает, что коллапс приёмника возникает из-за inherentного конфликта между периодической структурой позиционного кодирования Rotary (RoPE) и механизмами многоголового внимания, распространёнными в современных генеративных моделях. Для решения этой проблемы мы предлагаем лёгкий подход, не требующий обучения, который эффективно подавляет это поведение за счёт введения дрожания RoPE для нескольких голов, что разрывает гомогенизацию внимания между головами и смягчает коллапс на длинных горизонтах. Многочисленные эксперименты показывают, что наш метод успешно устраняет коллапс приёмника, сохраняя качество генерации. Насколько нам известно, данная работа впервые демонстрирует генерацию видео в реальном времени, с потоковой передачей и бесконечной длительностью без существенного ухудшения качества. В качестве иллюстрации этой устойчивости мы генерируем непрерывные видео длиной до 12 часов, что, насколько нам известно, является одним из самых длинных публично продемонстрированных результатов в области потоковой генерации видео.
Фундаментальные модели электроэнцефалографии (ЭЭГ) недавно появились как перспективная парадигма для интерфейсов «мозг-компьютер» (ИМК), направленная на изучение переносимых нейронных представлений из крупномасштабных гетерогенных записей. Несмотря на быстрый прогресс, отсутствуют справедливые и всесторонние сравнения существующих фундаментальных моделей ЭЭГ из-за несогласованности целей предварительного обучения, вариантов предобработки данных и протоколов оценки на последующих задачах. Данная работа заполняет этот пробел. Мы сначала рассматриваем 50 репрезентативных моделей и систематизируем их конструктивные решения в единую таксономическую структуру, включая стандартизацию данных, архитектуры моделей и стратегии самообучающегося предварительного обучения. Затем мы оцениваем 12 моделей с открытым исходным кодом и конкурентоспособные специализированные базовые модели на 13 наборах данных ЭЭГ, охватывающих девять парадигм ИМК. С акцентом на практическое развертывание мы рассматриваем как обобщение между субъектами по протоколу «выбывание одного субъекта», так и быструю калибровку в условиях обучения с малым количеством примеров в рамках одного субъекта. Мы дополнительно сравниваем тонкую настройку всех параметров с линейным зондированием, чтобы оценить переносимость предварительно обученных представлений, и исследуем взаимосвязь между масштабом модели и производительностью на последующих задачах. Наши результаты показывают, что: 1) линейное зондирование часто оказывается недостаточным; 2) специализированные модели, обученные с нуля, остаются конкурентоспособными во многих задачах; и 3) более крупные фундаментальные модели не обязательно приводят к лучшей обобщающей способности при текущих объемах данных и практиках обучения.
Хотя большие языковые модели (LLM) преуспевают в решении задач, основанных на языке, их применимость к новым, нелингвистическим средам (например, символьным или пространственным задачам) остается ограниченной. Предыдущие исследования объясняют этот разрыв в производительности несоответствием между распределением данных при предварительном обучении и распределением при тестировании. В данной работе мы показываем, что основным узким местом является непомерно высокая стоимость исследования: освоение этих задач требует обширных проб и ошибок, что вычислительно нецелесообразно для параметрически тяжелых LLM, работающих в высокоразмерном семантическом пространстве. Чтобы решить эту проблему, мы предлагаем SCOUT (Sub-Scale Collaboration On Unseen Tasks) — новую структуру, которая разделяет исследование среды и ее использование. Мы применяем легковесные «разведчики» (например, небольшие MLP) для зондирования динамики среды со скоростью и масштабом, значительно превосходящими возможности LLM. Собранные траектории используются для начальной настройки LLM с помощью контролируемого тонкого обучения (SFT), за которым следует многошаговое обучение с подкреплением (RL) для активации ее скрытых знаний о мире. Экспериментально показано, что SCOUT позволяет модели Qwen2.5-3B-Instruct достичь среднего балла 0.86, что значительно превосходит результаты проприетарных моделей, включая Gemini-2.5-Pro (0.60), при экономии около 60% затрат GPU-часов.
Публичные репозитории содержат миллионы дообученных моделей, однако использование сообщества остается непропорционально сконцентрированным на небольшом количестве базовых чекпоинтов. Мы исследуем, отражает ли эта концентрация эффективный рыночный отбор или же качественные модели систематически остаются без внимания. В результате масштабной оценки более 2000 моделей мы демонстрируем распространенность "скрытых жемчужин" — непопулярных дообученных моделей, которые значительно превосходят свои популярные аналоги. Примечательно, что в семействе Llama-3.1-8B мы обнаружили редко скачиваемые чекпоинты, которые повышают результативность в математических задачах с 83,2% до 96,0% без увеличения вычислительных затрат на вывод. Однако обнаружение таких моделей путем полного перебора всех загруженных вариантов вычислительно неосуществимо. Поэтому мы формулируем задачу поиска моделей как проблему многоруких бандитов и ускоряем алгоритм последовательного деления пополам за счет использования общих наборов запросов и агрессивных стратегий исключения. Наш метод позволяет находить лучшие модели всего за 50 запросов на кандидата, ускоряя поиск более чем в 50 раз.
Современные подходы к снижению нежелательных возможностей языковых моделей в основном носят постфактумный характер и потому могут быть легко обойдены злоумышленниками. Естественной альтернативой является формирование возможностей на этапе предварительного обучения. На примере задачи устранения медицинских компетенций мы показываем, что простое вмешательство в виде фильтрации данных предварительного обучения высокоэффективно, устойчиво и экономично при масштабировании. Вдохновляясь исследованиями по атрибуции данных, мы демонстрируем, что фильтрация токенов эффективнее фильтрации документов, достигая аналогичного снижения нежелательных возможностей при меньшем ущербе для полезных функций. Обучив модели в диапазоне двух порядков величины, мы затем показываем, что эффективность фильтрации возрастает с масштабом: для наших крупнейших моделей фильтрация токенов приводит к 7000-кратному замедлению вычислений в целевом домене. Мы также демонстрируем, что модели, обученные с фильтрацией токенов, сохраняют способность к адаптации в целевом домене. Попутно мы представляем методологию разметки токенов с помощью разреженных автоэнкодеров и создания экономичных высококачественных классификаторов. Кроме того, мы показываем, что фильтрация устойчива к зашумленным меткам при достаточных вычислительных ресурсах предварительного обучения.
Обучение с подкреплением на основе человеческих предпочтений обычно опирается на оптимизацию предпочтений, которая ограничивает обновления политики с помощью регуляризации на уровне токенов. Однако оптимизация предпочтений для языковых моделей представляет особую сложность, поскольку сходство в токенном пространстве не подразумевает семантического или поведенческого сходства. Для решения этой проблемы мы применяем регуляризацию в латентном пространстве для оптимизации предпочтений языковых моделей. Мы представляем GANPO, который достигает регуляризации в латентном пространстве путем штрафования расхождения между внутренними представлениями моделей политики и референсной модели. Учитывая, что латентные представления не связаны с явными плотностями вероятностей, мы используем состязательный подход, вдохновленный генеративно-состязательными сетями (GAN), для минимизации расхождения в латентном пространстве. Мы интегрируем GANPO в качестве регуляризатора в существующие цели оптимизации предпочтений на оффлайн-данных. Эксперименты на различных модельных архитектурах и задачах демонстрируют устойчивые улучшения благодаря латентной регуляризации. Кроме того, сравнивая выводы, индуцированные GANPO, с выводами от регуляризации на уровне токенов, мы обнаруживаем, что GANPO обеспечивает более robustную структурную обратную связь в условиях сдвига распределения и зашумленных данных, сохраняя при этом сопоставимую производительность на последующих задачах с незначительными вычислительными затратами.
Дополнительное обучение с подкреплением (RL) является доминирующим подходом для повышения производительности рассуждений больших языковых моделей (LLM), однако растущее количество свидетельств указывает на то, что его выгоды возникают в первую очередь за счет "заострения" распределения (distribution sharpening), а не за счет приобретения новых способностей. Недавние исследования показали, что сэмплирование из степенного распределения (power distribution) LLM с использованием методов Монте-Карло по цепи Маркова (MCMC) позволяет достичь производительности, сравнимой с RL-дообучением, без reliance на внешние вознаграждения; однако высокая вычислительная стоимость MCMC делает такие подходы непрактичными для широкого распространения. В данной работе мы предлагаем теоретически обоснованную альтернативу, которая устраняет необходимость в итеративном MCMC. Мы выводим новую формулировку, показывающую, что глобальное степенное распределение может быть аппроксимировано токен-уровневым масштабированным распределением при низкой температуре (scaled low-temperature distribution), где масштабирующий коэффициент отражает качество будущей траектории. Используя это наблюдение, мы представляем не требующий обучения и верификатора алгоритм, который авторегрессивно "заостряет" генеративное распределение базовой модели. Эмпирически мы оцениваем наш метод на задачах по математике, вопросам-ответам и программированию для четырех LLM и показываем, что наш метод соответствует или превосходит one-shot GRPO, не полагаясь на какие-либо внешние вознаграждения, при этом сокращая задержку вывода более чем в 10 раз по сравнению с MCMC-сэмплированием.
Крупные языковые модели (LLM) быстро развиваются, однако большинство передовых моделей обучаются и оцениваются преимущественно на высокоресурсных языках, таких как английский и китайский, и часто разрабатываются небольшим числом организаций, имеющих доступ к крупномасштабным вычислительным ресурсам и данным. Такая ситуация создает практический барьер для суверенных сред, где учреждения регионального или национального масштаба либо владельцы доменов должны сохранять контроль и понимание весов модели, обучающих данных и развертывания, работая в условиях ограниченных ресурсов и строгих требований к прозрачности. Для решения этой проблемы мы определяем два ключевых требования: (1) адаптивность — способность преобразовать базовую модель в универсального ассистента, и (2) суверенная способность — умение выполнять высокоответственные, специфичные для региона задачи (например, юридические рассуждения на местных языках и работа с культурными знаниями). Мы исследуем, можно ли достичь этих требований без масштабирования массивных корпусов инструкций или reliance на сложные конвейеры тонкой настройки предпочтений и крупномасштабную reinforcement fine-tuning (RFT). Мы представляем Typhoon S — минималистичный и открытый рецепт пост-обучения, сочетающий supervised fine-tuning, on-policy distillation и RFT малого масштаба. Используя тайский язык в качестве репрезентативного кейс-стади, мы демонстрируем, что наш подход преобразует как суверенно-адаптированные, так и универсальные базовые модели в инструктивно-настроенные модели с высокой общей производительностью. Мы также показываем, что RFT малого масштаба с InK-GRPO — расширением GRPO, дополняющим функцию потерь GRPO потерей предсказания следующего слова — улучшает юридические рассуждения на тайском и знание тайской специфики, сохраняя при этом общие способности. Наши результаты свидетельствуют, что тщательно разработанная стратегия пост-обучения может сократить требуемый объем инструктивных данных и вычислений, предлагая практический путь к созданию высококачественных суверенных LLM в рамках академических ресурсов.
Мы представляем Foundation-Sec-8B-Reasoning — первую открытую модель с нативными способностями к логическому выводу в области кибербезопасности. Модель построена на основе нашей ранее выпущенной базовой модели Foundation-Sec-8B (производной от Llama-3.1-8B-Base) и обучена в два этапа, сочетающих контролируемое тонкое настройка (SFT) и обучение с подкреплением на основе верифицируемых вознаграждений (RLVR). Наше обучение использует проприетарные данные для логического вывода, охватывающие анализ кибербезопасности, следование инструкциям и математические рассуждения. Оценка на 10 специализированных тестах по кибербезопасности и 10 общецелевых тестах демонстрирует конкурентоспособную с значительно более крупными моделями производительность в задачах кибербезопасности при сохранении сильных общих способностей. Модель показывает эффективное обобщение на задачах многошагового логического вывода и высокие показатели безопасности при развертывании с соответствующими системными промптами и защитными механизмами. Данная работа демонстрирует, что специализированные модели для логического вывода могут достигать высокой производительности в узкоспециализированных задачах, сохраняя при этом широкие общие возможности. Мы публикуем модель по адресу: https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
Длинноконтекстное рассуждение значительно расширило возможности больших языковых моделей (LLM) для решения сложных задач, однако оно создает серьезные проблемы с эффективностью из-за вычислительной сложности. Существующие эффективные подходы часто полагаются на сложное дополнительное обучение или внешние модели для сжатия, что ограничивает масштабируемость и приводит к потере важной детализированной информации. В данной статье мы предлагаем VTC-R1 — новую эффективную парадигму рассуждений, которая интегрирует сжатие визуально-текстовой информации в процесс рассуждения. Вместо обработки длинных текстовых трассировок VTC-R1 преобразует промежуточные сегменты рассуждений в компактные изображения, которые итеративно передаются обратно в визуально-языковые модели в качестве «оптической памяти». Мы создали обучающий набор данных на основе OpenR1-Math-220K, достигнув 3.4-кратного сжатия токенов, и дообучили репрезентативные VLM-модели — Glyph и Qwen3-VL. Масштабные эксперименты на таких бенчмарках, как MATH500, AIME25, AMC23 и GPQA-D, демонстрируют, что VTC-R1 стабильно превосходит стандартное длинноконтекстное рассуждение. Кроме того, наш подход значительно повышает эффективность вывода, достигая 2.7-кратного ускорения сквозной задержки, что подчеркивает его потенциал в качестве масштабируемого решения для задач, требующих интенсивных рассуждений. Наш код доступен по адресу https://github.com/w-yibo/VTC-R1.
Мультимодальные большие языковые модели (MБЯМ) страдают от кросс-модальных галлюцинаций, когда одна модальность неадекватно влияет на генерацию, связанную с другой, что приводит к созданию недостоверных результатов. Это указывает на более фундаментальный недостаток в управлении межмодальным взаимодействием. Для решения этой проблемы мы предлагаем Модально-Адаптивное декодирование (MAD) — метод, не требующий дообучения, который адаптивно взвешивает модально-специфичные ветви декодирования в зависимости от требований задачи. MAD использует присущую модели способность к самооценке релевантности модальностей путем запроса о том, какие модальности необходимы для каждой задачи. Извлеченные вероятности модальностей затем используются для адаптивного взвешивания контрастных ветвей декодирования, позволяя модели фокусироваться на релевантной информации, подавляя при этом кросс-модальные помехи. Многочисленные эксперименты на CMM и AVHBench демонстрируют, что MAD значительно снижает кросс-модальные галлюцинации в различных аудиовизуальных языковых моделях (улучшения на 7.8% и 2.0% для VideoLLaMA2-AV, на 8.7% и 4.7% для Qwen2.5-Omni). Наш подход показывает, что явное осознание модальностей через самооценку крайне важно для надежного мультимодального мышления, предлагая принципиальное расширение существующих методов контрастного декодирования. Наш код доступен по адресу https://github.com/top-yun/MAD.
Современные диффузионные модели и модели потоков для генерации изображений обычно обладают двумя ключевыми характеристиками: (i) использованием многошагового сэмплирования и (ii) работой в латентном пространстве. Недавние достижения позволили добиться обнадеживающего прогресса по каждому из этих аспектов в отдельности, прокладывая путь к одношаговой диффузии/потоку без использования латентных пространств. В данной работе мы делаем следующий шаг к этой цели и предлагаем «пиксельный MeanFlow» (pMF). Наш ключевой принцип заключается в раздельном формулировании пространства выходов сети и пространства потерь. Целевая функция сети проектируется для работы на предполагаемом многообразии изображений низкой размерности (т.е. предсказание x), в то время как функция потерь определяется через MeanFlow в пространстве скоростей. Мы вводим простое преобразование между многообразием изображений и усредненным полем скоростей. В экспериментах pMF демонстрирует высокие результаты в одношаговой генерации без латентных пространств на наборе данных ImageNet с разрешением 256x256 (FID 2.22) и 512x512 (FID 2.48), заполняя ключевой пробел в данной области. Мы надеемся, что наше исследование будет способствовать дальнейшему расширению границ генеративных моделей на основе диффузии и потоков.
Обеспечение безопасности, достоверности и общей качества генераций больших языковых моделей является критически важной задачей, особенно по мере их внедрения в реальные приложения. Преобладающий подход к решению этих проблем включает сбор дорогостоящих тщательно отобранных наборов данных и применение многоэтапной дообучения и согласования. Однако даже такой сложный процесс не может гарантировать исправление паттернов, усвоенных на этапе предварительного обучения. Поэтому устранение этих проблем на этапе предварительного обучения крайне важно, поскольку оно формирует базовое поведение модели и предотвращает глубокое закрепление небезопасных или галлюцинированных выводов. Для решения этой задачи мы представляем новый метод предварительного обучения, который потоково обрабатывает документы и использует обучение с подкреплением (RL) для улучшения следующих K генерируемых токенов на каждом шаге. Мощная дообученная модель оценивает кандидатные генерации — включая развертки модели, исходный суффикс и переписанный суффикс — по критериям качества, безопасности и достоверности. В начале обучения процесс опирается на исходные и переписанные суффиксы; по мере улучшения модели RL поощряет высококачественные развертки. Данный подход позволяет создавать более качественные, безопасные и достоверные модели с самого начала. В экспериментах наш метод демонстрирует относительное улучшение на 36,2% и 18,5% по сравнению со стандартным предварительным обучением по показателям достоверности и безопасности, а также улучшение win rate до 86,3% по общей качеству генерации.
Мы представляем DeepSearchQA — эталонный набор из 900 заданий для оценки агентов на сложных многоэтапных информационно-поисковых задачах в 17 различных областях. В отличие от традиционных бенчмарков, ориентированных на поиск единичных ответов или широкоспектральную фактическую точность, DeepSearchQA содержит набор сложных, тщательно разработанных задач, призванных оценить способность агента выполнять комплексные поисковые планы для формирования исчерпывающих списков ответов. Такая конструкция явно тестирует три критически важные, но недостаточно оцениваемые способности: 1) систематический сбор фрагментированной информации из разнородных источников, 2) дедупликацию и разрешение сущностей для обеспечения точности и 3) способность к определению критериев остановки в открытом поисковом пространстве. Каждая задача структурирована как причинно-следственная цепь, где обнаружение информации на одном этапе зависит от успешного завершения предыдущего, что требует долгосрочного планирования и удержания контекста. Все задачи основаны на открытом вебе и имеют объективно проверяемые наборы ответов. Наше комплексное оценивание передовых архитектур агентов выявляет существенные ограничения производительности: даже самые продвинутые модели с трудом достигают баланса между высокой полнотой и точностью. Мы наблюдаем различные типы сбоев — от преждевременной остановки (недостаточный охват) до поведения с перестраховкой, когда агенты формируют чрезмерно широкий сет из низкодостоверных ответов для искусственного повышения полноты. Эти результаты указывают на значительный потенциал для улучшения современных конструкций агентов и позиционируют DeepSearchQA как важный диагностический инструмент для направления будущих исследований в сторону создания более надежных систем, способных к углубленному поиску.
Стремясь к эффективному и плотному цепочечному (CoT) рассуждению, методы латентного вывода выполняют тонкую настройку больших языковых моделей (LLM) для замены дискретных языковых токенов непрерывными латентными токенами. Эти методы потребляют меньше токенов по сравнению с традиционным языковым CoT-рассуждением и обладают потенциалом для планирования в плотном латентном пространстве. Однако текущие латентные токены обычно обучаются с учителем на основе имитации языковых меток. Учитывая, что для одного вопроса может существовать несколько эквивалентных, но различных CoT-меток, пассивное подражание произвольной из них может привести к неоптимальным представлениям латентных токенов и политикам латентного вывода, подрывая потенциальную способность к планированию и создавая заметный разрыв между обучением и тестированием. В данной работе мы подчеркиваем важность активного планирования в пространстве представлений латентных токенов для достижения оптимальной политики латентного вывода. Поэтому мы предлагаем метод Active Latent Planning (ATP-Latent), который моделирует процесс обучения латентных токенов с учителем как условный вариационный автоэнкодер (VAE) для получения более гладкого латентного пространства. Более того, для формирования наиболее обоснованной политики латентного вывода ATP-Latent применяет обучение с подкреплением (RL) с дополнительной наградой за связность, которая вычисляется на основе согласованности между содержимым, декодированным VAE из латентных токенов, что позволяет осуществлять направленный процесс RL. В экспериментах на LLaMA-1B метод ATP-Latent демонстрирует прирост точности на +4,1% и сокращение количества токенов на -3,3% на четырех тестовых наборах по сравнению с передовыми базовыми методами. Код доступен по адресу https://github.com/zz1358m/ATP-Latent-master.
Гибридные архитектуры Transformer, сочетающие блоки внимания со softmax и рекуррентные нейронные сети (RNN), демонстрируют оптимальный баланс между производительностью и пропускной способностью при моделировании длинных контекстов, однако их внедрению и изучению препятствуют запредельные затраты на крупномасштабное предварительное обучение с нуля. Некоторые недавние исследования показали, что предобученные блоки внимания со softmax можно преобразовать в RNN-блоки посредством передачи параметров и дистилляции знаний. Однако эти методы передачи требуют значительных объемов обучающих данных (более 10 млрд токенов), а результирующие гибридные модели также демонстрируют низкую производительность на длинных контекстах — как раз в тех сценариях, где гибридные модели обладают значительным преимуществом в скорости вывода по сравнению с моделями на основе Transformer. В данной статье мы представляем HALO (Hybrid Attention via Layer Optimization) — конвейер для дистилляции моделей Transformer в гибридные модели RNN-внимание. Затем мы представляем HypeNet — гибридную архитектуру с превосходной генерализацией на длинных последовательностях, обеспеченной новой схемой позиционного кодирования (названной HyPE) и различными архитектурными модификациями. Мы преобразуем серию Qwen3 в HypeNet с помощью HALO, достигая производительности, сопоставимой с исходными моделями Transformer, при этом демонстрируя превосходные показатели на длинных контекстах и эффективность. Преобразование требует всего 2,3 млрд токенов, что составляет менее 0,01% от их данных предварительного обучения.
Из-за ограниченного объема размеченных обучающих данных крупные языковые модели (LLM) обычно предварительно обучаются с помощью самообучающейся задачи «предсказать следующее слово» на огромных массивах неразмеченных текстовых данных. Чтобы сделать полученную модель полезной для пользователей, ее дополнительно дообучают на значительно меньшем объеме данных «инструктивной настройки», состоящих из размеченных примеров инструкций и ответов. Чтобы преодолеть ограниченность размеченных данных, мы предлагаем метод, позволяющий преобразовать знания из интернет-масштабных документов предварительного обучения в миллиарды синтетических пар «инструкция-ответ» для обучения. Полученный набор данных, названный FineInstructions, использует ~18 млн шаблонов инструкций, созданных на основе реальных пользовательских запросов и промптов. Эти шаблоны инструкций сопоставляются и наполняются содержанием из написанных человеком исходных документов из неразмеченных корпусов предварительного обучения. Благодаря «размеченным» синтетическим обучающим данным, сгенерированным в таком масштабе, LLM можно предварительно обучать с нуля, используя исключительно задачу инструктивной настройки, что гораздо ближе к ожидаемому downstream-применению LLM (ответам на пользовательские промпты). Мы провели контролируемые эксперименты по обучению с точным подсчетом токенов и обнаружили, что предварительное обучение на FineInstructions превосходит стандартное предварительное обучение и другие предложенные методы синтетического предварительного обучения по стандартным бенчмаркам, оценивающим качество свободных ответов. Наши ресурсы доступны по адресу https://huggingface.co/fineinstructions.
Успех гиперсвязей (HC) в нейронных сетях также выявил проблемы, связанные с нестабильностью их обучения и ограниченной масштабируемостью. Многообразие-ограниченные гиперсвязи (mHC) смягчают эти проблемы, проецируя пространство остаточных связей на политоп Биркгофа, однако они сталкиваются с двумя проблемами: 1) их итеративный алгоритм Синкхорна-Кноппа (SK) не всегда дает точные дважды стохастические остаточные матрицы; 2) mHC имеет непомерно высокую параметрическую сложность O(n³C), где n — ширина остаточного потока, а C — размерность признаков. Недавно предложенный mHC-lite репараметризует остаточную матрицу через теорему Биркгофа-фон Неймана для гарантии двойной стохастичности, но также сталкивается с факториальным взрывом параметрической сложности O(nC ⋅ n!). Для решения обеих проблем мы предлагаем KromHC, который использует кронекеровы произведения меньших дважды стохастических матриц для параметризации остаточной матрицы в mHC. Применяя ограничения многообразия к факторным остаточным матрицам вдоль каждой моды тензоризованного остаточного потока, KromHC гарантирует точную двойную стохастичность остаточных матриц, одновременно снижая параметрическую сложность до O(n²C). Комплексные эксперименты демонстрируют, что KromHC соответствует или даже превосходит передовые варианты mHC, требуя значительно меньшего количества обучаемых параметров. Код доступен по адресу https://github.com/wz1119/KromHC.
Хотя механистическая интерпретируемость выявила интерпретируемые схемы в больших языковых моделях (LLM), их причинно-следственное происхождение в обучающих данных остается неясным. Мы представляем Mechanistic Data Attribution (MDA) — масштабируемый фреймворк, использующий функции влияния для отслеживания интерпретируемых единиц до конкретных обучающих примеров. В ходе масштабных экспериментов на семействе моделей Pythia мы каузально подтверждаем, что целевое вмешательство — удаление или дополнение небольшой доли высоковлиятельных примеров — существенно модулирует возникновение интерпретируемых голов, тогда как случайные вмешательства не оказывают эффекта. Наш анализ показывает, что повторяющиеся структурные данные (например, LaTeX, XML) выступают в роли механистического катализатора. Кроме того, мы наблюдаем, что вмешательства, нацеленные на формирование индукционных голов, вызывают сопутствующее изменение способности модели к обучению в контексте (ICL). Это предоставляет прямое каузальное доказательство давней гипотезы о функциональной связи между индукционными головами и ICL. Наконец, мы предлагаем конвейер механистического дополнения данных, который стабильно ускоряет сходимость схем на различных масштабах моделей, предоставляя принципиальную методологию для управления траекториями развития LLM.
Агенты на основе языковых моделей, функционирующие в условиях продолжительных серий взаимодействий, сталкиваются с устойчивыми проблемами сохранения актуальной во времени информации и поддержания поведенческой согласованности между сессиями — сбой, который мы обозначаем как «размывание агентной сущности» (soul erosion). Мы представляем BMAM (Brain-inspired Multi-Agent Memory) — архитектуру памяти общего назначения, которая моделирует память агента как набор функционально специализированных подсистем, а не единое неструктурированное хранилище. Вдохновленная когнитивными системами памяти, BMAM декомпозирует память на эпизодический, семантический, учитывающий значимость и ориентированный на управление компоненты, которые функционируют на комплементарных временных масштабах. Для поддержки рассуждений на длительных горизонтах BMAM организует эпизодические воспоминания вдоль явных временных линий и извлекает свидетельства путем слияния множественных комплементарных сигналов. Эксперименты на бенчмарке LoCoMo показывают, что BMAM достигает точности 78,45% в стандартных условиях оценки на длительных горизонтах, а ablation-анализ подтверждает, что вдохновленная гиппокампом подсистема эпизодической памяти играет ключевую роль в темпоральных рассуждениях.
Квантование значительно повысило вычислительную эффективность и эффективность использования памяти при обучении больших языковых моделей (LLM). Однако существующие подходы по-прежнему требуют накопления обновлений в высокоточной арифметике: а именно, градиентные обновления должны применяться к буферу весов с высокой точностью, известному как мастер-веса. Этот буфер создает значительные накладные расходы по памяти, особенно для моделей с разреженной смесью экспертов (SMoE), где параметры модели и состояния оптимизатора доминируют в использовании памяти. Для решения этой проблемы мы представляем оптимизатор с компенсацией ошибок (ECO), который устраняет мастер-веса, применяя обновления непосредственно к квантованным параметрам. ECO квантует веса после каждого шага и тщательно вносит результирующую ошибку квантования в импульс оптимизатора, формируя петлю обратной связи по ошибке без дополнительного потребления памяти. Мы доказываем, что при стандартных предположениях и затухающей скорости обучения ECO сходится к окрестности оптимума с постоянным радиусом, в то время как наивное удаление мастер-весов может привести к ошибке, обратно пропорциональной скорости обучения. Мы представляем эмпирические результаты для предварительного обучения небольших трансформаторов (30-800M), модели Gemma-3 1B и модели SMoE с 2.1B параметров с квантованием FP8, а также для тонкой настройки DeepSeek-MoE-16B в точности INT4. Во всех экспериментах ECO соответствует базовым уровням с мастер-весами вплоть до практически безпотерьной точности, значительно смещая парето-фронталь между статической памятью и валидационной ошибкой.
Масштабирование стало движущей силой последних достижений в базовых моделях компьютерного зрения, однако распространение этой парадигмы на метрическое оценивание глубины остается сложной задачей из-за неоднородного сенсорного шума, зависящих от камеры смещений и метрической неоднозначности в зашумленных разрозненных 3D-данных. Мы представляем Metric Anything — простую и масштабируемую структуру предварительного обучения, которая изучает метрическую глубину из зашумленных разнородных 3D-источников без использования созданных вручную промптов, моделирования под конкретную камеру или специализированных архитектур. Ключевым элементом нашего подхода является Sparse Metric Prompt, создаваемый путем случайного маскирования карт глубины, который служит универсальным интерфейсом, отделяющим пространственные рассуждения от сенсорных и камерных смещений. Используя около 20 миллионов пар «изображение-глубина», охватывающих реконструированные, снятые и синтезированные 3D-данные с 10000 моделей камер, мы впервые демонстрируем четкую тенденцию масштабирования в задаче метрического определения глубины. Предварительно обученная модель преуспевает в задачах, управляемых промптами, таких как восстановление глубины, супер-разрешение и слияние данных радара и камеры, в то время как ее дистиллированный «ученик», не требующий промптов, достигает state-of-the-art результатов в моноскопическом оценивании глубины, восстановлении внутренних параметров камеры, одно-/многовидовой метрической 3D-реконструкции и планировании для VLA. Мы также показываем, что использование предварительно обученного ViT от Metric Anything в качестве визуального энкодера значительно повышает возможности мультимодальных больших языковых моделей в области пространственного интеллекта. Эти результаты демонстрируют, что метрическое оценивание глубины может выиграть от тех же законов масштабирования, что и современные базовые модели, открывая новый путь к масштабируемому и эффективному метрическому восприятию в реальном мире. Мы открываем исходный код Metric Anything по адресу http://metric-anything.github.io/metric-anything-io/ для поддержки исследований сообщества.
Унифицированные мультимодальные модели (UMM) интегрируют как визуальное понимание, так и генерацию в единую архитектуру. Их конечная цель — создать цикл, в котором понимание и генерация взаимно усиливают друг друга. В то время как современные методы пост-обучения успешно используют понимание для улучшения генерации, обратное направление — использование генерации для улучшения понимания — остаётся в значительной степени неисследованным. В данной работе мы предлагаем UniMRG (Unified Multi-Representation Generation) — простой, но эффективный метод пост-обучения, не зависящий от конкретной архитектуры. UniMRG улучшает способности UMM к пониманию за счёт включения вспомогательных задач генерации. В частности, мы обучаем UMM генерировать несколько внутренних представлений входных изображений, а именно: пиксельное (реконструкция), глубины (геометрия) и сегментации (структура) — наряду со стандартными задачами визуального понимания. Синтезируя эти разнообразные представления, UMM усваивают комплементарную информацию о внешнем виде, пространственных отношениях и структурной организации. В результате UMM формируют более глубокое и всестороннее понимание визуальных входных данных. Многочисленные эксперименты на различных архитектурах UMM демонстрируют, что наш метод существенно улучшает детализированное восприятие, снижает галлюцинации и улучшает пространственное понимание, одновременно усиливая генеративные возможности.
Мы предлагаем FROST — метод эффективного логического вывода, учитывающий механизм внимания. В отличие от традиционных подходов, FROST использует веса внимания для отсечения малозначимых путей рассуждения, что позволяет получать более короткие и надежные траектории reasoning. С методологической точки зрения мы вводим концепцию выбросов в рассуждениях и разрабатываем механизм на основе внимания для их устранения. Теоретически FROST сохраняет и усиливает способность модели к логическому выводу, одновременно устраняя выбросы на уровне предложений. Эмпирически мы проверяем эффективность FROST на четырех бенчмарках с использованием двух мощных моделей логического вывода (Phi-4-Reasoning и GPT-OSS-20B), превосходя современные методы, такие как TALE и ThinkLess. Примечательно, что FROST демонстрирует среднее сокращение использования токенов на 69,68% и улучшение точности на 26,70% по сравнению с базовой моделью. Кроме того, в оценках метрик выбросов внимания FROST снижает максимальную infinity-норму на 15,97% и средний эксцесс на 91,09% по сравнению с базовой моделью. Код доступен по адресу https://github.com/robinzixuan/FROST.
Аудиовизуальные базовые модели, предварительно обученные для совместного генерирования звукового и визуального контента, недавно продемонстрировали беспрецедентную способность моделировать мультимодальное создание и редактирование, открывая новые возможности для решения прикладных задач. Среди этих задач дублирование видео могло бы получить значительную выгоду от таких априорных знаний, однако большинство существующих решений по-прежнему полагаются на сложные, специализированные конвейеры, которые плохо справляются в реальных условиях. В данной работе мы представляем одно-модельный подход, адаптирующий базовую аудиовизуальную диффузионную модель для видео-к-видео дублирования с помощью легковесного LoRA. LoRA позволяет модели учитывать входные аудио- и видеоданные, одновременно генерируя переведенный звук и синхронизированную мимику лица. Для обучения этого LoRA мы используем саму генеративную модель для синтеза парных многоязычных видео одного и того же говорящего. В частности, мы генерируем многоязычные видео с переключением языка внутри одного клипа, а затем восстанавливаем лицо и звук в каждой половине, чтобы они соответствовали языку другой половины. Благодаря использованию богатых генеративных априорных знаний аудиовизуальной модели, наш подход сохраняет идентичность говорящего и синхронизацию губ, оставаясь устойчивым к сложному движению и реальной динамике. Мы демонстрируем, что наш подход создает высококачественные дублированные видео с улучшенной визуальной достоверностью, синхронизацией губ и надежностью по сравнению с существующими конвейерами дублирования.
Большинство методов обучения с подкреплением (RL) для тренировки больших языковых моделей (LLM) требуют наличия эталонных меток или специфичных для задачи верификаторов, что ограничивает масштабируемость в случаях, когда корректность неоднозначна или дорога в получении. Мы представляем метод Обучения с Подкреплением на основе Мета-Оценки (RLME), который оптимизирует генератор, используя вознаграждение, полученное из ответов оценщика на естественно-языковые мета-вопросы (например, «Является ли ответ правильным?» или «Является ли рассуждение логически последовательным?»). RLME трактует вероятность положительной оценки со стороны оценщика как вознаграждение и обновляет генератор посредством оптимизации политики с групповой относительной оценкой, что позволяет обучаться без меток. В серии экспериментов мы показываем, что RLME достигает точности и эффективности использования данных, сопоставимых с обучением на метках, позволяет управляемо балансировать между несколькими целями, направляет модели к надежным паттернам рассуждений вместо пост-фактум рационализации и обобщается на условия открытой области, где эталонные метки недоступны, расширяя диапазон областей, в которых LLM могут обучаться с помощью RL.
Последние достижения в области обучения с подкреплением для генерации кода сделали надежные среды необходимыми для предотвращения взлома системы вознаграждений. Поскольку большие языковые модели все чаще выступают в роли оценщиков в RL, основанном на коде, их способность обнаруживать взлом вознаграждений остается недостаточно изученной. В данной статье мы предлагаем новую таксономию уязвимостей системы вознаграждений, охватывающую 54 категории, и представляем TRACE (Testing Reward Anomalies in Code Environments) — синтетически созданный и проверенный человеком бенчмарк, содержащий 517 тестовых траекторий. В отличие от предыдущих работ, оценивающих обнаружение взлома вознаграждений в изолированных сценариях классификации, мы противопоставляем эти оценки более реалистичной контрастной настройке обнаружения аномалий на TRACE. Наши эксперименты показывают, что модели эффективнее выявляют взлом вознаграждений в контрастных условиях, чем в изолированных условиях классификации: GPT-5.2 в режиме наивысшего уровня рассуждений демонстрирует наилучший показатель обнаружения — 63%, по сравнению с 45% в изолированных условиях на TRACE. Основываясь на этом наблюдении, мы показываем, что современные модели значительно хуже справляются с семантически контекстуализированными взломами вознаграждений по сравнению с синтаксически контекстуализированными. Мы также проводим качественный анализ поведения моделей и ablation-исследования, которые показывают, что соотношение доброкачественных и взломанных траекторий, а также размеры кластеров анализа существенно влияют на производительность обнаружения. Мы публикуем бенчмарк и среду оценки, чтобы позволить сообществу расширять TRACE и оценивать свои модели.
Открытие экстремальных структур в математике требует навигации по обширным и невыпуклым ландшафтам, где аналитические методы дают мало информации, а поиск полным перебором становится неосуществимым. Мы представляем FlowBoost, замкнутую генеративную систему, которая обучается открывать редкие и экстремальные геометрические структуры, объединяя три компонента: (i) геометрически осведомленную условную модель согласования потоков, которая обучается семплировать высококачественные конфигурации, (ii) оптимизацию политики с направляющей наградой и исследованием действий, которая напрямую оптимизирует процесс генерации для достижения цели, сохраняя при этом разнообразие, и (iii) стохастический локальный поиск как для генерации обучающих данных, так и для финального улучшения. В отличие от предыдущих разомкнутых подходов, таких как PatternBoost, который переобучается на отфильтрованных дискретных выборках, или AlphaEvolve, который полагается на замороженные большие языковые модели (БЯМ) в качестве операторов эволюционной мутации, FlowBoost обеспечивает геометрическую осуществимость во время семплирования и напрямую передает сигнал награды в генеративную модель, замыкая цикл оптимизации. Это позволяет обходиться значительно меньшими обучающими наборами и более коротким временем обучения, сокращает количество необходимых внешних итераций на порядки величин и устраняет зависимость от БЯМ. Мы демонстрируем работу системы на четырех задачах геометрической оптимизации: упаковка сфер в гиперкубы, упаковка кругов с максимизацией суммы радиусов, задача Хейльбронна о треугольнике и минимизация звездной дисперсии. В нескольких случаях FlowBoost обнаруживает конфигурации, которые соответствуют или превосходят лучшие известные результаты. Для упаковок кругов мы улучшаем лучшие известные нижние границы, превосходя систему на основе БЯМ AlphaEvolve при существенно меньших вычислительных затратах.
Аудиофингерпринтинг обеспечивает идентифицируемое представление акустических сигналов, которое впоследствии может использоваться в системах идентификации и поиска. Для получения дискриминативного представления входной аудиосигнал обычно сегментируется на более короткие временные интервалы, что позволяет извлекать и анализировать локальные акустические признаки. Современные нейросетевые подходы обычно работают с короткими сегментами фиксированной длительности, однако выбор длительности сегмента часто осуществляется эвристически и редко подвергается глубокому изучению. В данной статье мы исследуем, как длина сегмента влияет на эффективность аудиофингерпринтинга. Мы модифицируем существующую нейросетевую архитектуру фингерпринтинга для работы с различными длинами сегментов и оцениваем точность поиска при разных длинах сегментов и длительностях запросов. Наши результаты показывают, что короткие сегменты (0.5 секунды) в целом обеспечивают лучшую производительность. Кроме того, мы оцениваем способность больших языковых моделей рекомендовать оптимальную длину сегмента, и демонстрируем, что GPT-5-mini последовательно дает наилучшие рекомендации по пяти критериям среди трех исследованных моделей. Наши выводы предоставляют практические рекомендации по выбору длительности сегмента в крупномасштабных нейросетевых системах аудиопоиска.
Графический дизайн часто предполагает исследование различных стилистических направлений, что может быть трудоемким для неспециалистов. Мы решаем задачу стилевого улучшения дизайнов на основе инструкций на естественном языке. Хотя VLM (модели зрения и языка) показали первоначальный успех в графическом дизайне, их предварительно обученные знания о стилях часто слишком общие и не соответствуют конкретным доменным данным. Например, VLM могут ассоциировать минимализм с абстрактными дизайнами, тогда как дизайнеры делают акцент на выборе форм и цветов. Наше ключевое предположение заключается в использовании дизайнерских данных — коллекции реальных дизайнов, которые неявно отражают принципы дизайнеров — для изучения дизайнерских знаний и руководства стилевым улучшением. Мы предлагаем метод PRISM (PRior-Informed Stylistic Modification), который создает и применяет базу дизайнерских знаний в три этапа: (1) кластеризация дизайнов с высокой вариативностью для учета разнообразия внутри стиля, (2) обобщение каждого кластера в практические дизайнерские принципы и (3) извлечение релевантных знаний на этапе вывода для обеспечения стиле-ориентированного улучшения. Эксперименты на наборе данных Crello показывают, что PRISM достигает наивысшего среднего ранга 1.49 (чем ближе к 1, тем лучше) по сравнению с базовыми методами в выравнивании стиля. Пользовательские исследования дополнительно подтверждают эти результаты, показывая, что дизайнеры последовательно предпочитают PRISM.
Веб-агенты обладают значительным потенциалом для автоматизации сложных компьютерных задач, однако их взаимодействия предполагают долгосрочное последовательное принятие решений с необратимыми действиями. В таких условиях обратная связь на основе результата является разреженной и запаздывающей, часто вознаграждая неверные траектории и не поддерживая масштабирование на этапе вывода. Это мотивирует использование моделей вознаграждения по процессу (WebPRM) для навигации в вебе, но существующие подходы остаются ограниченными: скалярные WebPRM сводят прогресс к грубым, слабо обоснованным сигналам, тогда как чеклист-ориентированные WebPRM полагаются на хрупкое шаблонное соответствие, которое нарушается при изменениях layout или семантики и часто ошибочно маркирует поверхностно правильные действия как успешные, обеспечивая малую объяснимость. Для решения этих проблем мы представляем WebArbiter — WebPRM с приоритетом логического вывода, формирующий принципы, который формулирует моделирование вознаграждения как генерацию текста, производя структурированные обоснования, завершающиеся вердиктом предпочтения и идентифицирующие действие, наиболее способствующее выполнению задачи в текущем контексте. Обучение следует двухэтапному пайплайну: дистилляция рассуждений наделяет модель последовательным принцип-ориентированным мышлением, а обучение с подкреплением корректирует смещения учителя за счет прямой сверки вердиктов с корректностью, обеспечивая лучшую обобщающую способность. Для систематической оценки мы представляем WebPRMBench — комплексный бенчмарк, охватывающий четыре разнородные веб-среды с богатым набором задач и высококачественными аннотациями предпочтений. На WebPRMBench WebArbiter-7B превосходит сильнейший базовый уровень, GPT-5, на 9.1 балла. При поиске траекторий с управлением вознаграждением на WebArena-Lite он превосходит лучшую предыдущую WebPRM до 7.2 балла, подчеркивая свою надежность и практическую ценность в реальных сложных веб-задачах.
Модели визуального фундамента обеспечивают мощные перцептивные признаки для робототехники, однако их плотные представления лишены явной объектной структуры, что ограничивает надежность и управляемость в задачах манипулирования. Мы предлагаем STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation) — легковесный модуль адаптации с объектно-ориентированным подходом, который дополняет замороженные визуальные фундаментальные модели небольшим набором семантически осознанных слотов для роботизированного манипулирования. Вместо переобучения крупных базовых моделей STORM использует многоэтапную стратегию обучения: сначала объектно-ориентированные слоты стабилизируются посредством визуально-семантического предварительного обучения с использованием языковых эмбеддингов, затем совместно адаптируются с политикой манипулирования на последующем этапе. Такое поэтапное обучение предотвращает вырождение формирования слотов и сохраняет семантическую согласованность, одновременно согласуя восприятие с целевыми задачами. Эксперименты на бенчмарках обнаружения объектов и симулированных задачах манипулирования показывают, что STORM улучшает обобщаемость на визуальные дистракторы и производительность управления по сравнению с прямым использованием признаков замороженных фундаментальных моделей или сквозным обучением объектно-ориентированных представлений. Наши результаты подчеркивают, что многоэтапная адаптация является эффективным механизмом преобразования общих признаков фундаментальных моделей в ориентированные на задачу объектно-центрированные представления для роботизированного управления.
Обобщающая способность политик роботизированного манипулирования в значительной степени зависит от выбора визуальных представлений. Существующие подходы обычно полагаются на представления, извлеченные из предварительно обученных энкодеров, используя два доминирующих типа признаков: глобальные признаки, которые обобщают все изображение с помощью единого вектора, и плотные признаки, которые сохраняют поэлементное представление из последнего слоя энкодера. Несмотря на широкое использование, оба типа признаков смешивают информацию, релевантную и нерелевантную задаче, что приводит к плохому обобщению при сдвигах распределения, таких как изменения освещения, текстуры или наличие отвлекающих объектов. В данной работе мы исследуем структурированную промежуточную альтернативу: объектно-ориентированные представления на основе слотов (Slot-Based Object-Centric Representations, SBOCR), которые группируют плотные признаки в конечный набор объектно-подобных сущностей. Это представление позволяет естественным образом уменьшить шум, поступающий в политику манипулирования, сохраняя при этом достаточно информации для эффективного выполнения задачи. Мы проводим сравнительный анализ ряда глобальных и плотных представлений с промежуточными представлениями на основе слотов на наборе симулированных и реальных задач манипулирования, от простых до сложных. Мы оцениваем их способность к обобщению в различных визуальных условиях, включая изменения освещения, текстуры и наличие отвлекающих объектов. Наши результаты показывают, что политики на основе SBOCR превосходят политики на основе плотных и глобальных представлений в условиях обобщения, даже без предварительного обучения для конкретной задачи. Эти результаты свидетельствуют о том, что SBOCR являются перспективным направлением для разработки визуальных систем, эффективно обобщающихся в динамичных, реальных роботизированных средах.
Последние достижения в области генеративных базовых моделей, часто называемых «моделями мира», стимулировали интерес к их применению для решения критически важных задач, таких как планирование в робототехнике и обучение автономных систем. Для надежного развертывания эти модели должны обладать высокой физической достоверностью, точно моделируя динамику реального мира. Однако существующие бенчмарки на основе видео, основанные на физике, страдают от проблемы смешения, когда один тест одновременно оценивает несколько физических законов и концепций, что фундаментально ограничивает их диагностическую способность. Мы представляем WorldBench — новый видеобенчмарк, специально разработанный для концептуально-специфичной, развязанной оценки, что позволяет нам строго изолировать и оценивать понимание отдельного физического понятия или закона за один раз. Чтобы сделать WorldBench всеобъемлющим, мы разрабатываем бенчмарки на двух различных уровнях: 1) оценка интуитивного физического понимания с такими концепциями, как постоянство объекта или масштаб/перспектива, и 2) оценка низкоуровневых физических констант и свойств материалов, таких как коэффициент трения или вязкость жидкости. Когда передовые видеомодели мира оцениваются на WorldBench, мы выявляем конкретные паттерны ошибок в определенных физических концепциях, причем все протестированные модели демонстрируют недостаток физической согласованности, необходимой для генерации надежных взаимодействий в реальном мире. Благодаря своей концептуально-специфичной оценке WorldBench предлагает более детализированную и масштабируемую основу для строгой оценки способностей к физическим рассуждениям у моделей генерации видео и моделей мира, прокладывая путь к более надежному и обобщаемому обучению на основе моделей мира.