Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на стремительный прогресс в области автоматического распознавания речи (ASR) и больших аудио-языковых моделей, надёжное распознавание в реальных условиях остаётся ограниченным из-за «акустического узкого места устойчивости»: модели зачастую теряют акустическую основу и порождают пропуски или галлюцинации при сильных композиционных искажениях. Мы предлагаем Mega-ASR — унифицированную среду для ASR в естественных условиях, объединяющую масштабируемое построение составных данных с прогрессивной оптимизацией от акустики к семантике. Представляем Voices-in-the-Wild-2M, охватывающий 7 классических акустических явлений и 54 физически правдоподобных композиционных сценария, и обучаем Mega-ASR с помощью прогрессивной контролируемой точной настройки от акустики к семантике и оптимизации политики с двойной детализацией, управляемой WER. Обширные эксперименты показывают, что Mega-ASR достигает значительных преимуществ перед предыдущими передовыми системами на эталонных тестах ASR в неблагоприятных условиях (45,69% против 54,01% на VOiCES R4-B-F и 21,49% против 29,34% на NOIZEUS Sta-0). В сложных композиционных акустических сценариях Mega-ASR дополнительно обеспечивает относительное снижение WER более чем на 30% по сравнению с сильными базовыми моделями с открытым и закрытым исходным кодом, формируя масштабируемую парадигму для устойчивого ASR в естественных условиях.
Недавние достижения в области мультимодальных больших языковых моделей стимулировали растущий интерес к агентам графических пользовательских интерфейсов (GUI), однако их обобщение по-прежнему ограничено нехваткой крупномасштабных обучающих данных, охватывающих разнообразные реальные приложения. Существующие наборы данных в значительной степени полагаются на дорогостоящую ручную разметку и, как правило, ограничены узкими областями. Для решения этой проблемы мы предлагаем Video2GUI — полностью автоматизированную среду, которая извлекает обоснованные траектории взаимодействия с GUI непосредственно из немаркированных интернет-видео. Video2GUI использует стратегию фильтрации от грубого к точному для выявления высококачественных обучающих видео по GUI и преобразования их в структурированные траектории агентов. Применяя этот конвейер к 500 миллионам записей метаданных видео, мы создаем WildGUI — крупномасштабный набор данных, содержащий 12 миллионов траекторий взаимодействия, охватывающих более 1500 приложений и веб-сайтов. Предварительное обучение Qwen2.5-VL и Mimo-VL на WildGUI обеспечивает стабильное улучшение на 5–20% по нескольким эталонным тестам привязки к GUI и действий, достигая или превосходя современные показатели. Мы предоставим в открытый доступ как набор данных WildGUI, так и конвейер Video2GUI для поддержки будущих исследований агентов GUI.
Без значительных вычислительных затрат метод генерации длинных видео без обучения направлен на то, чтобы базовые модели генерации видео могли создавать более длинные видеоролики. Кадровые авторегрессионные архитектуры, такие как FIFO-diffusion, обладают преимуществом генерации бесконечно длинных видео с постоянным потреблением памяти. Однако несоответствие между обучением и инференсом, а также сложность поддержания долгосрочной согласованности ограничивают эффективное использование базовых моделей. Для решения этих проблем мы предлагаем MIGA — новый метод генерации бесконечно длинных видео. Во-первых, мы предлагаем эффективный двухэтапный механизм выравнивания, который уменьшает разрыв между обучением и инференсом за счёт сокращения избыточного шумового интервала, подаваемого на модель. Затем мы вводим инновационный механизм двойного повышения согласованности, где метод саморефлексии корректирует ранние кадры с высоким уровнем шума, а метод долгосрочного кадрового направления использует поздние кадры с низким уровнем шума и широким охватом для управления генерацией, совместно улучшая временную согласованность. Обширные эксперименты на VBench и NarrLV демонстрируют передовую производительность MIGA. Страница нашего проекта доступна по адресу https://xiaokunfeng.github.io/miga_homepage/.
Мультимодальные большие языковые модели (MLLMs) продемонстрировали выдающуюся способность соединять визуальное восприятие и текстовые рассуждения, обеспечивая понимание с нулевым обучением (zero-shot) в различных промышленных сценариях. Однако их эффективность в обнаружении промышленных аномалий с открытым словарем (IAD) часто ограничена рассуждениями, не согласованными с предметной областью, и галлюцинированными структурными выводами. Для решения этих проблем мы предлагаем IndusAgent — агентную структуру с инструментальной поддержкой для обнаружения аномалий с открытым словарем. В частности, мы сначала создаем Indus-CoT — структурированный набор данных, который объединяет глобальные визуальные наблюдения, локальные фрагменты высокого разрешения и априорные представления экспертов о норме, обеспечивая обучение модели на строгих траекториях промышленного контроля. Основываясь на этом, IndusAgent динамически координирует набор внешних инструментов, включая динамическое вырезание областей, улучшение высокочастотных признаков и поиск априорных данных, что позволяет агенту активно разрешать визуальные неоднозначности и распутывать тонкие аномалии. Кроме того, мы вводим гейтированную цель обучения с подкреплением, которая совместно оптимизирует классификацию аномалий, точность локализации, определение типа аномалии и эффективное использование инструментов, обеспечивая вызов инструментов только тогда, когда это полезно. Обширные оценки на пяти эталонных наборах промышленных аномалий, включая MVTec-AD, VisA, MPDD, DTD и SDD, показывают, что IndusAgent достигает передового уровня производительности zero-shot среди всех существующих методов, что подтверждает нашу робастность и способность к обобщению.
Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) стало доминирующей парадигмой для улучшения рассуждений в больших языковых моделях (LLM), однако лежащая в основе геометрия результирующих траекторий параметров остается недостаточно изученной. В данной работе мы демонстрируем, что весовые траектории RLVR являются чрезвычайно низкоранговыми и высокопредсказуемыми. В частности, мы обнаружили, что основная часть прироста производительности на downstream-задачах описывается аппроксимацией дельт параметров ранга 1, причем величина этой проекции изменяется почти линейно с количеством шагов обучения. Основываясь на этом, мы предлагаем простой и вычислительно эффективный метод RELEX (REinforcement Learning EXtrapolation), который оценивает подпространство ранга 1 по короткому окну наблюдения и экстраполирует будущие контрольные точки с помощью линейной регрессии, не требуя обученной модели. На трех моделях (Qwen2.5-Math-1.5B, Qwen3-4B-Base и Qwen3-8B-Base) RELEX создает контрольные точки, которые соответствуют или превосходят производительность RLVR как на внутридоменных, так и на внедоменных бенчмарках, требуя всего 15% шагов полного обучения RLVR. Примечательно, что RELEX способен экстраполировать далеко за пределы окна наблюдения без затрат на обучение, предсказывая контрольные точки вплоть до 10–20-кратного превышения наблюдаемого префикса с сохранением улучшения (например, наблюдение только первых 50 шагов и экстраполяция до 1000 шагов). Наш абляционный анализ подтверждает минимальную достаточность RELEX: ни увеличение ранга подпространства, ни применение нелинейного моделирования не дают дальнейшего прироста в экстраполяции. Наконец, мы показываем, что успех RELEX обусловлен эффектом «шумоподавления»: проецируя обновления на подпространство ранга 1, модель отбрасывает стохастический оптимизационный шум, который в противном случае ухудшал бы производительность при экстраполяции. Наш код доступен по адресу https://github.com/weizhepei/RELEX.
Стремительное развитие в направлении долгоконтекстного рассуждения и мультимодального интеллекта сделало объем памяти, занимаемый кешем ключ-значение (KV), основным узким местом для эффективного развертывания. Хотя устоявшееся поканальное квантование эффективно справляется с внутренними канальными выбросами в тензорах Key, его эффективность снижается при экстремальном сжатии. В данной работе мы пересматриваем внутренние ограничения парадигмы поканального квантования как с эмпирической, так и с теоретической точек зрения. Наш анализ выявляет дисбаланс нормы токенов (Token Norm Imbalance, TNI) как основное узкое место для точности квантования. Мы демонстрируем, что TNI систематически усиливает ошибки, когда общие параметры квантования должны охватывать группы токенов, демонстрирующие существенные различия в нормах. Вместо того чтобы полагаться на сложные конвейеры квантования (например, TurboQuant), мы предлагаем OScaR (Omni-Scaled Canalized Rotation) — точную и легковесную структуру сжатия кеша KV для X-LLM (т.е. текстовых, мультимодальных и омнимодальных LLM). Развивая поканальную парадигму, OScaR использует Canalized Rotation с последующим Omni-Token Scaling для эффективного и действенного смягчения вариативности по последовательному измерению, вызванной TNI, что дополнительно поддерживается нашей оптимизированной системной архитектурой и ядрами CUDA. Обширные оценки на X-LLM показывают, что OScaR последовательно превосходит существующие методы и достигает почти безошибочной производительности при квантовании INT2, утверждая себя как надежную, малосложную и универсальную структуру, определяющую новый фронт Парето. По сравнению с базовым уровнем BF16 FlashDecoding-v2 наша реализация OScaR достигает заметного ускорения декодирования до 3,0 раз, снижает объем памяти в 5,3 раза и увеличивает пропускную способность в 4,1 раза. Код OScaR доступен по адресу https://github.com/ZunhaiSu/OScaR-KV-Quant.
Фундаментальные возможности, заложенные большими языковыми моделями (БЯМ), проложили путь для мультимодальных больших языковых моделей (МБЯМ), среди которых большие аудиоязыковые модели (БАЯМ) являются ключевыми для реализации универсального слухового интеллекта. Несмотря на их выдающуюся производительность, рост возможностей БАЯМ значительно опережает разработку системных фреймворков, обеспечивающих их надежность. Данный обзор представляет всестороннее исследование эндогенных механизмов БАЯМ, детально рассматривая архитектурные инновации и алгоритмы согласования, способствующие возникновению рассуждений. В частности, мы анализируем, как переход к унифицированным сквозным архитектурам и интеграция непрерывных акустических сигналов по своей сути расширяют поверхность атаки. Для строгой оценки рисков в рамках этих парадигм мы создаем всеобъемлющую таксономию надежности, классифицируя критические уязвимости, такие как межмодальный взлом, скрытые акустические бэкдоры и утечка биометрической конфиденциальности. Мы рассматриваем современное состояние по шести аналитическим направлениям: галлюцинации, устойчивость, безопасность, конфиденциальность, справедливость и аутентификация. Глубокий дисбаланс между зрелым ландшафтом атак и недостаточно развитыми защитными механизмами дополнительно подтверждает критические пробелы в надежности и многомерные риски, с которыми сталкивается слуховой интеллект. В завершение мы предлагаем стратегическую дорожную карту, рекомендующую архитектуры «эшелонированной защиты», причинное моделирование слухового мира и инженерию внутренних представлений для преодоления разрыва между эмпирической производительностью и внутренне надежным слуховым интеллектом. Наш проект загружен на GitHub: https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
Контекстуальная целостность (CI) определяет конфиденциальность не просто как сокрытие информации, а как регулирование информационных потоков в соответствии с нормами данного контекста. Поскольку большие языковые модели все чаще развертываются в качестве персональных агентов, обрабатывающих конфиденциальные рабочие процессы, соблюдение CI становится критически важным. Однако даже передовые модели остаются ненадежными при принятии решений о раскрытии информации, а существующие стратегии смягчения часто ухудшают производительность основной задачи. Чтобы преодолеть этот компромисс между конфиденциальностью и полезностью, мы предлагаем SELFCI — дополнительную структуру самодистилляции, которая разделяет подавление информации и решение задачи. SELFCI совместно оптимизирует две независимые обратные KL-дивергенции по различным распределениям учителя, полученным из обратной связи: одна поощряет сохранение релевантной для задачи информации ради полезности, а другая обеспечивает минимальное и соответствующее раскрытие. Эта дополнительная формулировка порождает целевую функцию вида «произведение экспертов» (Product-of-Experts, PoE), согласовывая политику с пересечением требований к производительности и конфиденциальности. Эмпирические оценки показывают, что SELFCI, не полагаясь на дорогостоящий внешний контроль, последовательно превосходит конкурентоспособные базовые линии, такие как алгоритмы онлайн-обучения с подкреплением (например, GRPO). Эти тенденции дополнительно распространяются на сценарии вне домена, включающие агентные рабочие процессы и накопленный приватный контекст, что позволяет предположить, что SELFCI предоставляет практический путь к согласованию с CI.
Мы показываем, что фундаментальные модели временных рядов масштабируются: единый рецепт обучения обеспечивает надежные улучшения качества прогнозирования от 4M до 2.5B параметров. Мы выпускаем Toto 2.0, семейство из пяти моделей прогнозирования с открытыми весами, обученных по этому рецепту. Семейство Toto 2.0 устанавливает новый передовой уровень на трех эталонах прогнозирования: BOOM, наш эталон наблюдаемости; GIFT-Eval, стандартный эталон общего назначения; и недавний устойчивый к загрязнению эталон TIME. В этом отчете описываются наши экспериментальные результаты и подробно излагаются проектные решения, лежащие в основе Toto 2.0: его архитектура и рецепт обучения, обучающие данные, а также конвейер переноса гиперпараметров u-muP. Все пять базовых контрольных точек выпускаются под лицензией Apache 2.0.
LLM-агенты недавно стали мощной парадигмой для решения сложных задач посредством планирования, использования инструментов, извлечения из памяти и многошагового взаимодействия. Однако такие агентные рабочие процессы часто вносят существенные накладные расходы на стороне ввода, что делает вычислительно интенсивный этап префиллинга ключевым узким местом в длинноконтекстном многошаговом инференсе. В данной работе мы предлагаем Mix-Quant — простую и эффективную фазово-ориентированную систему квантизации для быстрого агентного инференса. Мы сначала исследуем FP4-квантизацию в агентных рабочих процессах LLM и замечаем, что квантизация всего процесса инференса может привести к значительному ухудшению качества. Напротив, этап префиллинга демонстрирует значительную избыточность при квантизации и поэтому может быть квантизован с минимальной потерей точности, несмотря на то, что является доминирующим источником вычислительной нагрузки. Основываясь на этом наблюдении, мы применяем высокопроизводительную NVFP4-квантизацию к фазе префиллинга, сохраняя при этом точность BF16 для декодирования. Разделяя ускорение префиллинга и качество декодирования, Mix-Quant объединяет фазово-ориентированную алгоритмическую квантизацию с аппаратно-эффективным выполнением NVFP4 для смягчения узкого места инференса в LLM-агентах. Обширные эксперименты на бенчмарках с длинным контекстом и агентных задачах показывают, что Mix-Quant в значительной степени сохраняет качество выполнения задач, обеспечивая при этом заметное повышение эффективности, достигая ускорения до 3 раз на этапе префиллинга.
Как следует реализовать расширенные вычисления в будущих нейронных системах рассуждения? Рекурсивные модели рассуждения (Recursive Reasoning Models, RRM) предлагают многообещающую альтернативу авторегрессивному расширению последовательности за счет итеративного уточнения скрытого состояния с использованием общих функций перехода. Однако существующие RRM в значительной степени детерминированы: они следуют единственной латентной траектории и сходятся к одному предсказанию. Мы представляем Генеративные рекурсивные модели рассуждения (Generative Recursive Reasoning Models, GRAM) — фреймворк, который превращает рекурсивное скрытое рассуждение в вероятностные вычисления с множественными траекториями. GRAM моделирует рассуждение как стохастическую латентную траекторию, что позволяет получать множество гипотез, альтернативные стратегии решения и масштабирование на этапе вывода как за счет глубины рекурсии, так и за счет параллельной выборки траекторий. Это дает генеративную модель со скрытыми переменными, поддерживающую условное рассуждение через p_θ(y|x) и, при фиксированных или отсутствующих входных данных, безусловную генерацию через p_θ(x). Обученная с помощью амортизированного вариационного вывода, GRAM превосходит детерминированные рекуррентные и рекурсивные базовые модели в задачах структурированного рассуждения и удовлетворения ограничений с множеством решений, а также демонстрирует способность к безусловной генерации. https://ahn-ml.github.io/gram-website
Хотя агенты графического интерфейса пользователя (GUI-агенты) достигли значительного прогресса в навигации по веб-страницам и выполнении базовых задач операционных систем, их возможности в профессиональных творческих рабочих процессах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем Cutverse — эталонный тест, предназначенный для систематической оценки автономных GUI-агентов в реалистичных средах постпроизводства медиаконтента. Мы собрали экспертные демонстрации по 7 профессиональным приложениям (например, Premiere Pro, Photoshop), охватывающие 186 сложных долгосрочных задач, основанных на аутентичных рабочих процессах редактирования, включающих плотные мультимодальные интерфейсы и тесно связанные последовательности взаимодействий. Для поддержки масштабируемой оценки мы разработали легковесный анализатор, который преобразует необработанные записи экрана и низкоуровневые журналы взаимодействий в структурированные, композиционные траектории действий GUI с точной привязкой. Обширные оценки показывают, что существующие агенты достигают лишь 36,0% успешности выполнения задач в реалистичных задачах редактирования медиа, что подчеркивает сложности, связанные с комплексными долгосрочными рабочими процессами постпроизводства в нашем эталонном тесте. Хотя современные модели демонстрируют многообещающее пространственное позиционирование, мультимодальное согласование и скоординированное выполнение действий, они остаются ограниченными в отношении долгосрочной надежности и предметно-ориентированного планирования.
В настоящее время улучшение унифицированных мультимодальных моделей (UMM) в части способностей к пониманию, генерации и редактированию изображений в основном опирается на смешанное мультизадачное обучение. Из-за внутренних конфликтов между задачами такая стратегия требует сложных многоэтапных конвейеров, массового смешивания данных и различных ухищрений для балансировки, что приводит лишь к компромиссу в производительности, а не к истинному взаимному усилению. Чтобы разрушить эту парадигму, мы предлагаем Uni-Edit — интеллектуальную задачу редактирования изображений, которая служит первой общей задачей для настройки UMM. В отличие от сложных смешанных конвейеров, Uni-Edit одновременно улучшает производительность по всем трём способностям, используя только одну задачу, один этап обучения и один набор данных. В частности, мы в первую очередь выявляем, что редактирование изображений является изначально идеальной общей задачей, так как оно естественным образом требует как визуального понимания, так и генерации. Однако существующие данные для редактирования опираются на упрощённые инструкции, которые существенно недоиспользуют способность модели к пониманию. Чтобы решить эту проблему, мы впервые представляем автоматизированный и масштабируемый конвейер синтеза данных для интеллектуального редактирования, преобразующий разнообразные данные VQA в сложные и эффективные инструкции по редактированию со встроенными вопросами и вложенной логикой. Это приводит к созданию набора данных Uni-Edit-148k, объединяющего разнообразные инструкции, требующие интенсивного рассуждения, с высококачественными отредактированными изображениями. Обширные эксперименты на BAGEL и Janus-Pro демонстрируют, что настройка исключительно на Uni-Edit обеспечивает всестороннее улучшение всех трёх способностей без каких-либо вспомогательных операций.
Оценка больших языковых моделей (LLM) на предмет логического рассуждения на естественном языке необходима, поскольку задачи, регулируемые правилами, требуют строгого следования выводам из заданных предпосылок. Многие существующие тестовые наборы для логического рассуждения создаются путем шаблонизации элементов на естественном языке на основе выбранных формул, предоставляют лишь грубые или непроверенные формальные аннотации и в настоящее время быстро насыщаются передовыми моделями рассуждения. Мы представляем LLMEval-Logic — китайский тестовый набор для логического рассуждения, построенный на реалистичных ситуационных сценариях. Его конвейер включает предварительное авторское создание и экспертную проверку элементов на естественном языке вместе с эталонными формализациями, верификацию аннотированных ответов с помощью Z3, разработку экспертных рубрик для оценки перехода от естественного языка к формальному, а также усиление отобранных элементов посредством замкнутого состязательного процесса. Тестовый набор выпускается в двух парных подмножествах: базовое подмножество (Base) из 246 элементов, поставляемое с 1400 разработанными экспертами атомами рубрик, и сложное подмножество (Hard) из 190 элементов с 938 многошаговыми подвопросами для замкнутых модельных пространств. Оценка 14 передовых LLM на LLMEval-Logic выявляет существенные пробелы в современных моделях: лучшая модель достигает лишь 37,5% точности на сложных элементах, а даже при наличии эталонных символов наивысший совместный показатель формализации Z3+Рубрика среди оцененных моделей достигает лишь 60,16%. Наш тестовый набор общедоступен по адресу https://github.com/llmeval/LLMEval-Logic.
Современная парадигма предварительного обучения больших языковых моделей опирается на огромные вычислительные ресурсы и сырые тексты интернет-масштаба, что создает значительный барьер для фундаментальных исследований. В отличие от этого, биологические системы демонстрируют высокую эффективность обучения на основе примеров благодаря многоуровневой обработке во временных масштабах, например, функциональной организации фронтопариетальной петли. Вдохновляясь этим, мы представляем HRM-Text, которая заменяет стандартные трансформеры иерархической рекуррентной моделью (HRM), разделяющей вычисления на медленно изменяющиеся стратегические и быстро изменяющиеся исполнительные слои. Для стабилизации этой глубокой рекуррентности в моделировании языка мы вводим MagicNorm и разогрев глубокого распределения кредита. Кроме того, вместо стандартного предварительного обучения на сырых текстах мы обучаем исключительно на парах инструкция-ответ с использованием цели завершения задачи и маскировки PrefixLM. В качестве эмпирического доказательства существования эффективного предварительного обучения модель HRM-Text с 1 миллиардом параметров, обученная с нуля всего на 40 миллиардах уникальных токенов и бюджете в 1500 долларов, достигает 60,7% на MMLU, 81,9% на ARC-C, 82,2% на DROP, 84,5% на GSM8K и 56,2% на MATH. Несмотря на использование примерно в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше оценочных вычислительных ресурсов по сравнению со стандартными базовыми моделями, HRM-Text показывает конкурентоспособные результаты с открытыми моделями на 2–7 миллиардов параметров. Эти результаты демонстрируют, что совместное проектирование архитектур и целей может радикально снизить соотношение вычислительных затрат и производительности, делая предварительное обучение с нуля доступным для более широкого исследовательского сообщества.
Рабочие процессы управления промышленными активами чувствительны к задержкам, поскольку один запрос пользователя может требовать координации данных датчиков, рабочих нарядов, видов отказов, инструментов прогнозирования и агентов предметной области. Мы оцениваем эту задачу на AssetOpsBench (AOB) — промышленном эталонном тесте для агентов, конвейер планирования и выполнения которого выявляет многократные накладные расходы на обнаружение инструментов, планирование LLM, выполнение инструментов MCP и итоговое обобщение. Существующие методы кэширования LLM, такие как повторное использование кэша KV и семантическое кэширование на основе эмбеддингов, были разработаны для обслуживания чат-ботов и дают сбой, когда достоверность вывода зависит от времени, актива или параметров датчиков. Мы предлагаем два взаимодополняющих уровня оптимизации для конвейеров планирования и выполнения AOB: временной семантический кэш и набор оптимизаций рабочего процесса MCP, объединяющих кэширование обнаружения инструментов на диске и параллельное выполнение шагов с учетом зависимостей. Оптимизации рабочего процесса MCP соответствовали ускорению в 1,67x и снижению медианной сквозной задержки примерно на 40,0%, в то время как временной кэш в эталонном тесте достиг медианного ускорения в 30,6x при попаданиях в кэш. Помимо ускорения, наши результаты выявляют конкретный вид сбоя чистого семантического кэширования для запросов с большим количеством параметров, предоставляя критический анализ того, как выбор методов кэширования взаимодействует с корректностью оценки в эталонных тестах агентов на основе MCP.
По мере развития возможностей ИИ рецензенты на основе искусственного интеллекта начинают применяться в научном рецензировании, однако их компетентность и надежность остаются под вопросом: многие ученые рассматривают их лишь как вероятностные системы, не обладающие экспертизой для оценки исследований, в то время как другие исследователи более оптимистично настроены в отношении их готовности, не имея конкретных доказательств. Понимание того, в чем ИИ-рецензенты сильны, в чем их слабости и какие проблемы остаются нерешенными, имеет решающее значение. Однако существующие оценки ИИ-рецензентов сосредоточены на том, совпадают ли их заключения с заключениями людей (например, согласованность оценок, прогнозирование принятия), что недостаточно для характеристики их возможностей и ограничений. В данной статье мы восполняем этот пробел с помощью крупномасштабного исследования с экспертным аннотированием, в котором 45 ученых в области физических, биологических и медицинских наук потратили 469 часов на оценку 2960 отдельных замечаний (каждое из которых касается одного конкретного аспекта статьи) из написанных людьми и сгенерированных ИИ рецензий на 82 статьи из семейства журналов Nature по критериям корректности, значимости и достаточности доказательств. По композитному показателю всех трех измерений рецензент на основе GPT-5.2 превосходит лучшего человеческого рецензента каждой статьи (60,0% против 48,2%, p = 0,009), в то время как все три ИИ-рецензента (включая Gemini 3.0 Pro и Claude Opus 4.5) превосходят худшего человеческого рецензента по каждому из измерений. Точные замечания ИИ также чаще оцениваются как значимые и хорошо обоснованные и выявляют отдельный набор из 26% проблем, которые не поднимаются людьми. Однако ИИ-рецензенты демонстрируют гораздо большее перекрытие, чем люди (21% против 3% для пар рецензентов), и имеют 16 повторяющихся слабых мест, не свойственных людям, таких как ограниченное знание подполей, отсутствие управления длинным контекстом при работе с несколькими файлами и чрезмерно критичная позиция по второстепенным вопросам. В целом, наши результаты позиционируют текущих ИИ-рецензентов как дополнение, а не замену человеческим рецензентам.
Последние модели преобразования компоновки в изображение достигли значительного прогресса в области пространственной управляемости. Однако они по-прежнему испытывают трудности с взаимным перекрытием объектов. При наложении ограничивающих рамок большинство существующих методов не содержат явной информации о перекрытии, что делает генерацию в областях пересечения принципиально неоднозначной и затрудняет определение сложных отношений перекрытия. В результате в перекрывающихся областях часто возникают переплетённые текстуры или физически непоследовательные наслоения. Для решения этой проблемы мы сначала создаём SA-Z — крупномасштабный набор данных, обогащённый явным порядком перекрытия и попиксельными аннотациями. Основываясь на предложенном наборе данных, мы представляем OcclusionFormer — новую структуру на основе диффузионного трансформера с учётом перекрытия, которая явно моделирует Z-приоритет путём разделения экземпляров и их компоновки с помощью объёмного рендеринга. Кроме того, для обеспечения точной пространственной детализации мы вводим функцию потерь выравнивания с запросом, которая явно контролирует отдельные экземпляры и улучшает семантическую согласованность. Предложенный метод эффективно снижает неоднозначность в перекрывающихся областях, обеспечивает корректные зависимости от перекрытия и сохраняет структурную целостность, что приводит к существенному повышению точности в разнообразных сценах.
Stable Audio 3 представляет собой семейство быстрых латентных диффузионных моделей (small, medium, large) для генерации и редактирования аудио переменной длины. Поскольку наши модели способны генерировать несколько минут аудио, генерация переменной длины является ключевым фактором для предотвращения издержек, связанных с созданием полноразмерных аудиофрагментов для коротких звуков. Мы также поддерживаем инпейнтинг, обеспечивающий целевую редакцию аудио и продолжение коротких записей. Наши латентные диффузионные модели работают поверх нового семантико-акустического автоэнкодера, который проецирует аудио в компактное латентное пространство, обеспечивая эффективную диффузионную генерацию при сохранении верности аудио и стимулировании семантической структуры в латентном представлении. Наконец, мы применяем состязательный посттренинг для ускорения инференса и повышения качества генерации, сокращая количество шагов инференса при улучшении верности и соответствия запросу. Модели Stable Audio 3 обучаются на лицензированных данных и данных по лицензии Creative Commons, чтобы генерировать музыку и звуки менее чем за 2 секунды на GPU H200 и менее чем за несколько секунд на MacBook Pro M4. Мы публикуем веса моделей small и medium, которые могут работать на потребительском оборудовании, вместе с их пайплайном обучения и инференса.
Для практического использования диффузионные или основанные на потоке генеративные модели должны быть согласованы с целевыми вознаграждениями, такими как точность соответствия запросу или эстетические предпочтения. Такое согласование представляет сложность, поскольку вознаграждение определяется для чистых выходных изображений, но процедура согласования требует оценок функции ценности на зашумленных промежуточных скрытых представлениях. Существующие методы прибегают к приближениям стиля Твиди или Монте-Карло, балансируя смещение оценки с вычислительными затратами: оценки Твиди эффективны, но смещены, тогда как оценки Монте-Карло более точны, но требуют дорогостоящих прогонов. Естественной альтернативой могла бы быть обучаемая функция ценности, однако остается открытым вопрос, как эффективно обучить сильную и общую модель ценности, предназначенную именно для зашумленных скрытых представлений. Здесь мы предлагаем StitchVM — фреймворк сшивания моделей, который эффективно переносит модели вознаграждения, предварительно обученные на чистых изображениях, в режим зашумленных скрытых представлений. StitchVM начинается с существующей усеченной модели вознаграждения в пиксельном пространстве и присоединяет к ней в качестве головы замороженную магистраль диффузии. От модели в пиксельном пространстве полученный гибрид наследует тщательно предварительно обученную устойчивую способность к вознаграждению; от магистрали диффузии он наследует ее естественную способность обрабатывать зашумленные скрытые представления. Процедура сшивания исключительно легковесна: например, сшивание и дообучение CLIP ViT-L и SD 3.5 Medium занимает всего 10 часов на GPU. Поднимая мощные модели вознаграждения из пиксельного пространства в пространство скрытых представлений, StitchVM открывает новый стиль согласования диффузии: вместо грубого, но дорогого пообразного приближения функции ценности, правильная функция для реальных зашумленных скрытых представлений строится один раз, а затем амортизируется на множество выборок и итераций. Мы показываем, что этот подход дает улучшения в широком спектре методов последующего управления и пост-обучения: DPS становится в 3,2 раза быстрее, при этом пиковое использование памяти GPU сокращается вдвое, а DiffusionNFT — в 2,3 раза быстрее.
Кэш ключ-значение (KV) доминирует в пропускной способности и объеме памяти при длинноконтекстном авторегрессивном инференсе. Недавние кодеки с предварительным вращением (TurboQuant, PolarQuant) показывают, что структурированное случайное вращение с последующим покоординатным скалярным квантователем, согласованным с аналитически вычислимым маргинальным распределением, является почти оптимальным рецептом для сжатия KV. OCTOPUS развивает эту парадигму с помощью совместного квантования повернутых троек координат. Направление каждой тройки отображается на квадрат с помощью октаэдрической параметризации, а два полученных координата и норма тройки квантуются по Ллойду–Максу с учетом маргинальных распределений, согласованных с реализацией. Оптимизация среднеквадратичной ошибки на тройку дает строго неравномерное распределение битов, зависящее только от общей размерности ключей. Мы обнаруживаем, что оптимум качества в конечной размерности при переборе параметров является постоянным на каждом реальном декодере, который мы тестируем. Кодек является независимым от данных, онлайн и детерминированным при заданном начальном значении. Для текста, видео и аудио OCTOPUS соответствует или превосходит все предыдущие кодеки с вращением при каждой заявленной разрядности и метрике, причем отрыв увеличивается по мере уменьшения количества битов для экстремального сжатия. Кроме того, объединенная реализация Triton восстанавливает ключи на лету без материализации несжатого ключа, поэтому кодек не добавляет пропускной способности или задержки при декодировании по сравнению с существующим деквантованием. Страница проекта: https://octopus-quant.github.io/
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) страдает от разреженных сигналов результата, что создает серьезные узкие места в исследовании для сложных задач рассуждения. Недавние методы самодистилляции на политике пытаются решить эту проблему, используя языковую обратную связь для генерации плотного супервизорного управления на уровне токенов. Однако эти подходы полагаются на фиксированного, пассивного учителя для интерпретации обратной связи. По мере улучшения политики ученика возможности учителя по нулевой оценке достигают плато, что в конечном итоге останавливает дальнейшее обучение. Чтобы преодолеть это, мы предлагаем Вариационную Дистилляцию Политики (VPD) — фреймворк, который формализует обучение на основе языковой обратной связи как задачу вариационного EM-алгоритма (Expectation-Maximization). VPD совместно развивает обе политики: на E-шаге учитель активно уточняется на результатах траекторий с помощью адаптивного обновления с доверительной областью, преобразуя текстовую обратную связь в динамически улучшаемое целевое распределение токенов. На M-шаге ученик интернализует это плотное распределенное руководство на своих собственных развертываниях на политике. Постоянно улучшая способность учителя извлекать действенные сигналы из текстовой критики, VPD преодолевает ограничения пассивной дистилляции. При оценке на различных источниках диагностической обратной связи для задач научного рассуждения и генерации кода VPD последовательно превосходит как стандартный RLVR, так и существующие базовые методы самодистилляции. Наконец, путем стресс-тестирования нашего фреймворка на строгих математических рассуждениях и в режимах холодного старта мы освещаем фундаментальные границы самодистилляции на основе обратной связи по сравнению с чистым обучением с подкреплением, управляемым средой.
Агенты на основе больших языковых моделей (LLM) организуют поведение через навыки — структурированные спецификации на естественном языке, которые определяют, как агент рассуждает, извлекает информацию и отвечает. В отличие от монолитных промптов, навыки представляют собой многопольные артефакты, подчиняющиеся жестким ограничениям платформы: поля описаний обрезаются для маршрутизации, тела инструкций сжимаются с помощью прогрессивного раскрытия, а сосуществующие навыки конкурируют за ограниченные контекстные окна. Эти ограничения делают оптимизацию навыков по своей сути многоцелевой: навык должен одновременно максимизировать производительность задачи и удовлетворять лимитам платформы. Тем не менее, существующие оптимизаторы промптов либо игнорируют эти компромиссы, либо сводят их к взвешенной сумме, упуская парето-оптимальные варианты в невыпуклых областях целевых функций. Мы представляем MOCHA (Multi-Objective Chebyshev Annealing — многоцелевой чебышёвский отжиг), который заменяет одноцелевой отбор чебышёвской скаляризацией, охватывающей весь фронт Парето, включая невыпуклые области, в сочетании с экспоненциальным отжигом, обеспечивающим переход от исследования к эксплуатации. В наших экспериментах с шестью разнообразными навыками агентов — где все методы используют один и тот же многоцелевой оператор мутации, а базовые методы получают идентичную текстовую обратную связь по каждой цели — существующие оптимизаторы не могут улучшить исходный навык в 4 из 6 задач: 1000 прогонов не дают никакого прогресса. MOCHA прорывается в каждой задаче, достигая относительного улучшения средней корректности на 7,5% по сравнению с сильнейшим базовым методом (до 14,9% на FEVER и 10,4% на TheoremQA), обнаруживая при этом вдвое больше парето-оптимальных вариантов навыков.
Генерация согласованного виртуального тура по всему дому на основе плана этажа и стилевого референса требует как фотореалистичных панорам, так и пространственной согласованности между видами. Чисто 2D-генераторы создают привлекательные отдельные панорамы, но при изменении точки обзора переосмысливают геометрию и материалы, тогда как монолитная 3D-генерация становится дорогостоящей и теряет мелкие текстуры в масштабе нескольких комнат. Мы представляем PanoWorld — генеративную пространственную мировую модель, которая рассматривает синтез всего дома как авторегрессионную генерацию узловых 360-градусных панорам, соответствующую дискретной навигации, используемой в реальных продуктах виртуальных туров. PanoWorld использует 3D-оболочку, полученную из плана этажа, в качестве глобального геометрического прокси, и динамический кэш 3D Gaussian Splatting в качестве визуализируемой пространственной памяти. Прямосвязная панорамная LRM, предназначенная для метрических многокомнатных 360-градусных входных данных, преобразует сгенерированные панорамы в локальные обновления 3DGS, в то время как Room-aware Group Attention подавляет межкомнатную интерференцию признаков. Топологически-осведомленная прогрессивная стратегия кэширования объединяет эти локальные обновления без повторной реконструкции всей истории. За счет разделения управления геометрией на основе оболочки и визуальной памяти, отображаемой из кэша, PanoWorld сохраняет качество высокочастотного 2D-синтеза, одновременно улучшая согласованность компоновки и материалов между узлами. Ссылка на проект: https://jjrcn.github.io/PanoWorld-project-home/
Обучение с подкреплением с верифицируемой наградой (RLVR) доказало свою эффективность для улучшения способности больших языковых моделей (LLM) к рассуждению. Однако динамика обучения RLVR остается недостаточно изученной. В данной работе мы выявляем противоречащий интуиции феномен: среди сложных примеров, с которыми модель изначально испытывает трудности, значительная часть остается необучаемой, даже при наличии корректных траекторий. Для понимания этого явления мы сначала демонстрируем, что существующие методы оптимизации и сэмплирования не устраняют необучаемость. С помощью анализа градиентов на перекрестных примерах мы показываем, что необучаемые примеры имеют фундаментальную проблему представления, характеризующуюся низкой градиентной схожестью с остальными примерами и необобщаемыми паттернами рассуждения. Далее мы показываем, что дефекты представления трудно устранить в RL, поскольку аугментация данных не улучшает градиентную схожесть. Наше исследование дает первую систематическую характеристику необучаемых данных в обучении RLVR и выявляет фундаментальные ограничения современных подходов RL для задач рассуждения. Код и данные доступны по адресу https://github.com/yulinchen99/unlearnability-rlvr.
Поскольку кодовые агенты с долгосрочным горизонтом генерируют больше кода, чем способен проверить любой разработчик, контроль сводится к единственной поверхности: автоматизированному набору тестов. В такой конфигурации естественным образом возникает эксплуатация вознаграждения (reward hacking), когда агент оптимизируется на прохождение тестов, отклоняясь от истинной цели пользователя. Мы изучаем это явление, разбивая задачи разработки программного обеспечения на три части: (i) описание спецификации на естественном языке; (ii) видимые проверочные тесты (visible validation tests), которые изолированно проверяют заданные функции; (iii) отложенные тесты (held-out tests), которые комбинируют те же самые функции, имитируя реальное использование. Опираясь на спецификацию и видимые наборы проверочных тестов, истинный агент мог бы сгенерировать решение, проходящее также все отложенные тесты. Поэтому для количественной оценки эксплуатации вознаграждения мы используем разрыв в процентах прохождения между этими двумя наборами. На основе данной методологии мы представляем SpecBench — эталонный набор, состоящий из 30 задач системного программирования: от задач с коротким горизонтом (например, построение JSON-парсера) до задач со сверхдлинным горизонтом (например, создание целой операционной системы с нуля). Крупномасштабные эксперименты выявляют устойчивую закономерность: хотя каждый передовой агент насыщает видимый набор тестов, эксплуатация вознаграждения сохраняется, причем меньшие модели демонстрируют больший разрыв на отложенных наборах. Разрыв также резко увеличивается с ростом длины задачи: он возрастает на 28 процентных пунктов при каждом десятикратном увеличении объёма кода. Сбои варьируются от тонкой изоляции функций до намеренных эксплойтов, включая «компилятор» хеш-таблицы из 2900 строк, который запоминает входные данные тестов. SpecBench предоставляет принципиальный полигон для оценки того, создают ли кодовые агенты реально работающие системы или лишь подыгрывают тестовым наборам, которые предоставляют разработчики.
Реальные агенты функционируют в условиях длительных и эволюционирующих горизонтов, где информация многократно обновляется и может интерферировать между воспоминаниями, требуя точного воспроизведения и агрегированного рассуждения на основе множества фрагментов информации. Однако существующие эталонные тесты сосредоточены на статическом, независимом воспроизведении и не учитывают динамические взаимодействия между эволюционирующими воспоминаниями. В данной работе мы исследуем, как современные агенты с усиленной памятью справляются с реалистичными, насыщенными интерференцией задачами в долгосрочных сценариях, охватывающих различные предметные области и типы вопросов. Мы представляем MINTEval (Long-Horizon Memory under INTerference Evaluation — оценка долговременной памяти в условиях интерференции), эталонный тест, включающий (1) длинные, сильно взаимосвязанные контексты с часто обновляемой информацией, вызывающие значительную интерференцию; (2) разнообразные предметные области (отслеживание состояний, многовитковый диалог, правки в Википедии и коммиты в GitHub), позволяющие оценить обобщение на разные области; и (3) разнообразные типы вопросов, оценивающие устойчивость к интерференции, включая (i) задачи на припоминание одной цели, требующие извлечения конкретного объекта из длинных контекстов, и (ii) задачи на агрегирование множества целей, требующие рассуждения на основе нескольких релевантных фрагментов информации. В целом, MINTEval содержит 15,6 тыс. пар вопрос-ответ в долгосрочных контекстах, средняя длина которых составляет 138,8 тыс. токенов, а максимальная достигает 1,8 млн токенов на один экземпляр. Мы оцениваем 7 репрезентативных систем, включая стандартные LLM с длинным контекстом, RAG и агентные фреймворки с усиленной памятью. Во всех системах наблюдается стабильно низкая производительность (средняя точность 27,9%), особенно на вопросах, требующих агрегированного рассуждения по множеству свидетельств. Наш анализ показывает, что производительность в первую очередь ограничивается извлечением информации и построением памяти. Кроме того, современные системы памяти с трудом воспроизводят и обрабатывают более ранние факты, которые были изменены или подверглись интерференции со стороны последующего контекста; при этом точность снижается по мере увеличения числа промежуточных обновлений.
Прямая оптимизация предпочтений (DPO) стала популярной альтернативой обучению с подкреплением на основе человеческой обратной связи (RLHF), предлагая теоретическую эквивалентность при более простой реализации. Мы доказываем, что эта эквивалентность является условной, а не универсальной, и зависит от неявного предположения, которое на практике часто нарушается: оптимальная политика RLHF должна предпочитать одобряемые человеком ответы. Когда это предположение не выполняется, DPO оптимизирует относительное преимущество по сравнению с эталонной политикой, а не абсолютное согласование с человеческими предпочтениями, что приводит к патологическому схождению, при котором политики уменьшают потери DPO, одновременно предпочитая неодобряемые ответы. Мы характеризуем условия, при которых это предположение нарушается, показываем существование нежелательного пространства решений и доказываем, что в таких случаях DPO и RLHF оптимизируют принципиально разные целевые функции. Для решения этой проблемы мы вводим Оптимизацию предпочтений с ограничениями (CPO), дополняющую RLHF ограничениями для обеспечения доказуемого согласования. Кроме того, мы предлагаем геометрическую интерпретацию через ранжирование с мягким зазором, показывая, что DPO реализует маржинальное ранжирование с потенциально отрицательными целевыми значениями. Наш теоретический анализ устанавливает, когда гарантии DPO выполняются, и предлагает решения, сохраняющие простоту при доказуемом согласовании. Комплексные эксперименты на стандартных бенчмарках демонстрируют, что CPO достигает современной производительности. Код доступен по адресу: https://github.com/visitworld123/CPO.
Мы представляем Mem-π — фреймворк для адаптивной памяти в агентах на основе больших языковых моделей (LLM), где полезные инструкции генерируются по запросу, а не извлекаются из внешних хранилищ памяти. Существующие агенты с дополненной памятью обычно полагаются на поиск по сходству в банках эпизодической памяти или библиотеках навыков, возвращая статические записи, которые часто не соответствуют текущему контексту. В отличие от этого, Mem-π использует выделенную языковую или языко-визуальную модель с собственными параметрами, отдельную от нижележащего агента, для генерации контекстно-зависимых инструкций для сложных задач. Принимая во внимание текущий контекст агента, модель совместно решает, когда создавать инструкции и какие именно инструкции генерировать. Мы обучаем её с помощью раздельного по решению и содержанию обучения с подкреплением (RL), что позволяет ей воздерживаться от генерации, когда она не принесёт пользы, а в противном случае — выдавать краткие и полезные инструкции. На различных бенчмарках для агентов, охватывающих веб-навигацию, использование инструментов в терминале и текстовое воплощённое взаимодействие, Mem-π последовательно превосходит базовые методы, основанные на поиске и на предварительно оптимизированном с помощью RL запоминании, достигая более 30% относительного улучшения в задачах веб-навигации.
Современные модели прямого распространения значительно продвинули восприятие геометрии для восстановления плотной трёхмерной структуры по сенсорным наблюдениям. Однако их ключевые возможности остаются раздробленными между несколькими несовместимыми парадигмами, включая восприятие в реальном времени, реконструкцию в автономном режиме, мультимодальную интеграцию, масштабируемость на большие временные горизонты и оценку метрического масштаба. Мы представляем UniT — единую модель, построенную на основе нового Группового авторегрессионного трансформера, которая переосмысливает эти, казалось бы, разрозненные возможности в рамках единого подхода. Ключевая идея заключается в том, чтобы рассматривать группы сенсорных наблюдений как базовые авторегрессионные единицы и предсказывать соответствующие карты точек безанкерным и адаптивным по масштабу способом. Более конкретно, разнообразные конфигурации обзора как в онлайн-, так и в офлайн-режимах естественным образом объединяются в едином процессе групповой авторегрессии. Изменяя размер группы, онлайн-режим работает за несколько авторегрессионных шагов с группами из одного кадра, тогда как офлайн-режим агрегирует группу из нескольких кадров за один прямой проход. Одновременно механизм кэширования KV по типу очереди обеспечивает ограниченную авторегрессионную память на больших временных горизонтах. Это достигается за счёт уменьшения дальних зависимостей от ранних кадров с помощью безанкерного реляционного моделирования, что позволяет отбрасывать устаревшую память на лету. Для улучшения обобщения метрического масштаба на разные сцены в рамках данного подхода вводится адаптивная по масштабу геометрическая функция потерь. Она сочетает относительные геометрические ограничения с частичным членом абсолютного масштаба, неявно регулируя глобальный масштаб и индуцируя постепенный переход от масштабно-инвариантной геометрии к решениям с метрическим масштабом. Вместе с выделенным модулем модального внимания для интеграции вспомогательных модальностей UniT достигает передовых результатов в унифицированном восприятии геометрии, что подтверждено на десяти эталонах, охватывающих семь репрезентативных задач.
По мере того как автономные агенты программирования становятся способными выполнять задачи со всё более длинным горизонтом, они постепенно демонстрируют потенциал для осуществления сквозной разработки программного обеспечения. Хотя существующие бенчмарки в последнее время эволюционировали от локального редактирования кода до генерации проектов с нуля, они по-прежнему ограничены структурно упрощёнными одностековыми приложениями. В результате они не способны отразить гетерогенные среды, полностековую оркестрацию и системную сложность реальных корпоративных SaaS-систем, оставляя существенный пробел в оценке агентов в условиях реалистичных инженерных ограничений. Для заполнения этого пробела мы представляем SaaSBench — первый бенчмарк, предназначенный для исследования границ возможностей ИИ-агентов в корпоративной SaaS-инженерии. Охватывая 30 сложных задач в 6 доменах SaaS с 5370 узлами валидации, он включает 8 языков программирования, 6 баз данных и 13 фреймворков, тщательно отражая реальную гетерогенность программного обеспечения. Кроме того, мы разработали гибридную парадигму оценки с учётом зависимостей, адаптированную для сложных систем с длинным горизонтом и многокомпонентной связностью, что обеспечивает детальную и воспроизводимую оценку. Ключевым образом, наши обширные эксперименты выявили поразительное наблюдение: основным узким местом для современных агентов является не генерация изолированной логики кода, а успешная настройка и интеграция многокомпонентной системы. Более 95% отказов задач происходят до того, как агенты достигают глубокой бизнес-логики, причём модели часто становятся жертвами излишней самоуверенности и преждевременно останавливаются на этапе фундаментальной настройки системы или попадают в неэффективные циклы отладки. Мы надеемся, что SaaSBench послужит практичным и сложным испытательным полигоном для стимулирования эволюции надёжных системных агентов программирования. Код доступен по адресу https://github.com/ShadeCloak/SaaSbench.
Планирование является фундаментальной способностью больших языковых моделей (БЯМ), поскольку сложные задачи требуют от моделей координации целей, ограничений, ресурсов и долгосрочных последствий в выполнимые и верифицируемые решения. Существующие бенчмарки по планированию, однако, как правило, рассматривают данные по планированию как фиксированные наборы примеров, а не как контролируемые цели генерации. Это ограничивает покрытие сценариев, привязывает сложность к поверхностным прокси вместо структурных источников и предоставляет ограниченную поддержку для масштабируемой генерации, автоматической верификации или обучения, ориентированного на планирование. Мы представляем PlanningBench — фреймворк для генерации масштабируемых, разнообразных и верифицируемых данных по планированию как для оценки, так и для обучения. PlanningBench исходит из реальных сценариев планирования и абстрагирует практические рабочие процессы в структурированную таксономию, включающую более 30 типов задач, подзадач, семейств ограничений и факторов сложности. Руководствуясь этой таксономией, конвейер синтеза на основе ограничений создает самодостаточные задачи планирования с адаптивным контролем сложности, фильтрацией качества и пошаговыми проверочными списками на уровне экземпляров. Это переводит конструирование данных по планированию от фиксированных бенчмарков к контролируемой генерации, сохраняя при этом привязку к реалистичным задачам. Мы используем PlanningBench для оценки открытых и закрытых передовых БЯМ и обнаруживаем, что современные модели по-прежнему испытывают трудности с созданием полных решений в условиях связанных ограничений. Помимо оценки, обучение с подкреплением на верифицированных данных PlanningBench улучшает производительность на неизвестных бенчмарках по планированию и более широких задачах следования инструкциям. Дальнейший анализ показывает, что детерминированные или хорошо заданные оптимальные решения обеспечивают более четкие сигналы вознаграждения и более стабильную динамику обучения. В целом, PlanningBench предоставляет контролируемый источник данных по планированию для диагностики и улучшения обобщаемых способностей к планированию у БЯМ.
Посттренировочное согласование безопасности может улучшить безвредность и соответствие политикам больших языковых моделей (Large Language Models, LLMs), но также способно снизить общую полезность — явление, часто описываемое как налог на согласование. Мы изучаем этот компромисс через призму постоянного обучения: последовательные этапы согласования подвергают модель смещённым распределениям данных и целям, а их градиенты могут interfere с направлениями, поддерживающими ранее приобретённые общие способности. Данный подход не утверждает, что вся деградация согласования имеет единую причину; скорее, он предлагает полезный механизм первого порядка для смягчения одного важного источника регрессии возможностей. Мы предлагаем ортогональное проектирование градиентов для безопасного согласования (Orthogonal Gradient Projection for Safety Alignment, OGPSA) — лёгкое правило обновления, которое оценивает низкоранговое референтное подпространство на основе градиентов небольшого набора данных с общими способностями и удаляет из каждого градиента безопасности компоненту, лежащую в этом подпространстве. Полученное обновление является крутейшим локальным направлением спуска по безопасности при соблюдении ограничений сохранения первого порядка в отношении целей референтного набора. OGPSA совместим со стандартными конвейерами посттренировки и не требует крупномасштабного воспроизведения, хотя и вводит периодические вычисления референтных градиентов. В контекстах контролируемой точной настройки (Supervised Fine-Tuning, SFT), прямой оптимизации предпочтений (Direct Preference Optimization, DPO) и последовательного применения SFT→DPO OGPSA улучшает наблюдаемый компромисс между безопасностью и полезностью по сравнению со стандартными базовыми методами. В конвейере последовательного SFT→DPO средний прирост производительности увеличивается с 33,98% до 42,74% для Qwen2.5-7B-Instruct и с 19,74% до 32,98% для Llama3.1-8B-Instruct. Мы открыли исходный код по адресу https://github.com/SunGL001/OGPSA.
Современное обучение языковых моделей все чаще сталкивается с нестабильностью, деградацией качества и нерациональным расходованием вычислительных ресурсов, особенно в условиях агрессивных темпа обучения (learning rate), масштаба и нагрузок на время выполнения. В данной статье представлен Learn-by-Wire Guard (LBW-Guard) — ограниченный автономный слой управления обучением, работающий поверх AdamW. LBW-Guard не заменяет правило обновления оптимизатора, а наблюдает за телеметрией обучения, выявляет режимы, чувствительные к нестабильности, и применяет ограниченное управление выполнением оптимизатора, сохраняя при этом фиксированные цели обучения. Мы оцениваем LBW-Guard в стрессовом и робастном наборе тестов на базе Qwen2.5 с использованием WikiText-103, где Qwen2.5-7B служит эмпирическим эталоном, выполняются сравнения по размеру модели с Qwen2.5-3B и Qwen2.5-14B, стресс-тесты темпа обучения, тесты с клиппированием градиентов, а также полнопараметрическая проверка работоспособности на TinyLlama-1B без LoRA. В эталонной конфигурации с моделью 7B LBW-Guard снижает финальную перплексию с 13,21 до 10,74, что представляет собой улучшение на 18,7%, при этом общее время сокращается с 392,54 с до 357,02 с, т.е. ускорение в 1,10 раза. При более сильных стрессовых нагрузках на темп обучения AdamW деградирует до финальной перплексии 1885,24 при LR=3e-3 и 659,76 при LR=1e-3, тогда как LBW-Guard остается обучаемым с показателями 11,57 и 10,33 соответственно. Базовые методы клиппирования градиентов не воспроизводят этот эффект. Эти результаты подтверждают ограниченный системный вывод: обучение LLM, чувствительное к стабильности, может выиграть от наличия управляющего слоя над оптимизатором. LBW-Guard демонстрирует, что ограниченное управление во время выполнения может сохранять продуктивное использование вычислительных ресурсов в условиях стресса, оставаясь при этом отличным от замены оптимизатора и локального подавления градиентов.
Диффузионные большие языковые модели (dLLM) стали конкурентоспособной альтернативой авторегрессионным (AR) моделям, обеспечивая более эффективное использование аппаратного обеспечения и двунаправленный контекст благодаря параллельному декодированию на уровне блоков. Однако с дальнейшим масштабированием dLLM на основе архитектур смеси экспертов (MoE) их развертывание на устройствах с ограниченными ресурсами остается открытой задачей. Существующие AR-методы часто приводят либо к непомерным накладным расходам на ввод-вывод, либо к существенным вычислительным узким местам. В данной работе мы предлагаем TIDE — новую ресурсоэффективную систему вывода, использующую временную устойчивость активаций экспертов в процессе диффузии внутри блока. А именно, мы используем временную устойчивость активаций экспертов в процессе диффузии внутри блока и вводим интервальную стратегию обновления экспертов, которая обновляет размещение экспертов с учетом ввода-вывода. Для обеспечения оптимальной производительности мы формулируем планирование вывода как задачу математического программирования, решая задачу поиска оптимального интервала, минимизирующего трафик ввода-вывода и вычисления на ЦП. Наиболее важно то, что TIDE представляет собой оптимизацию без потерь, не требующую обучения модели, и обеспечивает «бесплатный обед» — ускорение вывода dLLM. В системе с одним GPU-CPU мы демонстрируем, что TIDE достигает улучшения пропускной способности до 1,4 и 1,5 раз по сравнению с предыдущими базовыми методами на моделях LLaDA2.0-mini и LLaDA2.0-flash соответственно.
Видео-виртуальная примерка (VVT) направлена на бесшовную замену предмета одежды на человеке в видео на новый. Хотя существующие методы достигли значительного прогресса в поддержании временной согласованности, они преимущественно ограничены неинтерактивными сценариями, где модели просто демонстрируют одежду. Это ограничение упускает из виду важнейший аспект реального представления одежды: активное взаимодействие человека с одеждой. Для преодоления этого разрыва мы представляем и формализуем новую сложную задачу: интерактивную видео-виртуальную примерку (Interactive VVT), где субъекты в видео активно взаимодействуют со своей одеждой. Эта задача вводит уникальные проблемы, выходящие за рамки простого сохранения текстуры, включая: (1) разрешение семантической неоднозначности взаимодействий на основе стандартной информации о позе и (2) изучение сложных деформаций одежды из видео, где интерактивные моменты редки и кратки. Для решения этих проблем мы предлагаем iTryOn — новую структуру, построенную на основе крупномасштабного диффузионного трансформера видео. iTryOn впервые использует многоуровневый механизм внедрения взаимодействия для управления генерацией сложной динамики. На пространственном уровне мы вводим независимый от одежды трехмерный приор руки, обеспечивающий детальное руководство для точного контакта руки с одеждой, что эффективно устраняет пространственную неоднозначность. На семантическом уровне iTryOn использует глобальные подписи для общего контекста и привязанные ко времени подписи действий для локализованных взаимодействий, синхронизируемые с помощью нашего нового позиционного вращательного внедрения с учетом действий (A-RoPE). Обширные эксперименты демонстрируют, что iTryOn не только достигает производительности на уровне передовых методов на традиционных эталонах VVT, но и устанавливает значительное преимущество в новой интерактивной среде, что знаменует собой важный шаг к более динамичным и управляемым виртуальным примеркам.
Крупные языковые модели с визуальным восприятием (Large Vision Language Models, LVLMs) демонстрируют перспективность в медицинских приложениях, однако их неспособность достоверно обосновывать ответы на основе визуальных доказательств вызывает серьёзные опасения относительно клинической надёжности. Хотя методы визуальной атрибуции широко используются для объяснения предсказаний LVLM, остаётся в значительной степени непроверенным, отражают ли эти объяснения фактические визуальные свидетельства, лежащие в основе решения модели, поскольку эталонные аннотации внутреннего процесса рассуждения модели обычно недоступны. Мы рассматриваем этот вопрос в контексте анализа рентгенограмм грудной клетки (CXR), разрабатывая каузальную оценочную структуру, в которой сохраняются только те образцы CXR-VQA (вопросно-ответная система по рентгенограммам грудной клетки), для которых область, аннотированная экспертом, с помощью контрфактического редактирования подтверждается как каузально ответственная за предсказание модели. Используя эту структуру для 11 методов атрибуции, шести открытых LVLM и двух режимов вывода (прямой ответ и пошаговое рассуждение), мы обнаруживаем, что существующие методы атрибуции часто не могут выявить доказательства, используемые LVLM. Для преодоления этой неудачи мы предлагаем MedFocus — метод атрибуции на основе концепций, который локализует клинически значимые анатомические области с помощью несбалансированного оптимального транспорта и измеряет их каузальное влияние на выходы модели через целевые вмешательства. MedFocus обеспечивает пространственную, концептуальную и токеновую атрибуцию, значительно превосходя предыдущие методы, что является шагом в направлении более надёжной атрибуции для медицинских LVLM. Наши данные и код доступны по адресу https://github.com/gzxiong/medfocus/.
Генерация движений по тексту, которая переводит текстовые описания в движения человека, сталкивается с проблемой: пользователям часто сложно точно передать задуманные движения только с помощью текста. Для решения этой задачи в статье предлагается DrawMotion — эффективная диффузионная модель, предназначенная для многоусловных сценариев. DrawMotion генерирует движения на основе как обычного текстового условия, так и нового условия ручного рисунка, которые обеспечивают семантический и пространственный контроль над генерируемыми движениями соответственно. В частности, мы подходим к задаче генерации мелкозернистых движений с трех точек зрения: 1) условие ручного рисунка. Для точного захвата задуманных пользователем движений без необходимости утомительного текстового ввода мы разрабатываем алгоритм автоматической генерации нарисованных от руки схематичных человечков для различных форматов наборов данных; 2) слияние множества условий. Мы предлагаем Модуль Множественных Условий (ММУ), интегрированный в диффузионный процесс, позволяющий модели использовать все возможные комбинации условий при снижении вычислительной сложности по сравнению с традиционными подходами; 3) безучебное управление. Примечательно, что ММУ в DrawMotion обеспечивает нахождение его промежуточных признаков в непрерывном пространстве, что позволяет градиентам направляющего классификатора обновлять эти признаки и тем самым согласовывать генерируемые движения с намерениями пользователя, сохраняя при этом достоверность. Количественные эксперименты и опросы пользователей показывают, что подход с ручным рисованием сокращает время пользователя примерно на 46,7% при генерации движений, соответствующих его воображению. Код, демонстрации и соответствующие данные общедоступны по адресу https://github.com/InvertedForest/DrawMotion.
Кластеризация запросов объединяет запросы в группы, отражающие общие латентные требования к способностям, что позволяет проводить оценку LLM с учетом способностей. Существующие методы кластеризации, которые в основном опираются на семантические таксономии или эмбеддинги, часто не способны уловить такие латентные требования к способностям из-за несоответствия между поверхностной семантикой и фактической производительностью модели. Мы предлагаем ECC — алгоритм, который калибрует априорные семантические эмбеддинги с помощью ограниченных апостериорных сравнений моделей, чтобы устранить разрыв между поверхностной семантикой и латентными требованиями к способностям. ECC характеризует каждый кластер с помощью профиля способностей, параметризованного моделью Брэдли-Терри, и использует обучаемые веса смеси для обработки запросов со смешанными требованиями к способностям, совместно обучая гибкую структуру кластеризации, учитывающую способности и поддерживающую вывод о способностях LLM для конкретных запросов. Обширные количественные и качественные оценки показывают, что ECC значительно улучшает качество ранжирования способностей LLM, превосходя базовые методы на основе человеческой разметки и эмбеддингов в среднем на 17,64 и 18,02 процентных пункта соответственно, и оказывается эффективным в нисходящих задачах, таких как маршрутизация запросов.
Разногласие ансамбля широко используется как прокси для эпистемической неопределенности в сегментации медицинских изображений. На практике многие исследования формируют ансамбли с помощью K-блочной перекрестной проверки (CV), но называют их «глубокими ансамблями» (DE). Поскольку участники CV обучаются на разных подмножествах данных, их разногласие смешивает изменчивость, обусловленную инициализацией генератора случайных чисел, с эффектами, связанными с изменением набора данных, что может изменить интерпретацию неопределенности. Мы анализируем недавние исследования по неопределенности в сегментации и обнаруживаем, что несоответствия между терминологией и реализацией встречаются часто. Затем мы сравниваем стандартный ансамбль из 5-блочной CV с ансамблем DE из 5 участников (фиксированный обучающий набор, разные случайные начальные значения) при идентичных остальных конфигурациях на трех наборах данных для сегментации с несколькими экспертами, охватывающих три модальности. Мы оцениваем неопределенность с точки зрения калибровки, обнаружения ошибок, моделирования неоднозначности и устойчивости к сдвигу распределения. Ансамбли DE обеспечивают ту же точность сегментации, одновременно улучшая калибровку и обнаружение ошибок, тогда как ансамбли CV иногда сильнее коррелируют с межэкспертной вариабельностью на изученных наборах данных. Таким образом, построение ансамбля следует выбирать в соответствии с исследовательским вопросом: DE — для задач, ориентированных на надежность (например, выборочное перенаправление/обнаружение ошибок), а ансамбли CV — как прокси для неоднозначности. Мы предоставляем легковесную модификацию nnU-Net, позволяющую обучать DE в рамках стандартного конвейера.
В последние годы метод Muon стал доминирующим подходом для обучения больших языковых моделей и, в более широком смысле, трансформеров. Принципиальное отличие от стандартных методов градиентного спуска заключается в замене обычной матрицы обновления \(M = U\Sigma V^\top\) на её полярный множитель \(UV^\top\). В данной работе мы рассматриваем класс обновлений, подобных Muon, где матрица \(M\) заменяется на \(U\Sigma^p V^\top\) с некоторым параметром \(p\). Мы называем эту операцию «спектральным формированием» и разрабатываем теорию выбора \(p\), зависящего от: (a) локальной кривизны функции потерь, (b) шума, обусловленного стохастическими градиентами и шумом меток, и (c) этапа обучения. Наши теоретические и экспериментальные результаты выявляют ранее упущенное из виду поведение: положительные значения \(p\) полезны на ранних этапах, поскольку усиливают направления с высокой кривизной и ускоряют сжатие сигнала, тогда как слабо отрицательные \(p\) помогают на более поздних этапах, перераспределяя силу обновления в сторону направлений с низкой кривизной, которые всё ещё содержат полезные обучающие сигналы. Основываясь на этом выводе, мы предлагаем DynMuon — эффективный метод динамического спектрального формирования, который изменяет \(p\) от положительных до слабо отрицательных значений в процессе обучения. Обширные эксперименты на моделях различных размеров, архитектур и условий обучения показывают, что DynMuon стабильно достигает более низких потерь на валидации по сравнению с Muon, сокращая количество шагов, необходимых для достижения той же целевой потери, на 10,6–26,5%.
Токенизация подслов является неотъемлемой частью современных больших языковых моделей (LLM), однако ее конкретный вклад в эффективность обучения и производительность моделей остается плохо изученным. В данной работе мы разделяем эффекты токенизации подслов, изолируя их в рамках контролируемого конвейера предварительного обучения на уровне байтов. Мы формулируем и проверяем гипотезы по различным аспектам, включая пропускную способность выборок, масштабирование словаря и лингвистический априор границ подслов. Моделируя эти эффекты в байтовом окружении, мы уточняем понимание того, почему модели на подсловах превосходят модели на сырых байтах, и предлагаем идеи для улучшения предварительного обучения будущих байтовых моделей и моделей на подсловах. В частности, наши эксперименты подчеркивают критическую роль повышенной пропускной способности обучения и интеграции границ подслов в качестве явных априорных знаний или индуктивных смещений.