HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

42 papers found

Mega-ASR: К распознаванию речи в дикой природе² через масштабирование симуляции акустики реального мира
Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

May 19

ByZhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

110

Несмотря на стремительный прогресс в области автоматического распознавания речи (ASR) и больших аудио-языковых моделей, надёжное распознавание в реальных условиях остаётся ограниченным из-за «акустического узкого места устойчивости»: модели зачастую теряют акустическую основу и порождают пропуски или галлюцинации при сильных композиционных искажениях. Мы предлагаем Mega-ASR — унифицированную среду для ASR в естественных условиях, объединяющую масштабируемое построение составных данных с прогрессивной оптимизацией от акустики к семантике. Представляем Voices-in-the-Wild-2M, охватывающий 7 классических акустических явлений и 54 физически правдоподобных композиционных сценария, и обучаем Mega-ASR с помощью прогрессивной контролируемой точной настройки от акустики к семантике и оптимизации политики с двойной детализацией, управляемой WER. Обширные эксперименты показывают, что Mega-ASR достигает значительных преимуществ перед предыдущими передовыми системами на эталонных тестах ASR в неблагоприятных условиях (45,69% против 54,01% на VOiCES R4-B-F и 21,49% против 29,34% на NOIZEUS Sta-0). В сложных композиционных акустических сценариях Mega-ASR дополнительно обеспечивает относительное снижение WER более чем на 30% по сравнению с сильными базовыми моделями с открытым и закрытым исходным кодом, формируя масштабируемую парадигму для устойчивого ASR в естественных условиях.

Video2GUI: синтез крупномасштабных траекторий взаимодействия для предобучения обобщенного GUI-агента
Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

May 14

ByWeimin Xiong, Shuhao Gu, Bowen Ye, Zihao Yue, Lei Li, Feifan Song, Sujian Li, Hao Tian

Недавние достижения в области мультимодальных больших языковых моделей стимулировали растущий интерес к агентам графических пользовательских интерфейсов (GUI), однако их обобщение по-прежнему ограничено нехваткой крупномасштабных обучающих данных, охватывающих разнообразные реальные приложения. Существующие наборы данных в значительной степени полагаются на дорогостоящую ручную разметку и, как правило, ограничены узкими областями. Для решения этой проблемы мы предлагаем Video2GUI — полностью автоматизированную среду, которая извлекает обоснованные траектории взаимодействия с GUI непосредственно из немаркированных интернет-видео. Video2GUI использует стратегию фильтрации от грубого к точному для выявления высококачественных обучающих видео по GUI и преобразования их в структурированные траектории агентов. Применяя этот конвейер к 500 миллионам записей метаданных видео, мы создаем WildGUI — крупномасштабный набор данных, содержащий 12 миллионов траекторий взаимодействия, охватывающих более 1500 приложений и веб-сайтов. Предварительное обучение Qwen2.5-VL и Mimo-VL на WildGUI обеспечивает стабильное улучшение на 5–20% по нескольким эталонным тестам привязки к GUI и действий, достигая или превосходя современные показатели. Мы предоставим в открытый доступ как набор данных WildGUI, так и конвейер Video2GUI для поддержки будущих исследований агентов GUI.

Улучшение генерации бесконечных кадров без обучения для согласованных длинных видео
Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

May 18

ByX. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang

Без значительных вычислительных затрат метод генерации длинных видео без обучения направлен на то, чтобы базовые модели генерации видео могли создавать более длинные видеоролики. Кадровые авторегрессионные архитектуры, такие как FIFO-diffusion, обладают преимуществом генерации бесконечно длинных видео с постоянным потреблением памяти. Однако несоответствие между обучением и инференсом, а также сложность поддержания долгосрочной согласованности ограничивают эффективное использование базовых моделей. Для решения этих проблем мы предлагаем MIGA — новый метод генерации бесконечно длинных видео. Во-первых, мы предлагаем эффективный двухэтапный механизм выравнивания, который уменьшает разрыв между обучением и инференсом за счёт сокращения избыточного шумового интервала, подаваемого на модель. Затем мы вводим инновационный механизм двойного повышения согласованности, где метод саморефлексии корректирует ранние кадры с высоким уровнем шума, а метод долгосрочного кадрового направления использует поздние кадры с низким уровнем шума и широким охватом для управления генерацией, совместно улучшая временную согласованность. Обширные эксперименты на VBench и NarrLV демонстрируют передовую производительность MIGA. Страница нашего проекта доступна по адресу https://xiaokunfeng.github.io/miga_homepage/.

IndusAgent: Усиление промышленного обнаружения аномалий с открытым словарем с помощью агентных инструментов
IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

May 20

ByRongbin Tan, Fangfang Lin, Zhenlong Yuan, Min Qiu, Kejin Cui, Mengmeng Wang, Yi Wang, Zijian Song, Zhiyuan Wang, Jiyuan Wang, Yue Wang, Shuhan Song§, Huawei Cao

Мультимодальные большие языковые модели (MLLMs) продемонстрировали выдающуюся способность соединять визуальное восприятие и текстовые рассуждения, обеспечивая понимание с нулевым обучением (zero-shot) в различных промышленных сценариях. Однако их эффективность в обнаружении промышленных аномалий с открытым словарем (IAD) часто ограничена рассуждениями, не согласованными с предметной областью, и галлюцинированными структурными выводами. Для решения этих проблем мы предлагаем IndusAgent — агентную структуру с инструментальной поддержкой для обнаружения аномалий с открытым словарем. В частности, мы сначала создаем Indus-CoT — структурированный набор данных, который объединяет глобальные визуальные наблюдения, локальные фрагменты высокого разрешения и априорные представления экспертов о норме, обеспечивая обучение модели на строгих траекториях промышленного контроля. Основываясь на этом, IndusAgent динамически координирует набор внешних инструментов, включая динамическое вырезание областей, улучшение высокочастотных признаков и поиск априорных данных, что позволяет агенту активно разрешать визуальные неоднозначности и распутывать тонкие аномалии. Кроме того, мы вводим гейтированную цель обучения с подкреплением, которая совместно оптимизирует классификацию аномалий, точность локализации, определение типа аномалии и эффективное использование инструментов, обеспечивая вызов инструментов только тогда, когда это полезно. Обширные оценки на пяти эталонных наборах промышленных аномалий, включая MVTec-AD, VisA, MPDD, DTD и SDD, показывают, что IndusAgent достигает передового уровня производительности zero-shot среди всех существующих методов, что подтверждает нашу робастность и способность к обобщению.

Достаточно минимального обучения RLVR: экстраполяция LLM с помощью траекторий ранга 1
You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

May 20

ByZhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) стало доминирующей парадигмой для улучшения рассуждений в больших языковых моделях (LLM), однако лежащая в основе геометрия результирующих траекторий параметров остается недостаточно изученной. В данной работе мы демонстрируем, что весовые траектории RLVR являются чрезвычайно низкоранговыми и высокопредсказуемыми. В частности, мы обнаружили, что основная часть прироста производительности на downstream-задачах описывается аппроксимацией дельт параметров ранга 1, причем величина этой проекции изменяется почти линейно с количеством шагов обучения. Основываясь на этом, мы предлагаем простой и вычислительно эффективный метод RELEX (REinforcement Learning EXtrapolation), который оценивает подпространство ранга 1 по короткому окну наблюдения и экстраполирует будущие контрольные точки с помощью линейной регрессии, не требуя обученной модели. На трех моделях (Qwen2.5-Math-1.5B, Qwen3-4B-Base и Qwen3-8B-Base) RELEX создает контрольные точки, которые соответствуют или превосходят производительность RLVR как на внутридоменных, так и на внедоменных бенчмарках, требуя всего 15% шагов полного обучения RLVR. Примечательно, что RELEX способен экстраполировать далеко за пределы окна наблюдения без затрат на обучение, предсказывая контрольные точки вплоть до 10–20-кратного превышения наблюдаемого префикса с сохранением улучшения (например, наблюдение только первых 50 шагов и экстраполяция до 1000 шагов). Наш абляционный анализ подтверждает минимальную достаточность RELEX: ни увеличение ранга подпространства, ни применение нелинейного моделирования не дают дальнейшего прироста в экстраполяции. Наконец, мы показываем, что успех RELEX обусловлен эффектом «шумоподавления»: проецируя обновления на подпространство ранга 1, модель отбрасывает стохастический оптимизационный шум, который в противном случае ухудшал бы производительность при экстраполяции. Наш код доступен по адресу https://github.com/weizhepei/RELEX.

OScaR: Бритва Оккама для экстремального квантования KV-кэша в LLM и не только
OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond

May 19

ByZunhai Su, Rui Yang, Chao Zhang, Yaxiu Liu, Yifan Zhang, Wei Wu, Jing Xiong, Dayou Du, Xialie Zhuang, Yulei Qian, Yuchen Xie, Yik-Chung Wu, Hongxia Yang, Ngai Wong

Стремительное развитие в направлении долгоконтекстного рассуждения и мультимодального интеллекта сделало объем памяти, занимаемый кешем ключ-значение (KV), основным узким местом для эффективного развертывания. Хотя устоявшееся поканальное квантование эффективно справляется с внутренними канальными выбросами в тензорах Key, его эффективность снижается при экстремальном сжатии. В данной работе мы пересматриваем внутренние ограничения парадигмы поканального квантования как с эмпирической, так и с теоретической точек зрения. Наш анализ выявляет дисбаланс нормы токенов (Token Norm Imbalance, TNI) как основное узкое место для точности квантования. Мы демонстрируем, что TNI систематически усиливает ошибки, когда общие параметры квантования должны охватывать группы токенов, демонстрирующие существенные различия в нормах. Вместо того чтобы полагаться на сложные конвейеры квантования (например, TurboQuant), мы предлагаем OScaR (Omni-Scaled Canalized Rotation) — точную и легковесную структуру сжатия кеша KV для X-LLM (т.е. текстовых, мультимодальных и омнимодальных LLM). Развивая поканальную парадигму, OScaR использует Canalized Rotation с последующим Omni-Token Scaling для эффективного и действенного смягчения вариативности по последовательному измерению, вызванной TNI, что дополнительно поддерживается нашей оптимизированной системной архитектурой и ядрами CUDA. Обширные оценки на X-LLM показывают, что OScaR последовательно превосходит существующие методы и достигает почти безошибочной производительности при квантовании INT2, утверждая себя как надежную, малосложную и универсальную структуру, определяющую новый фронт Парето. По сравнению с базовым уровнем BF16 FlashDecoding-v2 наша реализация OScaR достигает заметного ускорения декодирования до 3,0 раз, снижает объем памяти в 5,3 раза и увеличивает пропускную способность в 4,1 раза. Код OScaR доступен по адресу https://github.com/ZunhaiSu/OScaR-KV-Quant.

Обзор больших аудиоязыковых моделей: обобщение, надежность и перспективы
A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook

May 18

ByKaiwen Luo, Zhenhong Zhou, Leo Wang, Liang Lin, Yang Xiao, Tianyu Shao, Yuanhe Zhang, Yuxuan Li, Miao Yu, Kailin Lyu, Jiaming Zhang, Dongrui Liu, Li Sun, Yueming Wu, Kai Li, Ting Dang, Xiaojun Jia, Rohan Kumar Das, Xinfeng Li, Siyuan Liang, Qiufeng Wang, Xingjun Ma, Jing Chen, Kun Wang, Junhao Dong, Deqing Zou, Yu Cheng, Xia Hu, Zhigang Zeng, Sen Su, Yang Liu, Yu-Gang Jiang, Philip S. Yu, Yew-Soon Ong

Фундаментальные возможности, заложенные большими языковыми моделями (БЯМ), проложили путь для мультимодальных больших языковых моделей (МБЯМ), среди которых большие аудиоязыковые модели (БАЯМ) являются ключевыми для реализации универсального слухового интеллекта. Несмотря на их выдающуюся производительность, рост возможностей БАЯМ значительно опережает разработку системных фреймворков, обеспечивающих их надежность. Данный обзор представляет всестороннее исследование эндогенных механизмов БАЯМ, детально рассматривая архитектурные инновации и алгоритмы согласования, способствующие возникновению рассуждений. В частности, мы анализируем, как переход к унифицированным сквозным архитектурам и интеграция непрерывных акустических сигналов по своей сути расширяют поверхность атаки. Для строгой оценки рисков в рамках этих парадигм мы создаем всеобъемлющую таксономию надежности, классифицируя критические уязвимости, такие как межмодальный взлом, скрытые акустические бэкдоры и утечка биометрической конфиденциальности. Мы рассматриваем современное состояние по шести аналитическим направлениям: галлюцинации, устойчивость, безопасность, конфиденциальность, справедливость и аутентификация. Глубокий дисбаланс между зрелым ландшафтом атак и недостаточно развитыми защитными механизмами дополнительно подтверждает критические пробелы в надежности и многомерные риски, с которыми сталкивается слуховой интеллект. В завершение мы предлагаем стратегическую дорожную карту, рекомендующую архитектуры «эшелонированной защиты», причинное моделирование слухового мира и инженерию внутренних представлений для преодоления разрыва между эмпирической производительностью и внутренне надежным слуховым интеллектом. Наш проект загружен на GitHub: https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.

Нужны двое: взаимодополняющая самодистилляция для контекстной целостности в LLM
It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

May 18

BySangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang

Контекстуальная целостность (CI) определяет конфиденциальность не просто как сокрытие информации, а как регулирование информационных потоков в соответствии с нормами данного контекста. Поскольку большие языковые модели все чаще развертываются в качестве персональных агентов, обрабатывающих конфиденциальные рабочие процессы, соблюдение CI становится критически важным. Однако даже передовые модели остаются ненадежными при принятии решений о раскрытии информации, а существующие стратегии смягчения часто ухудшают производительность основной задачи. Чтобы преодолеть этот компромисс между конфиденциальностью и полезностью, мы предлагаем SELFCI — дополнительную структуру самодистилляции, которая разделяет подавление информации и решение задачи. SELFCI совместно оптимизирует две независимые обратные KL-дивергенции по различным распределениям учителя, полученным из обратной связи: одна поощряет сохранение релевантной для задачи информации ради полезности, а другая обеспечивает минимальное и соответствующее раскрытие. Эта дополнительная формулировка порождает целевую функцию вида «произведение экспертов» (Product-of-Experts, PoE), согласовывая политику с пересечением требований к производительности и конфиденциальности. Эмпирические оценки показывают, что SELFCI, не полагаясь на дорогостоящий внешний контроль, последовательно превосходит конкурентоспособные базовые линии, такие как алгоритмы онлайн-обучения с подкреплением (например, GRPO). Эти тенденции дополнительно распространяются на сценарии вне домена, включающие агентные рабочие процессы и накопленный приватный контекст, что позволяет предположить, что SELFCI предоставляет практический путь к согласованию с CI.

Toto 2.0: Прогнозирование временных рядов вступает в эру масштабирования
Toto 2.0: Time Series Forecasting Enters the Scaling Era

May 19

ByEmaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

Мы показываем, что фундаментальные модели временных рядов масштабируются: единый рецепт обучения обеспечивает надежные улучшения качества прогнозирования от 4M до 2.5B параметров. Мы выпускаем Toto 2.0, семейство из пяти моделей прогнозирования с открытыми весами, обученных по этому рецепту. Семейство Toto 2.0 устанавливает новый передовой уровень на трех эталонах прогнозирования: BOOM, наш эталон наблюдаемости; GIFT-Eval, стандартный эталон общего назначения; и недавний устойчивый к загрязнению эталон TIME. В этом отчете описываются наши экспериментальные результаты и подробно излагаются проектные решения, лежащие в основе Toto 2.0: его архитектура и рецепт обучения, обучающие данные, а также конвейер переноса гиперпараметров u-muP. Все пять базовых контрольных точек выпускаются под лицензией Apache 2.0.

Mix-Quant: Квантованный префиллинг, точное декодирование для агентных LLM
Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

May 19

ByHaiquan Lu, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

LLM-агенты недавно стали мощной парадигмой для решения сложных задач посредством планирования, использования инструментов, извлечения из памяти и многошагового взаимодействия. Однако такие агентные рабочие процессы часто вносят существенные накладные расходы на стороне ввода, что делает вычислительно интенсивный этап префиллинга ключевым узким местом в длинноконтекстном многошаговом инференсе. В данной работе мы предлагаем Mix-Quant — простую и эффективную фазово-ориентированную систему квантизации для быстрого агентного инференса. Мы сначала исследуем FP4-квантизацию в агентных рабочих процессах LLM и замечаем, что квантизация всего процесса инференса может привести к значительному ухудшению качества. Напротив, этап префиллинга демонстрирует значительную избыточность при квантизации и поэтому может быть квантизован с минимальной потерей точности, несмотря на то, что является доминирующим источником вычислительной нагрузки. Основываясь на этом наблюдении, мы применяем высокопроизводительную NVFP4-квантизацию к фазе префиллинга, сохраняя при этом точность BF16 для декодирования. Разделяя ускорение префиллинга и качество декодирования, Mix-Quant объединяет фазово-ориентированную алгоритмическую квантизацию с аппаратно-эффективным выполнением NVFP4 для смягчения узкого места инференса в LLM-агентах. Обширные эксперименты на бенчмарках с длинным контекстом и агентных задачах показывают, что Mix-Quant в значительной степени сохраняет качество выполнения задач, обеспечивая при этом заметное повышение эффективности, достигая ускорения до 3 раз на этапе префиллинга.

Генеративное рекурсивное рассуждение
Generative Recursive Reasoning

May 20

ByJunyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn

Как следует реализовать расширенные вычисления в будущих нейронных системах рассуждения? Рекурсивные модели рассуждения (Recursive Reasoning Models, RRM) предлагают многообещающую альтернативу авторегрессивному расширению последовательности за счет итеративного уточнения скрытого состояния с использованием общих функций перехода. Однако существующие RRM в значительной степени детерминированы: они следуют единственной латентной траектории и сходятся к одному предсказанию. Мы представляем Генеративные рекурсивные модели рассуждения (Generative Recursive Reasoning Models, GRAM) — фреймворк, который превращает рекурсивное скрытое рассуждение в вероятностные вычисления с множественными траекториями. GRAM моделирует рассуждение как стохастическую латентную траекторию, что позволяет получать множество гипотез, альтернативные стратегии решения и масштабирование на этапе вывода как за счет глубины рекурсии, так и за счет параллельной выборки траекторий. Это дает генеративную модель со скрытыми переменными, поддерживающую условное рассуждение через p_θ(y|x) и, при фиксированных или отсутствующих входных данных, безусловную генерацию через p_θ(x). Обученная с помощью амортизированного вариационного вывода, GRAM превосходит детерминированные рекуррентные и рекурсивные базовые модели в задачах структурированного рассуждения и удовлетворения ограничений с множеством решений, а также демонстрирует способность к безусловной генерации. https://ahn-ml.github.io/gram-website

CutVerse: Композиционный бенчмарк GUI-агентов для постпродакшн редактирования медиа
CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

May 19

ByHaobo Hu, Xiangwu Guo, Zhiheng Chen, Difei Gao, Haotian Liu, Libiao Jin, Qi Mao

Хотя агенты графического интерфейса пользователя (GUI-агенты) достигли значительного прогресса в навигации по веб-страницам и выполнении базовых задач операционных систем, их возможности в профессиональных творческих рабочих процессах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем Cutverse — эталонный тест, предназначенный для систематической оценки автономных GUI-агентов в реалистичных средах постпроизводства медиаконтента. Мы собрали экспертные демонстрации по 7 профессиональным приложениям (например, Premiere Pro, Photoshop), охватывающие 186 сложных долгосрочных задач, основанных на аутентичных рабочих процессах редактирования, включающих плотные мультимодальные интерфейсы и тесно связанные последовательности взаимодействий. Для поддержки масштабируемой оценки мы разработали легковесный анализатор, который преобразует необработанные записи экрана и низкоуровневые журналы взаимодействий в структурированные, композиционные траектории действий GUI с точной привязкой. Обширные оценки показывают, что существующие агенты достигают лишь 36,0% успешности выполнения задач в реалистичных задачах редактирования медиа, что подчеркивает сложности, связанные с комплексными долгосрочными рабочими процессами постпроизводства в нашем эталонном тесте. Хотя современные модели демонстрируют многообещающее пространственное позиционирование, мультимодальное согласование и скоординированное выполнение действий, они остаются ограниченными в отношении долгосрочной надежности и предметно-ориентированного планирования.

Uni-Edit: Интеллектуальное редактирование — это общая задача для унифицированной настройки модели.
Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

May 20

ByDian Zheng, Manyuan Zhang, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li

В настоящее время улучшение унифицированных мультимодальных моделей (UMM) в части способностей к пониманию, генерации и редактированию изображений в основном опирается на смешанное мультизадачное обучение. Из-за внутренних конфликтов между задачами такая стратегия требует сложных многоэтапных конвейеров, массового смешивания данных и различных ухищрений для балансировки, что приводит лишь к компромиссу в производительности, а не к истинному взаимному усилению. Чтобы разрушить эту парадигму, мы предлагаем Uni-Edit — интеллектуальную задачу редактирования изображений, которая служит первой общей задачей для настройки UMM. В отличие от сложных смешанных конвейеров, Uni-Edit одновременно улучшает производительность по всем трём способностям, используя только одну задачу, один этап обучения и один набор данных. В частности, мы в первую очередь выявляем, что редактирование изображений является изначально идеальной общей задачей, так как оно естественным образом требует как визуального понимания, так и генерации. Однако существующие данные для редактирования опираются на упрощённые инструкции, которые существенно недоиспользуют способность модели к пониманию. Чтобы решить эту проблему, мы впервые представляем автоматизированный и масштабируемый конвейер синтеза данных для интеллектуального редактирования, преобразующий разнообразные данные VQA в сложные и эффективные инструкции по редактированию со встроенными вопросами и вложенной логикой. Это приводит к созданию набора данных Uni-Edit-148k, объединяющего разнообразные инструкции, требующие интенсивного рассуждения, с высококачественными отредактированными изображениями. Обширные эксперименты на BAGEL и Janus-Pro демонстрируют, что настройка исключительно на Uni-Edit обеспечивает всестороннее улучшение всех трёх способностей без каких-либо вспомогательных операций.

LLMEval-Logic: верифицированный решателем китайский бенчмарк для оценки логического рассуждения LLM с состязательным усилением
LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

May 19

ByMing Zhang, Qiyuan Peng, Yinxi Wei, Yujiong Shen, Kexin Tan, Yuhui Wang, Zhenghao Xiang, Junjie Ye, Zhangyue Yin, Zhiheng Xi, Shihan Dou, Tao Gui, Maxm Pan, Ruizhi Yang, Qi Zhang, Xuanjing Huang

Оценка больших языковых моделей (LLM) на предмет логического рассуждения на естественном языке необходима, поскольку задачи, регулируемые правилами, требуют строгого следования выводам из заданных предпосылок. Многие существующие тестовые наборы для логического рассуждения создаются путем шаблонизации элементов на естественном языке на основе выбранных формул, предоставляют лишь грубые или непроверенные формальные аннотации и в настоящее время быстро насыщаются передовыми моделями рассуждения. Мы представляем LLMEval-Logic — китайский тестовый набор для логического рассуждения, построенный на реалистичных ситуационных сценариях. Его конвейер включает предварительное авторское создание и экспертную проверку элементов на естественном языке вместе с эталонными формализациями, верификацию аннотированных ответов с помощью Z3, разработку экспертных рубрик для оценки перехода от естественного языка к формальному, а также усиление отобранных элементов посредством замкнутого состязательного процесса. Тестовый набор выпускается в двух парных подмножествах: базовое подмножество (Base) из 246 элементов, поставляемое с 1400 разработанными экспертами атомами рубрик, и сложное подмножество (Hard) из 190 элементов с 938 многошаговыми подвопросами для замкнутых модельных пространств. Оценка 14 передовых LLM на LLMEval-Logic выявляет существенные пробелы в современных моделях: лучшая модель достигает лишь 37,5% точности на сложных элементах, а даже при наличии эталонных символов наивысший совместный показатель формализации Z3+Рубрика среди оцененных моделей достигает лишь 60,16%. Наш тестовый набор общедоступен по адресу https://github.com/llmeval/LLMEval-Logic.

HRM-Text: Эффективное предобучение за пределами масштабирования
HRM-Text: Efficient Pretraining Beyond Scaling

May 20

ByGuan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori

Современная парадигма предварительного обучения больших языковых моделей опирается на огромные вычислительные ресурсы и сырые тексты интернет-масштаба, что создает значительный барьер для фундаментальных исследований. В отличие от этого, биологические системы демонстрируют высокую эффективность обучения на основе примеров благодаря многоуровневой обработке во временных масштабах, например, функциональной организации фронтопариетальной петли. Вдохновляясь этим, мы представляем HRM-Text, которая заменяет стандартные трансформеры иерархической рекуррентной моделью (HRM), разделяющей вычисления на медленно изменяющиеся стратегические и быстро изменяющиеся исполнительные слои. Для стабилизации этой глубокой рекуррентности в моделировании языка мы вводим MagicNorm и разогрев глубокого распределения кредита. Кроме того, вместо стандартного предварительного обучения на сырых текстах мы обучаем исключительно на парах инструкция-ответ с использованием цели завершения задачи и маскировки PrefixLM. В качестве эмпирического доказательства существования эффективного предварительного обучения модель HRM-Text с 1 миллиардом параметров, обученная с нуля всего на 40 миллиардах уникальных токенов и бюджете в 1500 долларов, достигает 60,7% на MMLU, 81,9% на ARC-C, 82,2% на DROP, 84,5% на GSM8K и 56,2% на MATH. Несмотря на использование примерно в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше оценочных вычислительных ресурсов по сравнению со стандартными базовыми моделями, HRM-Text показывает конкурентоспособные результаты с открытыми моделями на 2–7 миллиардов параметров. Эти результаты демонстрируют, что совместное проектирование архитектур и целей может радикально снизить соотношение вычислительных затрат и производительности, делая предварительное обучение с нуля доступным для более широкого исследовательского сообщества.

Оценка временного семантического кэширования и оптимизации рабочих процессов в агентных конвейерах планирования и выполнения
Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines

May 20

ByAlimurtaza Mustafa Merchant, Krish Veera, Sajal Kumar Goyla, Shambhawi Bhure, Dhaval Patel, Kaoutar El Maghraoui

Рабочие процессы управления промышленными активами чувствительны к задержкам, поскольку один запрос пользователя может требовать координации данных датчиков, рабочих нарядов, видов отказов, инструментов прогнозирования и агентов предметной области. Мы оцениваем эту задачу на AssetOpsBench (AOB) — промышленном эталонном тесте для агентов, конвейер планирования и выполнения которого выявляет многократные накладные расходы на обнаружение инструментов, планирование LLM, выполнение инструментов MCP и итоговое обобщение. Существующие методы кэширования LLM, такие как повторное использование кэша KV и семантическое кэширование на основе эмбеддингов, были разработаны для обслуживания чат-ботов и дают сбой, когда достоверность вывода зависит от времени, актива или параметров датчиков. Мы предлагаем два взаимодополняющих уровня оптимизации для конвейеров планирования и выполнения AOB: временной семантический кэш и набор оптимизаций рабочего процесса MCP, объединяющих кэширование обнаружения инструментов на диске и параллельное выполнение шагов с учетом зависимостей. Оптимизации рабочего процесса MCP соответствовали ускорению в 1,67x и снижению медианной сквозной задержки примерно на 40,0%, в то время как временной кэш в эталонном тесте достиг медианного ускорения в 30,6x при попаданиях в кэш. Помимо ускорения, наши результаты выявляют конкретный вид сбоя чистого семантического кэширования для запросов с большим количеством параметров, предоставляя критический анализ того, как выбор методов кэширования взаимодействует с корректностью оценки в эталонных тестах агентов на основе MCP.

О границах и возможностях ИИ-рецензентов: анализ рецензий на статьи семейства Nature с участием 45 ученых-экспертов
On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

May 20

BySeungone Kim, Dongkeun Yoon, Kiril Gashteovski, Juyoung Suk, Jinheon Baek, Pranjal Aggarwal, Ian Wu, Viktor Zaverkin, Spase Petkoski, Daniel R. Schrider, Ilija Dukovski, Francesco Santini, Biljana Mitreska, Yong Jeong, Kyeongha Kwon, Young Min Sim, Dragana Manasova, Arthur Porto, Biljana Mojsoska, Makoto Takamoto, Marko Shuntov, Ruoqi Liu, Hyunjoo Jenny Lee, Niyazi Ulas Dinç, Yehhyun Jo, Sunkyu Han, Chungwoo Lee, Huishan Li, Esther H. R. Tsai, Ergun Simsek, Khushboo Shafi, Yeonseung Chung, Jihye Park, Aleksandar Shulevski, Henrik Christiansen, Yoosang Son, Elly Knight, Amanda Montoya, Jeongyoun Ahn, Christian Langkammer, Heera Moon, Changwon Yoon, Nikola Stikov, Mooseok Jang, Edward Choi, Junhan Kim, Yeon Sik Jung, Woo Youn Kim, Jae Kyoung Kim, Ishraq Md Anjum, Hyun Uk Kim, Drew Bridges, Carolin Lawrence, Xiang Yue, Alice Oh, Akari Asai, Sean Welleck, Graham Neubig

По мере развития возможностей ИИ рецензенты на основе искусственного интеллекта начинают применяться в научном рецензировании, однако их компетентность и надежность остаются под вопросом: многие ученые рассматривают их лишь как вероятностные системы, не обладающие экспертизой для оценки исследований, в то время как другие исследователи более оптимистично настроены в отношении их готовности, не имея конкретных доказательств. Понимание того, в чем ИИ-рецензенты сильны, в чем их слабости и какие проблемы остаются нерешенными, имеет решающее значение. Однако существующие оценки ИИ-рецензентов сосредоточены на том, совпадают ли их заключения с заключениями людей (например, согласованность оценок, прогнозирование принятия), что недостаточно для характеристики их возможностей и ограничений. В данной статье мы восполняем этот пробел с помощью крупномасштабного исследования с экспертным аннотированием, в котором 45 ученых в области физических, биологических и медицинских наук потратили 469 часов на оценку 2960 отдельных замечаний (каждое из которых касается одного конкретного аспекта статьи) из написанных людьми и сгенерированных ИИ рецензий на 82 статьи из семейства журналов Nature по критериям корректности, значимости и достаточности доказательств. По композитному показателю всех трех измерений рецензент на основе GPT-5.2 превосходит лучшего человеческого рецензента каждой статьи (60,0% против 48,2%, p = 0,009), в то время как все три ИИ-рецензента (включая Gemini 3.0 Pro и Claude Opus 4.5) превосходят худшего человеческого рецензента по каждому из измерений. Точные замечания ИИ также чаще оцениваются как значимые и хорошо обоснованные и выявляют отдельный набор из 26% проблем, которые не поднимаются людьми. Однако ИИ-рецензенты демонстрируют гораздо большее перекрытие, чем люди (21% против 3% для пар рецензентов), и имеют 16 повторяющихся слабых мест, не свойственных людям, таких как ограниченное знание подполей, отсутствие управления длинным контекстом при работе с несколькими файлами и чрезмерно критичная позиция по второстепенным вопросам. В целом, наши результаты позиционируют текущих ИИ-рецензентов как дополнение, а не замену человеческим рецензентам.

OcclusionFormer: упорядочивание Z-порядка для генерации изображений на основе компоновки
OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation

May 20

ByZiye Li, Henghui Ding

Последние модели преобразования компоновки в изображение достигли значительного прогресса в области пространственной управляемости. Однако они по-прежнему испытывают трудности с взаимным перекрытием объектов. При наложении ограничивающих рамок большинство существующих методов не содержат явной информации о перекрытии, что делает генерацию в областях пересечения принципиально неоднозначной и затрудняет определение сложных отношений перекрытия. В результате в перекрывающихся областях часто возникают переплетённые текстуры или физически непоследовательные наслоения. Для решения этой проблемы мы сначала создаём SA-Z — крупномасштабный набор данных, обогащённый явным порядком перекрытия и попиксельными аннотациями. Основываясь на предложенном наборе данных, мы представляем OcclusionFormer — новую структуру на основе диффузионного трансформера с учётом перекрытия, которая явно моделирует Z-приоритет путём разделения экземпляров и их компоновки с помощью объёмного рендеринга. Кроме того, для обеспечения точной пространственной детализации мы вводим функцию потерь выравнивания с запросом, которая явно контролирует отдельные экземпляры и улучшает семантическую согласованность. Предложенный метод эффективно снижает неоднозначность в перекрывающихся областях, обеспечивает корректные зависимости от перекрытия и сохраняет структурную целостность, что приводит к существенному повышению точности в разнообразных сценах.

Stable Audio 3
Stable Audio 3

May 18

ByZach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Stable Audio 3 представляет собой семейство быстрых латентных диффузионных моделей (small, medium, large) для генерации и редактирования аудио переменной длины. Поскольку наши модели способны генерировать несколько минут аудио, генерация переменной длины является ключевым фактором для предотвращения издержек, связанных с созданием полноразмерных аудиофрагментов для коротких звуков. Мы также поддерживаем инпейнтинг, обеспечивающий целевую редакцию аудио и продолжение коротких записей. Наши латентные диффузионные модели работают поверх нового семантико-акустического автоэнкодера, который проецирует аудио в компактное латентное пространство, обеспечивая эффективную диффузионную генерацию при сохранении верности аудио и стимулировании семантической структуры в латентном представлении. Наконец, мы применяем состязательный посттренинг для ускорения инференса и повышения качества генерации, сокращая количество шагов инференса при улучшении верности и соответствия запросу. Модели Stable Audio 3 обучаются на лицензированных данных и данных по лицензии Creative Commons, чтобы генерировать музыку и звуки менее чем за 2 секунды на GPU H200 и менее чем за несколько секунд на MacBook Pro M4. Мы публикуем веса моделей small и medium, которые могут работать на потребительском оборудовании, вместе с их пайплайном обучения и инференса.

Сшитая модель ценности для согласования диффузионных моделей
Stitched Value Model for Diffusion Alignment

May 19

ByHyojun Go, Hyungjin Chung, Prune Truong, Goutam Bhat, Li Mi, Zhaochong An, Zixiang Zhao, Dominik Narnhofer, Serge Belongie, Federico Tombari, Konrad Schindler

Для практического использования диффузионные или основанные на потоке генеративные модели должны быть согласованы с целевыми вознаграждениями, такими как точность соответствия запросу или эстетические предпочтения. Такое согласование представляет сложность, поскольку вознаграждение определяется для чистых выходных изображений, но процедура согласования требует оценок функции ценности на зашумленных промежуточных скрытых представлениях. Существующие методы прибегают к приближениям стиля Твиди или Монте-Карло, балансируя смещение оценки с вычислительными затратами: оценки Твиди эффективны, но смещены, тогда как оценки Монте-Карло более точны, но требуют дорогостоящих прогонов. Естественной альтернативой могла бы быть обучаемая функция ценности, однако остается открытым вопрос, как эффективно обучить сильную и общую модель ценности, предназначенную именно для зашумленных скрытых представлений. Здесь мы предлагаем StitchVM — фреймворк сшивания моделей, который эффективно переносит модели вознаграждения, предварительно обученные на чистых изображениях, в режим зашумленных скрытых представлений. StitchVM начинается с существующей усеченной модели вознаграждения в пиксельном пространстве и присоединяет к ней в качестве головы замороженную магистраль диффузии. От модели в пиксельном пространстве полученный гибрид наследует тщательно предварительно обученную устойчивую способность к вознаграждению; от магистрали диффузии он наследует ее естественную способность обрабатывать зашумленные скрытые представления. Процедура сшивания исключительно легковесна: например, сшивание и дообучение CLIP ViT-L и SD 3.5 Medium занимает всего 10 часов на GPU. Поднимая мощные модели вознаграждения из пиксельного пространства в пространство скрытых представлений, StitchVM открывает новый стиль согласования диффузии: вместо грубого, но дорогого пообразного приближения функции ценности, правильная функция для реальных зашумленных скрытых представлений строится один раз, а затем амортизируется на множество выборок и итераций. Мы показываем, что этот подход дает улучшения в широком спектре методов последующего управления и пост-обучения: DPS становится в 3,2 раза быстрее, при этом пиковое использование памяти GPU сокращается вдвое, а DiffusionNFT — в 2,3 раза быстрее.

OCTOPUS: Оптимизированный KV-кэш для трансформеров посредством октаэдрической параметризации при оптимальном квантовании с квадратичной ошибкой
OCTOPUS: Optimized KV Cache for Transformers via Octahedral Parametrization Under optimal Squared error quantization

May 20

ByMark Boss, Vikram Voleti, Simon Donné, Shimon Vainer

Кэш ключ-значение (KV) доминирует в пропускной способности и объеме памяти при длинноконтекстном авторегрессивном инференсе. Недавние кодеки с предварительным вращением (TurboQuant, PolarQuant) показывают, что структурированное случайное вращение с последующим покоординатным скалярным квантователем, согласованным с аналитически вычислимым маргинальным распределением, является почти оптимальным рецептом для сжатия KV. OCTOPUS развивает эту парадигму с помощью совместного квантования повернутых троек координат. Направление каждой тройки отображается на квадрат с помощью октаэдрической параметризации, а два полученных координата и норма тройки квантуются по Ллойду–Максу с учетом маргинальных распределений, согласованных с реализацией. Оптимизация среднеквадратичной ошибки на тройку дает строго неравномерное распределение битов, зависящее только от общей размерности ключей. Мы обнаруживаем, что оптимум качества в конечной размерности при переборе параметров является постоянным на каждом реальном декодере, который мы тестируем. Кодек является независимым от данных, онлайн и детерминированным при заданном начальном значении. Для текста, видео и аудио OCTOPUS соответствует или превосходит все предыдущие кодеки с вращением при каждой заявленной разрядности и метрике, причем отрыв увеличивается по мере уменьшения количества битов для экстремального сжатия. Кроме того, объединенная реализация Triton восстанавливает ключи на лету без материализации несжатого ключа, поэтому кодек не добавляет пропускной способности или задержки при декодировании по сравнению с существующим деквантованием. Страница проекта: https://octopus-quant.github.io/

Обучение на основе языковой обратной связи с помощью вариационной дистилляции политики
Learning from Language Feedback via Variational Policy Distillation

May 18

ByYang Li, Erik Nijkamp, Semih Yavuz, Shafiq Joty

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) страдает от разреженных сигналов результата, что создает серьезные узкие места в исследовании для сложных задач рассуждения. Недавние методы самодистилляции на политике пытаются решить эту проблему, используя языковую обратную связь для генерации плотного супервизорного управления на уровне токенов. Однако эти подходы полагаются на фиксированного, пассивного учителя для интерпретации обратной связи. По мере улучшения политики ученика возможности учителя по нулевой оценке достигают плато, что в конечном итоге останавливает дальнейшее обучение. Чтобы преодолеть это, мы предлагаем Вариационную Дистилляцию Политики (VPD) — фреймворк, который формализует обучение на основе языковой обратной связи как задачу вариационного EM-алгоритма (Expectation-Maximization). VPD совместно развивает обе политики: на E-шаге учитель активно уточняется на результатах траекторий с помощью адаптивного обновления с доверительной областью, преобразуя текстовую обратную связь в динамически улучшаемое целевое распределение токенов. На M-шаге ученик интернализует это плотное распределенное руководство на своих собственных развертываниях на политике. Постоянно улучшая способность учителя извлекать действенные сигналы из текстовой критики, VPD преодолевает ограничения пассивной дистилляции. При оценке на различных источниках диагностической обратной связи для задач научного рассуждения и генерации кода VPD последовательно превосходит как стандартный RLVR, так и существующие базовые методы самодистилляции. Наконец, путем стресс-тестирования нашего фреймворка на строгих математических рассуждениях и в режимах холодного старта мы освещаем фундаментальные границы самодистилляции на основе обратной связи по сравнению с чистым обучением с подкреплением, управляемым средой.

MOCHA: Многокритериальный чебышёвский отжиг для оптимизации навыков агента
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

May 19

ByMd Mehrab Tanjim, Jayakumar Subramanian, Xiang Chen, Branislav Kveton, Subhojyoti Mukherjee, Anlan Zhang, Sungchul Kim, Somdeb Sarkhel, Sunav Choudhury

Агенты на основе больших языковых моделей (LLM) организуют поведение через навыки — структурированные спецификации на естественном языке, которые определяют, как агент рассуждает, извлекает информацию и отвечает. В отличие от монолитных промптов, навыки представляют собой многопольные артефакты, подчиняющиеся жестким ограничениям платформы: поля описаний обрезаются для маршрутизации, тела инструкций сжимаются с помощью прогрессивного раскрытия, а сосуществующие навыки конкурируют за ограниченные контекстные окна. Эти ограничения делают оптимизацию навыков по своей сути многоцелевой: навык должен одновременно максимизировать производительность задачи и удовлетворять лимитам платформы. Тем не менее, существующие оптимизаторы промптов либо игнорируют эти компромиссы, либо сводят их к взвешенной сумме, упуская парето-оптимальные варианты в невыпуклых областях целевых функций. Мы представляем MOCHA (Multi-Objective Chebyshev Annealing — многоцелевой чебышёвский отжиг), который заменяет одноцелевой отбор чебышёвской скаляризацией, охватывающей весь фронт Парето, включая невыпуклые области, в сочетании с экспоненциальным отжигом, обеспечивающим переход от исследования к эксплуатации. В наших экспериментах с шестью разнообразными навыками агентов — где все методы используют один и тот же многоцелевой оператор мутации, а базовые методы получают идентичную текстовую обратную связь по каждой цели — существующие оптимизаторы не могут улучшить исходный навык в 4 из 6 задач: 1000 прогонов не дают никакого прогресса. MOCHA прорывается в каждой задаче, достигая относительного улучшения средней корректности на 7,5% по сравнению с сильнейшим базовым методом (до 14,9% на FEVER и 10,4% на TheoremQA), обнаруживая при этом вдвое больше парето-оптимальных вариантов навыков.

PanoWorld: Генеративная пространственная модель мира для согласованного синтеза панорамы всего дома
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19

ByJinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi

Генерация согласованного виртуального тура по всему дому на основе плана этажа и стилевого референса требует как фотореалистичных панорам, так и пространственной согласованности между видами. Чисто 2D-генераторы создают привлекательные отдельные панорамы, но при изменении точки обзора переосмысливают геометрию и материалы, тогда как монолитная 3D-генерация становится дорогостоящей и теряет мелкие текстуры в масштабе нескольких комнат. Мы представляем PanoWorld — генеративную пространственную мировую модель, которая рассматривает синтез всего дома как авторегрессионную генерацию узловых 360-градусных панорам, соответствующую дискретной навигации, используемой в реальных продуктах виртуальных туров. PanoWorld использует 3D-оболочку, полученную из плана этажа, в качестве глобального геометрического прокси, и динамический кэш 3D Gaussian Splatting в качестве визуализируемой пространственной памяти. Прямосвязная панорамная LRM, предназначенная для метрических многокомнатных 360-градусных входных данных, преобразует сгенерированные панорамы в локальные обновления 3DGS, в то время как Room-aware Group Attention подавляет межкомнатную интерференцию признаков. Топологически-осведомленная прогрессивная стратегия кэширования объединяет эти локальные обновления без повторной реконструкции всей истории. За счет разделения управления геометрией на основе оболочки и визуальной памяти, отображаемой из кэша, PanoWorld сохраняет качество высокочастотного 2D-синтеза, одновременно улучшая согласованность компоновки и материалов между узлами. Ссылка на проект: https://jjrcn.github.io/PanoWorld-project-home/

Феномен необучаемости в RLVR для языковых моделей
The Unlearnability Phenomenon in RLVR for Language Models

May 16

ByYulin Chen, He He, Chen Zhao

Обучение с подкреплением с верифицируемой наградой (RLVR) доказало свою эффективность для улучшения способности больших языковых моделей (LLM) к рассуждению. Однако динамика обучения RLVR остается недостаточно изученной. В данной работе мы выявляем противоречащий интуиции феномен: среди сложных примеров, с которыми модель изначально испытывает трудности, значительная часть остается необучаемой, даже при наличии корректных траекторий. Для понимания этого явления мы сначала демонстрируем, что существующие методы оптимизации и сэмплирования не устраняют необучаемость. С помощью анализа градиентов на перекрестных примерах мы показываем, что необучаемые примеры имеют фундаментальную проблему представления, характеризующуюся низкой градиентной схожестью с остальными примерами и необобщаемыми паттернами рассуждения. Далее мы показываем, что дефекты представления трудно устранить в RL, поскольку аугментация данных не улучшает градиентную схожесть. Наше исследование дает первую систематическую характеристику необучаемых данных в обучении RLVR и выявляет фундаментальные ограничения современных подходов RL для задач рассуждения. Код и данные доступны по адресу https://github.com/yulinchen99/unlearnability-rlvr.

SpecBench: Измерение манипуляции вознаграждением в долгосрочных агентах программирования
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

May 20

ByBingchen Zhao, Dhruv Srikanth, Yuxiang Wu, Zhengyao Jiang

Поскольку кодовые агенты с долгосрочным горизонтом генерируют больше кода, чем способен проверить любой разработчик, контроль сводится к единственной поверхности: автоматизированному набору тестов. В такой конфигурации естественным образом возникает эксплуатация вознаграждения (reward hacking), когда агент оптимизируется на прохождение тестов, отклоняясь от истинной цели пользователя. Мы изучаем это явление, разбивая задачи разработки программного обеспечения на три части: (i) описание спецификации на естественном языке; (ii) видимые проверочные тесты (visible validation tests), которые изолированно проверяют заданные функции; (iii) отложенные тесты (held-out tests), которые комбинируют те же самые функции, имитируя реальное использование. Опираясь на спецификацию и видимые наборы проверочных тестов, истинный агент мог бы сгенерировать решение, проходящее также все отложенные тесты. Поэтому для количественной оценки эксплуатации вознаграждения мы используем разрыв в процентах прохождения между этими двумя наборами. На основе данной методологии мы представляем SpecBench — эталонный набор, состоящий из 30 задач системного программирования: от задач с коротким горизонтом (например, построение JSON-парсера) до задач со сверхдлинным горизонтом (например, создание целой операционной системы с нуля). Крупномасштабные эксперименты выявляют устойчивую закономерность: хотя каждый передовой агент насыщает видимый набор тестов, эксплуатация вознаграждения сохраняется, причем меньшие модели демонстрируют больший разрыв на отложенных наборах. Разрыв также резко увеличивается с ростом длины задачи: он возрастает на 28 процентных пунктов при каждом десятикратном увеличении объёма кода. Сбои варьируются от тонкой изоляции функций до намеренных эксплойтов, включая «компилятор» хеш-таблицы из 2900 строк, который запоминает входные данные тестов. SpecBench предоставляет принципиальный полигон для оценки того, создают ли кодовые агенты реально работающие системы или лишь подыгрывают тестовым наборам, которые предоставляют разработчики.

MINTEval: Оценка памяти при интерференции множества целей в долгосрочных агентных системах
MINTEval: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

May 19

ByHyunji Lee, Justin Chih-Yao Chen, Joykirat Singh, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal

Реальные агенты функционируют в условиях длительных и эволюционирующих горизонтов, где информация многократно обновляется и может интерферировать между воспоминаниями, требуя точного воспроизведения и агрегированного рассуждения на основе множества фрагментов информации. Однако существующие эталонные тесты сосредоточены на статическом, независимом воспроизведении и не учитывают динамические взаимодействия между эволюционирующими воспоминаниями. В данной работе мы исследуем, как современные агенты с усиленной памятью справляются с реалистичными, насыщенными интерференцией задачами в долгосрочных сценариях, охватывающих различные предметные области и типы вопросов. Мы представляем MINTEval (Long-Horizon Memory under INTerference Evaluation — оценка долговременной памяти в условиях интерференции), эталонный тест, включающий (1) длинные, сильно взаимосвязанные контексты с часто обновляемой информацией, вызывающие значительную интерференцию; (2) разнообразные предметные области (отслеживание состояний, многовитковый диалог, правки в Википедии и коммиты в GitHub), позволяющие оценить обобщение на разные области; и (3) разнообразные типы вопросов, оценивающие устойчивость к интерференции, включая (i) задачи на припоминание одной цели, требующие извлечения конкретного объекта из длинных контекстов, и (ii) задачи на агрегирование множества целей, требующие рассуждения на основе нескольких релевантных фрагментов информации. В целом, MINTEval содержит 15,6 тыс. пар вопрос-ответ в долгосрочных контекстах, средняя длина которых составляет 138,8 тыс. токенов, а максимальная достигает 1,8 млн токенов на один экземпляр. Мы оцениваем 7 репрезентативных систем, включая стандартные LLM с длинным контекстом, RAG и агентные фреймворки с усиленной памятью. Во всех системах наблюдается стабильно низкая производительность (средняя точность 27,9%), особенно на вопросах, требующих агрегированного рассуждения по множеству свидетельств. Наш анализ показывает, что производительность в первую очередь ограничивается извлечением информации и построением памяти. Кроме того, современные системы памяти с трудом воспроизводят и обрабатывают более ранние факты, которые были изменены или подверглись интерференции со стороны последующего контекста; при этом точность снижается по мере увеличения числа промежуточных обновлений.

Условная эквивалентность DPO и RLHF: Неявное допущение, Режимы сбоев и Доказуемая сонастройка
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

May 20

ByZhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo

Прямая оптимизация предпочтений (DPO) стала популярной альтернативой обучению с подкреплением на основе человеческой обратной связи (RLHF), предлагая теоретическую эквивалентность при более простой реализации. Мы доказываем, что эта эквивалентность является условной, а не универсальной, и зависит от неявного предположения, которое на практике часто нарушается: оптимальная политика RLHF должна предпочитать одобряемые человеком ответы. Когда это предположение не выполняется, DPO оптимизирует относительное преимущество по сравнению с эталонной политикой, а не абсолютное согласование с человеческими предпочтениями, что приводит к патологическому схождению, при котором политики уменьшают потери DPO, одновременно предпочитая неодобряемые ответы. Мы характеризуем условия, при которых это предположение нарушается, показываем существование нежелательного пространства решений и доказываем, что в таких случаях DPO и RLHF оптимизируют принципиально разные целевые функции. Для решения этой проблемы мы вводим Оптимизацию предпочтений с ограничениями (CPO), дополняющую RLHF ограничениями для обеспечения доказуемого согласования. Кроме того, мы предлагаем геометрическую интерпретацию через ранжирование с мягким зазором, показывая, что DPO реализует маржинальное ранжирование с потенциально отрицательными целевыми значениями. Наш теоретический анализ устанавливает, когда гарантии DPO выполняются, и предлагает решения, сохраняющие простоту при доказуемом согласовании. Комплексные эксперименты на стандартных бенчмарках демонстрируют, что CPO достигает современной производительности. Код доступен по адресу: https://github.com/visitworld123/CPO.

Mem-π: Адаптивная память путем обучения тому, когда и что генерировать
Mem-π: Adaptive Memory through Learning When and What to Generate

May 20

ByXiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

Мы представляем Mem-π — фреймворк для адаптивной памяти в агентах на основе больших языковых моделей (LLM), где полезные инструкции генерируются по запросу, а не извлекаются из внешних хранилищ памяти. Существующие агенты с дополненной памятью обычно полагаются на поиск по сходству в банках эпизодической памяти или библиотеках навыков, возвращая статические записи, которые часто не соответствуют текущему контексту. В отличие от этого, Mem-π использует выделенную языковую или языко-визуальную модель с собственными параметрами, отдельную от нижележащего агента, для генерации контекстно-зависимых инструкций для сложных задач. Принимая во внимание текущий контекст агента, модель совместно решает, когда создавать инструкции и какие именно инструкции генерировать. Мы обучаем её с помощью раздельного по решению и содержанию обучения с подкреплением (RL), что позволяет ей воздерживаться от генерации, когда она не принесёт пользы, а в противном случае — выдавать краткие и полезные инструкции. На различных бенчмарках для агентов, охватывающих веб-навигацию, использование инструментов в терминале и текстовое воплощённое взаимодействие, Mem-π последовательно превосходит базовые методы, основанные на поиске и на предварительно оптимизированном с помощью RL запоминании, достигая более 30% относительного улучшения в задачах веб-навигации.

UniT: Объединенное обучение геометрии с групповым авторегрессионным трансформером
UniT: Unified Geometry Learning with Group Autoregressive Transformer

May 20

ByHaotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua

Современные модели прямого распространения значительно продвинули восприятие геометрии для восстановления плотной трёхмерной структуры по сенсорным наблюдениям. Однако их ключевые возможности остаются раздробленными между несколькими несовместимыми парадигмами, включая восприятие в реальном времени, реконструкцию в автономном режиме, мультимодальную интеграцию, масштабируемость на большие временные горизонты и оценку метрического масштаба. Мы представляем UniT — единую модель, построенную на основе нового Группового авторегрессионного трансформера, которая переосмысливает эти, казалось бы, разрозненные возможности в рамках единого подхода. Ключевая идея заключается в том, чтобы рассматривать группы сенсорных наблюдений как базовые авторегрессионные единицы и предсказывать соответствующие карты точек безанкерным и адаптивным по масштабу способом. Более конкретно, разнообразные конфигурации обзора как в онлайн-, так и в офлайн-режимах естественным образом объединяются в едином процессе групповой авторегрессии. Изменяя размер группы, онлайн-режим работает за несколько авторегрессионных шагов с группами из одного кадра, тогда как офлайн-режим агрегирует группу из нескольких кадров за один прямой проход. Одновременно механизм кэширования KV по типу очереди обеспечивает ограниченную авторегрессионную память на больших временных горизонтах. Это достигается за счёт уменьшения дальних зависимостей от ранних кадров с помощью безанкерного реляционного моделирования, что позволяет отбрасывать устаревшую память на лету. Для улучшения обобщения метрического масштаба на разные сцены в рамках данного подхода вводится адаптивная по масштабу геометрическая функция потерь. Она сочетает относительные геометрические ограничения с частичным членом абсолютного масштаба, неявно регулируя глобальный масштаб и индуцируя постепенный переход от масштабно-инвариантной геометрии к решениям с метрическим масштабом. Вместе с выделенным модулем модального внимания для интеграции вспомогательных модальностей UniT достигает передовых результатов в унифицированном восприятии геометрии, что подтверждено на десяти эталонах, охватывающих семь репрезентативных задач.

SaaSBench: Исследование границ возможностей кодирующих агентов в долгосрочной инженерии корпоративных SaaS-решений
SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

May 17

ByQingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao

По мере того как автономные агенты программирования становятся способными выполнять задачи со всё более длинным горизонтом, они постепенно демонстрируют потенциал для осуществления сквозной разработки программного обеспечения. Хотя существующие бенчмарки в последнее время эволюционировали от локального редактирования кода до генерации проектов с нуля, они по-прежнему ограничены структурно упрощёнными одностековыми приложениями. В результате они не способны отразить гетерогенные среды, полностековую оркестрацию и системную сложность реальных корпоративных SaaS-систем, оставляя существенный пробел в оценке агентов в условиях реалистичных инженерных ограничений. Для заполнения этого пробела мы представляем SaaSBench — первый бенчмарк, предназначенный для исследования границ возможностей ИИ-агентов в корпоративной SaaS-инженерии. Охватывая 30 сложных задач в 6 доменах SaaS с 5370 узлами валидации, он включает 8 языков программирования, 6 баз данных и 13 фреймворков, тщательно отражая реальную гетерогенность программного обеспечения. Кроме того, мы разработали гибридную парадигму оценки с учётом зависимостей, адаптированную для сложных систем с длинным горизонтом и многокомпонентной связностью, что обеспечивает детальную и воспроизводимую оценку. Ключевым образом, наши обширные эксперименты выявили поразительное наблюдение: основным узким местом для современных агентов является не генерация изолированной логики кода, а успешная настройка и интеграция многокомпонентной системы. Более 95% отказов задач происходят до того, как агенты достигают глубокой бизнес-логики, причём модели часто становятся жертвами излишней самоуверенности и преждевременно останавливаются на этапе фундаментальной настройки системы или попадают в неэффективные циклы отладки. Мы надеемся, что SaaSBench послужит практичным и сложным испытательным полигоном для стимулирования эволюции надёжных системных агентов программирования. Код доступен по адресу https://github.com/ShadeCloak/SaaSbench.

PlanningBench: Генерация масштабируемых и проверяемых данных планирования для оценки и обучения больших языковых моделей
PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

May 20

ByZiliang Zhao, Zenan Xu, Shuting Wang, Hongjin Qian, Yan Lei, Minda Hu, Zhao Wang, Shihan Dou, Zhicheng Dou, Pluto Zhou

Планирование является фундаментальной способностью больших языковых моделей (БЯМ), поскольку сложные задачи требуют от моделей координации целей, ограничений, ресурсов и долгосрочных последствий в выполнимые и верифицируемые решения. Существующие бенчмарки по планированию, однако, как правило, рассматривают данные по планированию как фиксированные наборы примеров, а не как контролируемые цели генерации. Это ограничивает покрытие сценариев, привязывает сложность к поверхностным прокси вместо структурных источников и предоставляет ограниченную поддержку для масштабируемой генерации, автоматической верификации или обучения, ориентированного на планирование. Мы представляем PlanningBench — фреймворк для генерации масштабируемых, разнообразных и верифицируемых данных по планированию как для оценки, так и для обучения. PlanningBench исходит из реальных сценариев планирования и абстрагирует практические рабочие процессы в структурированную таксономию, включающую более 30 типов задач, подзадач, семейств ограничений и факторов сложности. Руководствуясь этой таксономией, конвейер синтеза на основе ограничений создает самодостаточные задачи планирования с адаптивным контролем сложности, фильтрацией качества и пошаговыми проверочными списками на уровне экземпляров. Это переводит конструирование данных по планированию от фиксированных бенчмарков к контролируемой генерации, сохраняя при этом привязку к реалистичным задачам. Мы используем PlanningBench для оценки открытых и закрытых передовых БЯМ и обнаруживаем, что современные модели по-прежнему испытывают трудности с созданием полных решений в условиях связанных ограничений. Помимо оценки, обучение с подкреплением на верифицированных данных PlanningBench улучшает производительность на неизвестных бенчмарках по планированию и более широких задачах следования инструкциям. Дальнейший анализ показывает, что детерминированные или хорошо заданные оптимальные решения обеспечивают более четкие сигналы вознаграждения и более стабильную динамику обучения. В целом, PlanningBench предоставляет контролируемый источник данных по планированию для диагностики и улучшения обобщаемых способностей к планированию у БЯМ.

Согласование безопасности как непрерывное обучение: смягчение налога на согласование с помощью ортогональной проекции градиента
Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

May 12

ByGuanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

Посттренировочное согласование безопасности может улучшить безвредность и соответствие политикам больших языковых моделей (Large Language Models, LLMs), но также способно снизить общую полезность — явление, часто описываемое как налог на согласование. Мы изучаем этот компромисс через призму постоянного обучения: последовательные этапы согласования подвергают модель смещённым распределениям данных и целям, а их градиенты могут interfere с направлениями, поддерживающими ранее приобретённые общие способности. Данный подход не утверждает, что вся деградация согласования имеет единую причину; скорее, он предлагает полезный механизм первого порядка для смягчения одного важного источника регрессии возможностей. Мы предлагаем ортогональное проектирование градиентов для безопасного согласования (Orthogonal Gradient Projection for Safety Alignment, OGPSA) — лёгкое правило обновления, которое оценивает низкоранговое референтное подпространство на основе градиентов небольшого набора данных с общими способностями и удаляет из каждого градиента безопасности компоненту, лежащую в этом подпространстве. Полученное обновление является крутейшим локальным направлением спуска по безопасности при соблюдении ограничений сохранения первого порядка в отношении целей референтного набора. OGPSA совместим со стандартными конвейерами посттренировки и не требует крупномасштабного воспроизведения, хотя и вводит периодические вычисления референтных градиентов. В контекстах контролируемой точной настройки (Supervised Fine-Tuning, SFT), прямой оптимизации предпочтений (Direct Preference Optimization, DPO) и последовательного применения SFT→DPO OGPSA улучшает наблюдаемый компромисс между безопасностью и полезностью по сравнению со стандартными базовыми методами. В конвейере последовательного SFT→DPO средний прирост производительности увеличивается с 33,98% до 42,74% для Qwen2.5-7B-Instruct и с 19,74% до 32,98% для Llama3.1-8B-Instruct. Мы открыли исходный код по адресу https://github.com/SunGL001/OGPSA.

Обучение с электронным управлением: ограниченное автономное обучение в условиях нагрузки для стабильности и эффективности
Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency

May 18

ByAnis Radianis

Современное обучение языковых моделей все чаще сталкивается с нестабильностью, деградацией качества и нерациональным расходованием вычислительных ресурсов, особенно в условиях агрессивных темпа обучения (learning rate), масштаба и нагрузок на время выполнения. В данной статье представлен Learn-by-Wire Guard (LBW-Guard) — ограниченный автономный слой управления обучением, работающий поверх AdamW. LBW-Guard не заменяет правило обновления оптимизатора, а наблюдает за телеметрией обучения, выявляет режимы, чувствительные к нестабильности, и применяет ограниченное управление выполнением оптимизатора, сохраняя при этом фиксированные цели обучения. Мы оцениваем LBW-Guard в стрессовом и робастном наборе тестов на базе Qwen2.5 с использованием WikiText-103, где Qwen2.5-7B служит эмпирическим эталоном, выполняются сравнения по размеру модели с Qwen2.5-3B и Qwen2.5-14B, стресс-тесты темпа обучения, тесты с клиппированием градиентов, а также полнопараметрическая проверка работоспособности на TinyLlama-1B без LoRA. В эталонной конфигурации с моделью 7B LBW-Guard снижает финальную перплексию с 13,21 до 10,74, что представляет собой улучшение на 18,7%, при этом общее время сокращается с 392,54 с до 357,02 с, т.е. ускорение в 1,10 раза. При более сильных стрессовых нагрузках на темп обучения AdamW деградирует до финальной перплексии 1885,24 при LR=3e-3 и 659,76 при LR=1e-3, тогда как LBW-Guard остается обучаемым с показателями 11,57 и 10,33 соответственно. Базовые методы клиппирования градиентов не воспроизводят этот эффект. Эти результаты подтверждают ограниченный системный вывод: обучение LLM, чувствительное к стабильности, может выиграть от наличия управляющего слоя над оптимизатором. LBW-Guard демонстрирует, что ограниченное управление во время выполнения может сохранять продуктивное использование вычислительных ресурсов в условиях стресса, оставаясь при этом отличным от замены оптимизатора и локального подавления градиентов.

TIDE: Эффективный и без потерь инференс MoE диффузионной LLM с I/O-aware выгрузкой экспертов
TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload

May 19

ByZhiben Chen, Youpeng Zhao, Yang Sui, Jun Wang, Yuzhang Shang

Диффузионные большие языковые модели (dLLM) стали конкурентоспособной альтернативой авторегрессионным (AR) моделям, обеспечивая более эффективное использование аппаратного обеспечения и двунаправленный контекст благодаря параллельному декодированию на уровне блоков. Однако с дальнейшим масштабированием dLLM на основе архитектур смеси экспертов (MoE) их развертывание на устройствах с ограниченными ресурсами остается открытой задачей. Существующие AR-методы часто приводят либо к непомерным накладным расходам на ввод-вывод, либо к существенным вычислительным узким местам. В данной работе мы предлагаем TIDE — новую ресурсоэффективную систему вывода, использующую временную устойчивость активаций экспертов в процессе диффузии внутри блока. А именно, мы используем временную устойчивость активаций экспертов в процессе диффузии внутри блока и вводим интервальную стратегию обновления экспертов, которая обновляет размещение экспертов с учетом ввода-вывода. Для обеспечения оптимальной производительности мы формулируем планирование вывода как задачу математического программирования, решая задачу поиска оптимального интервала, минимизирующего трафик ввода-вывода и вычисления на ЦП. Наиболее важно то, что TIDE представляет собой оптимизацию без потерь, не требующую обучения модели, и обеспечивает «бесплатный обед» — ускорение вывода dLLM. В системе с одним GPU-CPU мы демонстрируем, что TIDE достигает улучшения пропускной способности до 1,4 и 1,5 раз по сравнению с предыдущими базовыми методами на моделях LLaDA2.0-mini и LLaDA2.0-flash соответственно.

iTryOn: Освоение интерактивной видео-виртуальной примерки с пространственно-семантическим руководством
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20

ByJun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang

Видео-виртуальная примерка (VVT) направлена на бесшовную замену предмета одежды на человеке в видео на новый. Хотя существующие методы достигли значительного прогресса в поддержании временной согласованности, они преимущественно ограничены неинтерактивными сценариями, где модели просто демонстрируют одежду. Это ограничение упускает из виду важнейший аспект реального представления одежды: активное взаимодействие человека с одеждой. Для преодоления этого разрыва мы представляем и формализуем новую сложную задачу: интерактивную видео-виртуальную примерку (Interactive VVT), где субъекты в видео активно взаимодействуют со своей одеждой. Эта задача вводит уникальные проблемы, выходящие за рамки простого сохранения текстуры, включая: (1) разрешение семантической неоднозначности взаимодействий на основе стандартной информации о позе и (2) изучение сложных деформаций одежды из видео, где интерактивные моменты редки и кратки. Для решения этих проблем мы предлагаем iTryOn — новую структуру, построенную на основе крупномасштабного диффузионного трансформера видео. iTryOn впервые использует многоуровневый механизм внедрения взаимодействия для управления генерацией сложной динамики. На пространственном уровне мы вводим независимый от одежды трехмерный приор руки, обеспечивающий детальное руководство для точного контакта руки с одеждой, что эффективно устраняет пространственную неоднозначность. На семантическом уровне iTryOn использует глобальные подписи для общего контекста и привязанные ко времени подписи действий для локализованных взаимодействий, синхронизируемые с помощью нашего нового позиционного вращательного внедрения с учетом действий (A-RoPE). Обширные эксперименты демонстрируют, что iTryOn не только достигает производительности на уровне передовых методов на традиционных эталонах VVT, но и устанавливает значительное преимущество в новой интерактивной среде, что знаменует собой важный шаг к более динамичным и управляемым виртуальным примеркам.

Переосмысление визуальной атрибуции для рассуждения на основе рентгенограмм грудной клетки в больших визуально-языковых моделях
Rethinking Visual Attribution for Chest X-ray Reasoning in Large Vision Language Models

May 19

ByGuangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

Крупные языковые модели с визуальным восприятием (Large Vision Language Models, LVLMs) демонстрируют перспективность в медицинских приложениях, однако их неспособность достоверно обосновывать ответы на основе визуальных доказательств вызывает серьёзные опасения относительно клинической надёжности. Хотя методы визуальной атрибуции широко используются для объяснения предсказаний LVLM, остаётся в значительной степени непроверенным, отражают ли эти объяснения фактические визуальные свидетельства, лежащие в основе решения модели, поскольку эталонные аннотации внутреннего процесса рассуждения модели обычно недоступны. Мы рассматриваем этот вопрос в контексте анализа рентгенограмм грудной клетки (CXR), разрабатывая каузальную оценочную структуру, в которой сохраняются только те образцы CXR-VQA (вопросно-ответная система по рентгенограммам грудной клетки), для которых область, аннотированная экспертом, с помощью контрфактического редактирования подтверждается как каузально ответственная за предсказание модели. Используя эту структуру для 11 методов атрибуции, шести открытых LVLM и двух режимов вывода (прямой ответ и пошаговое рассуждение), мы обнаруживаем, что существующие методы атрибуции часто не могут выявить доказательства, используемые LVLM. Для преодоления этой неудачи мы предлагаем MedFocus — метод атрибуции на основе концепций, который локализует клинически значимые анатомические области с помощью несбалансированного оптимального транспорта и измеряет их каузальное влияние на выходы модели через целевые вмешательства. MedFocus обеспечивает пространственную, концептуальную и токеновую атрибуцию, значительно превосходя предыдущие методы, что является шагом в направлении более надёжной атрибуции для медицинских LVLM. Наши данные и код доступны по адресу https://github.com/gzxiong/medfocus/.

DrawMotion: генерация 3D-движений человека по рисунку от руки
DrawMotion: Generating 3D Human Motions by Freehand Drawing

May 20

ByTao Wang, Lei Jin, Zhihua Wu, Qiaozhi He, Jiaming Chu, Yu Cheng, Junliang Xing, Jian Zhao, Shuicheng Yan, Li Wang

Генерация движений по тексту, которая переводит текстовые описания в движения человека, сталкивается с проблемой: пользователям часто сложно точно передать задуманные движения только с помощью текста. Для решения этой задачи в статье предлагается DrawMotion — эффективная диффузионная модель, предназначенная для многоусловных сценариев. DrawMotion генерирует движения на основе как обычного текстового условия, так и нового условия ручного рисунка, которые обеспечивают семантический и пространственный контроль над генерируемыми движениями соответственно. В частности, мы подходим к задаче генерации мелкозернистых движений с трех точек зрения: 1) условие ручного рисунка. Для точного захвата задуманных пользователем движений без необходимости утомительного текстового ввода мы разрабатываем алгоритм автоматической генерации нарисованных от руки схематичных человечков для различных форматов наборов данных; 2) слияние множества условий. Мы предлагаем Модуль Множественных Условий (ММУ), интегрированный в диффузионный процесс, позволяющий модели использовать все возможные комбинации условий при снижении вычислительной сложности по сравнению с традиционными подходами; 3) безучебное управление. Примечательно, что ММУ в DrawMotion обеспечивает нахождение его промежуточных признаков в непрерывном пространстве, что позволяет градиентам направляющего классификатора обновлять эти признаки и тем самым согласовывать генерируемые движения с намерениями пользователя, сохраняя при этом достоверность. Количественные эксперименты и опросы пользователей показывают, что подход с ручным рисованием сокращает время пользователя примерно на 46,7% при генерации движений, соответствующих его воображению. Код, демонстрации и соответствующие данные общедоступны по адресу https://github.com/InvertedForest/DrawMotion.

Выявление возможностей LLM с помощью кластеризации запросов, калиброванной по свидетельствам
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

May 16

ByFangzhou Wu, Sandeep Silwal, Qiuyi Zhang

Кластеризация запросов объединяет запросы в группы, отражающие общие латентные требования к способностям, что позволяет проводить оценку LLM с учетом способностей. Существующие методы кластеризации, которые в основном опираются на семантические таксономии или эмбеддинги, часто не способны уловить такие латентные требования к способностям из-за несоответствия между поверхностной семантикой и фактической производительностью модели. Мы предлагаем ECC — алгоритм, который калибрует априорные семантические эмбеддинги с помощью ограниченных апостериорных сравнений моделей, чтобы устранить разрыв между поверхностной семантикой и латентными требованиями к способностям. ECC характеризует каждый кластер с помощью профиля способностей, параметризованного моделью Брэдли-Терри, и использует обучаемые веса смеси для обработки запросов со смешанными требованиями к способностям, совместно обучая гибкую структуру кластеризации, учитывающую способности и поддерживающую вывод о способностях LLM для конкретных запросов. Обширные количественные и качественные оценки показывают, что ECC значительно улучшает качество ранжирования способностей LLM, превосходя базовые методы на основе человеческой разметки и эмбеддингов в среднем на 17,64 и 18,02 процентных пункта соответственно, и оказывается эффективным в нисходящих задачах, таких как маршрутизация запросов.

Затерянные в складках: когда перекрестная проверка не является глубоким ансамблем для оценки неопределенности
Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

May 18

ByKirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus

Разногласие ансамбля широко используется как прокси для эпистемической неопределенности в сегментации медицинских изображений. На практике многие исследования формируют ансамбли с помощью K-блочной перекрестной проверки (CV), но называют их «глубокими ансамблями» (DE). Поскольку участники CV обучаются на разных подмножествах данных, их разногласие смешивает изменчивость, обусловленную инициализацией генератора случайных чисел, с эффектами, связанными с изменением набора данных, что может изменить интерпретацию неопределенности. Мы анализируем недавние исследования по неопределенности в сегментации и обнаруживаем, что несоответствия между терминологией и реализацией встречаются часто. Затем мы сравниваем стандартный ансамбль из 5-блочной CV с ансамблем DE из 5 участников (фиксированный обучающий набор, разные случайные начальные значения) при идентичных остальных конфигурациях на трех наборах данных для сегментации с несколькими экспертами, охватывающих три модальности. Мы оцениваем неопределенность с точки зрения калибровки, обнаружения ошибок, моделирования неоднозначности и устойчивости к сдвигу распределения. Ансамбли DE обеспечивают ту же точность сегментации, одновременно улучшая калибровку и обнаружение ошибок, тогда как ансамбли CV иногда сильнее коррелируют с межэкспертной вариабельностью на изученных наборах данных. Таким образом, построение ансамбля следует выбирать в соответствии с исследовательским вопросом: DE — для задач, ориентированных на надежность (например, выборочное перенаправление/обнаружение ошибок), а ансамбли CV — как прокси для неоднозначности. Мы предоставляем легковесную модификацию nnU-Net, позволяющую обучать DE в рамках стандартного конвейера.

DynMuon: динамический взгляд на спектральное формирование мюона
DynMuon: A Dynamic Spectral Shaping View of Muon

May 16

ByFangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang

В последние годы метод Muon стал доминирующим подходом для обучения больших языковых моделей и, в более широком смысле, трансформеров. Принципиальное отличие от стандартных методов градиентного спуска заключается в замене обычной матрицы обновления \(M = U\Sigma V^\top\) на её полярный множитель \(UV^\top\). В данной работе мы рассматриваем класс обновлений, подобных Muon, где матрица \(M\) заменяется на \(U\Sigma^p V^\top\) с некоторым параметром \(p\). Мы называем эту операцию «спектральным формированием» и разрабатываем теорию выбора \(p\), зависящего от: (a) локальной кривизны функции потерь, (b) шума, обусловленного стохастическими градиентами и шумом меток, и (c) этапа обучения. Наши теоретические и экспериментальные результаты выявляют ранее упущенное из виду поведение: положительные значения \(p\) полезны на ранних этапах, поскольку усиливают направления с высокой кривизной и ускоряют сжатие сигнала, тогда как слабо отрицательные \(p\) помогают на более поздних этапах, перераспределяя силу обновления в сторону направлений с низкой кривизной, которые всё ещё содержат полезные обучающие сигналы. Основываясь на этом выводе, мы предлагаем DynMuon — эффективный метод динамического спектрального формирования, который изменяет \(p\) от положительных до слабо отрицательных значений в процессе обучения. Обширные эксперименты на моделях различных размеров, архитектур и условий обучения показывают, что DynMuon стабильно достигает более низких потерь на валидации по сравнению с Muon, сокращая количество шагов, необходимых для достижения той же целевой потери, на 10,6–26,5%.

Отделение преимуществ субсловной токенизации для обучения языковой модели с помощью побайтовой симуляции
Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

May 14

ByThéo Gigant, Bowen Peng, Jeffrey Quesnelle

Токенизация подслов является неотъемлемой частью современных больших языковых моделей (LLM), однако ее конкретный вклад в эффективность обучения и производительность моделей остается плохо изученным. В данной работе мы разделяем эффекты токенизации подслов, изолируя их в рамках контролируемого конвейера предварительного обучения на уровне байтов. Мы формулируем и проверяем гипотезы по различным аспектам, включая пропускную способность выборок, масштабирование словаря и лингвистический априор границ подслов. Моделируя эти эффекты в байтовом окружении, мы уточняем понимание того, почему модели на подсловах превосходят модели на сырых байтах, и предлагаем идеи для улучшения предварительного обучения будущих байтовых моделей и моделей на подсловах. В частности, наши эксперименты подчеркивают критическую роль повышенной пропускной способности обучения и интеграции границ подслов в качестве явных априорных знаний или индуктивных смещений.