HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

49 papers found

## ERNIE 5.0 技术报告
ERNIE 5.0 Technical Report

Feb 4

ByHaifeng Wang, Hua Wu, Tian Wu, Yu Sun, Jing Liu, Dianhai Yu, Yanjun Ma, Jingzhou He, Zhongjun He, Dou Hong, Qiwen Liu, Shuohuan Wang, Junyuan Shang, Zhenyu Zhang, Yuchen Ding, Jinle Zeng, Jiabin Yang, Liang Shen, Ruibiao Chen, Weichong Yin, Siyu Ding, Dai Dai, Shikun Feng, Siqi Bao, Bolei He, Yan Chen, Zhenyu Jiao, Ruiqing Zhang, Zeyu Chen, Qingqing Dang, Kaipeng Deng, Jiajun Jiang, Enlei Gong, Guoxia Wang, Yanlin Sha, Yi Liu, Yehan Zheng, Weijian Xu, Jiaxiang Liu, Zengfeng Zeng, Yingqi Qu, Zhongli Li, Zhengkun Zhang, Xiyang Wang, Zixiang Xu, Xinchao Xu, Zhengjie Huang, Dong Wang, Bingjin Chen, Yue Chang, Xing Yuan, Shiwei Huang, Qiao Zhao, Xinzhe Ding, Shuangshuang Qiao, Baoshan Yang, Bihong Tang, Bin Li, Bingquan Wang, Binhan Tang, Binxiong Zheng, Bo Cui, Bo Ke, Bo Zhang, Bowen Zhang, Boyan Zhang, Boyang Liu, Caiji Zhang, Can Li, Chang Xu, Chao Pang, Chao Zhang, Chaoyi Yuan, Chen Chen, Cheng Cui, Chenlin Yin, Chun Gan, Chunguang Chai, Chuyu Fang, Cuiyun Han, Dan Zhang, Danlei Feng, Danxiang Zhu, Dong Sun, Dongbo Li, Dongdong Li, Dongdong Liu, Dongxue Liu, Fan Ding, Fan Hu, Fan Li, Fan Mo, Feisheng Wu, Fengwei Liu, Gangqiang Hu, Gaofeng Lu, Gaopeng Yong, Gexiao Tian, Guan Wang, Guangchen Ni, Guangshuo Wu, Guanzhong Wang, Guihua Liu, Guishun Li, Haibin Li, Haijian Liang, Haipeng Ming, Haisu Wang, Haiyang Lu, Haiye Lin, Han Zhou, Hangting Lou, Hanwen Du, Hanzhi Zhang, Hao Chen, Hao Du, Hao Liu, Hao Zhou, Haochen Jiang, Haodong Tian, Haoshuang Wang, Haozhe Geng, Heju Yin, Hong Chen, Hongchen Xue, Hongen Liu, Honggeng Zhang, Hongji Xu, Hongwei Chen, Hongyang Zhang, Hongyuan Zhang, Hua Lu, Huan Chen, Huan Wang, Huang He, Hui Liu, Hui Zhong, Huibin Ruan, Jiafeng Lu, Jiage Liang, Jiahao Hu, Jiahao Hu, Jiajie Yang, Jialin Li, Jian Chen, Jian Wu, Jianfeng Yang, Jianguang Jiang, Jianhua Wang, Jianye Chen, Jiaodi Liu, Jiarui Zhou, Jiawei Lv, Jiaxin Zhou, Jiaxuan Liu, Jie Han, Jie Sun, Jiefan Fang, Jihan Liu, Jihua Liu, Jing Hu, Jing Qian, Jing Yan, Jingdong Du, Jingdong Wang, Jingjing Wu, Jingyong Li, Jinheng Wang, Jinjin Li, Jinliang Lu, Jinlin Yu, Jinnan Liu, Jixiang Feng, Jiyi Huang, Jiyuan Zhang, Jun Liang, Jun Xia, Jun Yu, Junda Chen, Junhao Feng, Junhong Xiang, Junliang Li, Kai Liu, Kailun Chen, Kairan Su, Kang Hu, Kangkang Zhou, Ke Chen, Ke Wei, Kui Huang, Kun Wu, Kunbin Chen, Lei Han, Lei Sun, Lei Wen, Linghui Meng, Linhao Yu, Liping Ouyang, Liwen Zhang, Longbin Ji, Longzhi Wang, Meng Sun, Meng Tian, Mengfei Li, Mengqi Zeng, Mengyu Zhang, Ming Hong, Mingcheng Zhou, Mingming Huang, Mingxin Chen, Mingzhu Cai, Naibin Gu, Nemin Qiu, Nian Wang, Peng Qiu, Peng Zhao, Pengyu Zou, Qi Wang, Qi Xin, Qian Wang, Qiang Zhu, Qianhui Luo, Qianwei Yang, Qianyue He, Qifei Wu, Qinrui Li, Qiwen Bao, Quan Zhang, Quanxiang Liu, Qunyi Xie, Rongrui Zhan, Rufeng Dai, Rui Peng, Ruian Liu, Ruihao Xu, Ruijie Wang, Ruixi Zhang, Ruixuan Liu, Runsheng Shi, Ruting Wang, Senbo Kang, Shan Lu, Shaofei Yu, Shaotian Gong, Shenwei Hu, Shifeng Zheng, Shihao Guo, Shilong Fan, Shiqin Liu, Shiwei Gu, Shixi Zhang, Shuai Yao, Shuang Zhang, Shuangqiao Liu, Shuhao Liang, Shuwei He, Shuwen Yang, Sijun He, Siming Dai, Siming Wu, Siyi Long, Songhe Deng, Suhui Dong, Suyin Liang, Teng Hu, Tianchan Xu, Tianliang Lv, Tianmeng Yang, Tianyi Wei, Tiezhu Gao, Ting Sun, Ting Zhang, Tingdan Luo, Wei He, Wei Luan, Wei Yin, Wei Zhang, Wei Zhou, Weibao Gong, Weibin Li, Weicheng Huang, Weichong Dang, Weiguo Zhu, Weilong Zhang, Weiqi Tan, Wen Huang, Wenbin Chang, Wenjing Du, Wenlong Miao, Wenpei Luo, Wenquan Wu, Xi Shi, Xi Zhao, Xiang Gao, Xiangguo Zhang, Xiangrui Yu, Xiangsen Wang, Xiangzhe Wang, Xianlong Luo, Xianying Ma, Xiao Tan, Xiaocong Lin, Xiaofei Wang, Xiaofeng Peng, Xiaofeng Wu, Xiaojian Xu, Xiaolan Yuan, Xiaopeng Cui, Xiaotian Han, Xiaoxiong Liu, Xiaoxu Fei, Xiaoxuan Wu, Xiaoyu Wang, Xiaoyu Zhang, Xin Sun, Xin Wang, Xinhui Huang, Xinming Zhu, Xintong Yu, Xinyi Xu, Xinyu Wang, Xiuxian Li, XuanShi Zhu, Xue Xu, Xueying Lv, Xuhong Li, Xulong Wei, Xuyi Chen, Yabing Shi, Yafeng Wang, Yamei Li, Yan Liu, Yanfu Cheng, Yang Gao, Yang Liang, Yang Wang, Yang Wang, Yang Yang, Yanlong Liu, Yannian Fu, Yanpeng Wang, Yanzheng Lin, Yao Chen, Yaozong Shen, Yaqian Han, Yehua Yang, Yekun Chai, Yesong Wang, Yi Song, Yichen Zhang, Yifei Wang, Yifeng Guo, Yifeng Kou, Yilong Chen, Yilong Guo, Yiming Wang, Ying Chen, Ying Wang, Yingsheng Wu, Yingzhan Lin, Yinqi Yang, Yiran Xing, Yishu Lei, Yixiang Tu, Yiyan Chen, Yong Zhang, Yonghua Li, Yongqiang Ma, Yongxing Dai, Yongyue Zhang, Yu Ran, Yu Sun, Yu-Wen Michael Zhang, Yuang Liu, Yuanle Liu, Yuanyuan Zhou, Yubo Zhang, Yuchen Han, Yucheng Wang, Yude Gao, Yuedong Luo, Yuehu Dong, Yufeng Hu, Yuhui Cao, Yuhui Yun, Yukun Chen, Yukun Gao, Yukun Li, Yumeng Zhang, Yun Fan, Yun Ma, Yunfei Zhang, Yunshen Xie, Yuping Xu, Yuqin Zhang, Yuqing Liu, Yurui Li, Yuwen Wang, Yuxiang Lu, Zefeng Cai, Zelin Zhao, Zelun Zhang, Zenan Lin, Zezhao Dong, Zhaowu Pan, Zhaoyu Liu, Zhe Dong, Zhe Zhang, Zhen Zhang, Zhengfan Wu, Zhengrui Wei, Zhengsheng Ning, Zhenxing Li, Zhenyu Li, Zhenyu Qian, Zhenyun Li, Zhi Li, Zhichao Chen, Zhicheng Dong, Zhida Feng, Zhifan Feng, Zhihao Deng, Zhijin Yu, Zhiyang Chen, Zhonghui Zheng, Zhuangzhuang Guo, Zhujun Zhang, Zhuo Sun, Zichang Liu, Zihan Lin, Zihao Huang, Zihe Zhu, Ziheng Zhao, Ziping Chen, Zixuan Zhu, Ziyang Xu, Ziyi Liang, Ziyuan Gao

198

В данном отчете мы представляем ERNIE 5.0 — нативно авторегрессионную базовую модель, разработанную для унифицированного мультимодального понимания и генерации текста, изображений, видео и аудио. Все модальности обучаются с нуля в рамках единой задачи предсказания следующей группы токенов на основе сверхразреженной архитектуры смеси экспертов (MoE) с модально-независимой маршрутизацией экспертов. Для решения практических задач масштабного развертывания в условиях разнородных ресурсных ограничений ERNIE 5.0 использует новую парадигму эластичного обучения. В рамках единого цикла предварительного обучения модель осваивает семейство подмоделей с варьируемой глубиной, пропускной способностью экспертов и разреженностью маршрутизации, что позволяет гибко балансировать между производительностью, размером модели и задержкой вывода в сценариях с ограничениями по памяти или времени. Кроме того, мы системно решаем проблемы масштабирования обучения с подкреплением для унифицированных базовых моделей, гарантируя эффективный и стабильный посттренинг в условиях сверхразреженных MoE-архитектур и разнообразных мультимодальных настроек. Многочисленные эксперименты демонстрируют, что ERNIE 5.0 достигает высокой и сбалансированной производительности across multiple modalities. Насколько нам известно, среди публично раскрытых моделей ERNIE 5.0 является первой промышленной реализацией унифицированной авторегрессионной модели триллионного масштаба, поддерживающей как мультимодальное понимание, так и генерацию. Для содействия дальнейшим исследованиям мы представляем детальную визуализацию модально-независимой маршрутизации экспертов в унифицированной модели, а также всесторонний эмпирический анализ эластичного обучения, стремясь предложить научному сообществу глубокие инсайты.

FASA: Частотно-ориентированное разреженное внимание
FASA: Frequency-aware Sparse Attention

Feb 3

ByYifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley

101

Развертывание больших языковых моделей (LLM) сталкивается с критическим узким местом при обработке длинных входных данных: непомерно большим объемом памяти, занимаемым кэшем ключей-значений (KV). Для решения этой проблемы парадигма прунинга токенов использует разреженность внимания для выборочного сохранения небольшого критического подмножества токенов. Однако существующие подходы несовершенны: статические методы рискуют необратимой потерей информации, а динамические стратегии используют эвристики, которые недостаточно отражают зависимый от запроса характер важности токенов. Мы предлагаем FASA — новую структуру, которая обеспечивает осведоженное о запросе вытеснение токенов за счет динамического прогнозирования их важности. FASA основана на новом взгляде на RoPE: открытии функциональной разреженности на уровне частотных чанков (FC). Наше ключевое открытие заключается в том, что небольшое, идентифицируемое подмножество «доминирующих» FC постоянно демонстрирует высокую контекстуальную согласованность с полным механизмом внимания. Это обеспечивает надежный и вычислительно бесплатный прокси-метод для выявления значимых токенов. Опираясь на это наблюдение, FASA сначала идентифицирует критический набор токенов с помощью доминирующих FC, а затем выполняет фокусированное вычисление внимания исключительно на этом прунированном подмножестве. Поскольку доступ осуществляется лишь к небольшой части кэша KV, FASA радикально снижает требования к пропускной способности памяти и вычислительную стоимость. В широком спектре задач с длинным контекстом, от моделирования последовательностей до сложных рассуждений CoT, FASA стабильно превосходит все базовые методы вытеснения токенов и достигает точности, близкой к оракульной, демонстрируя замечательную надежность даже при ограниченных бюджетах. Примечательно, что на LongBench-V1 FASA достигает почти 100% производительности полного кэша KV при сохранении всего 256 токенов и обеспечивает ускорение в 2.56 раза, используя лишь 18.9% кэша на AIME24.

WideSeek-R1: Исследование масштабирования по ширине для широкого поиска информации с помощью обучения с подкреплением на основе мультиагентных систем
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Feb 4

ByZelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

Последние достижения в области больших языковых моделей (LLM) в основном были сосредоточены на масштабировании по глубине, когда единый агент решает долгосрочные задачи с помощью многошаговых рассуждений и использования инструментов. Однако по мере усложнения задач ключевым ограничением становится уже не компетентность отдельного агента, а организационная способность системы. В данной работе мы исследуем комплементарное направление — масштабирование по ширине с помощью мульти-агентных систем для решения широких информационных запросов. Существующие мульти-агентные системы часто полагаются на рутинные рабочие процессы и пошаговые взаимодействия, которые не позволяют эффективно распараллеливать работу. Чтобы устранить этот разрыв, мы предлагаем WideSeek-R1 — фреймворк «ведущий агент — подчиненные агенты», обученный с помощью мульти-агентного обучения с подкреплением (MARL) для синергии масштабируемой оркестрации и параллельного выполнения. Используя общую LLM с изолированными контекстами и специализированными инструментами, WideSeek-R1 совместно оптимизирует ведущего агента и параллельных подчиненных агентов на курируемом наборе данных из 20 000 широких информационных задач. Многочисленные эксперименты показывают, что WideSeek-R1-4B достигает показателя F1 40,0% по элементам на бенчмарке WideSearch, что сопоставимо с результатами одно-агентной модели DeepSeek-R1-671B. Более того, WideSeek-R1-4B демонстрирует стабильное улучшение производительности с увеличением числа параллельных подчиненных агентов, что подчеркивает эффективность масштабирования по ширине.

Эффективность использования обучающих данных в мультимодальных моделях вознаграждения процессов
Training Data Efficiency in Multimodal Process Reward Models

Feb 4

ByJinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang

Мультимодальные модели вознаграждения процессов (MPRM) играют ключевую роль в пошаговом контроле для визуального мышления в MLLM. Обучение MPRM обычно требует крупномасштабных корпусов с аннотацией методом Монте-Карло (MC), что сопряжено со значительными затратами на обучение. В данной статье исследуется эффективность использования данных для обучения MPRM. Наши предварительные эксперименты показывают, что обучение MPRM быстро насыщается при случайном субдискретизации обучающих данных, что указывает на существенную избыточность существующих корпусов с MC-аннотацией. Чтобы объяснить это, мы формализуем теоретическую основу и выявляем, что информативные градиентные обновления зависят от двух факторов: смеси меток положительных/отрицательных шагов и надежности меток (средние MC-оценки положительных шагов). Руководствуясь этими выводами, мы предлагаем Сбалансированный-Информационный Показатель (Balanced-Information Score, BIS), который отдает приоритет как смеси, так и надежности на основе существующих MC-сигналов на уровне rollout, не требуя никаких дополнительных затрат. На двух базовых архитектурах (InternVL2.5-8B и Qwen2.5-VL-7B) в рамках VisualProcessBench подмножества, отобранные по BIS, последовательно соответствуют и даже превосходят производительность на полном наборе данных, используя лишь малую его часть. Примечательно, что подмножество, отобранное по BIS, достигает производительности полного набора данных, используя только 10% обучающих данных, улучшая результат по сравнению со случайной субдискретизацией на относительные 4.1%.

OmniSIFT: Модально-асимметричное сжатие токенов для эффективных омнимодальных больших языковых моделей
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Feb 4

ByYue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

Омни-модальные большие языковые модели (Omni-LLM) продемонстрировали высокие способности в задачах аудио-видео понимания. Однако их зависимость от длинных мультимодальных последовательностей токенов приводит к значительным вычислительным затратам. Несмотря на эту проблему, методы сжатия токенов, разработанные специально для Omni-LLM, остаются ограниченными. Чтобы заполнить этот пробел, мы предлагаем OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression) — асимметричную по модальностям структуру сжатия токенов, адаптированную для Omni-LLM. В частности, OmniSIFT использует двухэтапную стратегию сжатия: (i) модуль пространственно-временного сокращения видео, который удаляет избыточность, вызванную как внутрикадровой структурой, так и межкадровым перекрытием, и (ii) модуль визуально-управляемого отбора аудио токенов, который фильтрует аудио токены. Вся структура оптимизируется сквозным образом с помощью дифференцируемого прямого оценщика. Многочисленные эксперименты на пяти репрезентативных тестовых наборах демонстрируют эффективность и надежность OmniSIFT. Примечательно, что для Qwen2.5-Omni-7B OmniSIFT вводит всего 4.85 млн параметров, сохраняя при этом более низкую задержку по сравнению с бесплатными базовыми методами, такими как OmniZip. Используя всего 25% исходного контекста токенов, OmniSIFT стабильно превосходит все базовые методы сжатия и даже превышает производительность модели с полным набором токенов в нескольких задачах.

HySparse: Гибридная архитектура разреженного внимания с выбором оракульных токенов и общим кэшем ключей-значений
HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Feb 3

ByYizhao Gao, Jianyu Wei, Qihao Zhang, Yu Cheng, Shimao Chen, Zhengju Tang, Zihan Jiang, Yifan Song, Hailin Zhang, Liang Zhao, Bo Yang, Gang Wang, Shijie Cao, Fuli Luo

Данная работа представляет Hybrid Sparse Attention (HySparse) — новую архитектуру, в которой каждый слой полного внимания чередуется с несколькими слоями разреженного внимания. Несмотря на концептуальную простоту, HySparse стратегически выводит выбор токенов и KV-кэши для каждого разреженного слоя непосредственно из предшествующего слоя полного внимания. Эта архитектура устраняет два фундаментальных ограничения предыдущих методов разреженного внимания. Во-первых, традиционные подходы обычно полагаются на дополнительные прокси-метрики для прогнозирования важности токенов, что вносит дополнительную сложность и может приводить к неоптимальной производительности. В отличие от них, HySparse использует слой полного внимания в качестве точного оракула для идентификации важных токенов. Во-вторых, существующие схемы разреженного внимания часто сокращают вычисления, но не экономят KV-кэш. HySparse позволяет слоям разреженного внимания повторно использовать KV-кэш полного внимания, тем самым уменьшая как объем вычислений, так и потребление памяти. Мы оцениваем HySparse на плотных моделях размером 7B и MoE-моделях размером 80B. Во всех конфигурациях HySparse последовательно превосходит как базовые модели с полным вниманием, так и гибридные модели SWA. Примечательно, что в MoE-модели на 80B параметров с общим количеством 49 слоев только 5 слоев используют полное внимание, однако HySparse демонстрирует существенный прирост производительности при сокращении объема хранения KV-кэша почти в 10 раз.

EgoActor: Привязка планирования задач к пространственно-осознанным эгоцентричным действиям для гуманоидных роботов с помощью визуально-языковых моделей
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Feb 4

ByYu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson

Развертывание человекоподобных роботов в реальных условиях является фундаментально сложной задачей, поскольку требует тесной интеграции восприятия, локомоции и манипулирования при частичной наблюдаемости и в динамически изменяющихся средах, а также надежного перехода между подзадачами разного типа. Для решения этих проблем мы предлагаем новую задачу — EgoActing, которая требует непосредственного преобразования высокоуровневых инструкций в разнообразные, точные и пространственно-осознанные действия человекоподобного робота. Мы конкретизируем эту задачу, представив EgoActor — унифицированную и масштабируемую визуально-языковую модель (VLM), способную предсказывать примитивы локомоции (например, ходьбу, повороты, движение вбок, изменение высоты), движения головы, команды манипулирования и сценарии взаимодействия человека и робота для координации восприятия и исполнения в реальном времени. Мы используем широкий спектр данных обучения на основе эгоцентрических RGB-данных из реальных демонстраций, вопросно-ответных заданий на пространственное мышление и демонстраций в симулированной среде, что позволяет EgoActor принимать надежные, контекстно-зависимые решения и выполнять плавный вывод действий (менее чем за 1 секунду) как в моделях с 8 млрд, так и с 4 млрд параметров. Обширные оценки в симулированных и реальных условиях показывают, что EgoActor эффективно связывает абстрактное планирование задач с конкретным моторным исполнением, одновременно демонстрируя обобщение на разнообразные задачи и ранее не встречавшиеся среды.

Quant VideoGen: Авторегрессионная генерация длинных видео с помощью 2-битной квантизации KV-кэша
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

Feb 3

ByHaocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer

Несмотря на быстрый прогресс в авторегрессионной видео-диффузии, возникающее системное алгоритмическое узкое место — память KV-кэша — ограничивает как возможность развертывания, так и генеративные возможности. В авторегрессионных моделях генерации видео KV-кэш растет вместе с историей генерации и быстро начинает доминировать в памяти GPU, часто превышая 30 ГБ, что препятствует развертыванию на широко доступном оборудовании. Что более критично, ограниченный бюджет KV-кэша сужает эффективную рабочую память, напрямую ухудшая долгосрочную согласованность идентичности, композиции и движения. Для решения этой проблемы мы представляем Quant VideoGen (QVG) — не требующую дообучения систему квантования KV-кэша для авторегрессионных диффузионных моделей видео. QVG использует пространственно-временную избыточность видео с помощью семантического сглаживания, создавая остатки с низкой амплитудой, удобные для квантования. Кроме того, вводится прогрессивное квантование остатков — многостадийная схема от грубой к точной, которая снижает ошибку квантования, обеспечивая плавный компромисс между качеством и памятью. На бенчмарках LongCat Video, HY WorldPlay и Self Forcing QVG устанавливает новый парето-фронт между качеством и эффективностью использования памяти, сокращая объем памяти KV-кэша до 7.0 раз с увеличением сквозной задержки менее чем на 4%, при этом стабильно превосходя существующие базовые методы по качеству генерации.

TIDE: Траекторная диагностическая оценка улучшения языковых моделей в режиме тестирования для агентов
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Feb 2

ByHang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin

Последние достижения в области автономных LLM-агентов демонстрируют их способность повышать производительность за счет итерационного взаимодействия со средой. Мы определяем эту парадигму как улучшение во время тестирования (Test-Time Improvement, TTI). Однако механизмы, объясняющие, как и почему TTI приводит к успеху или неудаче, остаются малоизученными, а существующие метрики оценки не позволяют зафиксировать эффективность оптимизации задач, адаптацию поведения после ошибочных действий и конкретную полезность рабочей памяти для выполнения задачи. Для устранения этих пробелов мы предлагаем Диагностическую оценку улучшения во время тестирования (Test-time Improvement Diagnostic Evaluation, TIDE) — агент-независимую и сред-независимую структуру, которая декомпозирует TTI на три всеобъемлющих и взаимосвязанных измерения. Данная структура измеряет (1) общую временную динамику выполнения задачи и (2) определяет, ограничивается ли производительность в первую очередь рекурсивными циклическими поведениями или (3) обременительной накопленной памятью. В ходе масштабных экспериментов с различными агентами и средами TIDE показывает, что для повышения производительности агента недостаточно просто наращивать внутренние рассуждения, что указывает на необходимость явной оптимизации динамики взаимодействия между агентом и средой.

SoMA: Нейросетевой симулятор реальности для роботизированного манипулирования мягкими объектами
SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

Feb 2

ByMu Huang, Hui Wang, Kerui Ren, Linning Xu, Yunsong Zhou, Mulin Yu, Bo Dai, Jiangmiao Pang

Моделирование деформируемых объектов в условиях интенсивного взаимодействия остается фундаментальной проблемой для реалистичной симуляции роботизированного манипулирования, где динамика совместно определяется воздействием окружающей среды и действиями робота. Существующие симуляторы полагаются на предопределенную физику или данные о динамике без учета управляющих воздействий со стороны робота, что ограничивает точность, стабильность и обобщающую способность. В данной статье представлен SoMA — симулятор на основе 3D гауссовских сплатов для манипулирования мягкими телами. SoMA объединяет динамику деформируемых объектов, силы окружающей среды и действия сочленений робота в едином латентном нейросетевом пространстве для сквозной реалистичной симуляции. Моделирование взаимодействий на основе обученных гауссовских сплатов обеспечивает управляемое, стабильное манипулирование на длительных горизонтах и обобщение за пределы наблюдаемых траекторий без использования предопределенных физических моделей. SoMA повышает точность повторной симуляции и обобщающую способность для реального роботизированного манипулирования на 20%, обеспечивая стабильное моделирование сложных задач, таких как складывание ткани на длительных горизонтах.

Модели языкового распространения с остаточным контекстом
Residual Context Diffusion Language Models

Jan 30

ByYuezhou Hu, Harman Singh, Monishwaran Maheswaran, Haocheng Xi, Coleman Hooper, Jintao Zhang, Aditya Tomar, Michael W. Mahoney, Sewon Min, Mehrdad Farajtabar, Kurt Keutzer, Amir Gholami, Chenfeng Xu

Диффузионные большие языковые модели (dLLM) стали перспективной альтернативой чисто авторегрессионным языковым моделям благодаря возможности параллельного декодирования нескольких токенов. Однако современные блочные dLLM полагаются на механизм «повторного маскирования», который декодирует только наиболее уверенные токены и отбрасывает остальные, фактически растрачивая вычислительные ресурсы. Мы показываем, что повторное использование вычислений от отброшенных токенов полезно, поскольку эти токены сохраняют контекстную информацию, необходимую для последующих итераций декодирования. В свете этого мы предлагаем модуль Residual Context Diffusion (RCD), который преобразует представления отброшенных токенов в контекстные остатки и внедряет их обратно на следующий шаг дениойзинга. RCD использует разделенный двухэтапный конвейер обучения, чтобы обойти проблемы с памятью, связанные с обратным распространением ошибки. Мы проверяем наш метод на моделях как для длинных рассуждений с цепочкой мыслей (CoT) (SDAR), так и для следования коротким CoT-инструкциям (LLaDA). Мы демонстрируем, что стандартную dLLM можно эффективно преобразовать в парадигму RCD всего на ~1 миллиарде токенов. RCD стабильно улучшает передовые dLLM на 5–10 пунктов по точности при минимальных дополнительных вычислительных затратах в широком спектре тестов. Примечательно, что на наиболее сложных задачах AIME RCD почти удваивает точность базового уровня и позволяет достичь эквивалентного уровня точности при в 4–5 раз меньшем количестве шагов дениойзинга.

Переосмысление доверительной области в обучении с подкреплением для больших языковых моделей
Rethinking the Trust Region in LLM Reinforcement Learning

Feb 4

ByPenghui Qi, Xiangxin Zhou, Zichen Liu, Tianyu Pang, Chao Du, Min Lin, Wee Sun Lee

Подкрепляющее обучение (Reinforcement Learning, RL) стало краеугольным камнем для тонкой настройки больших языковых моделей (Large Language Models, LLMs), а алгоритм Proximal Policy Optimization (PPO) де-факто является стандартом. Несмотря на его повсеместное распространение, мы утверждаем, что базовый механизм ограничения вероятностного отношения (ratio clipping) в PPO структурно плохо подходит для больших словарей, присущих LLM. PPO ограничивает обновления политики на основе отношения вероятностей выбранных токенов, которое служит зашумлённой односэмпловой оценкой Монте-Карло истинной дивергенции политик. Это создаёт неоптимальную динамику обучения: обновления для токенов с низкой вероятностью агрессивно и чрезмерно штрафуются, в то время как потенциально катастрофические сдвиги для высоковероятностных токенов недостаточно ограничены, что приводит к неэффективности и нестабильности обучения. Для решения этой проблемы мы предлагаем Divergence Proximal Policy Optimization (DPPO), который заменяет эвристическое ограничение на более принципиальное, основанное на прямой оценке дивергенции политик (например, полной вариации или дивергенции Кульбака-Лейблера). Чтобы избежать большого объёма используемой памяти, мы вводим эффективные бинарную и Top-K аппроксимации для захвата существенной дивергенции с пренебрежимо малыми накладными расходами. Многочисленные эмпирические оценки демонстрируют, что DPPO обеспечивает превосходную стабильность и эффективность обучения по сравнению с существующими методами, предлагая более надёжную основу для RL-тонкой настройки LLM.

Семантическая маршрутизация: исследование взвешивания признаков в многослойных языковых моделях для диффузионных трансформеров
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

Feb 3

ByBozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang

Современные DiT-модели генерации изображений по тексту всё чаще используют большие языковые модели (LLM) в качестве текстовых энкодеров, однако текстовое кондиционирование остаётся в основном статичным и часто задействует лишь один слой LLM, несмотря на выраженную семантическую иерархию между слоями LLM и нестационарную динамику денойзинга как во времени диффузии, так и по глубине сети. Чтобы лучше согласовать кондиционирование с динамическим процессом генерации в DiT и тем самым повысить генеративную способность диффузионной модели, мы предлагаем унифицированную нормализованную схему выпуклого слияния, оснащённую лёгкими механизмами внимания (gates), для систематической организации скрытых состояний многослойной LLM посредством временного, глубинного и совместного слияния. Эксперименты показывают, что семантическая маршрутизация по глубине (Depth-wise Semantic Routing) является наилучшей стратегией кондиционирования, последовательно улучшая соответствие текста и изображения и композиционную генерацию (например, +9.97 на задаче Counting в GenAI-Bench). Напротив, мы обнаружили, что чисто временное слияние может парадоксальным образом ухудшить качество визуальной генерации. Мы объясняем это несоответствием траекторий обучения и вывода: при использовании классификатор-фри guidance номинальные временные шаги не отслеживают эффективное отношение сигнал-шум (SNR), что приводит к семантически несвоевременной инъекции признаков на этапе вывода. В целом, наши результаты позиционируют глубинную маршрутизацию как сильный и эффективный базовый подход и подчёркивают критическую важность траекторно-aware сигналов для обеспечения надёжного временно-зависимого кондиционирования.

HY3D-Bench: Генерация 3D-ассетов
HY3D-Bench: Generation of 3D Assets

Feb 3

ByTeam Hunyuan3D, Bowen Zhang, Chunchao Guo, Dongyuan Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jiaao Yu, Jiachen Xu, Jingwei Huang, Kunhong Li, Lifu Wang, Linus, Penghao Wang, Qingxiang Lin, Ruining Tang, Xianghui Yang, Yang Li, Yirui Guan, Yunfei Zhao, Yunhan Yang, Zeqiang Lai, Zhihao Liang, Zibo Zhao

В то время как последние достижения в области нейронных представлений и генеративных моделей произвели революцию в создании 3D-контента, эта область по-прежнему ограничена значительными узкими местами в обработке данных. Для решения этой проблемы мы представляем HY3D-Bench — экосистему с открытым исходным кодом, предназначенную для создания единой высококачественной основы для 3D-генерации. Наш вклад трехгранен: (1) Мы создали библиотеку из 250 тысяч высококачественных 3D-объектов, отобранных из крупномасштабных репозиториев, используя строгий конвейер обработки для предоставления готовых к обучению артефактов, включая водонепроницаемые сетки и рендеры с нескольких ракурсов; (2) Мы вводим структурированную декомпозицию на уровне деталей, обеспечивая необходимую детализацию для тонкого восприятия и контролируемого редактирования; и (3) Мы преодолеваем разрыв распределений реального мира с помощью масштабируемого конвейера AIGC-синтеза, добавляя 125 тысяч синтетических активов для повышения разнообразия в редко встречающихся категориях. Эмпирически подтвержденная на примере обучения модели Hunyuan3D-2.1-Small, система HY3D-Bench демократизирует доступ к надежным данным, стремясь стимулировать инновации в сферах 3D-восприятия, робототехники и создания цифрового контента.

AutoFigure: Создание и доработка научных иллюстраций, готовых к публикации
AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

Feb 3

ByMinjun Zhu, Zhen Lin, Yixuan Weng, Panzhong Lu, Qiujie Xie, Yifan Wei, Sifan Liu, Qiyao Sun, Yue Zhang

Высококачественные научные иллюстрации играют ключевую роль в эффективной передаче сложных научных и технических концепций, однако их ручное создание остается общепризнанным узким местом как в академической среде, так и в промышленности. Мы представляем FigureBench — первый масштабный бенчмарк для генерации научных иллюстраций из объемных научных текстов. Он содержит 3300 высококачественных пар «текст-иллюстрация», охватывающих разнообразные задачи преобразования текста в иллюстрацию из научных статей, обзоров, блогов и учебников. Кроме того, мы предлагаем AutoFigure — первую агентскую систему, которая автоматически генерирует высококачественные научные иллюстрации на основе длинных научных текстов. В частности, перед финальной визуализацией AutoFigure выполняет глубокий анализ, рекомбинацию и валидацию для создания компоновки, которая является как структурно обоснованной, так и эстетически проработанной, выдавая научную иллюстрацию, достигающую структурной целостности и визуальной привлекательности. Используя высококачественные данные из FigureBench, мы провели обширные эксперименты для оценки производительности AutoFigure в сравнении с различными базовыми методами. Результаты демонстрируют, что AutoFigure стабильно превосходит все базовые методы, создавая научные иллюстрации, готовые к публикации. Код, набор данных и демонстрационное пространство доступны по адресу https://github.com/ResearAI/AutoFigure.

Самоуказывающие языковые модели улучшают обучение с подкреплением
Self-Hinting Language Models Enhance Reinforcement Learning

Feb 3

ByBaohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian

Group Relative Policy Optimization (GRPO) недавно стала практическим методом для согласования больших языковых моделей с верифицируемыми целями. Однако при разреженных терминальных вознаграждениях GRPO часто останавливается, поскольку траектории внутри группы часто получают идентичные награды, что приводит к коллапсу относительных преимуществ и исчезновению обновлений. Мы предлагаем метод GRPO с самоподсказками и привилегированным контролем (SAGE) — фреймворк обучения с подкреплением на политике, который внедряет привилегированные подсказки во время обучения для изменения распределения траекторий при том же терминальном верифицируемом вознаграждении. Для каждого промпта x модель семплирует компактную подсказку h (например, план или декомпозицию) и затем генерирует решение τ, обусловленное (x,h). Ключевой момент: целевое вознаграждение R(x,τ) остается неизменным; подсказки лишь увеличивают разнообразие исходов внутри группы при конечной выборке, предотвращая коллапс преимуществ GRPO при разреженных вознаграждениях. На этапе тестирования мы устанавливаем h=∅ и развертываем политику без подсказок, без какого-либо привилегированного доступа. Более того, семплирование разнообразных самоподсказок служит адаптивным учебным планом, который отслеживает узкие места обучаемой модели эффективнее, чем фиксированные подсказки от начальной политики или более сильной внешней модели. Эксперименты на 6 бенчмарках с 3 LLM показывают, что SAGE стабильно превосходит GRPO, в среднем на +2.0 для Llama-3.2-3B-Instruct, на +1.2 для Qwen2.5-7B-Instruct и на +1.3 для Qwen3-4B-Instruct. Код доступен по адресу https://github.com/BaohaoLiao/SAGE.

CL-bench: Бенчмарк для контекстного обучения
CL-bench: A Benchmark for Context Learning

Feb 3

ByShihan Dou, Ming Zhang, Zhangyue Yin, Chenhao Huang, Yujiong Shen, Junzhe Wang, Jiayi Chen, Yuchen Ni, Junjie Ye, Cheng Zhang, Huaibing Xie, Jianglu Hu, Shaolei Wang, Weichao Wang, Yanling Xiao, Yiting Liu, Zenan Xu, Zhen Guo, Pluto Zhou, Tao Gui, Zuxuan Wu, Xipeng Qiu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Di Wang, Shunyu Yao

Современные языковые модели (ЯМ) преуспевают в рассуждениях на основе промптов, используя предварительно обученные знания. Однако реальные задачи гораздо сложнее и контекстно-зависимы: модели должны обучаться на основе специфичного для задачи контекста и использовать новые знания, выходящие за рамки усвоенных в ходе предварительного обучения, чтобы рассуждать и решать задачи. Мы называем эту способность **контекстным обучением** — ключевым умением, которым люди обладают от природы, но которое до сих пор в значительной степени игнорировалось. С этой целью мы представляем CL-bench — эталонный набор данных для реальных задач, состоящий из 500 сложных контекстов, 1 899 задач и 31 607 оценочных критериев, созданных опытными экспертами в предметных областях. Каждая задача разработана таким образом, что новая информация, необходимая для её решения, содержится в соответствующем контексте. Решение задач в CL-bench требует от моделей способности обучаться на основе контекста, который может включать новые предметные знания, системы правил, сложные процедуры или законы, выведенные из эмпирических данных, — всё это отсутствует в данных предварительного обучения. Это выходит далеко за рамки задач с длинным контекстом, которые в основном проверяют поиск информации или понимание прочитанного, и задач обучения в контексте, где модели усваивают простые шаблоны задач с помощью инструкций и примеров. Наша оценка десяти передовых ЯМ показала, что модели в среднем решают лишь 17,2% задач. Даже лучшая модель, GPT-5.1, справляется только с 23,7%, что свидетельствует о том, что ЯМ ещё не достигли эффективного контекстного обучения, что создаёт серьёзное препятствие для решения реальных, сложных, контекстно-зависимых задач. CL-bench представляет собой шаг к созданию ЯМ с этой фундаментальной способностью, что сделает их более интеллектуальными и продвинет их применение в реальных сценариях.

Vibe AIGC: Новая парадигма генерации контента через агентскую оркестрацию
Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Feb 4

ByJiaheng Liu, Yuanxing Zhang, Shihao Li, Xinping Lei

На протяжении последнего десятилетия траекторию развития генеративного искусственного интеллекта (ИИ) определяла модель-центричная парадигма, движимая законами масштабирования. Несмотря на значительные прорывы в визуальном качестве, этот подход столкнулся с «потолком применимости», проявляющимся как Разрыв между Замыслом и Исполнением (фундаментальное несоответствие между высокоуровневым замыслом создателя и стохастической, «чернокобоксистой» природой современных одношаговых моделей). В данной статье, вдохновляясь концепцией Vibe Coding, мы представляем Vibe AIGC — новую парадигму генерации контента через агентную оркестровку, которая представляет собой автономный синтез иерархических мульти-агентных рабочих процессов. В рамках этой парадигмы роль пользователя выходит за рамки традиционного промпт-инжиниринга, эволюционируя в Командующего, который предоставляет Vibe — высокоуровневое представление, охватывающее эстетические предпочтения, функциональную логику и т.д. Централизованный Мета-Планировщик затем функционирует как системный архитектор, декомпозируя этот «Vibe» в исполняемые, проверяемые и адаптивные агентные пайплайны. Переходя от стохастического вывода к логической оркестровке, Vibe AIGC преодолевает разрыв между человеческим воображением и машинным исполнением. Мы утверждаем, что этот сдвиг переопределит экономику человеко-ИИ коллаборации, превращая ИИ из хрупкого движка для вывода в надежного партнера на уровне системной инженерии, что демократизирует создание сложных, долгосрочных цифровых активов.

VLS: Управление предварительно обученными политиками роботов с помощью моделей «визуальный язык»
VLS: Steering Pretrained Robot Policies via Vision-Language Models

Feb 3

ByShuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna

Почему предобученные политики диффузии или согласования потоков терпят неудачу при выполнении той же задачи вблизи препятствия, на смещенной опорной поверхности или в условиях легкого беспорядка? Такие сбои редко отражают отсутствие моторных навыков; вместо этого они выявляют ограничение обучения с подражанием при сдвигах между обучением и тестированием, когда генерация действий тесно связана со специфичными для обучения пространственными конфигурациями и постановками задач. Переобучение или дообучение для устранения этих сбоев является затратным и концептуально неверным, поскольку требуемые поведения уже существуют, но не могут быть выборочно адаптированы во время тестирования. Мы предлагаем Vision-Language Steering (VLS) — не требующую дообучения структуру для адаптации на этапе вывода замороженных генеративных роботизированных политик. VLS рассматривает адаптацию как проблему управления на этапе вывода, направляя процесс сэмплирования предобученной политики диффузии или согласования потоков в ответ на входные данные (наблюдение-язык) вне распределения обучения без изменения параметров политики. Используя Vision-Language модели для синтеза дифференцируемых по траектории функций вознаграждения, VLS направляет удаление шума к траекториям действий, которые удовлетворяют пространственным и task-требованиям времени тестирования. В симуляциях и натурных экспериментах VLS стабильно превосходит предыдущие методы управления, демонстрируя улучшение на 31% на CALVIN и на 13% на LIBERO-PRO. Развертывание в реальном мире на роботе Franka дополнительно демонстрирует надежную адаптацию на этапе вывода при пространственных и семантических сдвигах во время тестирования. Страница проекта: https://vision-language-steering.github.io/webpage/

A-RAG: Масштабирование агентного поисково-дополненного генеративного моделирования с помощью иерархических интерфейсов поиска
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Feb 3

ByMingxuan Du, Benfeng Xu, Chiwei Zhu, Shaohan Wang, Pengyu Wang, Xiaorui Wang, Zhendong Mao

Передовые языковые модели демонстрируют мощные способности к рассуждениям и использованию инструментов для решения сложных многоэтапных задач. Однако существующие системы RAG (Retrieval-Augmented Generation) не используют эти возможности в полной мере. Они по-прежнему опираются на две парадигмы: (1) проектирование алгоритма, который извлекает фрагменты текста за один шаг и объединяет их во входные данные модели, или (2) предварительное определение рабочего процесса, который модель выполняет пошагово согласно инструкциям. Ни одна из парадигм не позволяет модели участвовать в принятии решений о поиске, что препятствует эффективному масштабированию по мере улучшения моделей. В данной статье мы представляем A-RAG, агентскую RAG-структуру, которая предоставляет модели прямой доступ к иерархическим интерфейсам поиска. A-RAG предлагает три инструмента поиска: поиск по ключевым словам, семантический поиск и чтение фрагментов, что позволяет агенту адаптивно осуществлять поиск и извлекать информацию на разных уровнях детализации. Эксперименты на нескольких наборах данных для вопросно-ответных задач в открытой предметной области показывают, что A-RAG стабильно превосходит существующие подходы при сопоставимом или меньшем количестве извлеченных токенов, что демонстрирует эффективное использование возможностей модели и динамическую адаптацию к различным RAG-задачам. Мы также систематически исследуем, как A-RAG масштабируется в зависимости от размера модели и вычислительных ресурсов на этапе тестирования. Мы опубликуем наш код и набор для оценки, чтобы способствовать дальнейшим исследованиям. Код и набор для оценки доступны по адресу: https://github.com/Ayanami0730/arag.

PaperSearchQA: Обучение поиску и рассуждению по научным статьям с помощью RLVR
PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

Jan 26

ByJames Burgess, Jan N. Hansen, Duo Peng, Yuhui Zhang, Alejandro Lozano, Min Woo Sun, Emma Lundberg, Serena Yeung-Levy

Поисковые агенты — это языковые модели, которые рассуждают и исследуют базы знаний (или Интернет) для ответа на вопросы; современные методы контролируют только точность конечного ответа с помощью обучения с подкреплением с верифицируемыми вознаграждениями (RLVR). Большинство RLVR-агентов решают задачи вопросно-ответных систем общей тематики, что ограничивает их применимость в технических системах ИИ в науке, технике и медицине. В данной работе мы предлагаем обучать агентов для поиска и рассуждений на основе научных статей — это позволяет проверить технические вопросно-ответные возможности, напрямую актуально для реальных ученых, и такие способности будут ключевыми для будущих систем «ИИ-Ученый». Конкретно мы публикуем поисковый корпус из 16 миллионов аннотаций биомедицинских статей и создаем сложный фактоидный вопросно-ответный набор данных PaperSearchQA, содержащий 60 тысяч примеров, ответы на которые можно найти в корпусе, а также соответствующие тесты. Мы обучаем поисковых агентов в этой среде, чтобы превзойти базовые методы поиска без обучения с подкреплением; также мы проводим дополнительный количественный анализ и наблюдаем интересные поведения агентов, такие как планирование, рассуждение и самопроверка. Наш корпус, наборы данных и тесты совместимы с популярной кодовой базой Search-R1 для RLVR-обучения и опубликованы на https://huggingface.co/collections/jmhb/papersearchqa. Наконец, наши методы создания данных масштабируемы и легко применимы в других научных областях.

Horizon-LM: RAM-ориентированная архитектура для обучения больших языковых моделей
Horizon-LM: A RAM-Centric Architecture for LLM Training

Feb 4

ByZhengqing Yuan, Lichao Sun, Yanfang, Ye

Быстрый рост больших языковых моделей (LLM) опередил эволюцию однопроцессорного графического оборудования, в результате чего масштабируемость моделей все больше ограничивается объемом памяти, а не вычислительной мощностью. Хотя современные системы обучения расширяют память GPU за счет распределенного параллелизма и оффлоудинга на уровни CPU и хранилищ, они в основе сохраняют GPU-центричную парадигму выполнения, в которой GPU размещают постоянные реплики модели и полные графы автоградиента. Как следствие, масштабирование больших моделей остается жестко связанным с многопроцессорными кластерами, сложными распределенными средами выполнения и непредсказуемым потреблением памяти хоста, создавая существенные барьеры для посттренировочных задач на уровне узла, таких как тонкая настройка инструкций, выравнивание и адаптация к домену. Мы представляем Horizon-LM — память-центричную систему обучения, которая переопределяет роли CPU и GPU для оптимизации больших моделей. Horizon-LM рассматривает память хоста как авторитетное хранилище параметров и использует GPU исключительно в качестве транзитных вычислительных движков через модель выполнения CPU-master, GPU-template. Благодаря устранению резидентных в GPU модулей и графов автоградиента, использованию явного пересчета с ручным распространением градиентов и внедрению конвейерного двухбуферного механизма выполнения, Horizon-LM отделяет масштаб модели от количества GPU и ограничивает использование памяти теоретическим объемом параметров. На одном GPU H200 с 1,5 ТБ оперативной памяти хоста Horizon-LM стабильно обучает модели до 120 млрд параметров. На стандартной машине с одним A100 Horizon-LM достигает до 12,2-кратного увеличения пропускной способности обучения по сравнению с DeepSpeed ZeRO-3 с оффлоудингом на CPU при сохранении численной корректности. На разных платформах и масштабах Horizon-LM поддерживает высокую утилизацию устройств и предсказуемый рост памяти, демонстрируя, что именно память хоста, а не память GPU, определяет истинную границу осуществимости обучения больших моделей на уровне узла.

MEnvAgent: Масштабируемое полиглотное построение окружения для верифицируемой инженерии программного обеспечения
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

Jan 30

ByChuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang

Развитие агентов на основе больших языковых моделей (LLM) для задач программной инженерии (SWE) сдерживается нехваткой верифицируемых наборов данных — узким местом, вызванным сложностью создания исполняемых сред для различных языков программирования. Для решения этой проблемы мы представляем MEnvAgent — мультиязыковую платформу для автоматизированного построения сред, которая обеспечивает масштабируемое генерирование проверяемых задач. MEnvAgent использует архитектуру «Планирование-Исполнение-Верификация» на основе мультиагентного подхода для автономного устранения сбоев сборки и включает новый механизм повторного использования сред, снижающий вычислительные затраты за счёт инкрементного исправления исторических сред. Оценка на MEnvBench — новом бенчмарке, содержащем 1000 задач для 10 языков — показывает, что MEnvAgent превосходит базовые методы, повышая показатель Fail-to-Pass (F2P) на 8,6% при сокращении временных затрат на 43%. Кроме того, мы демонстрируем практическую ценность MEnvAgent, создав MEnvData-SWE — крупнейший на сегодняшний день открытый полиглотный набор данных реалистичных верифицируемых Docker-сред, дополненный траекториями решений, которые обеспечивают стабильное улучшение производительности моделей на задачах SWE. Наш код, бенчмарк и набор данных доступны по адресу https://github.com/ernie-research/MEnvAgent.

От данных к поведению: прогнозирование нежелательного поведения моделей до обучения
From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Feb 4

ByMengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang

Крупные языковые модели (LLMs) могут приобретать непреднамеренные смещения из, казалось бы, безобидных обучающих данных даже без явных указаний или вредоносного контента. Существующие методы с трудом выявляют такие риски до тонкой настройки, что делает последующую оценку дорогостоящей и неэффективной. Для решения этой проблемы мы представляем Data2Behavior — новую задачу прогнозирования непреднамеренного поведения модели до начала обучения. Мы также предлагаем Manipulating Data Features (MDF), легковесный подход, который суммирует кандидатные данные через их усредненные представления и инжектирует их в прямой проход базовой модели. Это позволяет латентным статистическим сигналам в данных формировать активации модели и выявлять потенциальные смещения и риски безопасности без обновления каких-либо параметров. MDF обеспечивает надежное прогнозирование, потребляя при этом лишь около 20% GPU-ресурсов, необходимых для тонкой настройки. Эксперименты на моделях Qwen3-14B, Qwen2.5-32B-Instruct и Gemma-3-12b-it подтверждают, что MDF способен предсказывать непреднамеренное поведение и дает представление об уязвимостях, заложенных на этапе предварительного обучения.

Агент-Опущение: Обучение эффективных агентов больших языковых моделей для адаптивного пропуска мыслей и наблюдений с помощью агентного обучения с подкреплением
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Feb 4

ByYansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

Управление мыслями и наблюдениями агента в ходе многошаговых взаимодействий агента со средой является перспективной стратегией повышения эффективности агентов. Однако существующие подходы рассматривают все траектории взаимодействия как равнозначные, игнорируя тот факт, что необходимость генерации мыслей и полезность наблюдений варьируется на разных шагах. В данной работе мы сначала проводим количественное исследование влияния мыслей и наблюдений на результативность и эффективность агента. На основе полученных результатов мы предлагаем Agent-Omit — унифицированную框架 обучения, которая позволяет LLM-агентам адаптивно пропускать избыточные мысли и наблюдения. В частности, мы сначала синтезируем небольшой объем стартовых данных, включающих сценарии пропуска как на одиночных, так и на многошаговых взаимодействиях, для тонкой настройки агента на поведение с пропусками. Кроме того, мы представляем подход агентного обучения с подкреплением с учетом пропусков, включающий механизм двойной выборки и специализированное вознаграждение за пропуск для стимулирования адаптивной способности агента к пропускам. Теоретически мы доказываем, что отклонение нашей политики пропусков ограничено сверху KL-дивергенцией. Эксперименты на пяти агентных бенчмарках показывают, что наш Agent-Omit-8B демонстрирует результативность, сопоставимую с семью передовыми LLM-агентами, и достигает наилучшего баланса между результативностью и эффективностью по сравнению с семью методами эффективных LLM-агентов. Наш код и данные доступны по адресу https://github.com/usail-hkust/Agent-Omit.

D-CORE: Стимулирование декомпозиции задач в больших моделях рассуждений для сложного использования инструментов
D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

Feb 2

ByBowen Xu, Shaoyu Wu, Hao Jiang, Kai Liu, Xin Chen, Lulu Hu, Bin Yang

Эффективное использование инструментов и логические рассуждения являются ключевыми способностями больших моделей рассуждений~(БМР) для решения сложных практических задач. Эмпирический анализ показывает, что современные БМР не обладают способностью декомпозиции подзадач в сложных сценариях использования инструментов, что приводит к феномену «ленивого рассуждения». Для решения этой проблемы мы предлагаем двухэтапную обучающую структуру D-CORE~(\textbf{D}екомпозиция задач и \textbf{Ко}мпозиция процессов \textbf{Р}ассуждения), которая сначала стимулирует способность БМР к рассуждению через декомпозицию задач с помощью самодистилляции, а затем применяет RL-обучение с учетом разнообразия~(обучение с подкреплением) для восстановления рефлексивной способности рассуждений. D-CORE демонстрирует устойчивое улучшение использования инструментов в различных тестах и масштабах моделей. Эксперименты на BFCLv3 подтверждают превосходство нашего метода: D-CORE-8B достигает точности 77,7%, превосходя лучшую 8B-модель на 5,7%. При этом D-CORE-14B устанавливает новый рекорд в 79,3%, превосходя модели объемом 70B, несмотря на пятикратно меньший размер. Исходный код доступен по адресу https://github.com/alibaba/EfficientAI.

Количественная оценка разрыва между пониманием и генерацией в унифицированных мультимодальных моделях
Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

Feb 2

ByChenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou

Последние достижения в области унифицированных мультимодальных моделей (UMM) продемонстрировали значительный прогресс в задачах как понимания, так и генерации. Однако остается неясным, являются ли эти две способности действительно согласованными и интегрированными в рамках единой модели. Для исследования этого вопроса мы представляем GapEval — двунаправленный бенчмарк, предназначенный для количественной оценки разрыва между способностями к пониманию и генерации и измерения когерентности двух «унифицированных» направлений. Каждый вопрос может быть решен в обеих модальностях (изображение и текст), что позволяет провести симметричную оценку двунаправленной способности модели к выводу и кросс-модальной согласованности. Эксперименты выявляют устойчивый разрыв между двумя направлениями для широкого спектра UMM с различными архитектурами, что позволяет предположить, что современные модели достигают лишь поверхностного объединения, а не глубокой когнитивной конвергенции двух способностей. Для дальнейшего изучения лежащих в основе механизмов мы проводим эмпирическое исследование с точки зрения манипулирования знаниями, чтобы проиллюстрировать фундаментальные ограничения. Наши результаты показывают, что знания внутри UMM часто остаются разрозненными. Возникновение способностей и передача знаний между модальностями не синхронизированы, что открывает путь для дальнейших исследований.

SpatiaLab: Способны ли модели "визуальный язык" выполнять пространственные рассуждения в реальных условиях?
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Feb 3

ByAzmine Toushik Wasi, Wahid Faisal, Abdur Rahman, Mahfuz Ahmed Anik, Munem Shahriar, Mohsin Mahmud Topu, Sadia Tasnim Meem, Rahatun Nesa Priti, Sabrina Afroz Mitu, Md. Iqramul Hoque, Shahriyar Zaman Ridoy, Mohammed Eunus Ali, Majd Hawasly, Mohammad Raza, Md Rizwan Parvez

Пространственное мышление является фундаментальным аспектом человеческого познания, однако оно остается серьезной проблемой для современных моделей «визуальный язык» (VLMs). Предыдущие исследования в основном опирались на синтетические или сгенерированные большими языковыми моделями среды с ограниченным дизайном задач и головоломочными сценариями, которые не способны передать реальную сложность, визуальный шум и разнообразие пространственных отношений, с которыми сталкиваются VLMs. Для решения этой проблемы мы представляем SpatiaLab — комплексный бенчмарк для оценки пространственного мышления VLMs в реалистичных, неограниченных контекстах. SpatiaLab включает 1400 визуальных вопросно-ответных пар по шести основным категориям: Относительное позиционирование, Глубина и окклюзия, Ориентация, Размер и масштаб, Пространственная навигация и 3D-геометрия, каждая из которых содержит пять подкатегорий, что в сумме дает 30 различных типов задач. Каждая подкатегория содержит не менее 25 вопросов, а каждая основная категория — не менее 200 вопросов, поддерживая оценку как в формате множественного выбора, так и в открытой форме. Эксперименты с различными современными VLMs, включая модели с открытым и закрытым исходным кодом, модели, ориентированные на логические рассуждения, и специализированные модели для пространственного мышления, выявили существенный разрыв в возможностях пространственного мышления по сравнению с человеком. В настройке с множественным выбором модель InternVL3.5-72B достигает точности 54,93% против 87,57% у человека. В открытой настройке все модели демонстрируют снижение производительности примерно на 10–25%, при этом GPT-5-mini показывает наивысший результат в 40,93% против 64,93% у человека. Эти результаты подчеркивают ключевые ограничения в обработке сложных пространственных отношений, восприятии глубины, навигации и 3D-геометрии. Предоставляя разнообразную систему оценки в условиях реального мира, SpatiaLab выявляет критические проблемы и возможности для развития пространственного мышления VLMs, предлагая бенчмарк для направления будущих исследований в сторону создания надежного, соответствующего человеческому, пространственного понимания. SpatiaLab доступен по адресу: https://spatialab-reasoning.github.io/.

BatCoder: Двунаправленное самообучение кода и документации через обратный перевод
BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

Jan 30

ByJingwen Xu, Yiyang Lu, Zisu Huang, Changze Lv, Xiaohua Wang, Shizheng Li, Zhibo Xu, Zhengkang Guo, Zhengyuan Wang, Muzhao Tian, Xuanjing Huang, Xiaoqing Zheng

Обучение больших языковых моделей (LLM) для задач, связанных с кодом, обычно зависит от пар "код-документация" высокого качества, создание которых требует больших затрат и которые часто являются дефицитом для узкоспециализированных языков программирования. Мы представляем BatCoder — самообучающуюся framework-систему с подкреплением, предназначенную для совместной оптимизации генерации кода и создания документации. BatCoder использует стратегию обратного перевода: сначала из кода генерируется документация, а затем сгенерированная документация используется для реконструкции исходного кода. Семантическое сходство между исходным и реконструированным кодом служит неявной наградой, что позволяет обучению с подкреплением улучшать производительность модели как в генерации кода из документации, так и наоборот. Такой подход позволяет обучать модели, используя только код, что существенно увеличивает количество доступных обучающих примеров. При оценке на наборах данных HumanEval и MBPP с моделью на 7 миллиардов параметров BatCoder достиг показателей pass@1 в 83,5% и 81,0% соответственно, превзойдя сильные модели с открытым исходным кодом. Более того, framework демонстрирует последовательное масштабирование как относительно размера обучающего корпуса, так и относительно емкости модели.

Вероятностное проектирование вознаграждений для общего логического вывода больших языковых моделей
Likelihood-Based Reward Designs for General LLM Reasoning

Feb 3

ByAriel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier

Тонкая настройка больших языковых моделей (LLM) на наборах данных для проверки рассуждений с помощью обучения с подкреплением требует специфической функции вознаграждения, часто бинарной, для каждого набора данных. Это сопряжено с двумя потенциальными ограничениями: необходимостью проектирования вознаграждения и потенциально разреженным характером бинарных вознаграждений. В данной работе мы систематически исследуем вознаграждения, получаемые из вероятности или логарифма вероятности генерации эталонного ответа (или любого другого продолжения промпта, присутствующего в данных), которые имеют то преимущество, что не зависят от специфических верификаторов и доступны в больших масштабах. Несколько недавних работ выступили за использование аналогичных вознаграждений (например, VeriFree, JEPO, RLPR, NOVER). Мы систематически сравниваем варианты вознаграждений на основе правдоподобия со стандартными базовыми методами, тестируя производительность как на стандартных наборах данных для математических рассуждений, так и на задачах с развернутыми ответами, где внешний верификатор недоступен. Мы обнаруживаем, что использование логарифма вероятности эталонного ответа в качестве вознаграждения для обучения с цепочкой рассуждений (CoT) является единственным вариантом, который хорошо работает во всех сценариях. Это вознаграждение также согласуется с функцией потерь на основе логарифма правдоподобия следующего токена, используемой во время предварительного обучения. В условиях, где возможна верификация, вознаграждения на основе логарифма вероятности обеспечивают сопоставимый или более высокий процент успеха, чем подкрепление стандартными бинарными вознаграждениями, и дают значительно лучшую перплексию. В условиях, где верификация невозможна, они работают наравне с SFT. С другой стороны, методы, основанные на вероятности, такие как VeriFree, не работают в условиях без верификации из-за ничтожно малой вероятности получения правильного ответа. В целом, это устанавливает вознаграждения на основе логарифма вероятности как жизнеспособный метод для тонкой настройки CoT, объединяющий сценарии с короткими, верифицируемыми и длинными, неверифицируемыми ответами.

A2Eval: Агентная и автоматизированная оценка для воплощенного интеллекта
A2Eval: Agentic and Automated Evaluation for Embodied Brain

Feb 2

ByShuai Zhang, Jiayu Hu, Zijie Chen, Zeyuan Ding, Yi Zhang, Yingji Zhang, Ziyi Zhou, Junwei Liao, Shengjie Zhou, Yong Dai, Zhenzhong Lan, Xiaozhu Ju

Современная оценка воплощенных VLMs опирается на статические, экспертно-определенные, ручным образом аннотированные бенчмарки, которые демонстрируют серьезную избыточность и дисбаланс охвата. Эта трудоемкая парадигма истощает вычислительные и аннотационные ресурсы, завышает стоимость и искажает рейтинги моделей, в конечном счете сдерживая итеративную разработку. Для решения этой проблемы мы предлагаем Agentic Automatic Evaluation (A2Eval) — первую агентскую структуру, которая автоматизирует курацию бенчмарков и оценку с помощью двух совместно работающих агентов. Data Agent автономно выявляет параметры способностей и формирует сбалансированный, компактный набор для оценки, в то время как Eval Agent синтезирует и проверяет исполняемые конвейеры оценки, обеспечивая полностью автономную оценку с высокой точностью. Протестированная на 10 бенчмарках и 13 моделях, A2Eval сжимает наборы для оценки на 85%, сокращает общие вычислительные затраты на 77% и обеспечивает ускорение в 4,6 раза при сохранении качества оценки. Что особенно важно, A2Eval корректирует системные смещения в ранжировании, улучшает соответствие человеческим оценкам до коэффициента Спирмена ρ=0,85 и сохраняет высокую достоверность ранжирования (тау Кендалла τ=0,81), устанавливая новый стандарт для высокоточной и низкозатратной воплощенной оценки. Наш код и данные скоро будут опубликованы.

За пределами унимодальных упрощений: мультимодальные языковые модели как кросс-модальные системы логического вывода для контекстуального распознавания именованных сущностей
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Feb 4

ByJinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang

Грунтованная мультимодальная идентификация именованных сущностей (GMNER) ставит целью извлечение текстовых сущностей, присвоение им семантических категорий и их привязку к соответствующим областям изображения. В данной работе мы исследуем потенциал мультимодальных больших языковых моделей (MLLM) для выполнения GMNER в сквозном режиме, выходя за рамки их традиционной роли вспомогательных инструментов в каскадных конвейерах. Ключевым результатом нашего исследования является выявление фундаментальной проблемы: MLLM демонстрируют модальную предвзятость, включая визуальную и текстовую, которая проистекает из их склонности использовать унимодальные сокращения вместо строгой кросс-модальной верификации. Для решения этой проблемы мы предлагаем метод согласованного модально-ориентированного рассуждения (Modality-aware Consistency Reasoning, MCR), который обеспечивает структурированное кросс-модальное рассуждение посредством инжекции многоуровневых схем рассуждения (Multi-style Reasoning Schema Injection, MRSI) и верифицируемой оптимизации с ограничениями (Constraint-guided Verifiable Optimization, CVO). MRSI преобразует абстрактные ограничения в исполняемые цепочки рассуждений, тогда как CVO позволяет модели динамически выравнивать свои траектории рассуждений с помощью оптимизации относительной групповой политики (Group Relative Policy Optimization, GRPO). Эксперименты на задачах GMNER и визуального grounding демонстрируют, что MCR эффективно снижает модальную предвзятость и превосходит по производительности существующие базовые методы.

Эффективная авторегрессионная видеодиффузия с фиктивным заголовком
Efficient Autoregressive Video Diffusion with Dummy Head

Jan 28

ByHang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu

Авторегрессионные модели видео-диффузии в последнее время вызывают значительный исследовательский интерес благодаря своему каузальному моделированию и итеративному шумоподавлению. В данной работе мы выявляем, что многоголовые механизмы самовнимания в этих моделях недостаточно используют исторические кадры: приблизительно 25% голов внимания практически полностью фокусируются на текущем кадре, а удаление их KV-кэшей приводит лишь к незначительной деградации качества. На основе этого наблюдения мы предлагаем Dummy Forcing — простой, но эффективный метод управления доступностью контекста для различных голов. В частности, предложенное гетерогенное распределение памяти снижает избыточность контекста на уровне голов, дополненное динамическим программированием голов для адаптивной классификации их типов. Кроме того, мы разработали технику упаковки контекста для достижения более агрессивного сжатия кэша. Без дополнительного обучения наш метод Dummy Forcing обеспечивает до 2-кратного ускорения по сравнению с базовым подходом, поддерживая генерацию видео со скоростью 24.3 кадра в секунду при падении качества менее чем на 0.5%. Страница проекта доступна по адресу https://csguoh.github.io/project/DummyForcing/.

Универсального решения не существует: построение систем машинного перевода для башкирского, казахского, киргизского, татарского и чувашского языков с использованием синтетических и оригинальных данных
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

Feb 4

ByDmitry Karpov

Мы исследуем машинный перевод для пяти тюркских языковых пар: русский-башкирский, русский-казахский, русский-киргизский, английский-татарский, английский-чувашский. Дообучение модели nllb-200-distilled-600M с помощью LoRA на синтетических данных позволило достичь chrF++ 49,71 для казахского и 46,94 для башкирского языков. Использование DeepSeek-V3.2 с промптами на основе извлеченных схожих примеров показало результат chrF++ 39,47 для чувашского языка. Для татарского языка подходы без дообучения или на основе извлечения примеров достигли chrF++ 41,6, в то время как для киргизского языка метод без дообучения показал результат 45,6. Мы публикуем набор данных и полученные веса моделей.

Контекстное обучение для многоагентного обсуждения
Context Learning for Multi-Agent Discussion

Feb 2

ByXingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren

Метод многоагентного обсуждения (MAD) в последнее время привлекает все больше внимания, где несколько экземпляров больших языковых моделей совместно решают проблемы посредством структурированной дискуссии. Однако мы обнаружили, что современные методы MAD легко страдают от несогласованности обсуждения, когда языковые модели не могут прийти к последовательному решению из-за рассогласования их индивидуальных контекстов. В данной статье мы представляем метод обучения контекста для множества языковых моделей (M2CL), который обучает генератор контекста для каждого агента, способного динамически генерировать контекстные инструкции для каждого раунда обсуждения посредством автоматической организации и уточнения информации. В частности, основываясь на наших теоретических инсайтах о контекстных инструкциях, M2CL обучает генераторы управлять согласованностью контекста и расхождениями выходных данных с помощью тщательно разработанного самоадаптивного механизма. Это позволяет языковым моделям избегать преждевременной сходимости к шуму большинства и постепенно достигать верного консенсуса. Мы оцениваем M2CL на сложных задачах, включая академические рассуждения, воплощенные задачи и мобильное управление. Результаты показывают, что производительность M2CL значительно превосходит существующие методы на 20–50%, одновременно демонстрируя благоприятную трансферабельность и вычислительную эффективность.

Токены скина: изученное компактное представление для унифицированной авторегрессионной риггинга
Skin Tokens: A Learned Compact Representation for Unified Autoregressive Rigging

Feb 4

ByJia-peng Zhang, Cheng-Feng Pu, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu

Быстрое распространение генеративных 3D-моделей создало критическое узкое место в анимационных конвейерах: риггинг. Существующие автоматизированные методы фундаментально ограничены своим подходом к скиннингу, рассматривая его как некорректную, многомерную регрессионную задачу, которую неэффективно оптимизировать и которая обычно отделена от генерации скелета. Мы предполагаем, что это проблема представления данных и вводим SkinTokens: изученное, компактное и дискретное представление для весов скиннинга. Используя FSQ-CVAE для захвата внутренней разреженности скиннинга, мы переформулируем задачу из непрерывной регрессии в более управляемую проблему предсказания последовательности токенов. Это представление позволяет создать TokenRig — унифицированную авторегрессионную框架, которая моделирует весь риг как единую последовательность параметров скелета и SkinTokens, изучая сложные зависимости между скелетами и скин-деформациями. Затем унифицированная модель становится пригодной для этапа обучения с подкреплением, где специализированные геометрические и семантические вознаграждения улучшают обобщающую способность для сложных активов, выходящих за пределы распределения обучающих данных. Количественно представление SkinTokens приводит к улучшению точности скиннинга на 98–133% по сравнению с современными методами, в то время как полная框架 TokenRig, доработанная с помощью RL, улучшает предсказание костей на 17–22%. Наша работа представляет унифицированный генеративный подход к риггингу, который обеспечивает более высокую точность и устойчивость, предлагая масштабируемое решение давней проблемы в создании 3D-контента.

Самостоятельно вознаграждающий последовательный метод Монте-Карло для маскированных диффузионных языковых моделей
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models

Feb 2

ByZiwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön

В данной работе представлен метод последовательного Монте-Карло с самовознаграждением (self-rewarding SMC) — алгоритм масштабирования на этапе вывода, который обеспечивает эффективную выборку для маскированных диффузионных языковых моделей (MDLM). Наш алгоритм основан на наблюдении, что большинство существующих MDLM полагаются на стратегию выборки, основанную на уверенности, когда на каждом шаге сохраняются только токены с наивысшей прогнозируемой уверенностью. Это ограничивает генерацию шумочувствительной жадной парадигмой декодирования, что приводит к неизбежному коллапсу разнообразия возможных путей. Мы решаем эту проблему, запуская несколько взаимодействующих диффузионных процессов параллельно, называемых частицами, для исследования траекторий. Важно, что мы вводим траекторную уверенность в качестве сигнала самовознаграждения для назначения весов важности частиц. В процессе выборки частицы итеративно взвешиваются и перевыбираются для систематического направления генерации в сторону глобально уверенных, высококачественных образцов. Наш метод самовознаграждающего SMC проверен на различных маскированных диффузионных языковых моделях и бенчмарках, демонстрируя значительное улучшение без дополнительного обучения или руководства вознаграждением, при этом эффективно преобразуя возможности параллельного вывода в повышение качества выборки. Наш код доступен по адресу https://github.com/Algolzw/self-rewarding-smc.

Авторегрессионное моделирование белков с помощью генерации мультимасштабных структур
Protein Autoregressive Modeling via Multiscale Structure Generation

Feb 4

ByYanru Qu, Cheng-Yen Hsieh, Zaixiang Zheng, Ge Liu, Quanquan Gu

Мы представляем авторегрессионное моделирование белков (PAR) — первую мультимасштабную авторегрессионную архитектуру для генерации белковых остовов по принципу «от грубого к точному» через прогнозирование следующего масштаба. Используя иерархическую природу белков, PAR генерирует структуры, имитирующие процесс ваяния скульптуры: формирование грубой топологии с последующим уточнением структурных деталей across scales. Для достижения этого PAR включает три ключевых компонента: (i) операции мультимасштабного понижения разрешения, представляющие белковые структуры на различных масштабах во время обучения; (ii) авторегрессионный трансформер, кодирующий мультимасштабную информацию и генерирующий условные эмбеддинги для управления генерацией структур; (iii) flow-based декодер остова, генерирующий атомы остова с учетом этих эмбеддингов. Кроме того, авторегрессионные модели страдают от экспозиционного смещения, вызванного несоответствием процедур обучения и генерации, что существенно снижает качество генерации структур. Мы эффективно смягчаем эту проблему за счет обучения с зашумленным контекстом и планируемого сэмплирования, обеспечивая robust генерацию остовов. Примечательно, что PAR демонстрирует сильную zero-shot генерализацию, поддерживая гибкую условную генерацию по человеческим промптам и каркасирование мотивов без необходимости дообучения. На бенчмарке безусловной генерации PAR эффективно изучает распределения белков и производит остовы высокого качества для дизайна, демонстрируя благоприятные scaling свойства. В совокупности эти свойства устанавливают PAR как перспективную архитектуру для генерации белковых структур.

OmniRad: Радиологическая базовая модель для многозадачного анализа медицинских изображений
OmniRad: A Radiological Foundation Model for Multi-Task Medical Image Analysis

Feb 4

ByLuca Zedda, Andrea Loddo, Cecilia Di Ruberto

Радиологический анализ все чаще использует преимущества предварительно обученных визуальных представлений, способных поддерживать гетерогенные последующие задачи в различных методах визуализации. В данной работе мы представляем OmniRad — самообучаемую радиологическую базовую модель, предварительно обученную на 1,2 миллиона медицинских изображений, разработанную с учетом принципов, вдохновленных радиологией, которые подчеркивают повторное использование представлений и межзадачную переносимость. Мы оцениваем предварительно обученный энкодер в нескольких режимах адаптации для последующих задач, включая легковесные адаптеры для конкретных задач с замороженной основной архитектурой, а также полную сквозную тонкую настройку для классификации, что позволяет оценить как качество представлений, так и производительность для конкретных задач. OmniRad тестируется на широком наборе публичных бенчмарков, охватывающих классификацию и сегментацию в различных модальностях. В коллекции MedMNISTv2 OmniRad улучшает F1-меру классификации до 2,05% по сравнению с конкурирующими базовыми моделями. Для задач плотного прогнозирования OmniRad демонстрирует улучшение среднего показателя Dice в шести наборах данных MedSegBench при использовании замороженных представлений. Качественный анализ и визуализации латентного пространства указывают на улучшенную кластеризацию признаков и разделение по модальностям.

SAFE: Стабильная тонкая настройка выравнивания с энтропийно-осознанным прогнозирующим управлением для RLHF
SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for RLHF

Feb 4

ByDipan Maity

Оптимизация политик ближайшего предпочтения (PPO) позиционируется в современной литературе как канонический метод для RL-составляющей RLHF. Несмотря на хорошую эмпирическую производительность, PPO имеет эвристическую мотивацию, ad-hoc обработку ограничения KL-дивергенции, используемого в LM-RLHF, и страдает от колебаний вознаграждений, коллапса энтропии, дрейфа функции ценности и внезапной дивергенции политик, что требует частых перезапусков и тщательного подбора гиперпараметров. В данной статье мы разрабатываем новый чисто онлайновый актор-критиковый RL-метод для настройки LM-RLHF. Мы представляем SAFE (Stable Alignment Finetuning with Entropy-aware control) — новый алгоритм RLHF, сочетающий Double Soft-Min Critic для пессимистичной оценки ценности с новой многоуровневой стабилизационной структурой, объединяющей KL-регуляцию с управлением по энтропии и адаптивные пороги с PID-регулятором. В отличие от симметричных KL-штрафов стандартного PPO, SAFE различает исследование с высокой энтропией и коллапс режима с низкой энтропией, динамически корректируя штрафы на основе скорости изменения вознаграждения. Эксперименты на модели с 3B параметров показывают, что SAFE достигает на +5.15% большего среднего вознаграждения при обучении, чем PPO (0.725 против 0.689), демонстрирует пренебрежимо редкие сбои вознаграждений и превосходный контроль KL-дивергенции. Наш метод добавляет минимальные вычислительные затраты и предоставляет интерпретируемую, устойчивую к сбоям структуру RLHF, которая сохраняет высокую скорость обучения, обеспечивая при этом стабильную долгосрочную оптимизацию, пригодную для промышленного развертывания. Код доступен по адресу https://github.com/ryyzn9/SAFE.

Сжатие прокси-серверов для языкового моделирования
Proxy Compression for Language Modeling

Feb 4

ByLin Zheng, Xinyu Li, Qian Liu, Xiachong Feng, Lingpeng Kong

Современные языковые модели обучаются почти исключительно на последовательностях токенов, создаваемых фиксированным токенизатором — внешним безубыточным компрессором, часто работающим поверх последовательностей байтов UTF-8, что связывает модель с этим компрессором. Данная работа представляет прокси-сжатие — альтернативную схему обучения, которая сохраняет преимущества эффективности сжатых входных данных, обеспечивая при этом сквозной интерфейс на уровне сырых байтов во время вывода. В процессе обучения одна языковая модель совместно обучается на последовательностях сырых байтов и сжатых представлениях, генерируемых внешними компрессорами; в ходе этого процесса модель учится внутренне выравнивать сжатые последовательности и сырые байты. Это выравнивание обеспечивает эффективный перенос между двумя форматами, даже когда обучение ведется преимущественно на сжатых входных данных, которые отбрасываются на этапе вывода. Обширные эксперименты по языковому моделированию кода демонстрируют, что прокси-сжатие существенно повышает эффективность обучения и значительно превосходит базовые методы, работающие исключительно на уровне байтов, при фиксированных вычислительных бюджетах. С увеличением масштаба модели эти преимущества становятся более выраженными, и модели, обученные с прокси-сжатием, в конечном итоге сравниваются или превосходят подходы, основанные на токенизаторах, при этом работая исключительно с сырыми байтами и сохраняя присущую байтовому моделированию устойчивость.

SkeletonGaussian: Редактируемая 4D-генерация посредством гауссовой скелетизации
SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization

Feb 4

ByLifan Wu, Ruijie Zhu, Yubo Ai, Tianzhu Zhang

Генерация 4D-контента достигла значительного прогресса в синтезе динамических 3D-объектов из входного текста, изображений или видео. Однако существующие методы часто представляют движение как неявное поле деформации, что ограничивает прямое управление и редактируемость. Для решения этой проблемы мы предлагаем SkeletonGaussian — новый фреймворк для генерации редактируемых динамических 3D-гаусссианов из монокулярного видео. Наш подход вводит иерархическое артикулированное представление, которое декомпозирует движение на разреженное жесткое движение, явно управляемое скелетом, и мелкозернистое нежесткое движение. Конкретно, мы извлекаем устойчивый скелет и управляем жестким движением с помощью линейной скиннинговой деформации, после чего применяем основанное на гексаплейнах уточнение для нежестких деформаций, повышая интерпретируемость и редактируемость. Результаты экспериментов показывают, что SkeletonGaussian превосходит существующие методы по качеству генерации, обеспечивая при этом интуитивное редактирование движения, и устанавливает новую парадигму для редактируемой 4D-генерации. Страница проекта: https://wusar.github.io/projects/skeletongaussian/

AgentArk: Дистилляция коллективного интеллекта мультиагентных систем в единый LLM-агент
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Feb 3

ByYinyi Luo, Yiqiao Jin, Weichen Yu, Mengqi Zhang, Srijan Kumar, Xiaoxiao Li, Weijie Xu, Xin Chen, Jindong Wang

Хотя системы с множеством агентов на основе больших языковых моделей (LLM) демонстрируют превосходные результаты в рассуждениях благодаря итеративным дебатам, их практическое применение ограничено высокими вычислительными затратами и распространением ошибок. В данной статье предлагается AgentArk — новая фреймворк для дистилляции динамики множественных агентов в веса одной модели, эффективно преобразуя явные взаимодействия во время тестирования в неявные возможности модели. Это наделяет единственного агента интеллектом систем с множеством агентов, сохраняя вычислительную эффективность. В частности, мы исследуем три иерархические стратегии дистилляции для различных моделей, задач, масштабирования и сценариев: дообучение с усилением рассуждений; аугментация на основе траекторий; и процессно-ориентированная дистилляция. Перекладывая вычислительную нагрузку с этапа вывода на этап обучения, дистиллированные модели сохраняют эффективность одного агента, демонстрируя при этом мощные способности к рассуждениям и самокоррекции, характерные для множества агентов. Они также показывают повышенную устойчивость и способность к обобщению в разнообразных задачах на рассуждение. Мы надеемся, что эта работа послужит стимулом для будущих исследований в области разработки эффективных и устойчивых систем с множеством агентов. Наш код доступен по адресу https://github.com/AIFrontierLab/AgentArk.

«Возможно, я выразился недостаточно ясно»: Диагностика динамической нестабильности в рассуждениях больших языковых моделей во время вывода
"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time

Feb 2

ByJinkun Chen, Fengxiang Cheng, Sijia Han, Vlado Keselj

Сбои в логических рассуждениях крупных языковых моделей (LLM) обычно измеряются только по итоговому результату генерации, однако многие ошибки проявляются как сбой на уровне процесса: модель "теряет нить" рассуждений в середине процесса. Мы исследуем, можно ли обнаружить такие сбои по наблюдаемым параметрам, доступным во время вывода через стандартные API (вероятности токенов), без какого-либо обучения или дообучения. Мы определяем простой сигнал нестабильности, который комбинирует распределительный сдвиг (JSD) на последовательных шагах и неопределенность (энтропию), суммируем каждый траекторию рассуждений по пиковой силе нестабильности и показываем, что этот сигнал надежно предсказывает ошибку. На примерах GSM8K и HotpotQA сила нестабильности предсказывает неверные ответы с AUC выше случайного уровня и демонстрирует монотонное снижение точности на уровне групп (bucket-level accuracy) при масштабировании размеров моделей. Ключевым является то, что мы показываем, что нестабильность не всегда вредна: ранняя нестабильность может отражать последующую стабилизацию и верный конечный ответ (корректирующая нестабильность), тогда как поздняя нестабильность чаще приводит к ошибке (деструктивная нестабильность), даже при сравнимых пиковых величинах. Это указывает на то, что возможность восстановления зависит не только от силы изменения распределения, но и от того, когда такие изменения происходят относительно оставшегося горизонта декодирования. Метод является модельно-независимым, не требующим обучения и воспроизводимым, и представлен как диагностический инструмент, а не как механизм коррекции или управления.

Беспоощровочное согласование конфликтующих целей
Reward-free Alignment for Conflicting Objectives

Feb 2

ByPeter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Методы прямого согласования все чаще используются для согласования больших языковых моделей (LLM) с человеческими предпочтениями. Однако многие реальные задачи согласования связаны с множеством конфликтующих целей, где наивная агрегация предпочтений может привести к нестабильности обучения и плохим компромиссным решениям. В частности, методы взвешенных потерь могут не выявлять направления обновления, которые одновременно улучшают все цели, а существующие многокритериальные подходы часто полагаются на явные модели вознаграждения, что вносит дополнительную сложность и искажает предпочтения, заданные пользователем. Вклад данной работы двунаправлен. Во-первых, мы предлагаем Безмасштабную (Свободную от вознаграждений) систему согласования для конфликтующих целей (RACO), которая непосредственно использует данные о парных предпочтениях и разрешает конфликты градиентов с помощью нового ограниченного варианта градиентного спуска, устойчивого к конфликтам. Мы предоставляем гарантии сходимости к Парето-критическим точкам, которые учитывают заданные пользователем веса целей, и дополнительно показываем, что ограничение может строго улучшить скорость сходимости в случае двух целей. Во-вторых, мы улучшаем наш метод с помощью некоторых эвристик и проводим эксперименты, демонстрирующие совместимость предложенной системы для согласования LLM. Как качественные, так и количественные оценки на задачах многокритериального суммаризации и согласования безопасности для различных семейств LLM (Qwen 3, Llama 3, Gemma 3) показывают, что наш метод последовательно достигает лучших Парето-компромиссов по сравнению с существующими базовыми методами многокритериального согласования.

LongVPO: От привязки к контексту к самостоятельному анализу при оптимизации предпочтений для длинных видео
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Feb 2

ByZhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang

Мы представляем LongVPO — новую двухэтапную структуру Прямой Оптимизации Предпочтений, которая позволяет моделям «визуальный язык» с коротким контекстом надежно понимать сверхдлинные видео без каких-либо аннотаций длинных видео. На Этапе 1 мы синтезируем тройки предпочтений, привязывая вопросы к отдельным коротким клипам, чередуя их с отвлекающими элементами и применяя фильтрацию по визуальному сходству и специфичности вопросов, чтобы снизить позиционное смещение и обеспечить однозначный контроль. Мы также аппроксимируем оценку референсной модели для длинных контекстов, оценивая только якорный клип, что снижает вычислительные затраты. На Этапе 2 мы используем рекурсивный конвейер генерации описаний для длинных видео, чтобы создать метаданные на уровне сцен, а затем применяем большую языковую модель для формирования многосегментных логических запросов и нежелательных ответов, выравнивая предпочтения модели через задачи многосегментного логического вывода. Всего на 16 тыс. синтетических примерах и без дорогостоящих человеческих разметок LongVPO превосходит современные открытые модели по нескольким бенчмаркам длинных видео, сохраняя при этом высокую производительность на коротких видео (например, на MVBench), предлагая масштабируемую парадигму для эффективного понимания длинных видеоформатов.

FOTBCD: Крупномасштабный бенчмарк для обнаружения изменений в зданиях на основе французских ортофотопланов и топографических данных
FOTBCD: A Large-Scale Building Change Detection Benchmark from French Orthophotos and Topographic Data

Jan 30

ByAbdelrrahman Moubane

Мы представляем FOTBCD — масштабный набор данных для обнаружения изменений зданий, созданный на основе авторитетных французских ортофотопланов и топографических данных о зданиях, предоставленных IGN France. В отличие от существующих бенчмарков, географически ограниченных отдельными городами или небольшими регионами, FOTBCD охватывает 28 департаментов континентальной Франции, из которых 25 используются для обучения, а три географически изолированных департамента зарезервированы для оценки. Набор данных включает разнообразные городские, пригородные и сельские территории с разрешением 0.2 м/пиксель. Мы публикуем FOTBCD-Binary — набор, содержащий приблизительно 28 000 пар снимков "до/после" с пиксельными бинарными масками изменений зданий, каждая из которых снабжена метаданными о пространственном расположении патча. Набор данных предназначен для крупномасштабного тестирования и оценки в условиях географического доменного сдвига, при этом валидационные и тестовые выборки взяты из изолированных департаментов и вручную проверены для обеспечения качества разметки. Дополнительно мы публикуем FOTBCD-Instances — общедоступное подмножество с инстансной разметкой, содержащее несколько тысяч пар изображений, которое иллюстрирует полную схему аннотации, используемую в полной инстансной версии FOTBCD. Используя фиксированный базовый уровень, мы проводим сравнительный анализ FOTBCD-Binary с наборами LEVIR-CD+ и WHU-CD, предоставляя убедительные эмпирические доказательства того, что географическое разнообразие на уровне набора данных связано с улучшением междоменной обобщающей способности в задаче обнаружения изменений зданий.

RexBERT: Контекстуально-специализированные двунаправленные энкодеры для электронной коммерции
RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Feb 4

ByRahul Bajaj, Anuj Garg

Трансформеры с архитектурой только энкодера остаются незаменимыми в системах поиска, классификации и ранжирования, где критически важны задержка, стабильность и стоимость. Однако большинство универсальных энкодеров обучаются на общих корпусах с ограниченным охватом специализированных предметных областей. Мы представляем RexBERT — семейство BERT-подобных энкодеров, разработанных специально для семантики электронной коммерции. Наш вклад состоит из трёх частей. Во-первых, мы публикуем Ecom-niverse, корпус объёмом 350 миллиардов токенов, собранный из разнообразных источников, связанных с розничной торговлей и покупками. Мы описываем модульный конвейер, который изолирует и извлекает контент, относящийся к e-commerce, из FineFineWeb и других открытых веб-ресурсов, и характеризуем получившееся доменное распределение. Во-вторых, мы представляем воспроизводимый рецепт предварительного обучения, основанный на архитектурных усовершенствованиях ModernBERT. Рецепт состоит из трёх фаз: общего предварительного обучения, расширения контекста и отжига доменной специализации. В-третьих, мы обучаем модели RexBERT с числом параметров от 17 млн до 400 млн и оцениваем их на задачах классификации токенов, семантического сходства и общего понимания естественного языка с использованием наборов данных электронной коммерции. Несмотря на то, что RexBERT имеет в 2–3 раза меньше параметров, он превосходит более крупные универсальные энкодеры и сравнивается или превосходит современные модели с длинным контекстом на предметно-ориентированных бенчмарках. Наши результаты демонстрируют, что высококачественные данные из целевой области в сочетании с принципиальным подходом к обучению обеспечивают более прочную основу для приложений электронной коммерции, чем просто неразборчивое масштабирование.

HalluHard: Строгий многопроходный бенчмарк для оценки галлюцинаций
HalluHard: A Hard Multi-Turn Hallucination Benchmark

Feb 1

ByDongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko

Крупные языковые модели (LLМ) по-прежнему генерируют правдоподобные, но необоснованные фактические утверждения. Эта проблема усугубляется в многотурных диалогах по мере роста контекста и накопления ошибок на ранних этапах. Мы представляем HalluHard — сложный бенчмарк для оценки многотурных галлюцинаций, содержащий 950 исходных вопросов из четырёх критически важных областей: судебные дела, исследовательские вопросы, медицинские рекомендации и программирование. Мы операционализируем обоснованность, требуя прямых цитат для фактологических утверждений. Для обеспечения надёжной оценки в условиях открытых сценариев предлагается конвейер проверки, который итеративно извлекает доказательства через веб-поиск. Система способна находить, фильтровать и анализировать полные тексты источников (включая PDF), чтобы оценить, действительно ли цитируемый материал подтверждает сгенерированное содержание. Среди разнообразного набора передовых проприетарных и открытых моделей уровень галлюцинаций остаётся значительным даже с использованием веб-поиска (примерно 30% для сильнейшей конфигурации — Opus-4.5 с веб-поиском), причём ошибки обоснования содержания сохраняются на высоком уровне. Наконец, мы демонстрируем, что характер галлюцинаций определяется ёмкостью модели, позицией в диалоге, эффективностью рассуждений и типом требуемых знаний.