HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

73 papers found

Green-VLA: Многостадийная модель «Зрение-Язык-Действие» для роботов-универсалов
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Jan 31

ByI. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov

315

Мы представляем Green-VLA — поэтапную структуру «Видение-Язык-Действие» (VLA) для развертывания на реальном гуманоидном роботе Green с сохранением обобщающей способности для различных воплощений. Green-VLA следует пятиступенчатой учебной программе: (L0) базовые VLM, (L1) мультимодальное заземление, (R0) предварительное обучение на множестве воплощений, (R1) адаптация под конкретное воплощение и (R2) согласование политики с помощью обучения с подкреплением (RL). Мы сочетаем масштабируемый конвейер обработки данных (3000 часов демонстраций) с временным выравниванием и фильтрацией качества, а также используем унифицированный интерфейс действий с учетом воплощения, позволяющий единой политике управлять гуманоидами, мобильными манипуляторами и стационарными манипуляторами. На этапе вывода контроллер VLA дополнен прогнозированием прогресса эпизода, обнаружением выбросов и управлением на основе совместного прогнозирования для повышения безопасности и точного выбора целей. Эксперименты на симуляторах Simpler BRIDGE WidowX и CALVIN ABC-D, а также оценки на реальном роботе демонстрируют высокую обобщающую способность и улучшение производительности благодаря RL-согласованию по показателям успешности, надежности и эффективности в долгосрочных задачах.

Кими К2.5: Визуальный Агентный Интеллект
Kimi K2.5: Visual Agentic Intelligence

Feb 2

ByKimi Team, Tongtong Bai, Yifan Bai, Yiping Bao, S. H. Cai, Yuan Cao, Y. Charles, H. S. Che, Cheng Chen, Guanduo Chen, Huarong Chen, Jia Chen, Jiahao Chen, Jianlong Chen, Jun Chen, Kefan Chen, Liang Chen, Ruijue Chen, Xinhao Chen, Yanru Chen, Yanxu Chen, Yicun Chen, Yimin Chen, Yingjiang Chen, Yuankun Chen, Yujie Chen, Yutian Chen, Zhirong Chen, Ziwei Chen, Dazhi Cheng, Minghan Chu, Jialei Cui, Jiaqi Deng, Muxi Diao, Hao Ding, Mengfan Dong, Mengnan Dong, Yuxin Dong, Yuhao Dong, Angang Du, Chenzhuang Du, Dikang Du, Lingxiao Du, Yulun Du, Yu Fan, Shengjun Fang, Qiulin Feng, Yichen Feng, Garimugai Fu, Kelin Fu, Hongcheng Gao, Tong Gao, Yuyao Ge, Shangyi Geng, Chengyang Gong, Xiaochen Gong, Zhuoma Gongque, Qizheng Gu, Xinran Gu, Yicheng Gu, Longyu Guan, Yuanying Guo, Xiaoru Hao, Weiran He, Wenyang He, Yunjia He, Chao Hong, Hao Hu, Jiaxi Hu, Yangyang Hu, Zhenxing Hu, Ke Huang, Ruiyuan Huang, Weixiao Huang, Zhiqi Huang, Tao Jiang, Zhejun Jiang, Xinyi Jin, Yu Jing, Guokun Lai, Aidi Li, C. Li, Cheng Li, Fang Li, Guanghe Li, Guanyu Li, Haitao Li, Haoyang Li, Jia Li, Jingwei Li, Junxiong Li, Lincan Li, Mo Li, Weihong Li, Wentao Li, Xinhang Li, Xinhao Li, Yang Li, Yanhao Li, Yiwei Li, Yuxiao Li, Zhaowei Li, Zheming Li, Weilong Liao, Jiawei Lin, Xiaohan Lin, Zhishan Lin, Zichao Lin, Cheng Liu, Chenyu Liu, Hongzhang Liu, Liang Liu, Shaowei Liu, Shudong Liu, Shuran Liu, Tianwei Liu, Tianyu Liu, Weizhou Liu, Xiangyan Liu, Yangyang Liu, Yanming Liu, Yibo Liu, Yuanxin Liu, Yue Liu, Zhengying Liu, Zhongnuo Liu, Enzhe Lu, Haoyu Lu, Zhiyuan Lu, Junyu Luo, Tongxu Luo, Yashuo Luo, Long Ma, Yingwei Ma, Shaoguang Mao, Yuan Mei, Xin Men, Fanqing Meng, Zhiyong Meng, Yibo Miao, Minqing Ni, Kun Ouyang, Siyuan Pan, Bo Pang, Yuchao Qian, Ruoyu Qin, Zeyu Qin, Jiezhong Qiu, Bowen Qu, Zeyu Shang, Youbo Shao, Tianxiao Shen, Zhennan Shen, Juanfeng Shi, Lidong Shi, Shengyuan Shi, Feifan Song, Pengwei Song, Tianhui Song, Xiaoxi Song, Hongjin Su, Jianlin Su, Zhaochen Su, Lin Sui, Jinsong Sun, Junyao Sun, Tongyu Sun, Flood Sung, Yunpeng Tai, Chuning Tang, Heyi Tang, Xiaojuan Tang, Zhengyang Tang, Jiawen Tao, Shiyuan Teng, Chaoran Tian, Pengfei Tian, Ao Wang, Bowen Wang, Chensi Wang, Chuang Wang, Congcong Wang, Dingkun Wang, Dinglu Wang, Dongliang Wang, Feng Wang, Hailong Wang, Haiming Wang, Hengzhi Wang, Huaqing Wang, Hui Wang, Jiahao Wang, Jinhong Wang, Jiuzheng Wang, Kaixin Wang, Linian Wang, Qibin Wang, Shengjie Wang, Shuyi Wang, Si Wang, Wei Wang, Xiaochen Wang, Xinyuan Wang, Yao Wang, Yejie Wang, Yipu Wang, Yiqin Wang, Yucheng Wang, Yuzhi Wang, Zhaoji Wang, Zhaowei Wang, Zhengtao Wang, Zhexu Wang, Zihan Wang, Zizhe Wang, Chu Wei, Ming Wei, Chuan Wen, Zichen Wen, Chengjie Wu, Haoning Wu, Junyan Wu, Rucong Wu, Wenhao Wu, Yuefeng Wu, Yuhao Wu, Yuxin Wu, Zijian Wu, Chenjun Xiao, Jin Xie, Xiaotong Xie, Yuchong Xie, Yifei Xin, Bowei Xing, Boyu Xu, Jianfan Xu, Jing Xu, Jinjing Xu, L. H. Xu, Lin Xu, Suting Xu, Weixin Xu, Xinbo Xu, Xinran Xu, Yangchuan Xu, Yichang Xu, Yuemeng Xu, Zelai Xu, Ziyao Xu, Junjie Yan, Yuzi Yan, Guangyao Yang, Hao Yang, Junwei Yang, Kai Yang, Ningyuan Yang, Ruihan Yang, Xiaofei Yang, Xinlong Yang, Ying Yang, Yi Yang, Yi Yang, Zhen Yang, Zhilin Yang, Zonghan Yang, Haotian Yao, Dan Ye, Wenjie Ye, Zhuorui Ye, Bohong Yin, Chengzhen Yu, Longhui Yu, Tao Yu, Tianxiang Yu, Enming Yuan, Mengjie Yuan, Xiaokun Yuan, Yang Yue, Weihao Zeng, Dunyuan Zha, Haobing Zhan, Dehao Zhang, Hao Zhang, Jin Zhang, Puqi Zhang, Qiao Zhang, Rui Zhang, Xiaobin Zhang, Y. Zhang, Yadong Zhang, Yangkun Zhang, Yichi Zhang, Yizhi Zhang, Yongting Zhang, Yu Zhang, Yushun Zhang, Yutao Zhang, Yutong Zhang, Zheng Zhang, Chenguang Zhao, Feifan Zhao, Jinxiang Zhao, Shuai Zhao, Xiangyu Zhao, Yikai Zhao, Zijia Zhao, Huabin Zheng, Ruihan Zheng, Shaojie Zheng, Tengyang Zheng, Junfeng Zhong, Longguang Zhong, Weiming Zhong, M. Zhou, Runjie Zhou, Xinyu Zhou, Zaida Zhou, Jinguo Zhu, Liya Zhu, Xinhao Zhu, Yuxuan Zhu, Zhen Zhu, Jingze Zhuang, Weiyu Zhuang, Ying Zou, Xinxing Zu

255

Мы представляем Kimi K2.5 — мультимодальную агентную модель с открытым исходным кодом, разработанную для развития общей агентной интеллектуальности. K2.5 фокусируется на совместной оптимизации текстовой и визуальной модальностей, чтобы они взаимно усиливали друг друга. Это включает в себя ряд методов, таких как совместное предварительное обучение на тексте и изображениях, тонкую настройку без визуального контекста (zero-vision SFT) и совместное обучение с подкреплением для текста и изображений. На основе этой мультимодальной архитектуры K2.5 представляет Agent Swarm — фреймворк самостоятельной параллельной оркестровки агентов, который динамически разбивает сложные задачи на гетерогенные подзадачи и выполняет их параллельно. Масштабные оценки показывают, что Kimi K2.5 достигает передовых результатов в различных областях, включая программирование, компьютерное зрение, логические рассуждения и агентные задачи. Agent Swarm также снижает задержку до 4.5 раз по сравнению с базовыми одноагентными подходами. Мы публикуем дообученный чекпоинт модели Kimi K2.5 для содействия будущим исследованиям и практическому применению агентного интеллекта.

Vision-DeepResearch: Стимулирование способности к глубоким исследованиям в мультимодальных больших языковых моделях
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Jan 29

ByWenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

154

Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в решении широкого спектра визуальных задач. Однако, будучи ограниченными объемом внутренних знаний о мире, предыдущие исследования предлагали расширять возможности MLLM с помощью парадигмы «рассуждение-затем-вызов-инструмента» для взаимодействия с визуальными и текстовыми поисковыми системами, что позволило получить существенный прирост производительности на задачах, требующих обширной фактической информации. Тем не менее, эти подходы обычно определяют мультимодальный поиск в упрощенной постановке, предполагая, что единственного запроса на уровне целого изображения или сущности и нескольких текстовых запросов достаточно для извлечения ключевых свидетельств, необходимых для ответа на вопрос, что нереалистично в реальных сценариях с существенным визуальным шумом. Более того, они часто ограничены по глубине рассуждений и широте поиска, что затрудняет решение сложных вопросов, требующих агрегации свидетельств из разнообразных визуальных и текстовых источников. Основываясь на этом, мы предлагаем Vision-DeepResearch — новую парадигму мультимодального глубокого исследования, которая выполняет многоходовый, многосущностный и многомасштабный визуальный и текстовый поиск для устойчивой работы с реальными поисковыми системами в условиях сильного шума. Наш Vision-DeepResearch поддерживает десятки шагов рассуждений и сотни взаимодействий с поисковыми системами, одновременно интериоризируя возможности глубокого исследования в MLLM посредством холодного старта с учителем и обучения с подкреплением, что приводит к созданию мощной end-to-end MLLM для глубокого мультимодального исследования. Она существенно превосходит существующие MLLM для глубокого мультимодального исследования, а также рабочие процессы, построенные на основе мощных проприетарных фундаментальных моделей, таких как GPT-5, Gemini-2.5-pro и Claude-4-Sonnet. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.

Vision-DeepResearch Benchmark: Переосмысление визуального и текстового поиска для мультимодальных больших языковых моделей
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Feb 2

ByYu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao

115

Мультимодальные большие языковые модели (MLLM) достигли прогресса в области визуального вопросно-ответных систем (VQA) и теперь поддерживают системы Vision-DeepResearch, использующие поисковые системы для сложного визуально-текстового поиска фактов. Однако оценка этих визуальных и текстовых поисковых способностей остается сложной задачей, и существующие эталоны имеют два основных ограничения. Во-первых, существующие эталоны не ориентированы на визуальный поиск: ответы, требующие визуального поиска, часто раскрываются через межтекстовые подсказки в текстовых вопросах или могут быть выведены из априорных знаний мира, имеющихся в текущих MLLM. Во-вторых, излишне идеализированный сценарий оценки: со стороны поиска по изображениям необходимая информация часто может быть получена путем почти точного соответствия с полным изображением, в то время как текстовый поиск является чрезмерно прямым и недостаточно сложным. Для решения этих проблем мы создали эталон Vision-DeepResearch (VDR-Bench), состоящий из 2000 экземпляров VQA. Все вопросы созданы с помощью тщательного многоэтапного процесса курации и строгого экспертного обзора, предназначенного для оценки поведения систем Vision-DeepResearch в реалистичных условиях реального мира. Кроме того, для решения проблемы недостаточных возможностей визуального поиска современных MLLM мы предлагаем простой рабочий процесс многократного поиска по фрагментам изображения. Показано, что эта стратегия эффективно улучшает производительность модели в реалистичных сценариях визуального поиска. В целом, наши результаты предоставляют практические рекомендации для проектирования будущих мультимодальных систем углубленного поиска. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.

Замыкая цикл: универсальное представление репозиториев с помощью RPG-энкодера
Closing the Loop: Universal Repository Representation with RPG-Encoder

Feb 2

ByJane Luo, Chengyu Yin, Xin Zhang, Qingtao Li, Steven Liu, Yiming Huang, Jie Wu, Hao Liu, Yangyu Huang, Yu Kang, Fangkai Yang, Ying Xin, Scarlett Li

Современные агенты для работы с репозиториями сталкиваются с разрывом в логических рассуждениях из-за фрагментированных представлений, поскольку существующие методы опираются на изолированную документацию API или графы зависимостей, лишенные семантической глубины. Мы рассматриваем понимание репозитория и генерацию как взаимно обратные процессы в рамках единого цикла: генерация разворачивает замысел в реализацию, тогда как понимание сжимает реализацию обратно в замысел. Для решения этой проблемы мы предлагаем RPG-Encoder — фреймворк, который обобщает Граф Планирования Репозитория (RPG) из статического генеративного чертежа в унифицированное высокоточное представление. RPG-Encoder замыкает цикл рассуждений за счет трех механизмов: (1) Кодирование исходного кода в RPG, который сочетает извлеченные семантические признаки с зависимостями кода; (2) Инкрементальная эволюция топологии для разделения затрат на поддержку и масштаба репозитория, что снижает нагрузку на 95,7%; и (3) Функционирование в качестве унифицированного интерфейса для навигации с учетом структуры. В ходе оценки RPG-Encoder демонстрирует наилучшие в своем классе результаты по пониманию репозиториев на SWE-bench Verified с показателем 93,7% Acc@5 и превосходит лучший базовый метод более чем на 10% на SWE-bench Live Lite. Эти результаты подчеркивают нашу превосходную точность детальной локализации в сложных кодобазах. Кроме того, достигается 98,5% покрытия реконструкции на RepoCraft, что подтверждает способность RPG с высокой точностью отражать исходную кодобазу и замыкать цикл между замыслом и реализацией.

UniReason 1.0: Унифицированная система логического вывода для генерации и редактирования изображений, согласованных со знаниями о мире
UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Feb 2

ByDianyi Wang, Chaofan Ma, Feng Han, Size Wu, Wei Song, Yibin Wang, Zhixiong Zhang, Tianhang Wang, Siyuan Wang, Zhongyu Wei, Jiaqi Wang

Унифицированные мультимодальные модели часто испытывают трудности со сложными задачами синтеза, требующими глубоких рассуждений, и обычно рассматривают генерацию изображений по тексту и редактирование изображений как изолированные возможности, а не взаимосвязанные этапы рассуждений. Для решения этой проблемы мы предлагаем UniReason — унифицированную структуру, которая согласует эти две задачи через двойственную парадигму рассуждений. Мы формулируем генерацию как планирование, обогащённое знаниями о мире, для внедрения имплицитных ограничений, и используем возможности редактирования для тонкой визуальной доработки с целью дальнейшего исправления визуальных ошибок через саморефлексию. Этот подход объединяет генерацию и редактирование в рамках общего представления, отражая когнитивный процесс человека, состоящий из планирования и последующего уточнения. Мы поддерживаем эту структуру путём систематического создания крупномасштабного набора данных (~300 тыс. примеров), ориентированного на рассуждения и охватывающего пять основных областей знаний (например, культурные общие знания, физику и т.д.) для планирования, а также корпуса, сгенерированного агентом, для визуальной самокоррекции. Многочисленные эксперименты демонстрируют, что UniReason достигает передовых результатов в тестах, требующих интенсивных рассуждений, таких как WISE, KrisBench и UniREditBench, сохраняя при этом превосходные общие возможности синтеза.

SWE-Universe: Масштабирование проверяемых сред реального мира до миллионов
SWE-Universe: Scale Real-World Verifiable Environments to Millions

Feb 2

ByMouxiang Chen, Lei Zhang, Yunlong Feng, Xuwu Wang, Wenting Zhao, Ruisheng Cao, Jiaxi Yang, Jiawei Chen, Mingze Li, Zeyao Ma, Hao Ge, Zongmeng Zhang, Zeyu Cui, Dayiheng Liu, Jingren Zhou, Jianling Sun, Junyang Lin, Binyuan Hui

Мы представляем SWE-Universe, масштабируемую и эффективную систему для автоматического построения верифицируемых сред реальной разработки программного обеспечения (SWE) из pull request'ов (PR) на GitHub. Чтобы преодолеть распространенные проблемы автоматизированного построения, такие как низкая производительность, слабые верификаторы и запретительно высокая стоимость, наша система использует агент сборки на основе эффективной специально обученной модели. Этот агент применяет итеративную самопроверку и обнаружение взлома в цикле для обеспечения надежной генерации высокоточных, верифицируемых задач. Используя этот метод, мы масштабировали количество реальных многоязычных сред SWE до миллионов (807 693). Мы демонстрируем глубокую ценность наших сред посредством крупномасштабного агентного промежуточного обучения и обучения с подкреплением. Наконец, мы применили эту технику к Qwen3-Max-Thinking и достигли результата в 75,3% на SWE-Bench Verified. Наша работа предоставляет как критически важный ресурс, так и надежную методологию для продвижения следующего поколения кодирующих агентов.

FS-Researcher: Масштабирование во время тестирования для долгосрочных исследовательских задач с использованием агентов на основе файловой системы
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

Feb 2

ByChiwei Zhu, Benfeng Xu, Mingxuan Du, Shaohan Wang, Xiaorui Wang, Zhendong Mao, Yongdong Zhang

Глубокое исследование становится репрезентативной задачей с длительным горизонтом для агентов на основе больших языковых моделей (LLM). Однако длинные траектории в глубоком исследовании часто превышают ограничения контекста модели, сжимая бюджет токенов как для сбора доказательств, так и для написания отчета, и препятствуя эффективному масштабированию во время тестирования. Мы представляем FS-Researcher, файлово-ориентированную дуальную агентскую систему, которая масштабирует глубокое исследование за пределы окна контекста с помощью постоянного рабочего пространства. В частности, агент-«Сборщик Контекста» действует как библиотекарь, который просматривает интернет, пишет структурированные заметки и архивирует исходные материалы в иерархическую базу знаний, способную расти далеко за пределы длины контекста. Затем агент-«Автор Отчета» составляет итоговый отчет по разделам, используя базу знаний в качестве источника фактов. В этой системе файловая система служит долговременной внешней памятью и общим средством координации между агентами и сеансами, позволяя проводить итеративное уточнение за пределами окна контекста. Эксперименты на двух открытых бенчмарках (DeepResearch Bench и DeepConsult) показывают, что FS-Researcher достигает высочайшего качества отчетов на различных базовых моделях. Дальнейший анализ демонстрирует положительную корреляцию между качеством итогового отчета и вычислительными ресурсами, выделенными Сборщику Контекста, что подтверждает эффективное масштабирование во время тестирования в рамках файловой парадигмы. Код и данные анонимно открыты по адресу https://github.com/Ignoramus0817/FS-Researcher.

PixelGen: Пиксельная диффузия превосходит латентную диффузию с перцептивными потерями
PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Feb 2

ByZehong Ma, Ruihan Xu, Shiliang Zhang

Пиксельная диффузия генерирует изображения непосредственно в пиксельном пространстве сквозным образом, избегая артефактов и узких мест, привносимых VAEs в двухэтапной латентной диффузии. Однако оптимизация многомерных пиксельных многообразий, содержащих множество перцептивно нерелевантных сигналов, является сложной задачей, из-за чего существующие методы пиксельной диффузии отстают от латентных диффузионных моделей. Мы предлагаем PixelGen — простую структуру пиксельной диффузии с перцептивным контролем. Вместо моделирования полного многообразия изображений PixelGen вводит два комплементарных перцептивных лосса, которые направляют диффузионную модель на изучение более осмысленного перцептивного многообразия. LPIPS-лосс способствует лучшему обучению локальных паттернов, тогда как перцептивный лосс на основе DINO усиливает глобальную семантику. Благодаря перцептивному контролю PixelGen превосходит сильные базовые модели латентной диффузии. Метод достигает FID 5.11 на ImageNet-256 без классификатор-фри гайданса, используя всего 80 эпох обучения, и демонстрирует благоприятные масштабируемые характеристики при крупномасштабной текстово-ориентированной генерации с показателем GenEval 0.79. PixelGen не требует VAEs, латентных представлений и вспомогательных этапов, предлагая более простую, но мощную генеративную парадигму. Код доступен по адресу https://github.com/Zehong-Ma/PixelGen.

SPARKLING: Сохранение сигнала и нарушение симметрии в процессе прогрессивного наращивания ширины сети
SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Feb 2

ByQifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He

Прогрессивное обучение (Progressive Learning, PL) снижает вычислительные затраты на предварительное обучение за счёт постепенного увеличения масштаба модели. В то время как предыдущие работы широко исследовали расширение по глубине, расширение по ширине остаётся значительно менее изученным, а немногочисленные существующие методы ограничиваются ранними стадиями обучения. Однако расширение ширины на средней стадии критически важно для максимизации вычислительной экономии, но остаётся сложной проблемой из-за серьёзной нестабильности обучения. Эмпирически мы показываем, что наивная инициализация на этом этапе нарушает статистику активаций, вызывая скачки потерь, в то время как инициализация копированием порождает симметрию градиентов, которая препятствует разнообразию признаков. Для решения этих проблем мы предлагаем SPARKLING (балансировка {S}охранения сигнала {A}нд разрыва симметрии{R} для {K}обучения с прогрессивным увеличением ширины{ING}) — новую структуру для расширения ширины на средней стадии. Наш метод обеспечивает сохранение сигнала через согласованность RMS-масштаба, стабилизируя статистику активаций при расширении. Разрыв симметрии гарантируется за счёт асимметричного сброса состояния оптимизатора и повторного разогрева скорости обучения. Масштабные эксперименты на моделях Mixture-of-Experts (MoE) демонстрируют, что при различных осях расширения ширины и семействах оптимизаторов SPARKLING стабильно превосходит обучение с нуля и снижает стоимость обучения до 35% при двукратном расширении ширины.

Переосмысление токенизатора в генеративных рекомендательных системах: рекоммендательная кодировка и семантическая квантизация за пределами больших языковых моделей
Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs

Feb 2

ByYu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia

Рекомендательные системы на основе семантических идентификаторов (SID) представляют собой перспективную парадигму для масштабирования последовательных рекомендательных систем. Однако существующие методы в основном следуют семантико-центричному подходу: эмбеддинги элементов извлекаются с помощью базовых моделей и дискретизируются с использованием общих схем квантования. Данный подход не согласуется с задачами генеративного рекомендательного моделирования: семантические эмбеддинги слабо связаны с коллаборативной фильтрацией, а универсальное квантование неэффективно снижает последовательную неопределенность для авторегрессионного моделирования. Для решения этих проблем мы предлагаем ReSID — принципиальную SID-архитектуру, изначально ориентированную на рекомендации, которая переосмысливает обучение представлений и квантование с точки зрения сохранения информации и последовательной предсказуемости, не полагаясь на большие языковые модели. ReSID состоит из двух компонентов: (i) Field-Aware Masked Auto-Encoding (FAMAE), который изучает достаточные для предсказания представления элементов на основе структурированных признаков, и (ii) Globally Aligned Orthogonal Quantization (GAOQ), который создает компактные и предсказуемые SID-последовательности, совместно уменьшая семантическую неоднозначность и условную неопределенность префиксов. Теоретический анализ и масштабные эксперименты на десяти наборах данных демонстрируют эффективность ReSID. Наш метод стабильно превосходит сильные последовательные и SID-базированные генеративные базовые линии в среднем более чем на 10%, одновременно сокращая стоимость токенизации до 122 раз. Код доступен по адресу https://github.com/FuCongResearchSquad/ReSID.

Хорошая SFT оптимизирует SFT, а лучшая SFT готовит к обучению с подкреплением.
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Feb 1

ByDylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng

Посттренировка рассуждающих больших языковых моделей (LLM) — это целостный процесс, который обычно состоит из офлайн-этапа SFT (тонкой настройки с учителем), за которым следует этап онлайн-обучения с подкреплением (RL). Однако SFT часто оптимизируют изолированно, стремясь максимизировать только её непосредственные показатели. Мы показываем, что после идентичной RL-тренировки модели, инициализированные из более сильных чекпоинтов SFT, могут значительно уступать по производительности моделям, инициализированным из более слабых. Мы объясняем это несоответствием, типичным для современных SFT-RL конвейеров: распределение, которое генерирует офлайн-данные для SFT, может существенно отличаться от политики, оптимизируемой в ходе онлайн-RL, которая учится на собственных прогонах (rollouts). Мы предлагаем PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) — метод для этапа SFT, который исправляет это несоответствие и лучше подготавливает модель к RL. PEAR использует важное взвешивание (importance sampling) для перевзвешивания потерь SFT, предлагая три варианта, работающих на уровне токенов, блоков и последовательностей. Его можно использовать для дополнения стандартных целей SFT, и он требует небольших дополнительных вычислительных затрат после сбора вероятностей для офлайн-данных. Мы провели контролируемые эксперименты на верифицируемых играх на рассуждение и задачах математического мышления на моделях Qwen 2.5, Qwen 3 и DeepSeek-distilled. PEAR стабильно улучшает результаты после RL по сравнению с канонической SFT, демонстрируя прирост в метрике "pass@8" до 14.6% на AIME2025. Наши результаты свидетельствуют о том, что PEAR является эффективным шагом к более целостной посттренировке LLM, поскольку он предполагает проектирование и оценку SFT с учётом последующего этапа RL, а не изолированно.

Генеративные визуальные кодовые мобильные мировые модели
Generative Visual Code Mobile World Models

Feb 2

ByWoosung Koh, Sungjun Han, Segyu Lee, Se-Young Yun, Jamin Shin

Мобильные графические модели мира (World Models, WM) с графическим интерфейсом (GUI) открывают перспективный путь для повышения производительности мобильных GUI-агентов на этапах обучения и логического вывода. Однако современные подходы сталкиваются с ключевым компромиссом: текстовые WM жертвуют визуальной точностью, в то время как неспособность визуальных WM к точному рендерингу текста вынуждает их полагаться на медленные, сложные конвейеры, зависящие от множества внешних моделей. Мы предлагаем новую парадигму: визуальное моделирование мира через генерацию исполняемого кода, в которой одна модель "визуальный язык" (Vision-Language Model, VLM) предсказывает следующее состояние GUI в виде исполняемого веб-кода, который рендерится в пиксели, а не генерирует пиксели напрямую. Это сочетает преимущества обоих подходов: VLM сохраняют лингвистические априорные знания для точного рендеринга текста, а их предварительное обучение на структурированном веб-коде позволяет обеспечить визуальную генерацию высокой точности. Мы представляем gWorld (8B, 32B) — первые модели визуальных мобильных GUI WM с открытыми весами, построенные на этой парадигме, вместе с фреймворком генерации данных (gWorld), который автоматически синтезирует обучающие данные на основе кода. В ходе всесторонней оценки на 4 внутри- и 2 внераспределенных бенчмарках gWorld устанавливает новую парето-границу по соотношению "точность — размер модели", превосходя 8 передовых моделей с открытыми весами, которые более чем в 50.25 раз крупнее. Дальнейший анализ показывает, что (1) масштабирование обучающих данных с помощью gWorld дает значительный прирост, (2) каждый компонент нашего конвейера улучшает качество данных и (3) более сильное моделирование мира повышает производительность политик мобильного GUI на последующих задачах.

WildGraphBench: Бенчмаркинг GraphRAG на корпусах с разнородными источниками
WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

Feb 2

ByPengyu Wang, Benfeng Xu, Licheng Zhang, Shaohan Wang, Mingxuan Du, Chiwei Zhu, Zhendong Mao

Графовый поисково-генерирующий подход (GraphRAG) организует внешние знания в виде иерархического графа, обеспечивая эффективное извлечение и агрегацию разрозненных свидетельств из множества документов. Однако многие существующие бенчмарки для GraphRAG полагаются на короткие, курируемые текстовые фрагменты в качестве внешних знаний, не позволяя адекватно оценивать системы в реалистичных условиях, предполагающих длинные контексты и крупномасштабные гетерогенные документы. Для преодоления этого разрыва мы представляем WildGraphBench — бенчмарк, разработанный для оценки производительности GraphRAG в реальных условиях. Мы используем уникальную структуру Википедии, где связные повествования основаны на длинных и разнородных внешних справочных документах, для построения бенчмарка, отражающего сценарии из реальной практики. В частности, мы выбираем статьи из 12 тематических категорий верхнего уровня, используя их внешние ссылки в качестве корпуса для поиска, а утверждения, связанные с цитированием, — в качестве эталонных данных, получая в итоге 1100 вопросов, охватывающих три уровня сложности: вопросы на одиночный факт, вопросы на множественные факты и суммаризацию на уровне разделов. Эксперименты с несколькими базовыми моделями показывают, что современные GraphRAG-пайплайны помогают при агрегации множественных фактов, когда свидетельства поступают из умеренного числа источников, но данная парадигма агрегации может чрезмерно акцентировать обобщающие утверждения в ущерб детализированным сведениям, что приводит к снижению производительности на задачах суммаризации. Страница проекта: https://github.com/BstWPY/WildGraphBench.

Мышление с помощью комиксов: развитие мультимодального мышления через структурированное визуальное повествование
Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

Feb 2

ByAndong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao

Цепрассуждение (Chain-of-Thought) позволило большим языковым моделям перейти от мышления с помощью текста к мышлению с помощью изображений и видео. Однако у разных модальностей сохраняются явные ограничения: статичные изображения плохо передают временную структуру, а видео вносят значительную избыточность и вычислительные затраты. В данной работе мы предлагаем «Мышление с помощью комиксов» — парадигму визуального рассуждения, которая использует комиксы как среду с высокой плотностью информации, занимающую промежуточное положение между изображениями и видео. Комиксы сохраняют временную структуру, встроенный текст и нарративную связность, требуя при этом значительно меньших вычислительных затрат на рассуждение. Мы систематически исследуем два пути рассуждения на основе комиксов и оцениваем их на ряде задач логического вывода и задач понимания длинного контекста. Результаты экспериментов показывают, что «Мышление с помощью комиксов» превосходит «Мышление с помощью изображений» в многошаговых задачах временного и причинно-следственного рассуждения, оставаясь при этом существенно более эффективным, чем «Мышление с помощью видео». Дальнейший анализ указывает на то, что различные нарративные структуры и стили комиксов последовательно влияют на результаты across задачами, что позволяет предположить, что комиксы служат эффективным промежуточным визуальным представлением для улучшения мультимодального рассуждения.

RLAnything: Формирование окружения, политики и модели вознаграждения в полностью динамической системе обучения с подкреплением
RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

Feb 2

ByYinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang

Мы представляем RLAnything — фреймворк обучения с подкреплением, который динамически формирует модели среды, политики и вознаграждения посредством замкнутой оптимизации, усиливая обучающие сигналы и укрепляя общую систему RL для любых сценариев с большими языковыми моделями (LLM) или агентами. В частности, политика обучается с интегрированной обратной связью от пошаговых и результирующих сигналов, в то время как модель вознаграждения совместно оптимизируется через согласованную обратную связь, что, в свою очередь, дополнительно улучшает обучение политики. Более того, наша теоретически обоснованная автоматическая адаптация среды улучшает обучение как моделей вознаграждения, так и политик, используя критическую обратную связь от каждой из них, что позволяет обучаться на основе опыта. Экспериментально показано, что каждый добавленный компонент последовательно улучшает общую систему, и RLAnything обеспечивает существенный прирост производительности в различных репрезентативных задачах для LLM и агентов: повышение показателей Qwen3-VL-8B-Thinking на 9,1% на OSWorld, а Qwen2.5-7B-Instruct — на 18,7% и 11,9% на AlfWorld и LiveBench соответственно. Мы также демонстрируем, что оптимизированные сигналы модели вознаграждения превосходят результаты, основанные на человеческих разметках. Код: https://github.com/Gen-Verse/Open-AgentRL

Вики-живой вызов: Испытание агентов глубокого анализа экспертно-уровневыми статьями Википедии
Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Feb 2

ByShaohan Wang, Benfeng Xu, Licheng Zhang, Mingxuan Du, Chiwei Zhu, Xiaorui Wang, Zhendong Mao, Yongdong Zhang

Глубокие исследовательские агенты (DRA) продемонстрировали впечатляющие способности в автономном поиске информации и генерации отчетов, показав большой потенциал для помощи людям в выполнении сложных исследовательских задач. Современные системы оценки в основном полагаются на сгенерированные большими языковыми моделями (LLM) эталоны или производные от LLM критерии оценки. Хотя такие подходы обеспечивают масштабируемость, они часто не обладают надежностью экспертно-проверенного контента и не способны обеспечить объективную, детализированную оценку по ключевым параметрам. Для преодоления этого разрыва мы представляем Wiki Live Challenge (WLC) — динамичный бенчмарк, использующий новейшие «Хорошие статьи» (Good Articles, GA) Википедии в качестве экспертных эталонов. Строгие стандарты Википедии в отношении нейтральности, полноты и проверяемости представляют собой серьезный вызов для DRA, а «Хорошие статьи» являются вершиной соответствия этим стандартам. Мы собрали набор данных из 100 недавних «Хороших статей» и предлагаем Wiki Eval — комплексную систему оценки, включающую детализированный метод оценки с 39 критериями качества написания и строгие метрики фактической проверяемости. Многочисленные эксперименты с различными системами DRA выявили значительный разрыв между современными агентами и статьями Википедии, созданными экспертами-людьми, что подтверждает эффективность WLC для развития исследований в области агентов. Мы публикуем наш бенчмарк по адресу: https://github.com/WangShao2000/Wiki_Live_Challenge.

SLIME: Стабилизированное применение неявной маржи для оптимизации предпочтений с помощью стабилизированного правдоподобия
SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

Feb 2

ByMaksim Afanasyev, Illarion Iov

Методы прямой оптимизации предпочтений стали вычислительно эффективной альтернативой обучению с подкреплением на основе человеческих откликов (RLHF) для согласования больших языковых моделей (LLM). Современные подходы упростили процесс согласования за счёт выведения неявных функций вознаграждения, однако они часто страдают от фундаментального несоответствия целей: оптимизация относительного отступа между выбранными и отвергнутыми ответами не гарантирует сохранения абсолютной вероятности выбранного ответа. Это может приводить к «разучиванию», когда модель снижает вероятность высококачественных выходных данных для удовлетворения ограничений на отступ, и «коллапсу форматирования», вызванному чрезмерным штрафованием отвергнутых последовательностей. В данной работе мы представляем SLIME (Stabilized Likelihood Implicit Margin Enforcement) — цель согласования без эталонной модели, предназначенную для разделения обучения предпочтениям и качества генерации. SLIME включает трёхкомпонентную цель: (1) якорный член для максимизации правдоподобия предпочтительных ответов; (2) стабилизирующий штраф, предотвращающий схлопывание вероятностей отвергнутых токенов к нулю; и (3) механизм двойного отступа, комбинирующий жёсткие и мягкие ограничения для точного формирования границ. Наши результаты демонстрируют, что SLIME превосходит современные базовые методы по производительности, сохраняя при этом более высокую стабильность генерации.

Быстрая авторегрессионная видеодиффузия и мировые модели со сжатием временного кэша и разреженным вниманием
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Feb 2

ByDvir Samuel, Issar Tzachor, Matan Levy, Micahel Green, Gal Chechik, Rami Ben-Ari

Авторегрессионные диффузионные модели видео позволяют осуществлять потоковую генерацию, открывая путь к синтезу длинных последовательностей, видео-мировым моделям и интерактивным нейросетевым игровым движкам. Однако их ключевые слои внимания становятся основным узким местом на этапе вывода: по мере генерации кэш ключей-значений (KV-кэш) растет, что приводит к увеличению задержки и росту потребляемой памяти GPU, что, в свою очередь, ограничивает используемый временной контекст и нарушает долгосрочную согласованность. В данной работе мы исследуем избыточность в авторегрессионной диффузии видео и выявляем три устойчивых источника: почти идентичные кэшированные ключи между кадрами, медленно эволюционирующие (в основном семантические) запросы/ключи, которые делают многие вычисления внимания избыточными, и кросс-внимание по длинным промптам, где для каждого кадра важна лишь небольшая подмножество токенов. Опираясь на эти наблюдения, мы предлагаем унифицированную, не требующую дообучения, архитектуру внимания для авторегрессионной диффузии: TempCache сжимает KV-кэш с помощью временных соответствий, чтобы ограничить его рост; AnnCA ускоряет кросс-внимание, выбирая релевантные для кадра токены промпта с помощью быстрого приближенного поиска ближайших соседей (ANN); и AnnSA разреживает самовнимание, ограничивая каждый запрос семантически соответствующими ключами, также используя легковесный ANN. Вместе эти модули сокращают затраты на внимание, вычисления и память и совместимы с существующими авторегрессионными диффузионными архитектурами и мировыми моделями. Эксперименты демонстрируют до 5–10-кратного ускорения end-to-end при сохранении практически идентичного визуального качества и, что критически важно, поддержании стабильной пропускной способности и почти постоянного пикового потребления памяти GPU при длительных прогонах, в то время как предыдущие методы постепенно замедляются и страдают от растущего потребления памяти.

Каузальное форсирование: авторегрессионная диффузионная дистилляция, правильно реализованная для генерации высококачественного интерактивного видео в реальном времени
Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Feb 2

ByHongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu

Для достижения интерактивной генерации видео в реальном времени современные методы дистиллируют предобученные двунаправленные модели видео-диффузии в авторегрессионные (AR) модели с малым числом шагов, сталкиваясь с архитектурным разрывом при замене полного внимания на причинное внимание. Однако существующие подходы не преодолевают этот разрыв теоретически. Они инициализируют AR-ученика через ODE-дистилляцию, что требует инъективности на уровне кадров: каждый зашумленный кадр должен однозначно отображаться на чистый кадр в соответствии с PF-ODE AR-учителя. Дистилляция AR-ученика от двунаправленного учителя нарушает это условие, препятствуя восстановлению потока учителя и приводя к условно-математическому ожиданию, что снижает качество. Для решения этой проблемы мы предлагаем Causal Forcing — метод, использующий AR-учителя для ODE-инициализации, тем самым устраняя архитектурный разрыв. Эксперименты показывают, что наш метод превосходит все базовые подходы по всем метрикам, опережая состояние искусства (Self Forcing) на 19.3% по Dynamic Degree, 8.7% по VisionReward и 16.7% по Instruction Following. Страница проекта и код: https://thu-ml.github.io/CausalForcing.github.io/.

PISCES: Безаннотационное пост-обучение текста-видео с помощью вознаграждений, согласованных методом оптимального транспорта
PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

Feb 2

ByMinh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen

Генерация видео по тексту (Text-to-Video, T2V) направлена на синтез видео с высоким визуальным качеством и временной согласованностью, которые семантически соответствуют входному тексту. Пост-тренинг на основе вознаграждений стал перспективным направлением для улучшения качества и семантического соответствия генерируемых видео. Однако современные методы либо полагаются на масштабные аннотации человеческих предпочтений, либо работают с несогласованными эмбеддингами из предварительно обученных визуально-языковых моделей, что приводит к ограниченной масштабируемости или субоптимальному контролю. Мы представляем PISCES — алгоритм пост-тренинга, не требующий аннотаций, который решает эти ограничения с помощью нового модуля Dual Optimal Transport (OT)-aligned Rewards. Чтобы согласовать сигналы вознаграждения с человеческим восприятием, PISCES использует оптимальное транспортирование (OT) для согласования текстовых и видео эмбеддингов как на распределенном, так и на дискретном токенном уровнях, что позволяет обеспечить выполнение двух целей: (i) Distributional OT-aligned Quality Reward, который оценивает общее визуальное качество и временную согласованность; и (ii) Discrete Token-level OT-aligned Semantic Reward, который обеспечивает семантическое пространственно-временное соответствие между текстовыми и видео токенами. Насколько нам известно, PISCES является первым методом, улучшающим контроль вознаграждения без аннотаций в генеративном пост-тренинге с использованием подхода оптимального транспортирования. Эксперименты на генерации как коротких, так и длинных видео показывают, что PISCES превосходит как методы с аннотациями, так и без них по показателям VBench по критериям Качества и Семантики, а исследования человеческих предпочтений дополнительно подтверждают его эффективность. Мы демонстрируем, что модуль Dual OT-aligned Rewards совместим с несколькими парадигмами оптимизации, включая прямое распространение ошибки и тонкую настройку с подкреплением.

Разум-Кисть: Интеграция агентного когнитивного поиска и рассуждений в генерацию изображений
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

Feb 2

ByJun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li

Хотя генерация изображений по тексту достигла беспрецедентной точности, подавляющее большинство существующих моделей функционируют по своей сути как статические декодеры «текст-в-пиксели». Как следствие, они часто не улавливают неявные намерения пользователя. Несмотря на то, что новые унифицированные модели понимания-генерации улучшили распознавание intent, они по-прежнему испытывают трудности с выполнением задач, требующих сложных логических выводов на основе знаний, в рамках единой модели. Более того, ограниченные статическими внутренними априорными представлениями, эти модели остаются неспособными адаптироваться к изменяющейся динамике реального мира. Для преодоления этих пробелов мы представляем Mind-Brush — унифицированную агентскую платформу, преобразующую генерацию в динамический workflow, управляемый знаниями. Имитируя человеческую парадигму «думай-исследуй-создавай», Mind-Brush активно извлекает мультимодальные свидетельства для обоснования концепций вне распределения данных и использует инструменты логического вывода для разрешения неявных визуальных ограничений. Для строгой оценки этих возможностей мы предлагаем Mind-Bench — комплексный бенчмарк, содержащий 500 уникальных образцов, охватывающих новости в реальном времени, emerging concepts и такие области, как математические и пространственные рассуждения. Многочисленные эксперименты демонстрируют, что Mind-Brush существенно расширяет возможности унифицированных моделей, обеспечивая скачок способностей от нуля к единице для базовой модели Qwen-Image на Mind-Bench, одновременно достигая превосходных результатов на устоявшихся бенчмарках, таких как WISE и RISE.

Переосмысление селективного дистилляции знаний
Rethinking Selective Knowledge Distillation

Feb 1

ByAlmog Tavor, Itay Ebenspanger, Neil Cnaan, Mor Geva

Растут усилия по совершенствованию дистилляции знаний (KD) в больших языковых моделях (LLM), где плотный контроль со стороны учителя заменяется селективной дистилляцией, использующей подмножество позиций токенов, классов словаря или обучающих примеров для контроля. Однако остается неясным, какие сигналы важности, стратегии отбора и их взаимодействие являются наиболее эффективными. В данной работе мы пересматриваем, где и как проводить дистилляцию в авторегрессионных LLM. Мы разделяем селективную KD по осям позиции, класса и примера и систематически сравниваем сигналы важности и стратегии отбора. Затем, руководствуясь этим анализом, мы выявляем недостаточно изученные возможности и представляем выбор позиций на основе энтропии студента (SE-KD). На наборе бенчмарков SE-KD часто превосходит плотную дистилляцию по точности, соответствию решаемым задачам и эффективности использования памяти. Расширение этого подхода на оси класса и примера (SE-KD 3X) дает дополнительные выгоды в эффективности, что делает возможным кэширование учителя в оффлайн-режиме. На практике это сокращает общее время выполнения на 70% и пиковое использование памяти на 18%, одновременно уменьшая объем хранилища на 80% по сравнению с предыдущими методами без ущерба для производительности.

RE-TRAC: Рекурсивное сжатие траекторий для глубоких поисковых агентов
RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents

Feb 2

ByJialiang Zhu, Gongrui Zhang, Xiaolong Ma, Lin Xu, Miaosen Zhang, Ruiqi Yang, Song Wang, Kai Qiu, Zhirong Wu, Qi Dai, Ruichun Ma, Bei Liu, Yifan Yang, Chong Luo, Zhengyuan Yang, Linjie Li, Lijuan Wang, Weizhu Chen, Xin Geng, Baining Guo

Глубокие исследовательские агенты на основе больших языковых моделей (LLM) в основном построены на архитектуре ReAct. Такое линейное проектирование затрудняет возврат к предыдущим состояниям, ветвление в альтернативных направлениях поиска или поддержание глобального контекста при длинных последовательностях, что часто приводит к локальным оптимумам, избыточному исследованию и неэффективному поиску. Мы предлагаем Re-TRAC — агентский фреймворк, который осуществляет межтраекторное исследование путем генерации структурированного представления состояния после каждой траектории для обобщения доказательств, неопределенностей, неудач и будущих планов, и обусловливает последующие траектории этим представлением состояния. Это позволяет осуществлять итеративную рефлексию и глобально информированное планирование, переосмысливая исследование как прогрессивный процесс. Эмпирические результаты показывают, что Re-TRAC стабильно превосходит ReAct на 15–20% в тесте BrowseComp при использовании передовых LLM. Для меньших моделей мы вводим контролируемое тонкое обучение с учетом Re-TRAC, достигая наилучшей производительности на сопоставимых масштабах. Примечательно, что Re-TRAC демонстрирует монотонное сокращение количества вызовов инструментов и использования токенов между раундами, что указывает на прогрессивно целенаправленное исследование, движимое межтраекторной рефлексией, а не избыточным поиском.

FSVideo: Быстрая модель диффузии видео в высокосжатом латентном пространстве
FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Feb 2

ByFSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang

Мы представляем FSVideo — быстрый трансформерный фреймворк для диффузионного преобразования изображений в видео (I2V), основанный на следующих ключевых компонентах: 1) новый видеоавтокодировщик с высокостепенной компрессией латентного пространства (коэффициент пространственно-временного сжатия 64×64×4), обеспечивающий конкурентоспособное качество реконструкции; 2) архитектура диффузионного трансформера (DIT) с новой схемой организации памяти слоёв для улучшения межслойного потока информации и повторного использования контекста внутри DIT; 3) стратегия генерации в многомасштабном разрешении с помощью малошагового апсемплера на основе DIT для повышения детализации видео. Наша итоговая модель, включающая базовую 14B-параметрическую DIT-модель и 14B-параметрический DIT-апсемплер, демонстрирует конкурентоспособные результаты по сравнению с другими популярными открытыми моделями, при этом работая на порядок быстрее. В данном отчёте мы обсуждаем архитектурные решения и стратегии обучения нашей модели.

Эбису: Оценка возможностей больших языковых моделей в сфере японских финансов
Ebisu: Benchmarking Large Language Models in Japanese Finance

Feb 1

ByXueqing Peng, Ruoyu Xiang, Fan Zhang, Mingzi Song, Mingyang Jiang, Yan Wang, Lingfei Qian, Taiki Hara, Yuqing Guo, Jimin Huang, Junichi Tsujii, Sophia Ananiadou

Японский финансовый язык сочетает агглютинативную, правостороннюю лингвистическую структуру, смешанные системы письма и нормы коммуникации с высоким контекстом, основанные на косвенном выражении и неявных обязательствах, что создает серьезные трудности для больших языковых моделей (LLM). Мы представляем Ebisu — эталонный тест для оценки понимания японского финансового языка в его естественной форме, состоящий из двух лингвистически и культурно обоснованных, экспертно размеченных задач: JF-ICR, который оценивает распознавание неявных обязательств и отказов в вопросах и ответах для инвесторов, и JF-TE, который проверяет иерархическое извлечение и ранжирование вложенной финансовой терминологии из профессиональных раскрытий. Мы оцениваем разнообразный набор открытых и проприетарных LLM, включая модели общего назначения, адаптированные для японского языка и финансовые модели. Результаты показывают, что даже передовые системы испытывают затруднения с обеими задачами. Хотя увеличение масштаба модели дает ограниченное улучшение, языковая и предметно-ориентированная адаптация не обеспечивает стабильного роста производительности, оставляя существенные пробелы нерешенными. Ebisu предоставляет целенаправленный эталон для развития финансового NLP с учетом лингвистических и культурных особенностей. Все наборы данных и скрипты для оценки находятся в открытом доступе.

За пределами пикселей: передача визуальных метафор через схема-ориентированное агентное рассуждение
Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

Feb 1

ByYu Xu, Yuxin Zhang, Juan Cao, Lin Gao, Chunyu Wang, Oliver Deussen, Tong-Yee Lee, Fan Tang

Визуальная метафора представляет собой высокоуровневую форму человеческого творчества, использующую междоменное семантическое слияние для преобразования абстрактных концепций в выразительную визуальную риторику. Несмотря на значительный прогресс генеративного ИИ, современные модели в основном ограничиваются выравниванием на уровне пикселей и сохранением поверхностного внешнего вида, не способясь уловить лежащую в основе абстрактную логику, необходимую для подлинного метафорического генерации. Для преодоления этого разрыва мы представляем задачу переноса визуальной метафоры (VMT), которая требует от моделей автономного выделения «творческой сущности» из референсного изображения и повторного воплощения этой абстрактной логики на заданном пользователем целевом объекте. Мы предлагаем вдохновленную когнитивной наукой многоагентную框架, которая реализует Теорию концептуального смешения (CBT) через новую Схемную Грамматику («G»). Это структурированное представление разделяет реляционные инварианты от конкретных визуальных сущностей, обеспечивая строгую основу для междоменной ре-инстанцииации логики. Наш конвейер выполняет VMT через систему специализированных агентов: агент восприятия, который выделяет схему из референса; агент переноса, сохраняющий инвариантность общего пространства для поиска подходящих носителей; агент генерации для высококачественного синтеза; и иерархический диагностический агент, имитирующий профессионального критика, выполняющий замкнутый цикл обратного отслеживания для выявления и исправления ошибок на уровнях абстрактной логики, выбора компонентов и кодирования промптов. Масштабные эксперименты и человеческие оценки демонстрируют, что наш метод значительно превосходит современные базовые подходы по согласованности метафоры, уместности аналогии и визуальной креативности, прокладывая путь к автоматизированным высокоэффективным креативным приложениям в рекламе и медиа. Исходный код будет общедоступен.

К когнитивному суперсенсингу в мультимодальных больших языковых моделях
Toward Cognitive Supersensing in Multimodal Large Language Model

Feb 2

ByBoyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu, Xinzhuo Li, Zhengyuan Li, Jingyuan Zhu, Yunhan Zhong, Fangzhou Lan, Jianguo Cao, James M. Rehg, Heng Ji, Ismini Lourentzou, Xu Cao

Мультимодальные большие языковые модели (MБЯМ) достигли значительных успехов в задачах открытого восприятия, однако их способность решать сложные когнитивные задачи остается ограниченной, особенно когда визуальные детали абстрактны и требуют зрительной памяти. Современные подходы в основном масштабируют рассуждения по цепочке мыслей (Chain-of-Thought, CoT) в текстовом пространстве, даже когда одного языка недостаточно для ясного и структурированного мышления, и в значительной степени игнорируют механизмы визуального рассуждения, аналогичные человеческому визуально-пространственному эскизному блокноту и зрительным образам. Чтобы устранить этот недостаток, мы представляем Cognitive Supersensing — новую парадигму обучения, которая наделяет МБЯМ способностями к формированию зрительных образов, подобными человеческим, за счет интеграции головы латентного прогнозирования зрительных образов (Latent Visual Imagery Prediction, LVIP). Эта головка совместно изучает последовательности латентных визуально-когнитивных эмбеддингов и выравнивает их с ответом, формируя тем самым внутренние цепочки рассуждений на основе зрения. Мы также вводим этап обучения с подкреплением, который оптимизирует текстовые пути рассуждений на основе этого обоснованного визуального латентного представления. Для оценки когнитивных способностей МБЯМ мы представляем CogSense-Bench — комплексный бенчмарк для визуального ответа на вопросы (Visual Question Answering, VQA), оценивающий пять когнитивных измерений. Многочисленные эксперименты показывают, что МБЯМ, обученные с помощью Cognitive Supersensing, значительно превосходят современные базовые модели на CogSense-Bench и демонстрируют превосходную способность к обобщению на внешних бенчмарках VQA по математике и естественным наукам, что позволяет предположить, что внутренние зрительные образы потенциально являются ключом к преодолению разрыва между перцептивным распознаванием и когнитивным пониманием. Мы опубликуем в открытом доступе бенчмарк CogSense-Bench и веса нашей модели.

Насколько хорошо модели следуют визуальным инструкциям? VIBE: Систематический бенчмарк для редактирования изображений на основе визуальных инструкций
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

Feb 2

ByHuanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan

Современные генеративные модели демонстрируют значительный прогресс в области редактирования изображений. Однако существующие системы и бенчмарки в основном остаются тексто-ориентированными. В отличие от них, человеческое общение по своей природе мультимодально, где визуальные инструкции, такие как наброски, эффективно передают пространственные и структурные намерения. Для преодоления этого разрыва мы представляем VIBE — визуальный инструктивный бенчмарк для редактирования изображений с трехуровневой иерархией взаимодействия, которая охватывает дейктическую привязку, морфологические манипуляции и каузальные рассуждения. Для каждого из этих уровней мы подготовили качественные и разнообразные тестовые примеры, отражающие прогрессивно возрастающую сложность следования визуальным инструкциям. Мы также предлагаем надежную систему оценки LMM-as-a-judge с метриками, специфичными для задач, чтобы обеспечить масштабируемую и детальную оценку. В ходе всесторонней оценки 17 репрезентативных моделей редактирования изображений с открытым исходным кодом и проприетарных моделей мы обнаружили, что проприетарные модели демонстрируют зачаточные способности следования визуальным инструкциям и последовательно превосходят модели с открытым исходным кодом. Однако производительность заметно снижается с увеличением сложности задачи даже для самых мощных систем, что указывает на перспективные направления для будущих исследований.

Заставить аватары взаимодействовать: к текстовому управлению взаимодействием человека с объектами для контролируемых говорящих аватаров
Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

Feb 2

ByYouliang Zhang, Zhengguang Zhou, Zhentao Yu, Ziyao Huang, Teng Hu, Sen Liang, Guozhen Zhang, Ziqiao Peng, Shunkai Li, Yi Chen, Zixiang Zhou, Yuan Zhou, Qinglin Lu, Xiu Li

Генерация говорящих аватаров является фундаментальной задачей в области генерации видео. Хотя существующие методы позволяют создавать полнотелые говорящие аватары с простыми движениями человека, расширение этой задачи до обоснованного взаимодействия человека с объектами (GHOI) остается сложной проблемой, требующей от аватара выполнения взаимодействий с окружающими объектами, согласованных с текстовым описанием. Эта проблема обусловлена необходимостью восприятия окружающей среды и дилеммой контроля-качества в генерации GHOI. Для её решения мы предлагаем новую двухпотоковую архитектуру InteractAvatar, которая разделяет восприятие и планирование от синтеза видео для обоснованного взаимодействия человека с объектами. Используя детектирование для улучшения восприятия окружающей среды, мы представляем Модуль Восприятия и Взаимодействия (PIM) для генерации движений взаимодействия, согласованных с текстом. Дополнительно предлагается Аудио-Интерактивный Модуль Генерации (AIM) для синтеза реалистичных говорящих аватаров, выполняющих взаимодействия с объектами. Благодаря специально разработанному выравнивателю движений и видео, PIM и AIM имеют схожую структуру сети и позволяют параллельно совместно генерировать движения и правдоподобные видео, эффективно смягчая дилемму контроля-качества. Наконец, мы создали бенчмарк GroundedInter для оценки генерации видео GHOI. Многочисленные эксперименты и сравнения демонстрируют эффективность нашего метода в генерации обоснованного взаимодействия человека с объектами для говорящих аватаров. Страница проекта: https://interactavatar.github.io

Альтернирующее обучение с подкреплением для моделирования вознаграждения на основе рубрик при пост-обучении больших языковых моделей с непроверяемыми результатами
Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Feb 2

ByRan Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang

Стандартные модели вознаграждения обычно предсказывают скалярные оценки, которые не способны уловить многогранный характер качества ответов в неверифицируемых областях, таких как творческое письмо или выполнение открытых инструкций. Для преодоления этого ограничения мы предлагаем Rubric-ARM — фреймворк, который совместно оптимизирует генератор рубрик и оценщика с использованием обучения с подкреплением на основе обратной связи в виде предпочтений. В отличие от существующих методов, опирающихся на статические рубрики или разрозненные конвейеры обучения, наш подход трактует генерацию рубрик как латентное действие, изучаемое для максимизации точности оценивания. Мы представляем стратегию чередующейся оптимизации для смягчения нестационарности одновременных обновлений, подкрепляя её теоретическим анализом, который демонстрирует, как такой график снижает дисперсию градиента в процессе обучения. Многочисленные эксперименты показывают, что Rubric-ARM достигает наилучших результатов среди базовых методов на нескольких бенчмарках и значительно улучшает согласование политики на последующих этапах как в оффлайн-, так и в онлайн-режимах обучения с подкреплением.

CUA-Skill: Развитие навыков для компьютерного агента
CUA-Skill: Develop Skills for Computer Using Agent

Jan 28

ByTianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Suzhen Zheng, Leon Xu, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida

Агенты, использующие компьютеры (Computer-Using Agents, CUA), ставят целью автономное управление компьютерными системами для выполнения реальных задач. Однако существующие агентные системы по-прежнему сложно масштабировать, и они отстают по производительности от человека. Ключевым ограничением является отсутствие переиспользуемых и структурированных абстракций навыков, которые бы фиксировали то, как люди взаимодействуют с графическими пользовательскими интерфейсами, и то, как использовать эти навыки. Мы представляем CUA-Skill — базу навыков для компьютерных агентов, которая кодирует знания человека о работе с компьютером в виде навыков, связанных с параметризованными графами выполнения и композиции. CUA-Skill — это масштабируемая библиотека тщательно разработанных навыков, охватывающих распространенные приложения Windows, которая служит практической инфраструктурой и инструментальной основой для создания масштабируемых и надежных агентов. На основе этой базы навыков мы создаем CUA-Skill Agent — сквозного агента для работы с компьютером, который поддерживает динамическое извлечение навыков, инстанцирование аргументов и восстановление после сбоев с учетом памяти. Наши результаты демонстрируют, что CUA-Skill существенно повышает процент успешного выполнения задач и устойчивость на сложных сквозных агентных бенчмарках, закладывая прочную основу для будущей разработки компьютерных агентов. На WindowsAgentArena агент CUA-Skill достигает наилучшего показателя в 57,5% успешных выполнений (лучший из трех запусков), будучи при этом значительно эффективнее предыдущих и современных подходов. Страница проекта доступна по адресу https://microsoft.github.io/cua_skill/.

Почему работает управление: к единому взгляду на динамику параметров языковых моделей
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Feb 2

ByZiwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang

Методы управления большими языковыми моделями (БЯМ), включая локальную тонкую настройку весов, адаптацию на основе LoRA и интервенции на уровне активаций, часто изучаются изолированно, что затуманивает их взаимосвязи и затрудняет сравнение. В данной работе мы представляем унифицированный взгляд, который трактует эти интервенции как динамические обновления весов, индуцированные управляющим сигналом, помещая их в единую концептуальную схему. Основываясь на этом подходе, мы предлагаем унифицированный анализ "предпочтение-полезность", который разделяет эффекты управления на предпочтение (определяемое как тенденция к целевому концепту) и полезность (определяемую как согласованная и релевантная задаче генерация), и измеряет обе величины в общей логарифмической шкале с использованием контрастных примеров с парной полярностью. Для всех методов мы наблюдаем последовательный компромисс между предпочтением и полезностью: усиление контроля увеличивает предпочтение, но предсказуемо снижает полезность. Мы далее объясняем это поведение через перспективу многообразия активаций, в которой контроль смещает репрезентации вдоль направлений целевого концепта для усиления предпочтения, тогда как полезность снижается в основном, когда интервенции выталкивают репрезентации за пределы многообразия валидной генерации модели. Наконец, мы представляем новый метод управления SPLIT, разработанный на основе этого анализа, который улучшает предпочтение, лучше сохраняя полезность. Код доступен по адресу https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

Подсистема разреженных вознаграждений в больших языковых моделях
Sparse Reward Subsystem in Large Language Models

Feb 1

ByGuowei Xu, Mert Yuksekgonul, James Zou

В данной работе мы выявляем разреженную систему вознаграждения в скрытых состояниях больших языковых моделей (LLM), проводя аналогию с биологической системой вознаграждения в человеческом мозге. Мы демонстрируем, что эта система содержит ценностные нейроны, которые отражают внутреннее ожидание модели относительно ценности состояния, и с помощью интервенционных экспериментов устанавливаем важность этих нейронов для процесса рассуждений. Наши эксперименты показывают, что эти ценностные нейроны устойчивы к изменениям в различных наборах данных, масштабах моделей и архитектурах; более того, они демонстрируют значительную переносимость между разными наборами данных и моделями, дообученными на основе одной базовой модели. Анализируя случаи расхождения ценностных предсказаний и фактических вознаграждений, мы идентифицируем дофаминовые нейроны внутри системы вознаграждения, которые кодируют ошибки предсказания вознаграждения (RPE). Эти нейроны проявляют высокую активность, когда вознаграждение превышает ожидаемое, и низкую активность, когда вознаграждение оказывается ниже ожидаемого.

LoopViT: Масштабирование визуальной ARC с помощью зацикленных транссформеров
LoopViT: Scaling Visual ARC with Looped Transformers

Feb 2

ByWen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang

Последние достижения в области визуального мышления позволили использовать трансформеры для работы с бенчмарком ARC-AGI. Однако мы полагаем, что прямая архитектура, в которой вычислительная глубина строго ограничена размером параметров, не способна уловить итеративную, алгоритмическую природу человеческой индукции. В данной работе мы предлагаем рекурсивную архитектуру под названием Loop-ViT, которая разделяет глубину рассуждений и емкость модели за счет повторения со связанными весами. Loop-ViT итеративно применяет связанный гибридный блок, сочетающий локальные свертки и глобальную механизм внимания, для формирования скрытой цепи рассуждений. Ключевым моментом является введение беспараметрового механизма динамического выхода на основе предсказательной энтропии: модель останавливает вывод, когда ее внутреннее состояние «кристаллизуется» в аттрактор с низкой неопределенностью. Эмпирические результаты на бенчмарке ARC-AGI-1 подтверждают эту точку зрения: наша модель с 18 млн параметров достигает точности 65,8%, превосходя крупные ансамбли с 73 млн параметров. Эти результаты демонстрируют, что адаптивные итеративные вычисления предлагают гораздо более эффективный путь масштабирования для визуального мышления, чем простое увеличение ширины сети. Код доступен по адресу https://github.com/WenjieShu/LoopViT.

Обучение больших языковых моделей для рассуждений по принципу «разделяй и властвуй» повышает масштабируемость на этапе тестирования
Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Feb 2

ByXiao Liang, Zhong-Zhi Li, Zhenghao Lin, Eric Hancheng Jiang, Hengyuan Zhang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Yeyun Gong, Weizhu Chen

Крупные языковые модели (LLM) продемонстрировали высокие способности к рассуждению благодаря пошаговому цепочечному мышлению (CoT). Тем не менее, на пределе возможностей модели CoT часто оказывается недостаточным, а его строго последовательный характер ограничивает масштабируемость во время тестирования. Перспективной альтернативой является декомпозиционное рассуждение (DAC), которое разбивает сложную задачу на подзадачи для облегчения более эффективного исследования решения. Несмотря на перспективность, наш анализ выявляет фундаментальное несоответствие между общецелевой пост-обученной моделью и DAC-стилем вывода, что ограничивает способность модели полностью раскрыть этот потенциал. Для преодоления этого разрыва и полного раскрытия способностей LLM к рассуждению на наиболее сложных задачах мы предлагаем сквозную систему обучения с подкреплением (RL) для улучшения их DAC-стиля рассуждений. На каждом шаге политика декомпозирует задачу на группу подзадач, последовательно решает их и решает исходную задачу с учетом решений подзадач, причем как декомпозиция, так и решение интегрированы в RL-обучение. При сопоставимом обучении наша DAC-ориентированная система наделяет модель более высоким потолком производительности и лучшей масштабируемостью во время тестирования, превосходя CoT на 8.6% по Pass@1 и на 6.3% по Pass@32 на эталонных тестах уровня соревнований.

Показывай, а не рассказывай: Превращение скрытых рассуждений в генерацию изображений
Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Feb 2

ByHarold Haodong Chen, Xinxiang Yin, Wen-Jie Shu, Hongfei Zhang, Zixin Zhang, Chenfei Liao, Litao Guo, Qifeng Chen, Ying-Cong Chen

Генерация изображений по текстовому описанию (T2I) достигла значительных успехов, однако существующие методы часто лишены способности к динамическому логическому выводу и уточнению в процессе генерации — что является отличительной чертой человеческого творчества. Современные парадигмы, усиленные логическим выводом, в основном полагаются на явные мыслительные процессы, где промежуточные рассуждения декодируются в дискретный текст на фиксированных шагах с частым декодированием и повторным кодированием изображений, что приводит к неэффективности, потере информации и когнитивным рассогласованиям. Для преодоления этого разрыва мы представляем LatentMorph — новую архитектуру, которая бесшовно интегрирует неявный латентный вывод в процесс T2I-генерации. В основе LatentMorph лежат четыре легковесных компонента: (i) конденсатор для суммирования промежуточных состояний генерации в компактную визуальную память, (ii) транслятор для преобразования латентных "мыслей" в практические руководства, (iii) формирователь для динамического управления предсказанием следующих токенов изображения и (iv) вызывающий модуль, обученный с подкреплением, для адаптивного определения момента активации логического вывода. Благодаря выполнению рассуждений полностью в непрерывных латентных пространствах, LatentMorph избегает узких мест явного вывода и обеспечивает более адаптивное самоуточнение. Многочисленные эксперименты демонстрируют, что LatentMorph (I) улучшает базовую модель Janus-Pro на 16% по GenEval и на 25% по T2I-CompBench; (II) превосходит явные парадигмы (например, TwiG) на 15% и 11% в задачах абстрактного reasoning, таких как WISE и IPV-Txt, (III) при этом сокращая время вывода на 44% и потребление токенов на 51%; и (IV) демонстрирует 71% когнитивного соответствия с человеческой интуицией в отношении момента активации рассуждений.

AgentIF-OneDay: Бенчмарк для оценки выполнения инструкций на уровне задач общими ИИ-агентами в повседневных сценариях
AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

Jan 28

ByKaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong

Способность ИИ-агентов эффективно справляться с задачами возрастающей продолжительности и сложности продолжает расти, демонстрируя исключительную производительность в кодировании, глубоких исследованиях и комплексных оценках решения проблем. Однако в повседневных сценариях восприятие этих передовых возможностей ИИ среди обычных пользователей остается ограниченным. Мы утверждаем, что текущие оценки делают приоритет на увеличении сложности задач, без достаточного учета разнообразия агентских задач, необходимых для охвата повседневной работы, жизни и учебной деятельности широких демографических групп. Чтобы решить эту проблему, мы предлагаем AgentIF-OneDay, цель которого — определить, могут ли обычные пользователи использовать инструкции на естественном языке и ИИ-агентов для выполнения разнообразного спектра повседневных задач. Эти задачи требуют не только решения проблем через диалог, но и понимания различных типов вложений и предоставления ощутимых файловых результатов. Бенчмарк структурирован вокруг трех пользовательских категорий: Выполнение открытых рабочих процессов, которое оценивает соблюдение явных и сложных workflow; Скрытая инструкция, требующая от агентов выведения неявных указаний из вложений; и Итеративное улучшение, которое предполагает модификацию или расширение текущей работы. Мы используем рубрики на уровне экземпляров и усовершенствованный конвейер оценки, который согласует проверку на основе LLM с человеческим суждением, достигая 80.1% уровня согласия с использованием Gemini-3-Pro. AgentIF-OneDay включает 104 задачи, охватывающих 767 оценочных пунктов. Мы провели тестирование четырех ведущих универсальных ИИ-агентов и обнаружили, что агентские продукты, построенные на основе API, и ChatGPT-агенты на основе агентского RL остаются одновременно в первом эшелоне. Ведущие LLM API и модели с открытым исходным кодом интериоризировали агентские возможности, позволяя командам разработчиков ИИ-приложений создавать передовые Agent-продукты.

TRIP-Bench: Бенчмарк для интерактивных агентов с длинным горизонтом планирования в реальных сценариях
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Feb 2

ByYuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng

По мере внедрения агентов на основе больших языковых моделей (LLM) во всё более сложные реальные сценарии, существующие бенчмарки недостаточно отражают ключевые проблемы, такие как соблюдение глобальных ограничений, координация рассуждений с использованием множества инструментов и адаптация к изменяющемуся поведению пользователя в ходе длительных многоходовых взаимодействий. Чтобы заполнить этот пробел, мы представляем TRIP-Bench — долгосрочный бенчмарк, основанный на реалистичных сценариях планирования путешествий. TRIP-Bench использует реальные данные, предлагает 18 тщательно отобранных инструментов и более 40 требований к поездкам, а также поддерживает автоматизированную оценку. Он включает наборы данных разной сложности; сложный набор акцентирует внимание на длительных и неоднозначных взаимодействиях, смене стиля, изменениях осуществимости и итеративном пересмотре версий. Диалоги могут достигать 15 реплик пользователя, включать более 150 вызовов инструментов и превышать 200 тыс. токенов контекста. Эксперименты показывают, что даже передовые модели достигают не более 50% успеха на лёгком наборе, при этом производительность падает ниже 10% на сложных подмножествах. Мы также предлагаем GTPO — метод онлайн-многошагового обучения с подкреплением со специализированной нормализацией вознаграждений и разностным вознаграждением. Применённый к Qwen2.5-32B-Instruct, GTPO улучшает соблюдение ограничений и устойчивость взаимодействия, превосходя Gemini-3-Pro в нашей оценке. Мы ожидаем, что TRIP-Bench будет способствовать развитию практических долгосрочных интерактивных агентов, а GTPO предоставит эффективный рецепт онлайн-обучения с подкреплением для устойчивого долгосрочного обучения.

PromptRL: Важность промптов в обучении с подкреплением для потокового генеративного моделирования изображений
PromptRL: Prompt Matters in RL for Flow-Based Image Generation

Feb 1

ByFu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park

Модели потокового согласования (Flow Matching, FM) произвели революцию в генерации изображений по тексту (text-to-image, T2I), а обучение с подкреплением (Reinforcement Learning, RL) стало ключевой стратегией пост-обучения для согласования с целевыми функциями вознаграждения. В данном исследовании мы показываем, что текущие RL-конвейеры для FM страдают от двух недооцененных, но важных ограничений: неэффективности использования образцов из-за недостаточного разнообразия генераций и выраженного переобучения на промпты, когда модели запоминают конкретные формулировки из обучающей выборки и демонстрируют резкое падение производительности при оценке на семантически эквивалентных, но стилистически различных промптах. Мы представляем PromptRL (Prompt Matters in RL for Flow-Based Image Generation) — фреймворк, который интегрирует языковые модели (Language Models, LM) в качестве обучаемых агентов для уточнения промптов непосредственно в цикл RL-оптимизации, основанный на потоках. Такая конструкция дает два взаимодополняющих преимущества: быстрое развитие сложных способностей к переформулированию промптов и, что критически важно, синергетический режим обучения, который преобразует динамику оптимизации. PromptRL достигает наилучших результатов на нескольких бенчмарках, получая оценки 0.97 на GenEval, 0.98 на точности OCR и 24.05 на PickScore. Кроме того, мы подтверждаем эффективность нашего RL-подхода на крупномасштабных моделях редактирования изображений, улучшая показатель EditReward модели FLUX.1-Kontext с 1.19 до 1.43 всего за 0.06 миллиона rollout'ов, превосходя Gemini 2.5 Flash Image (также известную как Nano Banana) с результатом 1.37 и достигая сопоставимой производительности с ReasonNet (1.44), которая полагалась на разметку данных с мелкими деталями вместе со сложным многоэтапным обучением. Наши обширные эксперименты эмпирически демонстрируют, что PromptRL стабильно достигает более высоких пределов производительности, требуя при этом более чем в 2 раза меньше rollout'ов по сравнению с наивным RL, использующим только потоки. Наш код доступен по адресу https://github.com/G-U-N/UniRL.

PolySAE: Моделирование взаимодействий признаков в разреженных автоэнкодерах с помощью полиномиального декодирования
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

Feb 1

ByPanagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou

Разреженные автоэнкодеры (SAE) стали перспективным методом интерпретации представлений нейронных сетей за счет декомпозиции активаций в разреженные комбинации словарных атомов. Однако SAE предполагают, что признаки комбинируются аддитивно через линейную реконструкцию — предположение, которое не может уловить композиционную структуру: линейные модели не способны различить, возникает ли «Starbucks» из композиции признаков «star» и «coffee» или просто из их совместного появления. Это вынуждает SAE выделять монолитные признаки для составных понятий вместо их декомпозиции на интерпретируемые составляющие. Мы представляем PolySAE, который расширяет декодер SAE членами высшего порядка для моделирования взаимодействий признаков, сохраняя при этом линейный кодировщик, критически важный для интерпретируемости. Благодаря низкоранговой тензорной факторизации в общем проекционном подпространстве PolySAE улавливает парные и тройные взаимодействия признаков с малыми вычислительными затратами (3% для GPT2). На четырех языковых моделях и трех вариантах SAE PolySAE демонстрирует в среднем улучшение F1-метрики на approximately 8% при сохранении сопоставимой ошибки реконструкции и обеспечивает в 2–10 раз большее расстояние Вассерштейна между условными распределениями признаков. Ключевым является то, что веса изученных взаимодействий показывают пренебрежимо малую корреляцию с частотой совместного появления (r = 0,06 против r = 0,82 для ковариации признаков SAE), что свидетельствует о том, что полиномиальные члены улавливают композиционную структуру, такую как морфологическое связывание и фразовая композиция, в значительной степени независимо от поверхностной статистики.

CoDiQ: Масштабирование во время тестирования для управляемой генерации сложных вопросов
CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Feb 2

ByZhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao

Крупные модели рассуждений (LRM) существенно выигрывают от обучения на сложных задачах уровня соревнований. Однако существующие автоматизированные методы синтеза вопросов не обеспечивают точного контроля сложности, требуют высоких вычислительных затрат и не позволяют массово генерировать вопросы конкурсного уровня. В данной статье мы предлагаем CoDiQ (Controllable Difficult Question Generation) — новую структуру, обеспечивающую детальный контроль сложности через масштабирование на этапе тестирования при гарантированной решаемости задач. Конкретно: сначала мы выявляем тенденцию масштабирования при тестировании (увеличение бюджета токенов для рассуждений повышает сложность, но снижает решаемость) и внутренние свойства, определяющие верхнюю границу способности модели генерировать корректные задачи высокой сложности. Затем мы разрабатываем CoDiQ-Generator на основе Qwen3-8B, который повышает верхний предел генерации сложных вопросов, что делает его особенно подходящим для создания трудных задач. На основе структуры CoDiQ мы строим CoDiQ-Corpus (44 тыс. последовательностей вопросов уровня соревнований). Экспертная оценка показывает, что эти вопросы значительно сложнее аналогов из LiveCodeBench/AIME при сохранении решаемости свыше 82%. Обучение LRM на CoDiQ-Corpus существенно улучшает показатели рассуждений, подтверждая, что масштабирование тренировочных вопросов с контролируемой сложностью усиливает reasoning-способности. Мы открываем исходные коды CoDiQ-Corpus, CoDiQ-Generator и реализаций для поддержки связанных исследований.

VoxServe: Система обслуживания речевых языковых моделей с ориентацией на потоковую передачу
VoxServe: Streaming-Centric Serving System for Speech Language Models

Jan 30

ByKeisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci

Развертывание современных речевых языковых моделей (SpeechLMs) в потоковых сценариях требует систем, обеспечивающих низкую задержку, высокую пропускную способность и надежные гарантии пригодности для потоковой передачи. Существующие системы не обеспечивают гибкой и эффективной поддержки разнообразных моделей. Мы представляем VoxServe — унифицированную систему обслуживания SpeechLMs, которая оптимизирует потоковую производительность. VoxServe вводит абстракцию выполнения моделей, которая отделяет архитектуру модели от системных оптимизаций, тем самым обеспечивая поддержку различных архитектур SpeechLM в единой системе. На основе этой абстракции VoxServe реализует потоковое планирование и асинхронный конвейер вывода для повышения сквозной эффективности. Оценки на множестве современных SpeechLMs показывают, что VoxServe обеспечивает в 10–20 раз более высокую пропускную способность по сравнению с существующими реализациями при сопоставимой задержке, сохраняя высокую пригодность для потоковой передачи. Код VoxServe доступен по адресу https://github.com/vox-serve/vox-serve.

Семантически согласованный набор данных для ресурсоэффективного запросного универсального разделения звуков
A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Jan 30

ByKai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu

Запросно-ориентированное универсальное разделение звука является фундаментальной задачей для интеллектуальных слуховых систем, направленной на выделение целевых источников из смесей. Несмотря на недавние успехи, существующие методы продолжают страдать от остаточных помех в сложных акустических сценах. Это ограничение производительности в значительной степени проистекает из проблемы данных: наборы данных из реального мира содержат слабые метки и выраженную совместную встречаемость событий. Эти недостатки приводят к тому, что модели изучают ложные корреляции между фоновым шумом и целевыми категориями вместо устойчивых акустических признаков. Для решения этой проблемы мы предлагаем автоматизированный конвейер, который устраняет совместную встречаемость событий путем извлечения высокочистых сегментов с одиночными событиями из наборов данных реального мира с помощью семантически согласованного протокола синтеза. Используя этот конвейер, мы создали Hive — высококачественный синтетический набор данных, содержащий 2.4 тысячи часов исходного аудио. Результаты экспериментов показывают, что по сравнению с передовой моделью SAM-Audio, обученной на огромном наборе данных, в ~500 раз превосходящем Hive по объему, некоторые модели с открытым исходным кодом, обученные на Hive, демонстрируют сопоставимую точность разделения и перцептивное качество. Более того, эти модели показали выдающуюся способность к zero-shot обобщению на тестовых наборах данных, выходящих за пределы распределения обучающих данных. Эти результаты подчеркивают, что приоритизация чистоты обучающих сигналов позволяет достичь значительной эффективности данных, предлагая новую парадигму для обучения устойчивых базовых слуховых моделей со сниженными вычислительными затратами. Код и набор данных доступны по адресу https://shandaai.github.io/Hive.

VisionTrim: Унифицированное сжатие визуальных токенов для бесплатного от обучения ускорения MLLM
VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Jan 30

ByHanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu

Мультимодальные большие языковые модели (MLLM) страдают от высоких вычислительных затрат из-за избыточного количества визуальных токенов, особенно в сценариях с высоким разрешением и видео. Существующие методы сокращения токенов обычно сосредоточены на изолированных компонентах конвейера и часто пренебрегают текстовым согласованием, что приводит к снижению производительности. В данной статье мы предлагаем VisionTrim — унифицированную структуру для ускорения MLLM без обучения, интегрирующую два эффективных модуля типа «plug-and-play»: 1) модуль выбора доминирующих визуальных токенов (DVTS), который сохраняет основные визуальные токены с помощью глобально-локального подхода, и 2) модуль текстово-ориентированного визуального дополнения (TGVC), который способствует контекстно-зависимому объединению токенов на основе текстовых подсказок. Многочисленные эксперименты на различных мультимодальных эталонах для изображений и видео демонстрируют превосходство производительности нашего метода VisionTrim, способствуя практическому внедрению MLLM в реальных приложениях. Код доступен по адресу: https://github.com/hanxunyu/VisionTrim.

Эмпирическое исследование квантизации моделей мира
An Empirical Study of World Model Quantization

Feb 2

ByZhongqian Fu, Tianyi Zhao, Kai Han, Hang Zhou, Xinghao Chen, Yunhe Wang

Модели мира изучают внутреннее представление динамики окружающей среды, позволяя агентам моделировать и рассуждать о будущих состояниях в компактном латентном пространстве для таких задач, как планирование, прогнозирование и вывод. Однако работа моделей мира сопряжена с высокими вычислительными затратами и объемом памяти, что делает квантование моделей необходимым для эффективного развертывания. На сегодняшний день влияние квантования после обучения (PTQ) на модели мира в значительной степени не изучено. В данной работе мы представляем систематическое эмпирическое исследование квантования моделей мира на примере DINO-WM, оценивая различные методы PTQ в условиях квантования только весов, а также совместного квантования весов и активаций. Мы проводим обширные эксперименты на различных задачах визуального планирования в широком диапазоне битовых ширины̆, гранулярностей квантования и горизонтов планирования до 50 итераций. Наши результаты показывают, что эффекты квантования в моделях мира выходят за рамки стандартных компромиссов между точностью и битовой шириной: групповое квантование весов может стабилизировать развертки при низкой битовой ширине, гранулярность квантования активаций дает неоднозначные преимущества, а чувствительность к квантованию сильно асимметрична между модулями энкодера и предиктора. Более того, агрессивное квантование с низкой битовой шириной значительно ухудшает соответствие между целью планирования и успешностью задачи, приводя к сбоям, которые невозможно исправить с помощью дополнительной оптимизации. Эти результаты выявляют особые режимы сбоев, вызванные квантованием, в планировании на основе моделей мира и предоставляют практические рекомендации по развертыванию квантованных моделей мира в условиях строгих вычислительных ограничений. Код будет доступен по адресу https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Переосмысление LLM-как-судьи: Представление-как-судья с помощью малых языковых моделей через асимметрию семантической емкости
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Jan 30

ByZhuochun Li, Yong Zhang, Ming Li, Yuelyu Ji, Yiming Zeng, Ning Cheng, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao, Daqing He

Крупные языковые модели (LLM) широко используются как беспристрастные оценщики через промптинг, однако парадигма «LLM-как-судья» является дорогостоящей, непрозрачной и чувствительной к дизайну промптов. В данной работе мы исследуем, могут ли меньшие модели служить эффективными оценщиками, используя внутренние представления вместо поверхностного генеративного вывода. Мы выявляем устойчивую эмпирическую закономерность: малые языковые модели, несмотря на слабые генеративные способности, кодируют богатые оценочные сигналы в своих скрытых состояниях. Это побуждает нас выдвинуть Гипотезу асимметрии семантической ёмкости: для оценки требуется значительно меньшая семантическая ёмкость, чем для генерации, и она может быть основана на промежуточных представлениях, что свидетельствует о том, что оценка не обязательно должна опираться на крупномасштабные генеративные модели, а может использовать латентные признаки меньших моделей. Наши результаты мотивируют смену парадигмы с «LLM-как-судья» на «Представление-как-судья» — стратегию оценки, свободную от декодирования, которая исследует внутреннюю структуру модели вместо опоры на промптированный вывод. Мы реализуем эту парадигму через INSPECTOR, фреймворк на основе probing-а, который предсказывает оценки на уровне аспектов из представлений малых моделей. Эксперименты на бенчмарках логического мышления (GSM8K, MATH, GPQA) показывают, что INSPECTOR существенно превосходит малые LM на основе промптинга и близко приближается к полноценным LLM-судьям, предлагая при этом более эффективную, надежную и интерпретируемую альтернативу для масштабируемой оценки.

Охота вместо ожидания: оценка глубокого исследования данных в больших языковых моделях
Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models

Feb 2

ByWei Liu, Peijie Yu, Michele Orini, Yali Du, Yulan He

Агентность продвинутых больших языковых моделей подразумевает не только правильные ответы, но и автономную способность ставить цели и определять направления исследования. Мы называем это исследовательским интеллектом, отличая его от исполнительского интеллекта, который лишь выполняет поставленные задачи. Наука о данных представляет собой естественный полигон для испытаний, поскольку реальный анализ начинается с сырых данных, а не с явных запросов, однако немногие бенчмарки фокусируются на этом. Для решения проблемы мы представляем Deep Data Research (DDR) — открытую задачу, в рамках которой языковые модели автономно извлекают ключевые инсайты из баз данных, и DDR-Bench — масштабируемый бенчмарк на основе чек-листов, позволяющий проводить верифицируемую оценку. Результаты показывают, что хотя передовые модели демонстрируют зачатки агентности, долгосрочное исследование остается сложной задачей. Наш анализ подчеркивает, что эффективность исследовательского интеллекта зависит не только от агентских надстроек или простого масштабирования, но и от внутренних стратегий агентных моделей.

Улучшение анализа множественных изображений за счёт масштабирования разделительных токенов
Enhancing Multi-Image Understanding through Delimiter Token Scaling

Feb 2

ByMinyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Крупные визуально-языковые модели (LVLM) демонстрируют высокую производительность при работе с одиночными изображениями, но их эффективность снижается, когда на вход подается несколько изображений. Одной из основных причин является утечка информации между изображениями, когда модель не может адекватно разграничить информацию, относящуюся к разным изображениям. Существующие LVLM уже используют токены-разделители для обозначения начала и конца каждого изображения, однако наш анализ показывает, что эти токены не способны эффективно блокировать межизображенческую утечку информации. Для повышения их эффективности мы предлагаем метод масштабирования скрытых состояний токенов-разделителей. Это усиливает способность модели сохранять информацию, специфичную для каждого изображения, за счет усиления внутриизображенческого взаимодействия и ограничения нежелательных межизображенческих взаимодействий. В результате модель лучше различает изображения и точнее над ними рассуждает. Эксперименты показывают рост производительности на мультиизображенческих бенчмарках, таких как Mantis, MuirBench, MIRB и QBench2. Мы также оценили наш метод на чисто текстовых задачах, требующих четкого разграничения. Метод улучшает производительность на бенчмарках для понимания множественных документов и таблиц, включая TQABench, MultiNews и WCEP-10. Примечательно, что наш метод не требует дополнительных затрат на обучение или вывод.

Адаптивное разложение способностей для эффективного обучения с подкреплением больших моделей рассуждений
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning

Jan 31

ByZhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало значительный потенциал для улучшения способности крупных языковых моделей (LLM) к рассуждениям. Однако из-за ограниченного объема информации, предоставляемой в процессе RLVR, модель может осуществлять лишь в значительной степени слепой поиск, что часто приводит к неудаче при решении сложных задач. Чтобы предоставить дополнительную информацию для процесса RLVR без использования модели-учителя, мы предлагаем A²D — метод адаптивного декомпозирования способностей для повышения эффективности RLVR. А именно, мы сначала обучаем декомпозитор с помощью RLVR без дистилляции, что позволяет ему разбивать сложные вопросы на набор более простых подвопросов. Затем мы используем этот декомпозитор для аннотирования подвопросов к каждому вопросу в обучающем наборе данных и далее обучаем модуль рассуждений в рамках RLVR с руководством в виде подвопросов. Чтобы лучше понять A²D, мы сначала сравниваем его производительность с конкурентоспособными базовыми методами, демонстрируя его эффективность. Затем мы наблюдаем, что наш метод функционирует как модуль типа «подключи и работай», который может быть применен к различным алгоритмам RLVR. Кроме того, мы проводим анализ декомпозитора, выявляя, как процесс RLVR влияет на его производительность и поведение, а также какой тип руководства лучше подходит для улучшения способностей модуля рассуждений к исследованию и использованию.

Взаимодействие плоскостей раскрывает трехмерное картографирование линий
Interacted Planes Reveal 3D Line Mapping

Feb 1

ByZeran Ke, Bin Tan, Gui-Song Xia, Yujun Shen, Nan Xue

Трехмерное картографирование линий по мультивьюзовым RGB-изображениям обеспечивает компактное и структурированное визуальное представление сцен. Мы исследуем данную проблему с физической и топологической точек зрения: 3D-линия наиболее естественно возникает как ребро конечного плоского 3D-патча. Предлагается LiP-Map — фреймворк совместной оптимизации линий и плоскостей, который явно моделирует обучаемые примитивы линий и плоскостей. Такая связь позволяет достичь точного и детального 3D-картографирования линий при сохранении высокой эффективности (типичное время реконструкции составляет 3–5 минут на сцену). LiP-Map впервые интегрирует планарную топологию в задачу картографирования 3D-линий не за счет наложения парных условий компланарности, а путем явного построения взаимодействий между примитивами плоскостей и линий, что предлагает принципиальный путь к структурированной реконструкции в антропогенных средах. На более чем 100 сценах из ScanNetV2, ScanNet++, Hypersim, 7Scenes и Tanks&Temples метод LiP-Map превосходит современные методы как по точности, так и по полноте. Помимо качества картографирования линий, LiP-Map существенно улучшает визуальную локализацию с использованием линий, демонстрируя высокую производительность на 7Scenes. Наш код доступен по адресу https://github.com/calmke/LiPMAP для обеспечения воспроизводимости исследований.

О пределах обрезки слоев для генеративных рассуждений в больших языковых моделях
On the Limits of Layer Pruning for Generative Reasoning in LLMs

Feb 2

BySafal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross

Недавние исследования показали, что послойное прунинг (сокращение) позволяет сжимать большие языковые модели (LLM), сохраняя при этом высокую производительность на классификационных бенчмарках при минимальной или нулевой дообучении. Однако существующие методы прунинга часто демонстрируют значительную деградацию на задачах генеративного рассуждения. В ходе систематического исследования различных семейств моделей мы выявили, что задачи, требующие многошагового логического вывода, особенно чувствительны к сокращению глубины. Помимо поверхностной деградации текста, мы наблюдаем ухудшение ключевых алгоритмических способностей, включая арифметические вычисления для математических рассуждений и генерацию сбалансированных скобок для синтеза кода. В условиях реалистичных ограничений пост-тренировочного периода, без доступа к данным или вычислительным ресурсам масштаба предварительного обучения, мы оцениваем простую стратегию смягчения последствий, основанную на контролируемом дообучении с использованием самостоятельно сгенерированных ответов (Self-Generated Responses). Данный подход обеспечивает значительное восстановление производительности на классификационных задачах, сохраняя до 90% производительности базового уровня, и дает существенный прирост до 20–30 процентных пунктов на генеративных бенчмарках по сравнению с предыдущими методами пост-прунинга. Ключевой вывод заключается в том, что, несмотря на эти улучшения, восстановление генеративных рассуждений остается принципиально ограниченным по сравнению с классификационными задачами и в основном осуществимо при низких коэффициентах прунинга. В целом, мы определяем практические пределы послойного прунинга для генеративного рассуждения и даем рекомендации по эффективному применению сокращения глубины в условиях ограниченных пост-тренировочных ресурсов.

OVD: Он-политическая вербальная дистилляция
OVD: On-policy Verbal Distillation

Jan 29

ByJing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong

Дистилляция знаний предлагает перспективный путь передачи способностей к рассуждению от больших моделей-учителей к эффективным моделям-ученикам; однако существующие методы он-политик дистилляции на уровне токенов требуют выравнивания на уровне токенов между моделями ученика и учителя, что ограничивает способность модели ученика к исследованию, препятствует эффективному использованию обратной связи от интерактивной среды и приводит к серьезным проблемам с пропускной способностью памяти при обучении с подкреплением. Мы представляем On-policy Verbal Distillation (OVD) — ресурсосберегающий фреймворк, который заменяет вероятностное сопоставление на уровне токенов на сопоставление траекторий с использованием дискретных вербальных оценок (0–9) от моделей-учителей. OVD значительно сокращает потребление памяти, позволяя проводить он-политик дистилляцию от моделей-учителей с вербальной обратной связью, и избегает выравнивания на уровне токенов, что позволяет модели-ученику свободно исследовать пространство ответов. Многочисленные эксперименты на задачах веб-вопросов и ответов и математических рассуждений показывают, что OVD существенно превосходит существующие методы, демонстрируя до +12,9% абсолютного улучшения по среднему EM на задачах Web Q&A и до +25,7% прироста на математических бенчмарках (при обучении всего на одном случайном примере), а также обладая превосходной эффективностью обучения. Страница проекта доступна по адресу https://OVD.github.io.

Призма: эффективное масштабирование во время тестирования с помощью иерархического поиска и самопроверки для дискретных диффузионных языковых моделей
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Feb 2

ByJinbin Bai, Yixuan Li, Yuchen Zhu, Yi Xin, Qingyu Shi, Aosong Feng, Xiaohong Liu, Molei Tao, Jianru Xue, Xiangtai Li, Ming-Hsuan Yang

Вычислительные ресурсы на этапе логического вывода вновь стали практичным способом улучшения рассуждений больших языковых моделей (LLM). Большинство алгоритмов масштабирования на этапе тестирования (TTS) полагаются на авторегрессионное декодирование, которое плохо подходит для дискретных диффузионных языковых моделей (dLLM) из-за их параллельного декодирования всей последовательности. В результате разработка эффективных и производительных методов TTS для раскрытия полного генеративного потенциала dLLM остается слабо изученной проблемой. Для её решения мы предлагаем Prism (Pruning, Remasking, and Integrated Self-verification Method) — эффективный фреймворк TTS для dLLM, который (i) выполняет иерархический поиск по траекториям (HTS), динамически отсекая и перераспределяя вычисления в раннем-среднем окне денойзинга, (ii) вводит локальное ветвление с частичным перемаскированием для исследования разнообразных реализаций при сохранении токенов с высокой уверенностью и (iii) заменяет внешние верификаторы на самопроверяемую обратную связь (SVF), получаемую с помощью промптов для самооценки промежуточных завершений. На четырех тестах по математическим рассуждениям и генерации кода для трех dLLM, включая LLaDA 8B Instruct, Dream 7B Instruct и LLaDA 2.0-mini, наш Prism демонстрирует благоприятный баланс между производительностью и эффективностью, достигая качества лучшего из N результатов при существенно меньшем количестве вызовов функции оценки (NFE). Код доступен по адресу https://github.com/viiika/Prism.

Mano: Перезапуск многообразийной оптимизации для обучения больших языковых моделей
Mano: Restriking Manifold Optimization for LLM Training

Jan 30

ByYufei Gu, Zeke Xie

Хотя большие языковые модели (LLM) стали значительным прорывом в области искусственного интеллекта, аппаратные и вычислительные затраты на их обучение также являются существенным бременем. Среди современных оптимизаторов AdamW полагается на диагональные оценки кривизны и игнорирует структурные свойства, тогда как Muon применяет глобальную спектральную нормализацию ценой потери информации о кривизне. В данном исследовании мы пересмотрели методы оптимизации на многообразиях для обучения LLM, которые могут устранить ограничения обоих оптимизаторов, в то время как традиционные методы оптимизации на многообразиях оставались в значительной степени без внимания из-за их низкой производительности при оптимизации крупномасштабных моделей. Инновационно проецируя импульс на касательное пространство параметров модели и ограничивая его на вращающемся косом многообразии, мы предлагаем новый, мощный и эффективный оптимизатор **Mano**, который первым преодолевает разрыв в производительности между оптимизацией на многообразиях и современными оптимизаторами. Многочисленные эксперименты на моделях LLaMA и Qwen3 демонстрируют, что Mano стабильно и значительно превосходит AdamW и Muon даже при меньшем потреблении памяти и вычислительной сложности соответственно, что указывает на расширенную границу Парето с точки зрения пространственной и временной эффективности.

PISA: Поэлементно-разреженное внимание — более эффективный подход для диффузионных трансформаторов
PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

Feb 1

ByHaopeng Li, Shitong Shao, Wenliang Zhong, Zikai Zhou, Lichen Bai, Hui Xiong, Zeke Xie

Диффузионные трансформеры являются основой для генерации видео и изображений, но их эффективность ограничена квадратичной сложностью механизма внимания. Хотя блочно-разреженное внимание ускоряет вычисления, обрабатывая только ключевые блоки ключ-значение, оно страдает от деградации качества при высокой степени разреженности из-за потери контекста. В данной работе мы обнаружили, что оценки внимания некритических блоков демонстрируют распределительную стабильность, что позволяет точно и эффективно аппроксимировать их вместо полного отбрасывания, что принципиально важно для проектирования разреженного внимания. Руководствуясь этим ключевым наблюдением, мы предлагаем PISA — не требующее дообучения кусочно-разреженное внимание, которое охватывает полный диапазон внимания с субквадратичной сложностью. В отличие от традиционной парадигмы «сохранить-или-отбросить», которая напрямую удаляет информацию некритических блоков, PISA вводит новую стратегию «точно-или-аппроксимировать»: она сохраняет точные вычисления для критических блоков, одновременно эффективно аппроксимируя остальные с помощью покомпонентного разложения Тейлора. Такой подход позволяет PISA служить точным приближением полного внимания, эффективно устраняя разрыв между скоростью и качеством. Результаты экспериментов показывают, что PISA обеспечивает ускорение в 1.91 и 2.57 раза на моделях Wan2.1-14B и Hunyuan-Video соответственно, при этом стабильно сохраняя наивысшее качество среди методов разреженного внимания. Примечательно, что даже для генерации изображений на FLUX PISA достигает ускорения в 1.2 раза без ущерба для визуального качества. Код доступен по адресу: https://github.com/xie-lab-ml/piecewise-sparse-attention.

О связи геометрии представлений и обобщающей способности глубоких нейронных сетей
On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

Jan 28

BySumit Yadav

Мы исследуем взаимосвязь между геометрией представлений и производительностью нейронных сетей. Анализируя 52 предобученные модели ImageNet из 13 семейств архитектур, мы показываем, что эффективная размерность — неконтролируемая геометрическая метрика — сильно предсказывает точность. Эффективная размерность выходного слоя достигает частичного коэффициента корреляции r=0.75 (p < 10^(-10)) после контроля на ёмкость модели, в то время как общее сжатие дает частичный r=-0.72. Эти результаты воспроизводятся на ImageNet и CIFAR-10 и обобщаются на NLP: эффективная размерность предсказывает производительность для 8 моделей-энкодеров на SST-2/MNLI и 15 декодерных LLM на AG News (r=0.69, p=0.004), тогда как размер модели — нет (r=0.07). Мы устанавливаем двунаправленную причинность: ухудшение геометрии с помощью шума вызывает потерю точности (r=-0.94, p < 10^(-9)), тогда как улучшение геометрии с помощью PCA сохраняет точность across архитектур (-0.03 п.п. при 95% дисперсии). Эта взаимосвязь не зависит от типа шума — гауссовский, равномерный, дропаут и импульсный шум показывают |r| > 0.90. Эти результаты устанавливают, что эффективная размерность предоставляет доменно-независимую прогностическую и причинную информацию о производительности нейронных сетей, вычисляемую полностью без использования меток.

Беcпотерьная оптимизация политики для больших языковых моделей
Clipping-Free Policy Optimization for Large Language Models

Jan 30

ByÖmer Veysel Çağatan, Barış Akgün, Gözde Gül Şahin, Xuandong Zhao

Обучение с подкреплением стало ключевым методом посттренировки больших языковых моделей, однако доминирующие алгоритмы опираются на механизмы отсечения (clipping), которые создают проблемы оптимизации при масштабировании, включая области нулевого градиента, эксплуатацию функции вознаграждения и нестабильность обучения. Мы предлагаем Беcклипповую оптимизацию политики (CFPO), которая заменяет эвристическое отсечение выпуклым квадратичным штрафом, выведенным из ограничений на дивергенцию полной вариации. Это дает везде дифференцируемую целевую функцию, обеспечивающую стабильные обновления политики без жестких границ. Мы оцениваем CFPO в условиях как решения задач, так и согласования. В решении задач CFPO соответствует методам на основе отсечения по производительности на downstream-бенчмарках, одновременно расширяя режим стабильного обучения. В согласовании CFPO смягчает эксплуатацию многословия и снижает деградацию способностей, демонстрируя при этом конкурентоспособные результаты в выполнении инструкций. CFPO требует изменения всего одной строки кода и не вводит дополнительных гиперпараметров. Наши результаты позволяют предположить, что CFPO является перспективной прямой заменой методов на основе отсечения для посттренировки языковых моделей.

Эволюция от пользователя инструментов к создателю посредством бестренировочного повторного использования опыта в мультимодальном мышлении
Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Feb 2

ByXintian Shen, Jiawei Chen, Lihao Zheng, Hao Ma, Tao Wei, Kun Zhan

Существующие модели инструментально-ориентированного рассуждения (TIR) эффективно расширяют способности больших языковых моделей к ответам на вопросы за счет интеграции внешних инструментов. Однако в реальных сценариях существует множество открытых проблем, где фиксированные инструменты часто не соответствуют требованиям задачи. Кроме того, отсутствие механизмов самооптимизации означает, что ошибочные выходные данные инструментов могут вводить ответы модели в заблуждение. Дополнительно, создание существующих инструментов требует значительных ручных усилий, что ограничивает их применимость. Учитывая, что траектории рассуждений LLM инкапсулируют неявные способности к решению проблем, мы предлагаем UCT — новую беспараметрическую структуру, преобразующую агентов из пользователей инструментов в их создателей. Данный подход аккумулирует опыт рассуждений и дистиллирует его в переиспользуемые активы. Этот метод трансформирует агента из простого пользователя инструментов в создателя инструментов, обеспечивая адаптивное создание инструментов и самообновление в процессе вывода. Мы также вводим механизм консолидации памяти для поддержания библиотеки инструментов, гарантируя высокую переиспользуемость сохраненного эмпирического опыта для последующих задач рассуждения. Эта новая парадигма автоматизированного построения инструментов непрерывно улучшает их качество в процессе рассуждения, позволяя системе агентов развиваться без дополнительного обучения. Масштабные эксперименты демонстрируют, что наш метод представляет собой новую парадигму повышения возможностей моделей TIR. В частности, значительный прирост производительности +20.86%↑ и +23.04%↑ на бенчмарках в многодоменных математических и научных задачах подтверждает способность агента к саморазвитию.

SEA-Guard: Многоязычная система защиты для Юго-Восточной Азии с учетом культурных особенностей
SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia

Feb 2

ByPanuthep Tasawong, Jian Gang Ngui, Alham Fikri Aji, Trevor Cohn, Peerat Limkonchotiwat

Культурно-ориентированные защитные механизмы имеют решающее значение для согласования ИИ с реальными условиями, где безопасность выходит за рамки здравого смысла и охватывает разнообразные локальные ценности, нормы и специфические для регионов нормативные акты. Однако создание масштабируемых наборов данных, основанных на культурных особенностях, является сложной задачей из-за ограниченных ресурсов и дефицита аннотаторов — носителей языка. Как следствие, многие защитные модели полагаются на машинный перевод англоязычных наборов данных, зачастую упуская региональные и культурные нюансы. Мы представляем новую агентскую систему генерации данных для масштабируемого создания аутентичных наборов данных по безопасности, специфичных для региона Юго-Восточной Азии (ЮВА). На этой основе мы представляем семейство моделей SEA-Guard — первые многоязычные защитные модели, основанные на культурных контекстах ЮВА. Оценка по множеству эталонных тестов и культурных вариантов показывает, что SEA-Guard последовательно превосходит существующие защитные механизмы в обнаружении регионально-чувствительного или вредоносного контента, сохраняя при этом высокие показатели общей безопасности.

Маленькие обобщающие промпт-прогностические модели могут направлять эффективное обучение с подкреплением больших моделей рассуждений после их основной подготовки
Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Feb 2

ByYun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji

Подкрепляющее обучение расширяет рассужденческие возможности больших языковых моделей, однако часто сопряжено с высокими вычислительными затратами из-за ресурсоемкой оптимизации с использованием множества прогонов. Онлайн-выбор промтов предлагает потенциальное решение за счет приоритизации информативных промтов для повышения эффективности обучения. Однако существующие методы либо зависят от дорогостоящих точных оценок, либо строят прогностические модели, специфичные для конкретных промтов, которые не обладают обобщающей способностью. В данном исследовании представлен метод обобщающего прогностического выбора промтов (GPS), который выполняет байесовский вывод относительно сложности промтов с использованием легковесной генеративной модели, обученной на общей истории оптимизации. Принцип пакетного отбора включает приоритизацию промтов средней сложности и обеспечение разнообразия на основе истории для выбора информативных пакетов промтов. Небольшая прогностическая модель также демонстрирует обобщающую способность на этапе тестирования для эффективного распределения вычислительных ресурсов. Эксперименты на различных наборах данных для проверки рассуждений показывают значительное улучшение GPS по сравнению с передовыми базовыми методами с точки зрения эффективности обучения, итоговой производительности и эффективности на этапе тестирования.

Соперничающие концепции этического ИИ: кейс-стади OpenAI
Competing Visions of Ethical AI: A Case Study of OpenAI

Jan 23

ByMelissa Wilfley, Mengting Ai, Madelyn Rose Sanfilippo

Введение. Понятие этики ИИ по-разному трактуется различными участниками и группами стейкхолдеров. Мы представляем результаты кейс-стади компании OpenAI, анализирующего дискурс об этике ИИ. Метод. Исследование было направлено на ответ на вопрос: как публичный дискурс OpenAI использовал понятия «этика», «безопасность», «соответствие целям» и смежные концепции с течением времени и что этот дискурс сигнализирует о практических подходах к формированию повестки? Структурированный корпус текстов, дифференцирующий коммуникацию для широкой аудитории и для академического сообщества, был собран из публичной документации. Анализ. Качественный контент-анализ этических тем сочетал индуктивно выведенные и дедуктивно применяемые коды. Количественный анализ использовал методы вычислительного контент-анализа с применением NLP для моделирования тем и количественной оценки изменений в риторике с течением времени. Визуализации отображают агрегированные результаты. Для обеспечения воспроизводимости результатов наш код опубликован по адресу https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Результаты. Результаты показывают, что дискурс о безопасности и рисках доминирует в публичной коммуникации и документации OpenAI без применения академических и правозащитных этических рамок или терминологии. Выводы. Представлены последствия для регулирования, а также обсуждение практик «этического камуфляжа» (ethics-washing) в индустрии.

Обход судьи: Нечестная цепочка рассуждений может подорвать оценку агентов
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Jan 21

ByMuhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Yunxiang Zhang, Moontae Lee, Hao Peng, Lu Wang, Honglak Lee

Крупные языковые модели (LLM) все чаще используются в качестве судей для оценки производительности агентов, особенно в непроверяемых условиях, где суждения основываются на траекториях агентов, включая цепочки рассуждений (CoT). Эта парадигма неявно предполагает, что CoT агента достоверно отражает как его внутренние рассуждения, так и состояние окружающей среды. Мы показываем, что это предположение ненадежно: LLM-судьи крайне подвержены манипуляциям с трассировкой рассуждений агентов. Систематически переписывая CoT агентов при фиксированных действиях и наблюдениях, мы демонстрируем, что одних только манипуляций с рассуждениями достаточно для увеличения ложноположительных результатов современных VLM-судей на величину до 90% на 800 траекториях, охватывающих разнообразные веб-задачи. Мы исследуем стратегии манипуляций, от стилевых подходов, изменяющих лишь представление рассуждений, до содержательных подходов, фабрикующих сигналы о прогрессе задачи, и обнаруживаем, что содержательные манипуляции последовательно более эффективны. Мы оцениваем методы на основе промптов и масштабирование вычислительных ресурсов на этапе судейства, которые снижают, но не полностью устраняют уязвимость к манипуляциям. Наши результаты выявляют фундаментальную уязвимость в оценке на основе LLM и подчеркивают необходимость механизмов судейства, которые проверяют утверждения рассуждений на основе наблюдаемых доказательств.

Детекторы изображений, созданных ИИ, чрезмерно полагаются на глобальные артефакты: доказательства на основе замены фрагментов изображения
AI-Generated Image Detectors Overrely on Global Artifacts: Evidence from Inpainting Exchange

Jan 30

ByElif Nebioglu, Emirhan Bilgiç, Adrian Popescu

Современное глубокое обучение позволяет реалистично восстанавливать локальные области изображений, что создает серьезные вызовы для надежного детектирования таких манипуляций. Однако мы наблюдаем, что современные детекторы в основном полагаются на глобальные артефакты, возникающие как побочные эффекты восстановления, а не на локально синтезированное содержимое. Мы показываем, что такое поведение возникает из-за того, что реконструкция на основе VAE вызывает тонкий, но повсеместный спектральный сдвиг во всем изображении, включая неотредактированные области. Чтобы изолировать этот эффект, мы вводим операцию Inpainting Exchange (INP-X), которая восстанавливает исходные пиксели за пределами редактируемой области, сохраняя при этом все синтезированное содержимое. Мы создали тестовый набор данных объемом 90 тыс. изображений, включающий реальные, восстановленные и обработанные INP-X снимки, для оценки этого явления. При таком вмешательстве предварительно обученные современные детекторы, включая коммерческие, демонстрируют резкое падение точности (например, с 91% до 55%), часто приближаясь к уровню случайного угадывания. Мы предоставляем теоретический анализ, связывающий это поведение с ослаблением высокочастотных компонентов, вызванным информационными узкими местами VAE. Наши результаты подчеркивают необходимость разработки детекторов, учитывающих содержимое изображения. Действительно, обучение на нашем наборе данных обеспечивает лучшую обобщающую способность и локализацию по сравнению со стандартными методами обнаружения восстановленных областей. Наш набор данных и код общедоступны по адресу https://github.com/emirhanbilgic/INP-X.

ИНДИБАТОР: Разнообразие и фактическая обоснованность индивидуальности для многопользовательских дебатов в молекулярных открытиях
INDIBATOR: Diverse and Fact-Grounded Individuality for Multi-Agent Debate in Molecular Discovery

Feb 2

ByYunhui Jang, Seonghyun Park, Jaehyung Kim, Sungsoo Ahn

Мульти-агентные системы стали мощной парадигмой для автоматизации научных открытий. Для дифференциации поведения агентов в таких системах современные фреймворки обычно назначают обобщенные ролевые персонажи, такие как «рецензент» или «автор», или полагаются на грубые ключевые слова для определения персонажей. Хотя такой подход функционален, он чрезмерно упрощает то, как действуют ученые-люди, чей вклад формируется их уникальными исследовательскими траекториями. В ответ на это мы предлагаем INDIBATOR — фреймворк для молекулярных открытий, который основывает агентов на индивидуализированных профилях ученых, построенных из двух модальностей: истории публикаций для получения знаний из литературы и истории молекул для структурных априорных представлений. Эти агенты участвуют в многоходовой дискуссии через фазы предложения, критики и голосования. Наша оценка демонстрирует, что эти агенты, основанные на тонкой индивидуализации, последовательно превосходят системы, полагающиеся на грубые персонажи, достигая конкурентоспособных или передовых результатов. Эти результаты подтверждают, что захват «научной ДНК» отдельных агентов необходим для высококачественных открытий.

Влияние направленной выборки для адаптации домена текстовых систем поиска
Influence Guided Sampling for Domain Adaptation of Text Retrievers

Jan 29

ByMeet Doshi, Vishwajeet Kumar, Yulong Li, Jaydeep Sen

Универсальные системы плотного поиска в открытых доменах обычно обучаются на больших, эклектичных наборах корпусов и поисковых задач. Как следует выбирать эти разнородные корпусы и задачи для обучения? Традиционные подходы предполагают равномерную выборку, выборку пропорционально размерам наборов данных или reliance на экспертные оценки. Хорошо известно, что стратегия выборки обучающих данных может существенно влиять на производительность модели. Однако вопрос поиска оптимальной стратегии недостаточно изучен в контексте моделей эмбеддингов. Мы предлагаем Inf-DDS, новую framework выборки на основе обучения с подкреплением, которая адаптивно перевзвешивает обучающие наборы данных, руководствуясь influence-based reward signals, и является значительно более легкой с точки зрения потребления ресурсов GPU. Наша техника итеративно уточняет политику выборки, отдавая приоритет наборам данных, которые максимизируют производительность модели на целевом development наборе. Мы оцениваем эффективность нашей стратегии выборки на широком спектре задач текстового поиска, демонстрируя значительное улучшение релевантности и лучшую адаптацию по сравнению с существующими gradient-based методами выборки, при одновременном снижении затрат на вычисления на GPU в 1.5–4 раза. Наша стратегия выборки позволяет достичь абсолютного улучшения NDCG@10 на 5.03 пункта при обучении multilingual модели bge-m3 и абсолютного улучшения NDCG@10 на 0.94 пункта при обучении модели all-MiniLM-L6-v2, даже при старте с expert-assigned весов на большом пуле обучающих наборов данных.

Кросс-лингвальная стабильность оценок языковых моделей в условиях контролируемой генерации: данные финно-угорских языков
Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages

Feb 2

ByIsaac Chung, Linda Freienthal

Межъязыковая оценка больших языковых моделей (LLM) обычно объединяет два источника вариативности: подлинные различия в производительности моделей и нестабильность измерений. Мы исследуем надежность оценки, фиксируя условия генерации и варьируя целевой язык. Используя синтетические диалоги службы поддержки, сгенерированные с идентичными параметрами на эстонском, финском и венгерском языках, мы проверяем, обеспечивают ли автоматические метрики и оценка по методу LLM-as-a-judge стабильные ранжирования моделей для этих морфологически богатых родственных финно-угорских языков. Опираясь на небольшой набор аннотаций носителей эстонского языка как на точку отсчета, мы выявляем систематическую нестабильность ранжирования: поверхностные метрики (лексическое разнообразие, поверхностное и семантическое сходство) сохраняют кросс-лингвистическую стабильность, тогда как прагматические оценки (связность, следование инструкциям) демонстрируют инверсии рангов и корреляции, близкие к нулю. Поскольку генерация контролируется, эти несоответствия отражают то, как оценка судей работает по-разному в разных языках, а не истинные различия между моделями. Данный контролируемый подход служит диагностическим инструментом: методы оценки, которые не сохраняют стабильность в идентичных условиях генерации, сигнализируют о проблеме переноса до внедрения. Наши результаты показывают, что трансфер оценки по методу zero-shot судьи ненадежен для дискурс-уровневого анализа в морфологически богатых языках, что обосновывает необходимость языково-специфичной калибровки относительно целевых человеческих бейзлайнов. Мы публикуем наш контролируемый протокол генерации, синтетические данные и框架 оценки для обеспечения воспроизводимости на других языковых семьях по адресу: https://github.com/isaac-chung/cross-lingual-stability-judges.

YOLOE-26: Интеграция YOLO26 с YOLOE для сегментации экземпляров в реальном времени с открытым словарём
YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation

Jan 29

ByRanjan Sapkota, Manoj Karkee

В данной статье представлена YOLOE-26 — унифицированная платформа, объединяющая оптимизированную для развертывания архитектуру YOLO26 (или YOLOv26) с парадигмой обучения с открытым словарем YOLOE для задач сегментации экземпляров в реальном времени с открытым словарем. Основываясь на свободном от NMS, сквозном дизайне YOLOv26, предложенный подход сохраняет характерные для семейства YOLO эффективность и детерминизм, расширяя при этом его возможности за пределы распознавания в закрытых наборах. YOLOE-26 использует сверточную основу с многоуровневой агрегацией признаков в стиле PAN/FPN, за которой следуют сквозные головы регрессии и сегментации экземпляров. Ключевым архитектурным нововведением является замена фиксированных логитов классов на голову эмбеддингов объектов, которая формулирует классификацию как задачу сравнения сходства с эмбеддингами промптов, полученными из текстовых описаний, визуальных примеров или встроенного словаря. Для обеспечения эффективного рассуждения с открытым словарем платформа включает Перепараметризуемое Выравнивание Области и Текста (RepRTA) для текстового промптинга с нулевыми накладными расходами, Семантически-Активируемый Кодировщик Визуальных Промптов (SAVPE) для сегментации по примерам и Ленивый Контраст Промптов Областей для автономного вывода. Все модальности промптинга работают в едином пространстве эмбеддингов объектов, позволяя бесшовно переключаться между текстовым, визуальным и полностью автономным режимами сегментации. Многочисленные эксперименты демонстрируют стабильное масштабирование и благоприятный баланс точности и эффективности для моделей разного размера как в режимах с промптами, так и без них. Стратегия обучения использует крупномасштабные наборы данных детекции и локализации с многозадачной оптимизацией и сохраняет полную совместимость с экосистемой Ultralytics для обучения, валидации и развертывания. В целом, YOLOE-26 предлагает практичное и масштабируемое решение для сегментации экземпляров с открытым словарем в реальном времени в динамичных условиях реального мира.

ParalESN: Обеспечение параллельной обработки информации в резервуарных вычислениях
ParalESN: Enabling parallel information processing in Reservoir Computing

Jan 29

ByMatteo Pinna, Giacomo Lagomarsini, Andrea Ceni, Claudio Gallicchio

Резервуарные вычисления (RC) утвердились в качестве эффективной парадигмы для обработки временных данных. Однако их масштабируемость остается серьезно ограниченной (i) необходимостью последовательной обработки временных данных и (ii) чрезмерно большим объемом памяти, требуемым для высокоразмерных резервуаров. В данной работе мы переосмысливаем RC через призму структурированных операторов и моделей пространства состояний, чтобы преодолеть эти ограничения, и представляем Параллельную сеть с эхо-состояниями (ParalESN). ParalESN позволяет конструировать высокоразмерные и эффективные резервуары на основе диагональной линейной рекуррентности в комплексном пространстве, что обеспечивает параллельную обработку временных данных. Мы предоставляем теоретический анализ, демонстрирующий, что ParalESN сохраняет свойство эхо-состояний и гарантии универсальности традиционных сетей с эхо-состояниями, допуская при этом эквивалентное представление произвольных линейных резервуаров в комплексной диагональной форме. Экспериментально показано, что ParalESN соответствует прогностической точности традиционных RC на эталонных задачах прогнозирования временных рядов, обеспечивая при этом существенную экономию вычислительных ресурсов. В задачах одномерной классификации на уровне пикселей ParalESN демонстрирует конкурентоспособную точность с полностью обучаемыми нейронными сетями, сокращая вычислительные затраты и энергопотребление на порядки. В целом, ParalESN предлагает перспективный, масштабируемый и принципиальный путь для интеграции RC в ландшафт глубокого обучения.

Неявное нейронное представление текстур
Implicit neural representation of textures

Feb 2

ByAlbert Kwok, Zheyuan Hu, Dounia Hammou

Неявное нейронное представление (INR) доказало свою точность и эффективность в различных областях. В данной работе мы исследуем, как различные нейронные сети могут быть спроектированы в качестве нового текстурного INR, который работает непрерывным, а не дискретным образом в пространстве входных UV-координат. В ходе тщательных экспериментов мы демонстрируем, что такие INR демонстрируют высокое качество изображения при значительной экономии памяти и времени инференса при рендеринге. Мы анализируем баланс между этими целями. Кроме того, мы исследуем различные связанные приложения в задачах рендеринга в реальном времени и последующих задачах, такие как построение MIP-карт и генерация в пространстве INR.

Внутренние признаки потока для самопроверки и уточнения в больших языковых моделях
Internal Flow Signatures for Self-Checking and Refinement in LLMs

Feb 2

BySungheon Jeong, Sanggeon Yun, Ryozo Masukawa, Wenjun Haung, Hanning Chen, Mohsen Imani

Крупные языковые модели способны генерировать беглые ответы, которые не соответствуют предоставленному контексту, в то время как многие механизмы защиты полагаются на внешнюю проверку или отдельную оценку после генерации. Мы представляем внутренние сигнатуры потока, которые аудируют формирование решений на основе поэтапной динамики на фиксированной межблочной границе мониторинга. Метод стабилизирует покомпонентное движение посредством мониторинга, центрированного на смещении, затем суммирует траектории в компактных движущихся подпространствах, согласованных со считыванием, которые построены из основного токена и его ближайших конкурентов в пределах каждого глубинного окна. Соседние оконные кадры выравниваются с помощью ортогонального переноса, что дает сопоставимые по глубине длины перенесенных шагов, углы поворота и суммарные характеристики дрейфа подпространства, инвариантные к выбору базиса внутри окна. Облегченный валидатор на основе GRU, обученный на этих сигнатурах, выполняет самопроверку без модификации базовой модели. Помимо обнаружения, валидатор локализует проблемное глубинное событие и позволяет выполнить целенаправленное уточнение: модель откатывается к проблемному токену и фиксирует аномальный перенесенный шаг на идентифицированном блоке, сохраняя ортогональный остаток. Получившийся конвейер обеспечивает действенную локализацию и самопроверку с низкими накладными расходами на основе внутренней динамики принятия решений. Код доступен по адресу github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Куда направить внимание: принципиально визуально-ориентированное позиционное кодирование с использованием парабол
Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Feb 1

ByChristoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis

Мы предлагаем параболическое позиционное кодирование (PaPE) — позиционное кодирование на основе параболы для визуальных модальностей в архитектурах с механизмом внимания. Для набора визуальных токенов — таких как изображения, облака точек, видео или потоки данных с событийных камер — наша цель состоит в кодировании их позиций с учётом характеристик визуальных модальностей. Предыдущие работы в основном расширяли позиционные кодирования с 1D-последовательностей в языке на nD-структуры в компьютерном зрении, но лишь частично учитывая особенности визуальных данных. Мы устраняем этот пробел, проектируя PaPE на основе принципов, выведенных из предыдущих работ: инвариантности к сдвигу, инвариантности к вращению (PaPE-RI), затухания с расстоянием, направленности и контекстной осведомлённости. Мы оцениваем PaPE на 8 наборах данных, охватывающих 4 модальности. Мы обнаружили, что либо PaPE, либо PaPE-RI демонстрирует наилучшую производительность на 7 из 8 наборов данных. Эксперименты по экстраполяции на ImageNet-1K показывают, что PaPE исключительно хорошо экстраполирует, улучшая абсолютный показатель до 10,5% по сравнению со следующим по эффективности позиционным кодированием. Код доступен по адресу https://github.com/DTU-PAS/parabolic-position-encoding.

Диагностика надежности LLM-как-судии с помощью теории заданий
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory

Jan 31

ByJunhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim

Хотя подход LLM-as-a-Judge широко используется для автоматизированной оценки, существующие практики валидации в основном работают на уровне наблюдаемых выходных данных, предоставляя ограниченное представление о том, функционируют ли сами модели-судьи в качестве стабильных и надежных измерительных инструментов. Для решения этой проблемы мы предлагаем двухфазную диагностическую систему оценки надежности LLM-as-a-Judge, основанную на теории Item Response Theory (IRT). Данная система использует Graded Response Model (GRM) из IRT и формализует надежность по двум взаимодополняющим направлениям: (1) внутренняя согласованность, определяемая как стабильность измерительного поведения при вариациях промптов, и (2) соответствие человеческим оценкам, отражающее согласованность с экспертной оценкой качества человеком. Мы эмпирически исследуем различные модели-судьи с помощью этой системы и показываем, что использование IRT-GRM дает интерпретируемые сигналы для систематической диагностики суждений. Эти сигналы предоставляют практические рекомендации для проверки надежности подхода LLM-as-a-Judge и выявления потенциальных причин ненадежности.