HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

48 papers found

Шаг 3.5 Flash: Открытая интеллектуальная система уровня Frontier с 11 миллиардами активных параметров
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

Feb 11

ByAilin Huang, Ang Li, Aobo Kong, Bin Wang, Binxing Jiao, Bo Dong, Bojun Wang, Boyu Chen, Brian Li, Buyun Ma, Chang Su, Changxin Miao, Changyi Wan, Chao Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengting Feng, Chengyuan Yao, Chunrui Han, Dan Ma, Dapeng Shi, Daxin Jiang, Dehua Ma, Deshan Sun, Di Qi, Enle Liu, Fajie Zhang, Fanqi Wan, Guanzhe Huang, Gulin Yan, Guoliang Cao, Guopeng Li, Han Cheng, Hangyu Guo, Hanshan Zhang, Hao Nie, Haonan Jia, Haoran Lv, Hebin Zhou, Hekun Lv, Heng Wang, Heung-Yeung Shum, Hongbo Huang, Hongbo Peng, Hongyu Zhou, Hongyuan Wang, Houyong Chen, Huangxi Zhu, Huimin Wu, Huiyong Guo, Jia Wang, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiashu Lv, Jiashuo Liu, Jiayi Fu, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yang, Jie Zhou, Jieyi Hou, Jing Bai, Jingcheng Hu, Jingjing Xie, Jingwei Wu, Jingyang Zhang, Jishi Zhou, Junfeng Liu, Junzhe Lin, Ka Man Lo, Kai Liang, Kaibo Liu, Kaijun Tan, Kaiwen Yan, Kaixiang Li, Kang An, Kangheng Lin, Lei Yang, Liang Lv, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lina Chen, Luck Ma, Mengqiang Ren, Michael Li, Ming Li, Mingliang Li, Mingming Zhang, Mingrui Chen, Mitt Huang, Na Wang, Peng Liu, Qi Han, Qian Zhao, Qinglin He, Qinxin Du, Qiuping Wu, Quan Sun, Rongqiu Yang, Ruihang Miao, Ruixin Han, Ruosi Wan, Ruyan Guo, Shan Wang, Shaoliang Pang, Shaowen Yang, Shengjie Fan, Shijie Shang, Shiliang Yang, Shiwei Li, Shuangshuang Tian, Siqi Liu, Siye Wu, Siyu Chen, Song Yuan, Tiancheng Cao, Tianchi Yue, Tianhao Cheng, Tianning Li, Tingdan Luo, Wang You, Wei Ji, Wei Yuan, Wei Zhang, Weibo Wu, Weihao Xie, Wen Sun, Wenjin Deng, Wenzhen Zheng, Wuxun Xie, Xiangfeng Wang, Xiangwen Kong, Xiangyu Liu, Xiangyu Zhang, Xiaobo Yang, Xiaojia Liu, Xiaolan Yuan, Xiaoran Jiao, Xiaoxiao Ren, Xiaoyun Zhang, Xin Li, Xin Liu, Xin Wu, Xing Chen, Xingping Yang, Xinran Wang, Xu Zhao, Xuan He, Xuanti Feng, Xuedan Cai, Xuqiang Zhou, Yanbo Yu, Yang Li, Yang Xu, Yanlin Lai, Yanming Xu, Yaoyu Wang, Yeqing Shen, Yibo Zhu, Yichen Lv, Yicheng Cao, Yifeng Gong, Yijing Yang, Yikun Yang, Yin Zhao, Yingxiu Zhao, Yinmin Zhang, Yitong Zhang, Yixuan Zhang, Yiyang Chen, Yongchi Zhao, Yongshen Long, Yongyao Wang, Yousong Guan, Yu Zhou, Yuang Peng, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yudi Zhao, Yue Peng, Yueqiang Lin, Yufan Lu, Yuling Zhao, Yunzhou Ju, Yurong Zhang, Yusheng Li, Yuxiang Yang, Yuyang Chen, Yuzhu Cai, Zejia Weng, Zetao Hong, Zexi Li, Zhe Xie, Zheng Ge, Zheng Gong, Zheng Zeng, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhiheng Hu, Zidong Yang, Zili Wang, Ziqi Ren, Zixin Zhang, Zixuan Wang

189

Мы представляем Step 3.5 Flash — разреженную модель смеси экспертов (MoE), которая объединяет передовой агентский интеллект с вычислительной эффективностью. Основное внимание уделено ключевым аспектам создания агентов: остроте логического мышления и быстрому, надежному исполнению. Step 3.5 Flash сочетает базовую архитектуру с 196 млрд параметров и 11 млрд активных параметров для эффективного вывода. Модель оптимизирована с помощью чередующегося скользящего/полного внимания (3:1) и многотокенного предсказания (MTP-3) для снижения задержек и стоимости многократных агентских взаимодействий. Для достижения уровня передового интеллекта мы разработали масштабируемую систему обучения с подкреплением, объединяющую верифицируемые сигналы с обратной связью по предпочтениям, сохраняя стабильность при крупномасштабном обучении с off-policy данными, что обеспечивает последовательное самоулучшение в математике, программировании и использовании инструментов. Step 3.5 Flash демонстрирует высокие результаты в агентских, программистских и математических задачах: 85,4% на IMO-AnswerBench, 86,4% на LiveCodeBench-v6 (2024.08-2025.05), 88,2% на tau2-Bench, 69,0% на BrowseComp (с управлением контекстом) и 51,0% на Terminal-Bench 2.0, что сравнимо с передовыми моделями, такими как GPT-5.2 xHigh и Gemini 3.0 Pro. Переопределяя границы эффективности, Step 3.5 Flash создает высокоплотную основу для развертывания сложных агентов в реальных промышленных средах.

VidVec: Раскрытие потенциала встраиваний Video MLLM для видео-текстового поиска
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Feb 8

ByIssar Tzachor, Dvir Samuel, Rami Ben-Ari

122

В последних исследованиях генеративные мультимодальные большие языковые модели (MLLM) адаптировались для извлечения эмбеддингов в задачах компьютерного зрения, обычно путем тонкой настройки для получения универсальных представлений. Однако их производительность на видео остается ниже, чем у фоновых видео-моделей (VFM). В данной статье мы сосредотачиваемся на использовании MLLM для получения видео-текстовых эмбеддингов и решения задач поиска. Сначала мы проводим систематический послойный анализ, показывающий, что промежуточные (предобученные) слои MLLM уже кодируют значительный объем релевантной для задачи информации. Используя это наблюдение, мы демонстрируем, что комбинирование эмбеддингов промежуточных слоев с калиброванной головой MLLM позволяет достичь высокой производительности поиска в режиме zero-shot без какого-либо обучения. Основываясь на этих результатах, мы представляем легковесную стратегию текстовой адаптации, которая сопоставляет плотные описания видео с краткими суммаризациями и позволяет изучать релевантные для задачи видео-текстовые эмбеддинги без визуального супервизора. Примечательно, что без какой-либо тонкой настройки, кроме работы с текстом, наш метод превосходит современные подходы, часто с существенным отрывом, достигая наилучших результатов на стандартных бенчмарках для видео-поиска.

GENIUS: Комплексная оценка генеративной текучести интеллекта
GENIUS: Generative Fluid Intelligence Evaluation Suite

Feb 11

ByRuichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang

Унифицированные мультимодальные модели (UMM) демонстрируют значительный прогресс в области визуальной генерации. Однако существующие бенчмарки в основном оценивают кристаллизованный интеллект, который опирается на воспроизведение накопленных знаний и усвоенных схем. Такой подход упускает из виду генеративный флюидный интеллект (GFI) — способность выявлять закономерности, рассуждать в рамках ограничений и адаптироваться к новым сценариям на лету. Для строгой оценки этой способности мы представляем GENIUS (GEN Fluid Intelligence EvalUation Suite). Мы формализуем GFI как синтез трёх примитивов: выявление имплицитных паттернов (например, вывод персональных визуальных предпочтений), выполнение ад-хок ограничений (например, визуализация абстрактных метафор) и адаптация к контекстуальным знаниям (например, симуляция контр-интуитивной физики). В совокупности эти примитивы требуют от моделей решения задач, полностью основанных на непосредственном контексте. Наше систематическое тестирование 12 репрезентативных моделей выявило существенные пробелы в производительности при решении этих задач. Ключевой результат диагностического анализа состоит в том, что эти неудачи обусловлены ограниченным пониманием контекста, а не недостаточной внутренней генеративной способностью. Для преодоления этого разрыва мы предлагаем стратегию вмешательства в механизм внимания, не требующую дообучения. В конечном счёте, GENIUS устанавливает строгий стандарт для оценки GFI, направляя область исследований от использования знаний к динамическому общему рассуждению. Наш набор данных и код будут доступны по адресу: https://github.com/arctanxarc/GENIUS.

PhyCritic: Мультимодальные критические модели для физического искусственного интеллекта
PhyCritic: Multimodal Critic Models for Physical AI

Feb 11

ByTianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu

С быстрым развитием крупных мультимодальных моделей надежные модели-критики и оценщики стали необходимы для открытой оценки и согласования предпочтений, предоставляя парные сравнения, численные оценки и объясняющие обоснования для анализа сгенерированных моделями ответов. Однако существующие критики в основном обучаются в общих визуальных областях, таких как создание описаний или визуальные вопросы-ответы, оставляя задачи физического ИИ, связанные с восприятием, каузальными рассуждениями и планированием, практически неисследованными. Мы представляем PhyCritic, мультимодальную модель-критика, оптимизированную для физического ИИ через двухэтапный RLVR-конвейер: этап разогрева физических навыков, улучшающий физически ориентированное восприятие и рассуждения, с последующей самоссылочной донастройкой критика, когда модель генерирует собственный прогноз как внутренний ориентир перед оценкой кандидатных ответов, повышая стабильность суждений и физическую корректность. На бенчмарках как для физических, так и для общецелевых мультимодальных оценщиков PhyCritic демонстрирует значительное превосходство над открытыми базовыми моделями и, при применении в качестве политической модели, дополнительно улучшает восприятие и рассуждения в задачах с физической основой.

ASA: Обучение без тренировки для инженерии представлений в агентах с вызовом инструментов
ASA: Training-Free Representation Engineering for Tool-Calling Agents

Feb 4

ByYoujin Wang, Run Zhou, Rong Fu, Shuaishuai Cao, Hongwei Zeng, Jiaxuan Lu, Sicheng Fan, Jiaqiao Zhao, Liangming Pan

Адаптация агентов больших языковых моделей (LLM) к предметно-ориентированному вызову инструментов остается заметно хрупкой при изменяющихся интерфейсах. Инженерия промптов и схем проста в развертывании, но часто ненадежна при сдвиге распределения данных и использовании строгих парсеров, тогда как непрерывная дообучение с параметрической эффективностью повышает надежность ценой обучения, поддержки и потенциального забывания. Мы выявляем критический режим отказа «Ленивого Агента», при котором необходимость использования инструмента почти идеально декодируется из активаций средних слоев, однако модель остается консервативной в переходе в инструментальный режим, что раскрывает разрыв между репрезентацией и поведением. Мы предлагаем Адаптер управления через активации (Activation Steering Adapter, ASA) — беспараметрический контроллер времени инференции, который выполняет одношаговое вмешательство на среднем слое и нацеливается на инструментальные домены через условную смесь векторов управления, управляемую маршрутизатором, с использованием знакового вентиля, направляемого пробником, для усиления истинного намерения при подавлении ложных триггеров. На MTU-Bench с моделью Qwen2.5-1.5B ASA улучшает F1-меру строгого использования инструментов с 0.18 до 0.50, одновременно снижая уровень ложных срабатываний с 0.15 до 0.05, используя лишь около 20 КБ портируемых ресурсов и не обновляя веса модели.

К автономным математическим исследованиям
Towards Autonomous Mathematics Research

Feb 10

ByTony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong

Последние достижения в области базовых моделей привели к созданию систем логического вывода, способных достигать золотого медального уровня на Международной математической олимпиаде. Однако переход от решения задач олимпиадного уровня к профессиональным исследованиям требует навигации по обширной литературе и построения доказательств с длительным горизонтом. В данной работе мы представляем Алетейю — агента для математических исследований, который итеративно генерирует, проверяет и корректирует решения от начала до конца на естественном языке. В частности, Алетея использует усовершенствованную версию Gemini Deep Think для решения сложных логических задач, новую закономерность масштабирования на этапе вывода, выходящую за рамки олимпиадных задач, и интенсивное применение инструментов для навигации по сложностям математических исследований. Мы демонстрируем возможности Алетеи — от олимпиадных задач до упражнений уровня PhD и, что наиболее примечательно, через несколько различных вех в исследованиях по математике с использованием ИИ: (а) научную статью (Feng26), полностью сгенерированную ИИ без какого-либо человеческого вмешательства, по вычислению определенных структурных констант в арифметической геометрии, называемых собственными весами; (б) научную статью (LeeSeo26), демонстрирующую сотрудничество человека и ИИ в доказательстве границ для систем взаимодействующих частиц, называемых независимыми множествами; и (в) масштабную полуавтономную оценку (Feng et al., 2026a) 700 открытых проблем из базы данных гипотез Блума-Эрдёша, включая автономные решения четырех открытых вопросов. Чтобы помочь общественности лучше понять развитие, связанное с ИИ и математикой, мы предлагаем кодифицировать стандартные уровни, количественно оценивающие автономность и новизну результатов, полученных с помощью ИИ. В заключение мы размышляем о сотрудничестве человека и ИИ в математике.

Когда запоминать, а когда остановиться: управляемая рекуррентная память для рассуждений в длинных контекстах
When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Feb 11

ByLeheng Sheng, Yongtao Zhang, Wenchang Ma, Yaorui Shi, Ting Huang, Xiang Wang, An Zhang, Ke Shen, Tat-Seng Chua

Хотя рассуждения на основе длинного контекста крайне важны для различных практических приложений, они остаются сложной задачей для больших языковых моделей (LLM), поскольку их производительность снижается по мере увеличения длины контекста. Недавно предложенный метод MemAgent попытался решить эту проблему, обрабатывая контекст по фрагментам в RNN-подобном цикле и обновляя текстовую память для формирования окончательного ответа. Однако эта наивная рекуррентная схема обновления памяти имеет два существенных недостатка: (i) память может быстро разрастаться, поскольку обновление происходит бесконтрольно, даже на фрагментах, не содержащих полезной информации; (ii) цикл не имеет механизма выхода, что приводит к избыточным вычислениям даже после сбора достаточных свидетельств. Для решения этих проблем мы предлагаем модель GRU-Mem, в которую встроены два управляемых текстом затвора для более стабильных и эффективных рассуждений в длинном контексте. А именно, в GRU-Mem память обновляется только когда открыт затвор обновления, а рекуррентный цикл немедленно завершается при открытии затвора выхода. Для наделения модели такими возможностями мы вводим две сигнала поощрения, r^{update} и r^{exit}, в рамках сквозного обучения с подкреплением, награждая за корректное поведение при обновлении и выходе соответственно. Эксперименты на различных задачах рассуждений в длинном контексте демонстрируют эффективность и производительность GRU-Mem, которая в целом превосходит базовый MemAgent с ускорением вывода до 400%.

TimeChat-Captioner: Создание сценариев для многоплановых видео с использованием временно-ориентированных и структурных аудиовизуальных описаний
TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Feb 9

ByLinli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun

В данной статье представлена задача Omni Dense Captioning — новый подход к генерации непрерывных, детализированных и структурированных аудиовизуальных описаний с явными временными метками. Для обеспечения плотного семантического охвата мы вводим шестимерную структурную схему для создания «сценарных» описаний, позволяющих читателю живо представить содержание видео сцена за сценой, подобно кинематографическому сценарию. Для стимулирования исследований мы создали OmniDCBench — качественный, размеченный человеком бенчмарк, и предложили SodaM — унифицированную метрику, которая оценивает детализированные описания с учётом времени, одновременно смягчая неоднозначность границ сцен. Кроме того, мы собрали обучающий набор данных TimeChatCap-42K и представили TimeChat-Captioner-7B — сильную базовую модель, обученную с помощью SFT и GRPO со специализированными вознаграждениями для задачи. Многочисленные эксперименты демонстрируют, что TimeChat-Captioner-7B достигает наилучших результатов, превосходя Gemini-2.5-Pro, а её детализированные описания значительно улучшают возможности решения смежных задач: аудиовизуального reasoning (DailyOmni и WorldSense) и временной локализации (Charades-STA). Все наборы данных, модели и код будут общедоступны по адресу https://github.com/yaolinli/TimeChat-Captioner.

Как декодерные языковые модели воспринимают пользователей? Переосмысление механизма маскирования внимания для обучения представлений пользователей
How Do Decoder-Only LLMs Perceive Users? Rethinking Attention Masking for User Representation Learning

Feb 11

ByJiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Yang Chen, Xiaotong Lin, Wuliang Huang, Ziyi Gao, Xing Fu, Yu Cheng, Weiqiang Wang

Односторонние декодерные большие языковые модели все чаще используются в качестве поведенческих энкодеров для обучения представлений пользователей, однако влияние маскирования внимания на качество пользовательских эмбеддингов остается малоизученным. В данной работе мы проводим систематическое исследование каузальных, гибридных и двунаправленных масок внимания в рамках единой контрастной архитектуры, обученной на крупномасштабных реальных данных Alipay, интегрирующих долгосрочные гетерогенные поведенческие паттерны пользователей. Для улучшения динамики обучения при переходе от каузального к двунаправленному вниманию мы предлагаем метод градиентно-управляемого мягкого маскирования — градиентную предразминку, применяемую перед линейным планировщиком, который постепенно открывает будущее внимание в процессе оптимизации. Оценка на 9 промышленных бенчмарках пользовательского восприятия, охватывающих задачи прогнозирования, предпочтений и маркетинговой чувствительности, демонстрирует, что наш подход обеспечивает более стабильное обучение и двунаправленные представления более высокого качества по сравнению с каузальными, гибридными базовыми методами и методами только с планировщиком, сохраняя совместимость с предобучением декодера. В целом, наши результаты подчеркивают важность проектирования маскирования и плавного перехода обучения при адаптации односторонних декодерных LLM для эффективного обучения пользовательских представлений. Наш код доступен по адресу https://github.com/JhCircle/Deepfind-GGSM.

G-LNS: Генеративный поиск по большим окрестностям для автоматического проектирования эвристик на основе больших языковых моделей
G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design

Feb 9

ByBaoyun Zhao, He Wang, Liang Zeng

В то время как большие языковые модели (LLM) недавно продемонстрировали потенциал в области автоматизированного проектирования эвристик (AHD), существующие подходы обычно формулируют AHD вокруг конструктивных правил приоритетов или параметризованного руководства локальным поиском, тем самым ограничивая пространство поиска фиксированными формами эвристик. Подобные конструкции обладают ограниченной способностью к структурному исследованию, что затрудняет выход из глубоких локальных оптимумов в сложных задачах комбинаторной оптимизации (КОП). В данной работе мы предлагаем G-LNS, генеративно-эволюционный фреймворк, который расширяет AHD на основе LLM до автоматизированного проектирования операторов поиска в большом окружении (LNS). В отличие от предыдущих методов, которые эволюционируют эвристики изолированно, G-LNS использует LLM для совместной эволюции тесно связанных пар операторов разрушения и восстановления. Механизм кооперативной оценки явно фиксирует их взаимодействие, позволяя обнаруживать взаимодополняющую логику операторов, которая совместно выполняет эффективное структурное нарушение и реконструкцию. Многочисленные эксперименты на сложных benchmarks КОП, таких как задача коммивояжера (TSP) и задача маршрутизации транспортных средств с ограниченной грузоподъемностью (CVRP), демонстрируют, что G-LNS значительно превосходит методы AHD на основе LLM, а также сильные классические решатели. Обнаруженные эвристики не только достигают почти оптимальных решений при сокращенных вычислительных бюджетах, но и демонстрируют robustную генерализацию для разнообразных и ранее не встречавшихся распределений экземпляров задач.

FeatureBench: Бенчмаркинг агентного программирования для разработки сложных функциональных возможностей
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Feb 11

ByQixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang, Minghao Han, Yuxue Yang, Shuzhe Wu, Feiyang Pan, Lue Fan, Dandan Tu, Zhaoxiang Zhang

Агенты на основе больших языковых моделей (LLM) все шире применяются в программной индустрии, участвуя в написании кода в качестве коллабораторов или даже автономных разработчиков. По мере роста их распространения становится важным оценить текущие границы их способностей к программированию. Однако существующие бенчмарки для оценки агентского кодирования охватывают ограниченный спектр задач, например, исправление ошибок в рамках одного пул-реквеста (PR), и часто полагаются на неисполняемые методы оценки или не имеют автоматизированного подхода для постоянного обновления охвата тестирования. Для решения этих проблем мы предлагаем FeatureBench — бенчмарк, предназначенный для оценки производительности агентского кодирования в сквозной, ориентированной на функции разработке программного обеспечения. FeatureBench включает протокол оценки на основе исполнения и масштабируемый тест-ориентированный метод, который автоматически извлекает задачи из репозиториев кода с минимальными усилиями со стороны человека. Путем трассировки от модульных тестов вдоль графа зависимостей наш подход позволяет выявлять задачи кодирования на уровне функций, охватывающие несколько коммитов и PR, разбросанных по временной шкале разработки, при этом гарантируя корректную работу других функций после их выделения. Используя этот фреймворк, мы отобрали 200 сложных оценочных задач и 3825 исполняемых окружений из 24 репозиториев с открытым исходным кодом для первой версии нашего бенчмарка. Эмпирическая оценка показывает, что современные агентские модели, такие как Claude 4.5 Opus, которые демонстрируют уровень разрешения задач 74.4% на SWE-bench, справляются лишь с 11.0% задач в нашем бенчмарке, открывая новые возможности для совершенствования агентского кодирования. Более того, благодаря нашему автоматизированному инструментарию для сбора задач, FeatureBench можно легко масштабировать и обновлять со временем для снижения риска утечки данных. Присущая построенным окружениям верифицируемость также делает наш метод потенциально ценным для обучения агентов.

Интернализация мета-опыта в память для направленного обучения с подкреплением в больших языковых моделях
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Feb 10

ByShiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало эффективным подходом для расширения логических возможностей больших языковых моделей (LLM). Несмотря на свою эффективность, RLVR сталкивается с проблемой мета-обучения: в нём отсутствуют механизмы атрибуции ошибок и интернализации опыта, присущие человеческому циклу обучения помимо практики и проверки, что ограничивает точное распределение заслуг и формирование переиспользуемых знаний. Мы обозначаем такие переиспользуемые репрезентации знаний, извлечённые из прошлых ошибок, как мета-опыт. Основываясь на этом наблюдении, мы предлагаем обучение на мета-опыте (MEL) — новую структуру, которая инкорпорирует само-дистиллированный мета-опыт в параметрическую память модели. Развивая стандартный RLVR, мы вводим дополнительный механизм, который использует способность LLM к самопроверке для проведения контрастного анализа парных корректных и ошибочных траекторий, выявления точек бифуркации, в которых возникают логические ошибки, и их обобщения в виде универсального мета-опыта. Мета-опыт далее интернализируется в параметрическую память LLM путём минимизации отрицательного логарифмического правдоподобия, что создаёт сигнал вознаграждения, смоделированный языковой моделью, который связывает корректные и ошибочные логические траектории и способствует эффективному повторному использованию знаний. Результаты экспериментов демонстрируют, что MEL обеспечивает стабильное улучшение на бенчмарках, давая прирост Pass@1 в 3,92%–4,73% для моделей разного размера.

DataChef: Создание оптимальных рецептов данных для адаптации больших языковых моделей с помощью обучения с подкреплением
DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Feb 11

ByYicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen

В современных условиях развития больших языковых моделей (LLM) ключевым фактором повышения их производительности является формирование масштабных высококачественных обучающих данных. Важнейшую роль играет рецепт данных — конвейер обработки, преобразующий исходные сырые данные в обучающие корпуса. Несмотря на растущее использование LLM для автоматизации отдельных этапов обработки данных, таких как синтез и фильтрация, общее проектирование рецептов данных остается в значительной степени ручным и трудоемким процессом, требующим существенных человеческих экспертных знаний и итераций. Для преодоления этого разрыва мы формулируем задачу сквозной генерации рецептов данных для адаптации LLM. При заданном целевом бенчмарке и пуле доступных источников данных модель должна формировать полный рецепт данных, адаптирующий базовую LLM к целевой задаче. Мы представляем DataChef-32B, который выполняет онлайн-обучение с подкреплением, используя суррогатную функцию вознаграждения, предсказывающую итоговую производительность кандидатных рецептов. На шести тестовых задачах DataChef-32B генерирует практичные рецепты, достигающие сопоставимой с экспертно подобранными рецептами итоговой производительности. Примечательно, что рецепт от DataChef-32B адаптирует Qwen3-1.7B-Base к математической области, достигая 66.7 баллов на AIME'25 и превосходя Qwen3-1.7B. Данная работа открывает новые перспективы для автоматизации обучения LLM и разработки саморазвивающихся систем искусственного интеллекта.

ROCKET: Быстрая оптимизация с помощью управляемого калибровкой усиленного усечения методом рюкзака для эффективного сжатия моделей
ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

Feb 11

ByAmmar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis

Мы представляем ROCKET — метод сжатия моделей, не требующий дообучения, который демонстрирует наилучшую производительность по сравнению с базовыми методами факторизации, структурированного разрежения и динамического сжатия. Работая в рамках глобального бюджета сжатия, ROCKET включает две ключевые инновации. Во-первых, он формулирует распределение степени сжатия по слоям как задачу о рюкзаке с множественным выбором, выбирая оптимальный уровень сжатия для каждого слоя, чтобы минимизировать общую ошибку реконструкции при соблюдении целевого размера модели. Во-вторых, он вводит одношаговую факторизацию разреженной матрицы, вдохновлённую обучением словаря: используя лишь небольшой калибровочный набор, метод разрежает весовые коэффициенты на основе чувствительности активаций и весов, а затем обновляет словарь в замкнутой форме через метод наименьших квадратов, полностью обходя итеративную оптимизацию, разрежённое кодирование или обратное распространение ошибки. ROCKET стабильно превосходит существующие подходы к сжатию для различных архитектур моделей при уровнях сжатия 20–50%. Примечательно, что он сохраняет свыше 90% производительности исходной модели при 30%-ном сжатии без какого-либо дообучения. Более того, при применении лёгкой фазы дообучения восстановление существенно улучшается: например, сжатие Qwen3-14B до модели с 8 миллиардами параметров и её "исцеление" всего на 30 миллионах токенов даёт результат, почти эквивалентный исходной Qwen3-8B. Код ROCKET доступен по адресу github.com/mts-ai/ROCKET/tree/main.

Онлайн-фильтр Калмана с учетом причинно-следственных связей для стабильной и эффективной оптимизации политик
Online Causal Kalman Filtering for Stable and Effective Policy Optimization

Feb 11

ByShuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An

Подкрепляемое обучение для больших языковых моделей страдает от высокодисперсных коэффициентов важности на уровне токенов, что дестабилизирует оптимизацию политики в крупных масштабах. Для повышения стабильности современные методы обычно используют фиксированный коэффициент важности на уровне последовательности для всех токенов или индивидуально корректируют коэффициент для каждого токена, игнорируя временное внеполитическое отклонение между токенами в последовательности. В данной работе мы сначала эмпирически показываем, что локальное внеполитическое отклонение структурно не согласовано на уровне токенов, что может искажать обновления политики через градиенты для смежных токенов и приводить к коллапсу обучения. Для решения этой проблемы мы предлагаем метод онлайн-каузальной фильтрации Калмана для стабильной и эффективной оптимизации политики. Конкретно, мы моделируем желаемый коэффициент важности как скрытое состояние, эволюционирующее между токенами, и применяем фильтр Калмана для онлайн-обновления этого состояния авторегрессивно на основе состояний предыдущих токенов, независимо от будущих токенов. Полученные отфильтрованные коэффициенты важности сохраняют вариативность с учетом локальной структуры на уровне токенов, одновременно эффективно сглаживая шумовые выбросы, что обеспечивает более стабильные и эффективные обновления политики. Экспериментально метод KPO демонстрирует превосходные результаты на сложных наборах данных по математическим рассуждениям по сравнению с передовыми аналогами.

LoopFormer: Трансформеры с эластичной глубиной на основе циклов для латентных рассуждений через модуляцию шорткатов
LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Feb 11

ByAhmadreza Jeddi, Marco Ciccone, Babak Taati

Петлевые транссформеры стали эффективным и мощным классом моделей для решения задач рассуждений в языковой области. Недавние исследования показывают, что эти модели демонстрируют высокую производительность на алгоритмических задачах и задачах логического вывода, что свидетельствует о наличии у петлевых архитектур индуктивного смещения в сторону латентных рассуждений. Однако в предыдущих подходах количество итераций цикла фиксировалось как на этапе обучения, так и на этапе вывода, оставляя открытым вопрос о том, способны ли такие модели гибко адаптировать свою вычислительную глубину при различных бюджетных ограничениях. Мы представляем LoopFormer — петлевой трансформер, обученный на траекториях переменной длины для обеспечения рассуждений с учетом бюджета. Нашим ключевым вкладом является схема обучения с согласованностью коротких путей, которая выравнивает траектории разной длины, гарантируя, что короткие циклы дают информативные представления, а более длинные продолжают их уточнять. LoopFormer обусловливает каждый цикл текущим временем и размером шага, позволяя представлениям эволюционировать согласованно на траекториях различной длины, а не дрейфовать или стагнировать. Экспериментально LoopFormer демонстрирует устойчивую производительность на тестах языкового моделирования и логического вывода даже при агрессивных вычислительных ограничениях, при этом плавно масштабируясь с увеличением бюджета. Эти результаты показывают, что петлевые трансформеры изначально подходят для адаптивного языкового моделирования, открывая путь к созданию управляемых и бюджетно-ориентированных больших языковых моделей.

GameDevBench: Оценка агентных возможностей посредством разработки игр
GameDevBench: Evaluating Agentic Capabilities Through Game Development

Feb 11

ByWayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue

Несмотря на быстрый прогресс в создании кодирующих агентов, развитие их мультимодальных аналогов заметно отстает. Ключевой проблемой является нехватка оценочных тестовых сред, которые сочетают сложность разработки программного обеспечения с необходимостью глубокого мультимодального понимания. Разработка игр предоставляет такую среду, поскольку агенты должны ориентироваться в больших, сложных кодобазах, одновременно управляя внутренне мультимодальными ресурсами, такими как шейдеры, спрайты и анимация, в рамках визуальной игровой сцены. Мы представляем GameDevBench — первый бенчмарк для оценки агентов на задачах игровой разработки. GameDevBench состоит из 132 задач, взятых из веб- и видео-туториалов. Задачи требуют значительного мультимодального понимания и являются сложными — среднее решение требует более чем в три раза больше строк кода и изменений файлов по сравнению с предыдущими бенчмарками по разработке ПО. Агенты по-прежнему испытывают трудности с игровой разработкой: лучший агент решает только 54,5% задач. Мы обнаружили сильную корреляцию между воспринимаемой сложностью задачи и мультимодальной сложностью: уровень успеха падает с 46,9% для задач, ориентированных на геймплей, до 31,6% для задач по 2D-графике. Для улучшения мультимодальных возможностей мы представляем два простых механизма обратной связи для агентов на основе изображений и видео. Несмотря на свою простоту, эти методы стабильно улучшают производительность, причем наибольшее изменение — рост производительности Claude Sonnet 4.5 с 33,3% до 47,7%. Мы публикуем GameDevBench в открытом доступе для поддержки дальнейших исследований в области агентной разработки игр.

Повторение данных превосходит масштабирование данных при тонкой настройке с обучением на длинных цепочках рассуждений
Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Feb 11

ByDawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano

Контролируемое тонкое настройка (SFT) на данных, содержащих цепочку рассуждений, является важным этапом пост-обучения для языковых моделей, ориентированных на логический вывод. Стандартная интуиция машинного обучения предполагает, что обучение с большим количеством уникальных примеров дает лучшее обобщение. Однако, вопреки ожиданиям, мы показываем, что SFT выигрывает от повторения: при фиксированном бюджете обновлений обучение в течение большего количества эпох на меньших наборах данных превосходит обучение в одну эпоху на больших наборах данных. На бенчмарках AIME'24/25 и GPQA модель Olmo3-7B, обученная в течение 128 эпох на 400 примерах, превосходит эквивалентную модель, обученную в 1 эпоху на 51200 примерах, на 12–26 процентных пунктов, без дополнительного катастрофического забывания. Мы обнаружили, что точность предсказания токенов во время обучения надежно сигнализирует о насыщении от повторения: улучшения от дополнительных эпох выходят на плато при полном запоминании, и эта закономерность сохраняется во всех условиях. Эти результаты предлагают практический подход к SFT для рассуждений, когда масштабирование количества эпох с использованием точности токенов в качестве критерия остановки может заменить дорогостоящее ненаправленное масштабирование данных. Мы формулируем преимущество повторения, при котором полное запоминание совпадает с улучшением обобщения, как новую открытую проблему для сообщества в понимании динамики обучения больших языковых моделей.

Блочное оценивание преимуществ для многокритериального обучения с подкреплением с верифицируемыми вознаграждениями
Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Feb 10

ByKirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel

Метод Group Relative Policy Optimization (GRPO) присваивает всем токенам в завершённом тексте единую скалярную advantage-функцию. Для структурированных генераций с явными сегментами и задачами это приводит к смешению несвязанных сигналов вознаграждения между сегментами, что вызывает интерференцию целей и ошибочное распределение заслуг. Мы предлагаем блочную оценку преимуществ — семейство методов, совместимых с GRPO, которое назначает каждой задаче собственную advantage-функцию и применяет её только к токенам соответствующего текстового блока, снижая зависимость от ручного проектирования скалярных вознаграждений и естественным образом масштабируясь на дополнительные цели. Ключевая сложность заключается в оценке преимуществ для последующих блоков, чьи вознаграждения зависят от сгенерированных префиксов: стандартные несмещённые подходы требуют дорогостоящих вложенных прогонов из промежуточных состояний. Конкретно мы вводим базовый уровень, обусловленный исходом, который аппроксимирует значения промежуточных состояний, используя только внутригрупповую статистику путём стратификации выборок согласно промежуточному исходу, выведенному из префикса. На математических задачах с оценкой неопределённости наш метод смягчает интерференцию вознаграждений, конкурирует с современным подходом, основанным на проектировании вознаграждений, и сохраняет преимущества ансамблевого взвешивания по уверенности на тестовых данных. В более широком смысле метод предлагает модульный рецепт для оптимизации последовательных целей в структурированных генерациях без дополнительных прогонов.

Парадигма Омута Памяти: Модели языка с сохранением состояния, осваивающие собственный контекст
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Feb 12

ByXiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi, Pinjia He, Yan Wang

В мире Гарри Поттера, когда разум Дамблдора перегружен, он извлекает воспоминания в Омут Памяти, чтобы вернуться к ним позже. В мире ИИ, хотя у нас и есть аналог Омута Памяти — зрелые базы данных и системы поиска, — наши модели, по необъяснимой причине, лишены «волшебной палочки» для управления им. Они остаются подобно Дамблдору, лишенному возможности действовать, пассивно принимая вручную сконструированный контекст в качестве всей своей памяти. Данная работа наконец вручает эту палочку модели. Мы представляем StateLM — новый класс базовых моделей, наделенных внутренним циклом рассуждений для управления собственным состоянием. Мы оснащаем нашу модель набором инструментов памяти, таких как обрезка контекста, индексация документов и ведение записей, и обучаем ее активно управлять этими инструментами. Научившись динамически формировать собственный контекст, наша модель вырывается из архитектурной тюрьмы фиксированного окна. Эксперименты с моделями разного размера демонстрируют эффективность StateLM в различных сценариях. В задачах вопросно-ответных систем для длинных документов StateLM стабильно превосходят стандартные большие языковые модели на всех масштабах; в задаче чата с памятью они достигают абсолютного улучшения точности на 10–20% по сравнению со стандартными LLM. В задаче углубленного исследования BrowseComp-Plus разрыв в производительности становится еще более выраженным: StateLM достигает точности до 52%, в то время как стандартные LLM показывают результат около 5%. В конечном счете, наш подход превращает LLM из пассивных предсказателей в агентов, осознающих состояние, где рассуждение становится управляемым процессом, зависящим от этого состояния.

LiveMedBench: Незагрязненный медицинский бенчмарк для больших языковых моделей с автоматической оценкой по рубрикам
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation

Feb 10

ByZhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun

Развертывание больших языковых моделей (LLM) в клинической практике с высокими рисками требует строгой и надежной оценки. Однако существующие медицинские бенчмарки остаются статичными и страдают от двух ключевых ограничений: (1) *загрязнения данных*, когда тестовые наборы непреднамеренно попадают в обучающие корпуса, что приводит к завышенным оценкам производительности; и (2) *временного несоответствия*, не позволяющего отразить быстрое развитие медицинских знаний. Кроме того, текущие метрики оценки для открытого клинического мышления часто опираются либо на поверхностное лексическое совпадение (например, ROUGE), либо на субъективное оценивание с помощью LLM-as-a-Judge, что неприемлемо для проверки клинической корректности. Для преодоления этих пробелов мы представляем LiveMedBench — постоянно обновляемый, свободный от загрязнения и основанный на рубриках бенчмарк, который еженедельно собирает реальные клинические случаи из онлайн-медицинских сообществ, обеспечивая строгое временное разделение с данными для обучения моделей. Мы предлагаем *Мульти-агентную систему клинической курации*, которая фильтрует шум в исходных данных и проверяет клиническую достоверность на основе принципов доказательной медицины. Для оценки мы разработали *Автоматизированную систему оценки на основе рубрик*, которая декомпозирует ответы врачей на детальные, специфичные для случая критерии, демонстрируя значительно более сильное соответствие с экспертными оценками врачей по сравнению с методом LLM-as-a-Judge. На сегодняшний день LiveMedBench включает 2 756 реальных случаев, охватывающих 38 медицинских специальностей и несколько языков, в паре с 16 702 уникальными оценочными критериями. Массовая оценка 38 LLM показала, что даже лучшая модель достигает показателя лишь в 39,2%, а 84% моделей демонстрируют снижение производительности на случаях после установленной точки отсечения, что подтверждает повсеместные риски загрязнения данных. Анализ ошибок дополнительно выявляет, что *контекстуальное применение* знаний, а не их фактологическая составляющая, является основным узким местом: от 35% до 48% ошибок происходят из-за неспособности адаптировать медицинские знания к специфическим ограничениям пациента.

ECHO-2: Масштабируемая распределенная система развертывания для экономически эффективного обучения с подкреплением
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Feb 2

ByJie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei

Обучение с подкреплением (ОП) является критически важным этапом посттренировочной доработки больших языковых моделей (LLM), включающим повторяющееся взаимодействие между генерацией rollout-ов, оценкой вознаграждения и централизованным обучением. Распределенное выполнение rollout-ов предоставляет возможности для использования более экономичных ресурсов вывода, но создает проблемы в области координации в глобальной сети и распространения политик. Мы представляем ECHO-2, распределенную структуру ОП для посттренировочной доработки с удаленными работниками вывода и ненулевой задержкой распространения. ECHO-2 сочетает централизованное обучение с распределенными rollout-ами и рассматривает ограниченную устареваемость политики как управляемый пользователем параметр, позволяя совмещать во времени генерацию rollout-ов, их распространение и обучение. Мы вводим модель пропускной способности на основе совмещения, которая связывает время обучения, задержку распространения и пропускную способность rollout-ов, предлагая практическое правило планирования ресурсов для поддержания загрузки обучающего модуля. Для смягчения узких мест распространения и снижения затрат ECHO-2 использует одноранговую конвейерную широковещательную рассылку и рентабельную активацию гетерогенных работников. Эксперименты по посттренировочной доработке моделей на 4 и 8 миллиардов параметров с помощью GRPO в условиях реальных режимов пропускной способности глобальной сети показывают, что ECHO-2 значительно повышает рентабельность, сохраняя при этом показатель вознаграждения ОП, сопоставимый с сильными базовыми уровнями.

Кэш рассуждений: непрерывное улучшение на длинных горизонтах с помощью RL на коротких горизонтах
Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Feb 3

ByIan Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar

Крупные языковые модели (LLMs), способные к непрерывному совершенствованию за пределами своих обучающих бюджетов, могут решать все более сложные задачи благодаря адаптации во время тестирования — свойству, которое мы называем экстраполяцией. Однако стандартное обучение с подкреплением (RL) оперирует фиксированными распределениями задач и обучающими бюджетами, что ограничивает экстраполяцию при наличии сдвига распределения во время тестирования. Чтобы решить эту проблему, мы представляем RC — итеративный алгоритм декодирования, который заменяет стандартное авторегрессивное декодирование как на этапе обучения, так и на этапе вывода. RC использует асимметрию между способностями LLM к генерации ответов и суммаризации для построения цепочек рассуждений, которые последовательно улучшаются от итерации к итерации. Модели, обученные использованию RC, способны к экстраполяции и непрерывному улучшению на горизонтах рассуждений, более чем на порядок превышающих те, что наблюдались во время обучения. Эмпирически, обучение модели объемом 4B параметров с использованием RC при обучающем бюджете в 16 тыс. токенов повышает результат на задачах HMMT 2025 с 40% до почти 70% при использовании 0,5 млн токенов во время тестирования, превосходя как модели сопоставимого размера, так и многие более крупные LLM, ориентированные на рассуждения. Наконец, мы также показываем, что модели, обученные с RC, могут эффективнее использовать существующие каркасы (scaffolds) для дальнейшего масштабирования производительности во время тестирования благодаря улучшенным способностям к генерации, обусловленной суммаризацией, которые приобретаются в процессе обучения.

Ex-Omni: Обеспечение генерации 3D-анимации лиц для омнимодальных больших языковых моделей
Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models

Feb 6

ByHaoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu

Омнимодальные большие языковые модели (ОБЯМ) стремятся унифицировать многомодальное понимание и генерацию, однако интеграция речи с 3D-лицевой анимацией остаётся в значительной степени неисследованной, несмотря на её важность для естественного взаимодействия. Ключевая проблема возникает из-за несоответствия представлений между дискретным, токенизированным семантическим анализом в БЯМ и плотной, детализированной временной динамикой, необходимой для 3D-лицевой анимации, что затрудняет прямую оптимизацию модели при ограниченных данных. Мы предлагаем Expressive Omni (Ex-Omni), фреймворк с открытым исходным кодом, который расширяет ОБЯМ возможностью генерации 3D-лицевой анимации, синхронизированной с речью. Ex-Omni снижает сложность обучения за счёт разделения семантического анализа и временной генерации, используя речевые единицы в качестве временного каркаса и унифицированный механизм управляемого слияния с токеном-запросом (TQGF) для контролируемой семантической инжекции. Мы также представляем InstructEx, набор данных, предназначенный для облегчения расширения ОБЯМ возможностями синхронизированной с речью 3D-лицевой анимации. Многочисленные эксперименты демонстрируют, что Ex-Omni показывает конкурентоспособные результаты по сравнению с существующими открытыми ОБЯМ, обеспечивая при этом стабильную генерацию согласованных речевых и лицевых анимаций.

EcoGym: Оценка больших языковых моделей для долгосрочного планирования и выполнения действий в интерактивных экономических средах
EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Feb 10

ByXavier Hu, Jinxiang Xia, Shengze Xu, Kangqi Song, Yishuo Yuan, Guibin Zhang, JinCheng Ren, Boyu Feng, Li Lu, Tieyong Zeng, Jiaheng Liu, Minghao Liu, He Zhu, Yuchen Eleanor Jiang, Wei Wang, Wangchunshu Zhou

Долгосрочное планирование широко признано ключевой способностью автономных агентов на основе больших языковых моделей (LLM); однако существующие системы оценки страдают от эпизодичности, узкой предметной ориентации или недостаточной укоренённости в устойчивых экономических динамиках. Мы представляем EcoGym — универсальный бенчмарк для непрерывного принятия решений по принципу «планируй-и-выполняй» в интерактивных экономиках. EcoGym включает три разнородные среды: Vending (Торговые автоматы), Freelance (Фриланс) и Operation (Производство), реализованные в рамках единого процесса принятия решений со стандартизированными интерфейсами и бюджетными действиями в практически неограниченном горизонте (1000+ шагов при оценке в 365-дневных циклах). Оценка в EcoGym основана на бизнес-релевантных результатах (например, чистая стоимость, доход и DAU), нацеленных на долгосрочную стратегическую согласованность и устойчивость в условиях частичной наблюдаемости и стохастичности. Эксперименты с одиннадцатью ведущими LLM выявили системное противоречие: ни одна модель не доминирует во всех трёх сценариях. Критически важно, что модели демонстрируют значительную субоптимальность либо в высокоуровневых стратегиях, либо в эффективном выполнении действий. EcoGym выпускается как открытая, расширяемая платформа для прозрачной оценки долгосрочных агентов и изучения компромиссов между управляемостью и полезностью в реалистичных экономических условиях.

CLI-Gym: Масштабируемая генерация CLI-задач с помощью агентной инверсии окружения
CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Feb 11

ByYusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu

Агентное программирование требует от агентов эффективного взаимодействия со средами выполнения, такими как интерфейсы командной строки (CLI), для решения задач, включая устранение проблем с зависимостями, исправление системных сбоев и т.д. Однако вопрос масштабируемого получения таких средозависимых задач для повышения возможностей агентов остается малоизученным. Для решения этой проблемы, проводя аналогию между Dockerfile и агентной задачей, мы предлагаем использовать агентов для моделирования и исследования истории сред на основе обратной связи от выполнения. Путем отслеживания истории стабильной среды ее состояние можно инвертировать до более раннего с ошибками выполнения, на основе которого формируется задача путем упаковки проблемного состояния и соответствующих сообщений об ошибках. С помощью нашего метода CLI-Gym получено 1655 средозависимых задач, что представляет собой крупнейшую коллекцию такого рода. Кроме того, с использованием курируемых успешных траекторий наша дообученная модель LiberCoder демонстрирует значительное абсолютное улучшение на +21,1% (до 46,1%) на Terminal-Bench, превосходя различные сильные базовые модели. Насколько нам известно, это первый публичный конвейер для масштабируемого получения средозависимых задач.

Stroke3D: Преобразование 2D-штрихов в ригованные 3D-модели с помощью латентных диффузионных моделей
Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Feb 10

ByRuisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang

Анимированные 3D-ассеты являются основой для 3D-деформации и анимации. Однако существующие методы генерации 3D сталкиваются с трудностями в создании анимируемой геометрии, в то время как техники риггинга не обеспечивают детального структурного контроля над созданием скелета. Чтобы устранить эти ограничения, мы представляем Stroke3D — новый фреймворк, который напрямую генерирует ригнутые меши из пользовательских входных данных: 2D-набросков и текстового описания. Наш подход реализует двухэтапный конвейер, разделяющий генерацию на: 1) *Управляемую генерацию скелета*: мы используем Skeletal Graph VAE (Sk-VAE) для кодирования графовой структуры скелета в латентное пространство, где Skeletal Graph DiT (Sk-DiT) генерирует латентное представление скелета. Процесс генерации обусловлен как текстом (для семантики), так и 2D-штрихами (для явного структурного контроля), а декодер VAE восстанавливает итоговый высококачественный 3D-скелет; и 2) *Улучшенный синтез меша с помощью TextuRig и SKA-DPO*: затем мы синтезируем текстурированный меш, обусловленный сгенерированным скелетом. На этом этапе мы сначала улучшаем существующую модель "скелет-в-меш", расширяя её обучающие данные с помощью TextuRig — набора данных текстурированных и ригнутых мешей с описаниями, созданного на основе Objaverse-XL. Дополнительно мы применяем стратегию оптимизации предпочтений SKA-DPO, направляемую оценкой соответствия скелета и меша, для дальнейшего повышения геометрической точности. В совокупности наш фреймворк обеспечивает более интуитивный рабочий процесс для создания готовой к анимации 3D-графики. Насколько нам известно, наша работа является первой, которая генерирует ригнутые 3D-меши на основе пользовательских 2D-набросков. Многочисленные эксперименты демонстрируют, что Stroke3D производит правдоподобные скелеты и высококачественные меши.

Bielik Guard: Эффективные классификаторы безопасности польского языка для модерации контента в больших языковых моделях
Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

Feb 8

ByKrzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański

По мере расширения внедрения больших языковых моделей (LLM) в приложениях на польском языке потребность в эффективных и точных классификаторах безопасности контента стала первостепенной. Мы представляем Bielik Guard — семейство компактных классификаторов безопасности для польского языка, состоящее из двух вариантов моделей: модели с 0.1 млрд параметров на основе MMLW-RoBERTa-base и модели с 0.5 млрд параметров на основе PKOBP/polish-roberta-8k. Обученные с дообучением на размеченном сообществом наборе данных из 6885 польских текстов, эти модели классифицируют контент по пяти категориям безопасности: Ненависть/Агрессия, Вульгарности, Сексуальный контент, Преступность и Самоповреждение. Наша оценка показывает, что обе модели демонстрируют высокую производительность в нескольких тестах. Вариант на 0.5 млрд параметров предлагает наилучшую общую дискриминационную способность с F1-мерами 0.791 (микро) и 0.785 (макро) на тестовом наборе, в то время как вариант на 0.1 млрд параметров демонстрирует исключительную эффективность. Примечательно, что Bielik Guard 0.1B v1.1 достигает превосходной точности (77.65%) и очень низкого уровня ложных срабатываний (0.63%) на реальных пользовательских запросах, превосходя HerBERT-PL-Guard (точность 31.55%, FPR 4.70%) несмотря на идентичный размер модели. Модели находятся в открытом доступе и предназначены для предоставления соответствующих ответов, а не простой блокировки контента, особенно для чувствительных категорий, таких как самоповреждение.

QP-OneModel: унифицированная генеративная большая языковая модель для многозадачного понимания запросов в поисковой системе Xiaohongshu
QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

Feb 10

ByJianzhao Huang, Xiaorui Huang, Fei Zhao, Yunpeng Liu, Hui Zhang, Fangcheng Shi, Congfeng Li, Zechen Sun, Yi Wu, Yao Hu, Yunhan Bai, Shaosheng Cao

Обработка запросов (OZ) связывает пользовательский интент с контентным предложением в крупномасштабных поисковых системах социальных сетей (SNS). Традиционные системы OZ используют конвейеры изолированных дискриминативных моделей (например, BERT), страдая от ограниченного семантического понимания и высоких эксплуатационных затрат. Хотя большие языковые модели (LLM) предлагают потенциальное решение, существующие подходы часто оптимизируют подзадачи изолированно, игнорируя внутреннюю семантическую синергию и требуя независимых итераций. Более того, стандартные генеративные методы часто лишены заземления в сценариях SNS, не способствуя преодолению разрыва между открыто-доменными корпусами и неформальными языковыми паттернами SNS, а также испытывая трудности с соблюдением строгих бизнес-определений. Мы представляем QP-OneModel — унифицированную генеративную LLM для многозадачного понимания запросов в домене SNS. Мы переформулируем гетерогенные подзадачи в унифицированную парадигму генерации последовательностей, применяя прогрессивную трехэтапную стратегию выравнивания, завершающуюся обучением с подкреплением с множественными вознаграждениями. Кроме того, QP-OneModel генерирует описания интентов как новую высокоточную семантическую сигнатуру, эффективно обогащая последующие задачи, такие как переформулирование запросов и ранжирование. Оффлайн-оценки показывают, что QP-OneModel достигает общего прироста в 7,35% по сравнению с дискриминативными базовыми моделями, со значительным увеличением F1 для NER (+9,01%) и взвешивания терминов (+9,31%). Модель также демонстрирует превосходную способность к обобщению, превосходя модель объемом 32B на 7,60% по точности на непредвиденных задачах. После полного внедрения в Xiaohongshu онлайн A/B-тесты подтвердили ее промышленную ценность, оптимизировав релевантность поиска (DCG) на 0,21% и повысив удержание пользователей на 0,044%.

Когда промпт становится визуальным: атаки взлома с фокусом на зрение для больших моделей редактирования изображений
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Feb 10

ByJiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang

Последние достижения в области больших моделей редактирования изображений сместили парадигму от текстовых инструкций к редактированию с помощью визуальных подсказок, когда намерение пользователя определяется непосредственно из визуальных входных данных, таких как пометки, стрелки и визуально-текстовые промпты. Хотя эта парадигма значительно расширяет удобство использования, она также вводит критический и недостаточно изученный риск безопасности: сама поверхность атаки становится визуальной. В данной работе мы предлагаем Vision-Centric Jailbreak Attack (VJA) — первую визуально-визуальную атаку взлома, которая передает вредоносные инструкции исключительно через визуальные входные данные. Для систематического изучения этой новой угрозы мы представляем IESBench, ориентированный на безопасность бенчмарк для моделей редактирования изображений. Многочисленные эксперименты на IESBench демонстрируют, что VJA эффективно компрометирует передовые коммерческие модели, достигая успеха атаки до 80,9% на Nano Banana Pro и 70,1% на GPT-Image-1.5. Для снижения этой уязвимости мы предлагаем беспоисковую защиту на основе интроспективных мультимодальных рассуждений, которая существенно повышает безопасность плохо выровненных моделей до уровня, сопоставимого с коммерческими системами, без вспомогательных моделей-защитников и с пренебрежимо малыми вычислительными затратами. Наши результаты выявляют новые уязвимости, предоставляя как бенчмарк, так и практическую защиту для развития безопасных и надежных современных систем редактирования изображений. Внимание: данная статья содержит оскорбительные изображения, созданные большими моделями редактирования изображений.

Сравнительный анализ больших языковых моделей для проверки достоверности знаний в графах знаний
Benchmarking Large Language Models for Knowledge Graph Validation

Feb 11

ByFarzad Shami, Stefano Marchesin, Gianmaria Silvello

Графы знаний (ГЗ) хранят структурированные фактические знания, связывая сущности через отношения, что критически важно для многих приложений. Эти приложения зависят от фактической точности ГЗ, поэтому верификация фактов является важной, но сложной задачей. Экспертная ручная проверка идеальна, но непрактична в крупных масштабах. Автоматизированные методы показывают потенциал, но не готовы для работы с реальными ГЗ. Большие языковые модели (БЯМ) предлагают возможности благодаря своему семантическому пониманию и доступу к знаниям, однако их пригодность и эффективность для проверки фактов в ГЗ остаются в значительной степени неисследованными. В данной статье мы представляем FactCheck — эталонный набор данных, разработанный для оценки БЯМ в задаче проверки фактов ГЗ по трем ключевым направлениям: (1) внутренние знания БЯМ; (2) использование внешних доказательств посредством Retrieval-Augmented Generation (RAG); и (3) агрегирование знаний с применением стратегии консенсуса нескольких моделей. Мы оценили открытые и коммерческие БЯМ на трех разнородных реальных ГЗ. FactCheck также включает набор данных для RAG, содержащий более 2 миллионов документов, адаптированных для проверки фактов ГЗ. Дополнительно мы предлагаем интерактивную платформу для анализа решений верификации. Экспериментальный анализ демонстрирует, что хотя БЯМ показывают обнадеживающие результаты, они все еще недостаточно стабильны и надежны для использования в реальных сценариях валидации ГЗ. Интеграция внешних доказательств с помощью методов RAG дает нестабильные результаты, обеспечивая непоследовательное улучшение по сравнению с более простыми подходами — при более высоких вычислительных затратах. Аналогично, стратегии, основанные на консенсусе нескольких моделей, не всегда превосходят одиночные модели, что подчеркивает отсутствие универсального решения. Эти выводы дополнительно подчеркивают необходимость эталона, такого как FactCheck, для систематической оценки и стимулирования прогресса в этой сложной, но crucialной задаче.

Настройка латентных мыслей: объединение контекста и рассуждений с помощью слияния информации в латентных токенах
Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens

Feb 10

ByWeihao Liu, Dehai Min, Lu Cheng

В то время как явный метод цепочки рассуждений (Chain-of-Thought, CoT) наделяет большие языковые модели (LLM) мощными способностями к логическому выводу, он требует от моделей вербализации каждого промежуточного шага в виде текстовых токенов, что ограничивает ход мыслей модели дискретным пространством словаря. В последнее время рассуждения в непрерывном латентном пространстве стали перспективной альтернативой, обеспечивая более устойчивый вывод и гибкие вычисления без ограничений дискретных токенов. Однако современные латентные парадигмы часто страдают от коллапса признаков и нестабильности, вызванных несоответствием распределений при рекуррентном использовании скрытых состояний в качестве входных эмбеддингов, или проблемами выравнивания при зависимости от моделей-ассистентов. Для решения этой проблемы мы предлагаем Latent Thoughts Tuning (LT-Tuning) — фреймворк, который переопределяет способ построения и использования латентных мыслей. Вместо того чтобы полагаться исключительно на сырые скрытые состояния, наш метод вводит механизм Context-Prediction-Fusion, который совместно использует контекстуальные скрытые состояния и прогнозную семантическую ориентацию из пространства эмбеддингов словаря. В сочетании с прогрессивным трехэтапным конвейером обучения по учебному плану (curriculum learning) LT-Tuning также позволяет динамически переключаться между латентным и явным режимами мышления. Эксперименты показывают, что наш метод превосходит существующие базовые подходы к латентным рассуждениям, эффективно mitigating коллапс признаков и достигая устойчивой точности логического вывода.

За пределами корректности: обучение устойчивому рассуждению через трансфер
Beyond Correctness: Learning Robust Reasoning via Transfer

Feb 9

ByHyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin

Недавно представленное обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) укрепило способность больших языковых моделей к рассуждению, однако его фокус на корректности конечного ответа оставляет критический пробел: оно не гарантирует устойчивости самого процесса reasoning. Мы принимаем простую философскую точку зрения: устойчивое рассуждение должно сохранять полезность за пределами создавшего его интеллекта, и рассматриваем reasoning как форму передачи смысла, которая должна выдерживать усечение, переинтерпретацию и продолжение. Основываясь на этом принципе, мы представляем обучение с подкреплением с передаваемым вознаграждением (RLTR), которое реализует концепцию устойчивости через передаваемое вознаграждение, проверяющее, может ли частичный префикс reasoning от одной модели направить другую модель к правильному ответу. Это побуждает языковые модели генерировать рассуждения, которые являются стабильными, интерпретируемыми и подлинно обобщаемыми. Наш подход улучшает согласованность сэмплирования, одновременно повышая точность конечного ответа, и достигает сопоставимой производительности за существенно меньшее количество шагов обучения. Например, на наборе MATH500 метод RLTR демонстрирует прирост в +3.6%p по метрике Maj@64 по сравнению с RLVR и достигает средней точности RLVR примерно в 2.5 раза быстрее, обеспечивая как более надежный reasoning, так и значительно более высокую эффективность по выборке.

Free(): обучение забыванию в моделях рассуждений с исключительно malloc-выделением памяти
Free(): Learning to Forget in Malloc-Only Reasoning Models

Feb 8

ByYilun Zheng, Dongyang Ma, Tian Liang, Jiahao Xu, Xinting Huang, Lihui Chen, Haitao Mi, Yan Wang

Модели рассуждений улучшают решение задач за счет масштабирования вычислений во время тестирования, однако сталкиваются с ключевым парадоксом: чрезмерное количество "токенов мышления" часто ухудшает производительность вместо ее улучшения. Мы объясняем это фундаментальным архитектурным недостатком: стандартные большие языковые модели работают как "malloc-only" движки, непрерывно накапливая как полезные, так и избыточные шаги, без механизма для удаления устаревшей информации. Чтобы разорвать этот круг, мы предлагаем Free()LM — модель, которая вводит внутреннюю способность к само-забыванию через Free-Module, подключаемый LoRA-адаптер. Последовательно переключаясь между режимами рассуждения и очистки, Free()LM динамически идентифицирует и удаляет бесполезные фрагменты контекста, поддерживая компактное и свободное от шума состояние. Обширные эксперименты показывают, что Free()LM обеспечивает стабильное улучшение на всех масштабах моделей (от 8B до 685B). Она демонстрирует среднее улучшение на 3.3% по сравнению с лучшими базовыми моделями рассуждений, устанавливая новый рекорд (SOTA) на IMOanswerBench с использованием DeepSeek V3.2-Speciale. Особенно показательно, что в долгосрочных задачах, где стандартная модель Qwen3-235B-A22B терпит полный провал (0% точности), Free()LM восстанавливает производительность до 50%. Наши результаты свидетельствуют, что устойчивый интеллект требует свободы забывать в той же мере, что и способности мыслить.

AgenticPay: Многоагентная система переговоров на основе больших языковых моделей для сделок между покупателем и продавцом
AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions

Feb 5

ByXianyang Liu, Shangding Gu, Dawn Song

Агенты на основе больших языковых моделей (LLM) все чаще должны автономно вести переговоры, координировать действия и совершать сделки, однако существующие бенчмарки не имеют продуманных условий для оценки языкового экономического взаимодействия между несколькими агентами. Мы представляем AgenticPay — бенчмарк и фреймворк для моделирования переговоров между множеством агентов (покупателями и продавцами), управляемых естественным языком. AgenticPay моделирует рынки, на которых покупатели и продавцы обладают приватными ограничениями и оценками, зависящими от продукта, и должны достигать соглашений посредством многораундовых языковых переговоров, а не только численных ставок. Фреймворк поддерживает разнообразный набор из более чем 110 задач — от двусторонних торгов до рынков типа «многие-ко-многим» — с структурированным извлечением действий и метриками осуществимости, эффективности и благосостояния. Тестирование передовых проприетарных и открытых LLM выявляет значительные пробелы в эффективности переговоров и подчеркивает сложности долгосрочного стратегического планирования, что утверждает AgenticPay в качестве основы для изучения агентской коммерции и языкового рыночного взаимодействия. Код и набор данных доступны по ссылке: https://github.com/SafeRL-Lab/AgenticPay.

Переосмысление ценности тестов, генерируемых агентами, для программных инженерных агентов на основе больших языковых моделей
Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Feb 8

ByZhi Chen, Zhensu Sun, Yuling Shi, Chao Peng, Xiaodong Gu, David Lo, Lingxiao Jiang

Крупные языковые модели (LLM) в качестве код-агентов все чаще решают проблемы на уровне репозитория, итеративно редактируя код, вызывая инструменты и проверяя кандидаты в патчи. В этих рабочих процессах агенты часто пишут тесты на лету — парадигма, принятая многими высокорейтинговыми агентами в таблице лидеров SWE-bench. Однако мы наблюдаем, что GPT-5.2, который почти не пишет новых тестов, может достигать производительности, сравнимой с агентами высшего ранга. Это поднимает ключевой вопрос: действительно ли такие тесты значимо улучшают разрешение проблем или же они лишь имитируют практики человеческого тестирования, потребляя при этом существенный бюджет взаимодействий. Чтобы выявить влияние тестов, написанных агентами, мы представляем эмпирическое исследование, анализирующее траектории агентов на базе шести передовых LLM в рамках SWE-bench Verified. Наши результаты показывают, что, хотя написание тестов является распространенной практикой, решенные и нерешенные задачи в рамках одной и той же модели демонстрируют схожую частоту написания тестов. Более того, эти тесты обычно служат каналами наблюдательной обратной связи, где агенты явно предпочитают выводящие значения print-утверждения формальным проверкам на основе утверждений (assertions). Основываясь на этих наблюдениях, мы проводим контролируемый эксперимент, модифицируя прометы четырех агентов для увеличения или сокращения написания тестов. Результаты свидетельствуют о том, что изменения в объеме написанных агентами тестов не оказывают значительного влияния на конечный результат. В совокупности наше исследование показывает, что текущие практики написания тестов могут приносить лишь маргинальную пользу в задачах автономной разработки программного обеспечения.

GoodVibe: Security-by-Vibe для генерации кода на основе больших языковых моделей
GoodVibe: Security-by-Vibe for LLM-Based Code Generation

Feb 11

ByMaximilian Thang, Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Jona te Lintelo, Stjepan Picek, Ahmad-Reza Sadeghi

Крупные языковые модели (LLMs) все чаще используются для генерации кода в быстрых неформальных рабочих процессах разработки, часто называемых "вейв-кодингом", где приоритет отдается скорости и удобству, а требования безопасности редко формулируются явно. В таких условиях модели часто производят функционально корректный, но небезопасный код, создавая растущий риск для безопасности. Существующие подходы к повышению безопасности кода основаны на полнопараметрической тонкой настройке или параметрически-эффективных адаптациях, которые либо дороги и склонны к катастрофическому забыванию, либо работают на грубом уровне гранулярности с ограниченной интерпретируемостью и контролем. Мы представляем GoodVibe, нейроуровневую структуру для повышения безопасности языковых моделей кода по умолчанию. GoodVibe основан на ключевом наблюдении, что рассуждения, связанные с безопасностью, локализованы в небольшом подмножестве нейронов. Мы идентифицируем эти нейроны с помощью градиентной атрибуции из контролируемой задачи безопасности и выполняем нейроно-селективную тонкую настройку, которая обновляет только это критическое для безопасности подпространство. Для дальнейшего снижения стоимости обучения мы вводим кластеризацию нейронов на основе активации, что позволяет осуществлять структурированные обновления с минимальными накладными расходами. Мы оцениваем GoodVibe на шести LLM для критичных с точки зрения безопасности языков программирования, включая C++, Java, Swift и Go. GoodVibe существенно повышает безопасность генерируемого кода, сохраняя общую полезность модели, демонстрируя до 2.5-кратного улучшения по сравнению с базовыми моделями, соответствуя или превосходя полную тонкую настройку при использовании более чем в 4700 раз меньше обучаемых параметров и сокращая вычислительные затраты на обучение более чем в 3.6 раза по сравнению с параметрически-эффективным базовым методом (LoRA). Наши результаты показывают, что нейроуровневая оптимизация предлагает эффективный и масштабируемый подход к обеспечению безопасности генерации кода без ущерба для эффективности или универсальности.

UMEM: Унифицированная структура для извлечения и управления памятью для обобщаемой памяти
UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Feb 11

ByYongshi Ye, Hui Jiang, Feihu Jiang, Tian Lan, Yichao Du, Biao Fu, Xiaodong Shi, Qianghuai Jia, Longyue Wang, Weihua Luo

Саморазвивающаяся память служит обучаемыми параметрами для агентов на основе больших языковых моделей (LLM), где извлечение (извлечение инсайтов из опыта) и управление (обновление банка памяти) должны быть тесно скоординированы. Существующие методы в основном оптимизируют управление памятью, рассматривая извлечение памяти как статический процесс, что приводит к слабой обобщающей способности, когда агенты накапливают специфичный для конкретных примеров шум, а не устойчивые воспоминания. Чтобы решить эту проблему, мы предлагаем UMEM — фреймворк для саморазвивающихся агентов, который совместно оптимизирует большую языковую модель для одновременного извлечения и управления памятью. Для предотвращения переобучения на конкретных примерах мы вводим моделирование семантических окрестностей и оптимизируем модель с помощью вознаграждения на уровне окрестностей через GRPO. Этот подход обеспечивает обобщаемость памяти за счет оценки полезности воспоминаний в кластерах семантически связанных запросов. Многочисленные эксперименты на пяти бенчмарках показывают, что UMEM значительно превосходит высококонкурентные базовые методы, демонстрируя улучшение до 10,67% в многозадачных интерактивных сценариях. Кроме того, UMEM сохраняет монотонную кривую роста в процессе непрерывной эволюции. Код и модели будут публично доступны.

TIC-VLA: Модель «Мысль-Управление-Видение-Язык-Действие» для навигации роботов в динамических средах
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Feb 2

ByZhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma

Роботы в динамичных средах, ориентированных на человека, должны выполнять языковые инструкции, сохраняя при этом реактивное управление в реальном времени. Модели "зрение-язык-действие" (VLA) предлагают перспективную основу, но они предполагают временнýю синхронизацию рассуждений и управления, несмотря на то, что семантический вывод по своей природе запаздывает относительно действий в реальном времени. Мы представляем Think-in-Control (TIC)-VLA — фреймворк, учитывающий задержки, который явно моделирует запаздывающее семантическое рассуждение в процессе генерации действий. TIC-VLA определяет интерфейс "запаздывающее семантическое управление", который обусловливает генерацию действий не только текущими наблюдениями, но и запаздывающими семантическими состояниями "зрение-язык", а также метаданными о явной задержке, что позволяет политикам компенсировать асинхронность рассуждений. Мы также предлагаем конвейер обучения, согласованный с задержками, который внедряет задержки логического вывода в процессе имитационного обучения и обучения с подкреплением онлайн, согласуя тренировку с асинхронным развертыванием. Для реалистичной оценки мы представляем DynaNav — фотореалистичный симуляционный комплекс с физически точным моделированием для навигации по языковым инструкциям в динамичных средах. Многочисленные эксперименты в симуляции и на реальном роботе показывают, что TIC-VLA стабильно превосходит предыдущие модели VLA, сохраняя при этом надежное управление в реальном времени при задержках рассуждений в несколько секунд. Сайт проекта: https://ucla-mobility.github.io/TIC-VLA/

ArcFlow: Раскрытие потенциала двухэтапной генерации изображений из текста через высокоточную нелинейную дистилляцию потоков
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

Feb 9

ByZihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu

Диффузионные модели достигли выдающегося качества генерации, однако их использование сопряжено со значительными вычислительными затратами на этапе вывода из-за зависимости от множества последовательных шагов шумоподавления, что стимулирует недавние попытки дистилляции этого процесса вывода в режим с малым числом шагов. Однако существующие методы дистилляции обычно аппроксимируют траекторию учителя с помощью линейных кратчайших путей, что затрудняет соответствие её постоянно меняющимся направлениям касательных по мере эволюции скоростей на различных временных шагах, что, в свою очередь, приводит к снижению качества. Для преодоления этого ограничения мы предлагаем ArcFlow — фреймворк дистилляции с малым числом шагов, который явно использует нелинейные траектории потока для аппроксимации предобученных траекторий учителя. Конкретно, ArcFlow параметризует поле скоростей, лежащее в основе траектории вывода, как смесь непрерывных процессов импульса. Это позволяет ArcFlow захватывать эволюцию скорости и экстраполировать согласованные скорости для формирования непрерывной нелинейной траектории в пределах каждого шага шумоподавления. Важно, что данная параметризация допускает аналитическое интегрирование этой нелинейной траектории, что позволяет обойти ошибки численной дискретизации и приводит к высокоточному приближению траектории учителя. Для обучения данной параметризации в генератор с малым числом шагов мы реализуем ArcFlow через дистилляцию траектории на предобученных моделях-учителях с использованием легковесных адаптеров. Эта стратегия обеспечивает быструю и стабильную сходимость при сохранении разнообразия и качества генерации. Построенный на крупномасштабных моделях (Qwen-Image-20B и FLUX.1-dev), ArcFlow дообучает менее 5% исходных параметров и достигает 40-кратного ускорения с 2 NFE по сравнению с исходными многошаговыми учителями без значительной потери качества. Эксперименты на бенчмарках демонстрируют эффективность ArcFlow как качественно, так и количественно.

Крупномасштабная лоботомия языковых моделей: взлом архитектуры Mixture-of-Experts через подавление экспертов
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing

Feb 9

ByJona te Lintelo, Lichao Wu, Stjepan Picek

Быстрое внедрение архитектур Mixture-of-Experts (MoE) знаменует собой значительный сдвиг в развертывании больших языковых моделей (LLM). MoE LLM повышают эффективность масштабирования за счет активации лишь небольшого подмножества параметров на токен, но их маршрутизирующая структура создает новые поверхности для атак на безопасность. Мы обнаружили, что критически важные для безопасности поведения в MoE LLM (например, отказ) сосредоточены в небольшом наборе экспертов, а не распределены равномерно. Основываясь на этом, мы предлагаем Large Language Lobotomy (L^3) — атаку, не требующую дообучения и агностичную к архитектуре, которая компрометирует безопасностную адаптацию, используя динамику маршрутизации экспертов. L^3 изучает шаблоны маршрутизации, коррелирующие с отказом, приписывает поведение безопасности конкретным экспертам и адаптивно отключает наиболее релевантных для безопасности экспертов до тех пор, пока не будут получены вредоносные выводы. Мы оцениваем L^3 на восьми современных открытых MoE LLM и показываем, что наше адаптивное отключение экспертов увеличивает средний успех атаки с 7.3% до 70.4%, достигая до 86.3%, превосходя предыдущие методы взлома MoE, не требующие дообучения. Более того, для обхода защитных механизмов обычно требуется отключить менее 20% экспертов на уровне слоя, при этом в значительной степени сохраняя общую языковую полезность. Эти результаты раскрывают фундаментальное противоречие между ориентированным на эффективность дизайном MoE и robustной безопасностной адаптацией и мотивируют более надежное распределение механизмов безопасности в будущих MoE LLM с помощью методов, учитывающих архитектуру и маршрутизацию.

Снижение веса улучшает пластичность языковых моделей
Weight Decay Improves Language Model Plasticity

Feb 11

ByTessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade

Преобладающая парадигма в разработке больших языковых моделей (LLM) предполагает предварительное обучение базовой модели с последующей дообучением для улучшения производительности и поведения модели. Однако оптимизация гиперпараметров и законы масштабирования изучались преимущественно с точки зрения валидационной потери базовой модели, игнорируя адаптивность к последующим задачам. В данной работе мы исследуем предварительное обучение с точки зрения пластичности модели, то есть способности базовой модели успешно адаптироваться к последующим задачам посредством тонкой настройки. Мы сосредотачиваемся на роли decay-регуляризации (снижения весов) — ключевого параметра регуляризации во время предварительного обучения. В ходе систематических экспериментов мы показываем, что модели, обученные с большими значениями decay-регуляризации, обладают большей пластичностью, то есть демонстрируют большее улучшение производительности при тонкой настройке на последующих задачах. Это явление может приводить к контринтуитивным компромиссам, когда базовые модели с худшей производительностью после предварительного обучения могут показывать лучшие результаты после тонкой настройки. Дальнейшее исследование механистических эффектов decay-регуляризации на поведение модели показывает, что она способствует формированию линейно разделимых представлений, регулирует матрицы внимания и снижает переобучение на обучающих данных. В заключение, данная работа демонстрирует важность использования метрик оценки, выходящих за рамки перекрёстной энтропии, для оптимизации гиперпараметров, и проливает свет на многогранную роль, которую играет отдельный гиперпараметр оптимизации в формировании поведения модели.

Когда действия уходят от задачи: обнаружение и исправление несогласованных действий у агентов компьютерного взаимодействия
When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

Feb 9

ByYuting Ning, Jaylen Jones, Zhehao Zhang, Chentao Ye, Weitong Ruan, Junyi Li, Rahul Gupta, Huan Sun

За последний год агенты компьютерного взаимодействия (АКВ) достигли значительного прогресса, однако они по-прежнему часто генерируют несогласованные действия, отклоняющиеся от исходного намерения пользователя. Такие несогласованные действия могут возникать из-за внешних атак (например, косвенной инъекции промптов) или внутренних ограничений (например, ошибочных рассуждений). Они не только подвергают АКВ рискам безопасности, но и снижают эффективность и надежность выполнения задач. В данной работе впервые предпринята попытка определить и исследовать проблему обнаружения несогласованных действий в АКВ с комплексным охватом как внешне вызванных, так и внутренне возникающих несогласованных действий. Мы дополнительно выделяем три распространенные категории в реальном развертывании АКВ и создаем MisActBench — бенчмарк реалистичных траекторий с аннотированными человеком метками согласованности на уровне действий. Более того, мы предлагаем DeAction — практичный и универсальный защитный механизм, который обнаруживает несогласованные действия до их выполнения и итеративно исправляет их с помощью структурированной обратной связи. DeAction превосходит все существующие базовые методы в офлайн- и онлайн-оценках с умеренными задержками: (1) На MisActBench он превосходит базовые методы более чем на 15% по абсолютному показателю F1-меры; (2) При онлайн-оценке он снижает успешность атак более чем на 90% в условиях противодействия, сохраняя или даже улучшая успешность выполнения задач в доброжелательных средах.

От признаков к действиям: объяснимость в традиционных и агентных системах ИИ
From Features to Actions: Explainability in Traditional and Agentic AI Systems

Feb 6

BySindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza

За последнее десятилетие исследования в области объяснимого ИИ в основном были сосредоточены на интерпретации индивидуальных прогнозов моделей, создавая постфактум объяснения, которые связывают входные данные с выходными в рамках фиксированной структуры принятия решений. Недавние достижения в области больших языковых моделей (LLM) позволили создать агентные системы ИИ, поведение которых разворачивается в виде многошаговых траекторий. В таких условиях успех и неудача определяются последовательностями решений, а не единичным выходом. Хотя существующие подходы к объяснению полезны, остается неясным, насколько методы, разработанные для статических прогнозов, применимы к агентным сценариям, где поведение формируется во времени. В данной работе мы преодолеваем разрыв между статической и агентной объяснимостью, сравнивая атрибутивные объяснения с диагностикой на основе трассировки в обоих контекстах. Чтобы сделать это различие явным, мы эмпирически сравниваем атрибутивные объяснения, используемые в задачах статической классификации, с диагностикой на основе трассировки, применяемой в агентных бенчмарках (TAU-bench Airline и AssistantBench). Наши результаты показывают, что хотя атрибутивные методы достигают стабильных ранжирований признаков в статических условиях (ρ Спирмена = 0,86), они не могут быть надежно применены для диагностики сбоев на уровне исполнения в агентных траекториях. В отличие от них, оценка по рубрикам, основанная на трассировке для агентных сценариев, последовательно локализует точки сбоя поведения и показывает, что несогласованность отслеживания состояния встречается в 2,7 раза чаще в неудачных прогонах и снижает вероятность успеха на 49%. Эти результаты обосновывают необходимость перехода к объяснимости на уровне траекторий для агентных систем при оценке и диагностике автономного поведения ИИ. Ресурсы: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

FedPS: Федерализованная предобработка данных с помощью агрегированной статистики
FedPS: Federated data Preprocessing via aggregated Statistics

Feb 11

ByXuefeng Xu, Graham Cormode

Федеративное обучение (FL) позволяет нескольким сторонам совместно обучать модели машинного обучения без обмена исходными данными. Однако перед обучением данные должны быть предобработаны для устранения пропущенных значений, несовместимых форматов и неоднородных масштабов признаков. Этот этап предобработки критически важен для производительности модели, но в исследованиях FL он остается в значительной степени без внимания. В практических системах FL ограничения конфиденциальности запрещают централизацию исходных данных, в то время как требования к эффективности связи создают дополнительные проблемы для распределенной предобработки. Мы представляем FedPS — унифицированную структуру для федеративной предобработки данных на основе агрегированной статистики. FedPS использует методы сжатия данных для эффективного суммирования локальных наборов данных с сохранением essential статистической информации. На основе этих сводок мы разрабатываем федеративные алгоритмы для масштабирования признаков, кодирования, дискретизации и импутации пропущенных значений, а также расширяем связанные с предобработкой модели, такие как k-средние, k-ближайших соседей и байесовская линейная регрессия, для горизонтальных и вертикальных настроек FL. FedPS обеспечивает гибкие, эффективные по связи и согласованные конвейеры предобработки для практического развертывания FL.

Тратьте ресурсы поиска с умом: Ценностно-ориентированное структурированное сэмплирование и оптимизация для генеративных рекомендательных систем
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Feb 11

ByJie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu

Генеративная рекомендация с помощью авторегрессионных моделей объединила извлечение и ранжирование в единую условную генеративную структуру. Однако тонкая настройка этих моделей с помощью обучения с подкреплением (ОП) часто страдает от фундаментального несоответствия между вероятностью и вознаграждением. Традиционное декодирование, доминируемое правдоподобием (например, поиск по лучу), демонстрирует миопическое смещение в сторону локально вероятных префиксов, что вызывает два критических сбоя: (1) недостаточное исследование, когда элементы с высоким вознаграждением в ветвях с низкой вероятностью преждевременно отсекаются и редко сэмплируются, и (2) сжатие преимущества, когда траектории, имеющие общие высоковероятностные префиксы, получают высокоскоррелированные вознаграждения с низкой внутригрупповой дисперсией, что дает слабый сравнительный сигнал для ОП. Для решения этих проблем мы предлагаем V-STAR — структуру Value-guided Sampling and Tree-structured Advantage Reinforcement. V-STAR формирует саморазвивающийся цикл через две синергетические компоненты. Во-первых, разрабатывается Эффективное Декодирование с Ценностным Руководством (VED) для идентификации решающих узлов и избирательного углубления перспективных префиксов. Это повышает эффективность исследования без исчерпывающего поиска по дереву. Во-вторых, мы предлагаем Sibling-GRPO, который использует индуцированную древовидную топологию для вычисления относительных преимуществ узлов-братьев и концентрирует обучающие сигналы на решающих ветвящихся решениях. Многочисленные эксперименты на оффлайн- и онлайн-наборах данных показывают, что V-STAR превосходит современные базовые методы, обеспечивая превосходную точность и разнообразие наборов кандидатов при строгих ограничениях на задержку.

Графово-усиленное глубокое обучение с подкреплением для многокритериального распараллеливания заданий на несвязанных машинах
Graph-Enhanced Deep Reinforcement Learning for Multi-Objective Unrelated Parallel Machine Scheduling

Feb 8

ByBulent Soykan, Sean Mondesire, Ghaith Rabadi, Grace Bochenek

Проблема составления расписаний для несвязанных параллельных машин (UPMSP) с учетом времени поступления заказов, переналадок и ограничений на пригодность представляет собой значительную многокритериальную задачу. Традиционные методы испытывают трудности с балансировкой минимизации общего взвешенного запаздывания (TWT) и общего времени переналадок (TST). В данной статье предлагается фреймворк глубокого обучения с подкреплением на основе Проксимальной политики оптимизации (PPO) и графовой нейронной сети (GNN). GNN эффективно представляет сложное состояние заказов, машин и переналадок, что позволяет агенту PPO обучаться прямой политике составления расписаний. Руководствуясь многокритериальной функцией вознаграждения, агент одновременно минимизирует TWT и TST. Результаты экспериментов на тестовых примерах демонстрируют, что наш агент PPO-GNN существенно превосходит стандартное диспетчерское правило и метаэвристический метод, достигая превосходного компромисса между обоими целевыми показателями. Это обеспечивает надежное и масштабируемое решение для сложных задач производственного планирования.

StealthRL: Атаки парафразами с обучением с подкреплением для обхода множественных детекторов AI-текста
StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors

Feb 9

BySuraj Ranganath, Atharv Ramesh

Детекторы ИИ-текста сталкиваются с фундаментальной проблемой устойчивости: атаки с помощью адверсарного перефразирования, которые сохраняют семантику, но уклоняются от обнаружения. Мы представляем StealthRL, фреймворк на основе обучения с подкреплением для стресс-тестирования устойчивости детекторов в реалистичных адверсарных условиях. StealthRL обучает политику перефразирования против ансамбля детекторов с использованием Group Relative Policy Optimization (GRPO) и адаптеров LoRA на модели Qwen3-4B, оптимизируя составную функцию вознаграждения, которая балансирует уклонение от детектирования и сохранение семантики. Мы оцениваем шесть сценариев атаки (M0-M5) против трёх семейств детекторов (RoBERTa, FastDetectGPT и Binoculars) в критической точке работы с 1% ложноположительных срабатываний. StealthRL достигает почти нулевого уровня детектирования (средний TPR@1%FPR = 0.001), снижает средний AUROC с 0.74 до 0.27 и демонстрирует 99.9% успешных атак. Ключевой результат: атаки обобщаются на неизвестное во время обучения семейство детекторов, что указывает на общие уязвимости архитектур, а не на специфическую хрупкость отдельных детекторов. Дополнительно мы проводим оценку качества с помощью LLM через Likert-шкалирование, анализируем распределения оценок детекторов для объяснения успеха уклонения и предоставляем AUROC для каждого детектора с доверительными интервалами на основе бутстрэпа. Наши результаты выявляют значительные пробелы в устойчивости современных детекторов ИИ-текста и устанавливают StealthRL в качестве принципиального протокола адверсарной оценки. Код и конвейер оценки доступны по адресу https://github.com/suraj-ranganath/StealthRL.