HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

18 papers found

Технический отчет LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

Мы представляем LongCat-Flash-Thinking-2601 — открытую модель рассуждений с архитектурой смеси экспертов (MoE) объемом 560 миллиардов параметров, обладающую превосходными агентскими способностями к рассуждению. LongCat-Flash-Thinking-2601 демонстрирует наилучшие результаты среди открытых моделей на широком спектре агентских бенчмарков, включая агентский поиск, использование агентских инструментов и рассуждения с интеграцией инструментов. Помимо производительности на бенчмарках, модель демонстрирует сильную обобщающую способность к сложным инструментальным взаимодействиям и устойчивое поведение в зашумленных условиях реального мира. Ее продвинутые возможности являются результатом единой框架 обучения, сочетающей доменно-параллельное обучение экспертов с последующим их слиянием, а также сквозного совместного проектирования сбора данных, сред, алгоритмов и инфраструктуры от предварительного до пост-тренинга. В частности, высокая обобщающая способность модели при сложном использовании инструментов обусловлена нашим глубоким исследованием масштабирования сред и принципиального построения задач. Для оптимизации длиннохвостого, асимметричного генерации и многократных агентских взаимодействий, а также для обеспечения стабильного обучения в более чем 10 000 средах, охватывающих свыше 20 доменов, мы систематически расширяем нашу асинхронную框架 обучения с подкреплением, DORA, для стабильного и эффективного масштабного обучения в множестве сред. Кроме того, признавая, что реальные задачи по своей природе зашумлены, мы проводим систематический анализ и декомпозицию паттернов шума реального мира и разрабатываем целевые процедуры обучения для явного включения таких несовершенств в учебный процесс, что приводит к повышению устойчивости для практических применений. Для дальнейшего улучшения производительности на сложных задачах рассуждений мы вводим режим «Интенсивного Мышления» (Heavy Thinking), который позволяет эффективно масштабировать модель во время тестирования за счет совместного расширения глубины и ширины рассуждений через интенсивное параллельное мышление.

SWE-Pruner: Самоадаптивное контекстное прореживание для кодирующих агентов
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

Модели-агенты LLM продемонстрировали впечатляющие возможности в разработке программного обеспечения, однако их производительность ограничивается длинными контекстами взаимодействия, которые влекут высокие затраты на API и задержки. Хотя для решения этой проблемы появились различные подходы к сжатию контекста, такие как LongLLMLingua, они обычно опираются на фиксированные метрики вроде PPL, игнорируя специфическую для задачи природу понимания кода. В результате они часто нарушают синтаксическую и логическую структуру и не сохраняют критически важные детали реализации. В данной статье мы предлагаем SWE-Pruner — самоадаптирующуюся систему сжатия контекста, разработанную специально для кодирующих агентов. Вдохновляясь тем, как программисты «выборочно просматривают» исходный код во время разработки и отладки, SWE-Pruner выполняет адаптивное сжатие длинных контекстов с учётом задачи. Получив текущее задание, агент формулирует явную цель (например, «сосредоточиться на обработке ошибок») в качестве подсказки для определения целей сжатия. Обученный лёгкий нейросетевой «сканер» (0,6 млрд параметров) динамически выбирает релевантные строки из окружающего контекста с учётом поставленной цели. Оценки на четырёх тестовых наборах и нескольких моделях подтверждают эффективность SWE-Pruner в различных сценариях: достигнуто сокращение токенов на 23–54% в задачах агентов, таких как SWE-Bench Verified, и до 14,84-кратного сжатия в однократных задачах, подобных LongCodeQA, при минимальном влиянии на производительность.

TwinBrainVLA: Раскрытие потенциала универсальных VLM для задач воплощенного ИИ с помощью асимметричной смеси трансформеров
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

Стандартные модели Vision-Language-Action (VLA) обычно дообучают монолитную базовую модель Vision-Language Model (VLM) явно для задач роботизированного управления. Однако такой подход создает ключевое противоречие между сохранением общих семантических представлений высокого уровня и обучением низкоуровневым, тонким сенсомоторным навыкам, что часто приводит к «катастрофическому забыванию» исходных возможностей модели в открытом мире. Для разрешения этого конфликта мы представляем TwinBrainVLA — новую архитектуру, которая координирует работу универсальной VLM, сохраняющей общее семантическое понимание, и специализированной VLM, ориентированной на проприоцептивное восприятие в телесной среде, для совместного управления роботом. TwinBrainVLA объединяет замороженное «Левое полушарие», сохраняющее robustное общее визуальное мышление, с обучаемым «Правым полушарием», специализированным на телесном восприятии, с помощью нового механизма Asymmetric Mixture-of-Transformers (AsyMoT). Такая конструкция позволяет Правому полушарию динамически запрашивать семантические знания у замороженного Левого полушария и объединять их с проприоцептивными состояниями, обеспечивая богатую conditioning-информацию для эксперта по действиям на основе Flow-Matching для генерации точных непрерывных управляющих сигналов. Многочисленные эксперименты на бенчмарках SimplerEnv и RoboCasa демонстрируют, что TwinBrainVLA достигает превосходной производительности в задачах манипулирования по сравнению с современными базовыми методами, при этом явно сохраняя комплексные возможности визуального понимания предобученной VLM, что открывает перспективное направление для создания роботов общего назначения, одновременно достигающих высокоуровневого семантического понимания и низкоуровневой физической ловкости.

VisGym: Разнообразные, Настраиваемые и Масштабируемые Среда для Мультимодальных Агентов
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

Современные модели компьютерного зрения и естественного языка (Vision-Language Models, VLM) остаются слабо изученными в контексте многошаговых визуальных взаимодействий, особенно в том, как они интегрируют восприятие, память и действие на длительных горизонтах. Мы представляем VisGym — набор из 17 сред для оценки и обучения VLM. Набор охватывает символические головоломки, анализ реальных изображений, навигацию и манипуляции, а также предоставляет гибкий контроль над сложностью, представлением входных данных, горизонтом планирования и обратной связью. Мы также предоставляем многошаговые решатели, которые генерируют структурированные демонстрации, позволяя проводить контролируемое дообучение. Наши оценки показывают, что все передовые модели испытывают трудности в интерактивных сценариях, демонстрируя низкие показатели успеха как в простых (46,6%), так и в сложных (26,0%) конфигурациях. Наши эксперименты выявляют значительные ограничения: модели с трудом эффективно используют длинный контекст, показывая худшие результаты с неограниченной историей по сравнению с усеченными окнами. Кроме того, мы обнаружили, что несколько символьных текстовых задач становятся существенно сложнее после визуализации. Однако явные наблюдения целей, текстовая обратная связь и исследовательские демонстрации в условиях частичной наблюдаемости или неизвестной динамики для контролируемого дообучения приводят к стабильному улучшению, выявляя конкретные режимы сбоев и пути для совершенствования многошагового визуального принятия решений. Код, данные и модели доступны по адресу: https://visgym.github.io/.

Memory-V2V: Расширение возможностей диффузионных моделей видео-в-видео с помощью памяти
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

Современные базовые модели диффузии видео-в-видео демонстрируют впечатляющие результаты в редактировании пользовательских видеороликов, изменяя внешний вид, движение или перемещение камеры. Однако реальное редактирование видео часто представляет собой итеративный процесс, в котором пользователи уточняют результаты в ходе нескольких раундов взаимодействия. В этом многократном сценарии современные видеоредакторы испытывают трудности с поддержанием кросс-согласованности между последовательными правками. В данной работе мы впервые решаем проблему кросс-согласованности при многократном редактировании видео и представляем Memory-V2V — простую, но эффективную архитектуру, которая дополняет существующие модели видео-в-видео явной памятью. Используя внешний кэш ранее отредактированных видео, Memory-V2V применяет точные стратегии поиска и динамической токенизации для учета предыдущих результатов на текущем шаге редактирования. Для дальнейшего снижения избыточности и вычислительных затрат мы предлагаем обучаемый компрессор токенов в основе DiT, который сжимает избыточные conditioning-токены, сохраняя при этом важные визуальные признаки, что обеспечивает общее ускорение на 30%. Мы проверяем Memory-V2V на сложных задачах, включая синтез новых ракурсов видео и текстово-обусловленное редактирование длинных видео. Многочисленные эксперименты показывают, что Memory-V2V генерирует видео со значительно более высокой кросс-согласованностью при минимальных вычислительных затратах, сохраняя или даже улучшая целевые показатели по сравнению с передовыми базовыми методами. Страница проекта: https://dohunlee1.github.io/MemoryV2V

Jet-RL: Реализация обучения с подкреплением на FP8 с он-политикой с использованием единого потока точности для фазы обучения и исполнения политики
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

Обучение с подкреплением (RL) играет ключевую роль в повышении способностей крупных языковых моделей (LLM) к сложным рассуждениям. Однако существующие конвейеры RL-обучения вычислительно неэффективны и ресурсоемки, причем фаза прокрутки (rollout) занимает более 70% общего времени обучения. Квантованное RL-обучение, в частности с использованием точности FP8, предлагает перспективный подход к устранению этого узкого места. Распространенная стратегия предполагает применение точности FP8 на этапе прокрутки при сохранении точности BF16 для обучения. В данной работе мы представляем первое комплексное исследование RL-обучения с FP8 и показываем, что широко используемая стратегия «BF16-обучение + FP8-прокрутка» страдает от серьезной нестабильности обучения и катастрофического коллапса точности при длительных прокрутках и сложных задачах. Наш анализ показывает, что эти сбои вызваны внеполитическим (off-policy) характером подхода, который вносит существенное численное рассогласование между обучением и выводом. Мотивированные этими наблюдениями, мы предлагаем Jet-RL — фреймворк для FP8 RL-обучения, который обеспечивает robustную и стабильную RL-оптимизацию. Ключевая идея заключается в использовании единого потока точности FP8 как для обучения, так и для прокрутки, что минимизирует численные расхождения и устраняет необходимость в неэффективной межшаговой калибровке. Многочисленные эксперименты подтверждают эффективность Jet-RL: наш метод обеспечивает ускорение до 33% на фазе прокрутки, до 41% на фазе обучения и 16% сквозное ускорение по сравнению с обучением на BF16, сохраняя при этом стабильную сходимость во всех настройках и демонстрируя пренебрежимо малую деградацию точности.

Масштабирование верификации во время вывода: саморазвивающиеся глубокие исследовательские агенты посредством рубрико-управляемой проверки на этапе тестирования
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

Последние достижения в области глубоких исследовательских агентов (Deep Research Agents, DRA) трансформируют автоматизированное открытие знаний и решение задач. В то время как большинство существующих разработок сосредоточено на улучшении политик (policy) посредством пост-обучения, мы предлагаем альтернативную парадигму: саморазвитие способностей агента путем итеративной проверки выходных данных его модели политики, направляемое тщательно разработанными критериями (рубриками). Этот подход приводит к масштабированию верификации на этапе вывода (inference-time scaling), при котором агент самосовершенствуется, оценивая сгенерированные ответы для создания итеративной обратной связи и уточнений. Мы выводим критерии на основе автоматически построенной Таксономии Ошибок DRA, которая систематически классифицирует сбои агентов на пять основных категорий и тринадцать подкатегорий. Мы представляем DeepVerifier — верификатор вознаграждения по результатам на основе рубрик, который использует асимметрию верификации и превосходит базовые подходы «агент-как-судья» (vanilla agent-as-judge) и LLM-судью на 12–48% по F1-мере в мета-оценке. Для обеспечения практического саморазвития DeepVerifier интегрируется как модуль «подключи и работай» (plug-and-play) во время логического вывода на этапе тестирования (test-time inference). Верификатор генерирует детальную обратную связь на основе рубрик, которая передается агенту для итеративной самозагрузки (bootstrapping), уточняя ответы без дополнительного обучения. Такое масштабирование на этапе тестирования обеспечивает прирост точности на 8–11% на сложных подмножествах наборов данных GAIA и XBench-DeepResearch при использовании мощных проприетарных LLM. Наконец, для поддержки развития открытых моделей мы публикуем DeepVerifier-4K — курируемый набор данных для контролируемого тонкого обучения (SFT), содержащий 4646 высококачественных шагов агента, сфокусированных на верификации DRA. Эти примеры делают акцент на рефлексии и самокритике, позволяя открытым моделям развивать robustные возможности верификации.

Бесконечные терминалы: Масштабирование сред обучения с подкреплением для терминальных агентов
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

Среда является узким местом для самообучающихся агентов. Современные бенчмарки для терминалов создавались для оценки, а не для обучения; обучение с подкреплением требует масштабируемого конвейера, а не просто набора данных. Мы представляем Endless Terminals — полностью автономный конвейер, процедурно генерирующий задачи для работы в терминале без участия человека. Конвейер состоит из четырех этапов: генерация разнообразных описаний задач, создание и валидация контейнеризованных сред, создание тестов на завершение и фильтрация по решаемости. В результате работы конвейера мы получили 3255 задач, охватывающих файловые операции, управление логами, обработку данных, написание скриптов и операции с базами данных. Мы обучали агентов с помощью стандартного PPO с бинарными наградами на уровне эпизода и минимальным циклом взаимодействия: без поиска, многопользовательской координации или специализированных инструментов. Несмотря на эту простоту, модели, обученные на Endless Terminals, демонстрируют значительный прогресс: на нашем отложенном dev-наборе Llama-3.2-3B улучшила результат с 4.0% до 18.2%, Qwen2.5-7B — с 10.7% до 53.3%, а Qwen3-8B-openthinker-sft — с 42.6% до 59.0%. Эти улучшения переносятся на бенчмарки, созданные человеком: модели, обученные на Endless Terminals, показывают существенный рост на отложенных человеко-курируемых бенчмарках: на TerminalBench 2.0 Llama-3.2-3B улучшила результат с 0.0% до 2.2%, Qwen2.5-7B — с 2.2% до 3.4%, а Qwen3-8B-openthinker-sft — с 1.1% до 6.7%, в каждом случае превосходя альтернативные подходы, включая модели с более сложными агентскими каркасами. Эти результаты демонстрируют, что простой метод RL оказывается успешным, когда среды масштабируются.

SALAD: Достижение высокоразреженного внимания посредством эффективной тонкой настройки линейного внимания для видеодиффузионного трансформера
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

Диффузионные трансформеры недавно продемонстрировали выдающиеся результаты в генерации видео. Однако длинные входные последовательности приводят к высокой вычислительной задержке из-за квадратичной сложности полного внимания. Были предложены различные механизмы разреженного внимания. Бестренировочное разреженное внимание ограничено низкой степенью разреженности и обеспечивает умеренное ускорение, тогда как тренировочные методы могут достигать значительно более высокой разреженности, но требуют существенных данных и вычислений для обучения. В данной работе мы предлагаем SALAD, вводя легковесную ветвь линейного внимания параллельно с разреженным вниманием. Благодаря включению входозависимого механизма регулирования для точного балансирования двух ветвей наш метод достигает 90% разреженности и ускорения вывода в 1,72 раза при сохранении качества генерации, сопоставимого с базовым методом полного внимания. Более того, наш процесс дообучения высокоэффективен, требуя всего 2000 видеосэмплов и 1600 шагов обучения с размером пакета 8.

Танец в оковах: стратегическое убеждение в академической полемике через призму теории сознания
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

Хотя искусственный интеллект (ИИ) глубоко интегрирован в различные этапы исследовательского процесса и достиг значительных успехов, академическая реплика остается серьезной и недостаточно изученной проблемой. Это связано с тем, что реплика представляет собой сложный процесс стратегической коммуникации в условиях значительной информационной асимметрии, а не просто техническую дискуссию. Следовательно, современные подходы оказываются неэффективными, поскольку в основном имитируют поверхностные лингвистические паттерны, упуская ключевой элемент — принятие перспективы, необходимое для эффективного убеждения. В данной статье мы представляем RebuttalAgent — первую систему, основанную на модели психического состояния (Theory of Mind, ToM) для ведения академической полемики. Она реализована в виде конвейера ToM-Стратегия-Ответ (TSR), который моделирует ментальное состояние рецензента, формулирует стратегию убеждения и генерирует обоснованный ответ. Для обучения нашего агента мы создали RebuttalBench — масштабный набор данных, синтезированный с помощью нового подхода «критика и уточнение». Процесс обучения состоит из двух этапов: начального этапа контролируемого тонкого настроения для оснащения агента способностями к анализу на основе ToM и стратегическому планированию, за которым следует этап обучения с подкреплением, использующий механизм самовознаграждения для масштабируемого самосовершенствования. Для надежной и эффективной автоматизированной оценки мы дополнительно разработали Rebuttal-RM — специализированную систему оценки, обученную на более чем 100 тыс. примеров полемических данных из множества источников, которая превосходит мощную модель-судию GPT-4.1 по согласованности оценок с человеческими предпочтениями. Многочисленные эксперименты показывают, что RebuttalAgent значительно превосходит базовую модель в среднем на 18,3% по автоматическим метрикам, а также опережает передовые проприетарные модели как в автоматизированной, так и в человеческой оценке. Важное замечание: сгенерированное содержание реплики предназначено исключительно для справки, чтобы вдохновить авторов и помочь в составлении черновика. Оно не призвано заменить собственный критический анализ и ответ автора.

GameTalk: Обучение больших языковых моделей стратегическому ведению диалога
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

Стратегическое принятие решений в условиях множества агентов является ключевой проблемой для больших языковых моделей (LLM), особенно когда координация и переговоры должны разворачиваться в рамках продолжительных диалогов. В то время как последние исследования изучали применение LLM для изолированных задач принятия решений, оптимизации долгосрочных целей посредством диалога уделялось мало внимания. Мы представляем GameTalk — фреймворк для обучения LLM принятию стратегических решений через многоходовые взаимодействия. В отличие от предыдущих работ, сфокусированных на одношаговых целях или статическом прогнозировании действий, мы обучаем LLM оптимизировать глобальную цель на протяжении всей беседы. Мы достигаем этого, адаптируя методы тонкой настройки, такие как GRPO, DPO и STaR, для включения сигналов вознаграждения, зависящих от всего взаимодействия. Мы оцениваем этот подход на наборе постепенно усложняющихся игр, разработанных для проверки различных аспектов reasoning, координации и моделирования оппонента. Наши результаты показывают, что GameTalk значительно превосходит немодели, особенно при использовании формирования вознаграждения, причем DPO стабильно демонстрирует наибольший прирост. Эти результаты позиционируют диалоговую тонкую настройку как перспективный путь для развития способности LLM к reasoning, ведению переговоров и действиям в интерактивных средах.

MeepleLM: Виртуальный тестировщик, моделирующий разнообразные субъективные впечатления
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

Недавние достижения расширили роль больших языковых моделей в настольных играх: от игровых агентов до креативных со-дизайнеров. Однако сохраняется критический пробел: современные системы не способны давать конструктивную критику, основанную на эмерджентном пользовательском опыте. Преодоление этого разрыва фундаментально для гармонизации сотрудничества человека и ИИ, поскольку оно позволяет дизайнерам улучшать свои творения с помощью внешних перспектив, одновременно направляя модели в сторону от предвзятых или непредсказуемых результатов. Автоматизация критики для настольных игр сталкивается с двумя проблемами: вывод скрытой динамики, связывающей правила с игровым процессом без явного движка, и моделирование субъективной неоднородности различных игровых групп. Для их решения мы собрали набор данных из 1727 структурно корректных книг правил и 150 000 отзывов, отобранных с помощью оценки качества и фасетно-ориентированной выборки. Мы обогащаем эти данные с помощью рассуждений в рамках методологии "Механика-Динамика-Эстетика" (MDA), чтобы явно преодолеть причинно-следственный разрыв между письменными правилами и игровым опытом. Мы также выделяем игровые персоналии и представляем MeepleLM — специализированную модель, которая усваивает характерные для персоналий шаблоны рассуждений для точного моделирования субъективной обратной связи различных игровых архетипов. Эксперименты показывают, что MeepleLM значительно превосходит новейшие коммерческие модели (например, GPT-5.1, Gemini3-Pro) по соответствию сообществу и качеству критики, достигая 70% предпочтения в пользовательских исследованиях, оценивающих полезность. MeepleLM служит надежным виртуальным тестировщиком для общих интерактивных систем, знаменуя ключевой шаг к ориентированному на аудиторию, учитывающему опыт сотрудничеству человека и ИИ.

ChartVerse: Масштабирование анализа диаграмм с помощью надежного программного синтеза с нуля
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

Логическое рассуждение на основе диаграмм является ключевой способностью для моделей зрения и языка (VLM). Однако развитие моделей с открытым исходным кодом серьезно сдерживается отсутствием высококачественных данных для обучения. Существующие наборы данных страдают от двойной проблемы: синтетические диаграммы часто упрощены и повторяются, а связанные с ними пары «вопрос-ответ» склонны к галлюцинациям и не обладают необходимой глубиной рассуждений для сложных задач. Чтобы преодолеть этот разрыв, мы предлагаем ChartVerse — масштабируемую структуру, предназначенную для синтеза сложных диаграмм и надежных данных для рассуждений с нуля. (1) Для решения проблемы простых шаблонов мы сначала вводим Rollout Posterior Entropy (RPE) — новую метрику, которая количественно оценивает сложность диаграммы. Руководствуясь RPE, мы разрабатываем кодировщик диаграмм с учетом сложности для автономного синтеза разнообразных диаграмм высокой сложности с помощью исполняемых программ. (2) Для гарантии строгости рассуждений мы разрабатываем синтез обратных пар «вопрос-ответ», закрепленных на истинности. В отличие от стандартной генерации, мы применяем парадигму «сначала ответ»: мы извлекаем детерминированные ответы непосредственно из исходного кода, генерируем вопросы на основе этих якорей и проводим строгую проверку на согласованность. Для дальнейшего повышения сложности и глубины рассуждений мы фильтруем образцы на основе частоты ошибок модели и выделяем высококачественные цепочки рассуждений (Chain-of-Thought, CoT). Мы создали наборы ChartVerse-SFT-600K и ChartVerse-RL-40K, используя Qwen3-VL-30B-A3B-Thinking в качестве учительской модели. Результаты экспериментов показывают, что модель ChartVerse-8B демонстрирует наилучшую производительность, значительно превосходя свою учительскую модель и конкурируя с более мощной Qwen3-VL-32B-Thinking.

DSGym: Комплексная система для оценки и обучения агентов в области науки о данных
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Агенты в области науки о данных обещают ускорить процесс открытий и генерации инсайтов, преобразуя данные в исполняемые анализы и выводы. Однако существующие бенчмарки для науки о данных не справляются с этой задачей из-за фрагментированных интерфейсов оценки, затрудняющих кросс-бенчмарковое сравнение, узкого охвата задач и отсутствия строгой привязки к данным. В частности, мы показываем, что значительную часть задач в текущих бенчмарках можно решить без использования реальных данных. Чтобы устранить эти ограничения, мы представляем DSGym — стандартизированную платформу для оценки и обучения агентов науки о данных в изолированных средах исполнения. В отличие от статических бенчмарков, DSGym предлагает модульную архитектуру, которая упрощает добавление задач, каркасов агентов и инструментов, позиционируя её как живую, расширяемую испытательную площадку. Мы курируем DSGym-Tasks — комплексный набор задач, который стандартизирует и улучшает существующие бенчмарки с помощью фильтрации по качеству и устранимости с помощью ярлыков. Мы дополнительно расширяем охват с помощью (1) DSBio: экспертных биоинформатических задач, основанных на литературе, и (2) DSPredict: сложных прогностических задач из таких областей, как компьютерное зрение, молекулярное прогнозирование и прогнозирование последствий воздействия на отдельные клетки. Помимо оценки, DSGym позволяет обучать агентов с помощью конвейера синтеза данных, проверенного исполнением. В качестве примера мы создали обучающий набор из 2000 примеров и обучили модель объёмом 4 млрд параметров в DSGym, которая превзошла GPT-4o на стандартизированных аналитических бенчмарках. В целом, DSGym позволяет проводить строгие сквозные измерения способности агентов планировать, реализовывать и проверять анализ данных в реалистичном научном контексте.

Знания недостаточны: внедрение навыков обучения с подкреплением для непрерывной адаптации
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

Крупные языковые модели (LLM) сталкиваются с проблемой «отсечки знаний», когда их замороженная параметрическая память препятствует прямому усвоению новой информации. Хотя обучение с учителем (SFT) обычно используется для обновления знаний модели, оно часто обновляет фактологическое содержание, не обеспечивая надежного улучшения способности модели использовать вновь усвоенную информацию для ответов на вопросы или принятия решений. Обучение с подкреплением (RL) необходимо для приобретения навыков рассуждения, однако его высокая вычислительная стоимость делает его непрактичным для эффективной онлайн-адаптации. Эмпирически мы наблюдаем, что обновления параметров, вызванные SFT и RL, являются почти ортогональными. На основе этого наблюдения мы предлагаем Parametric Skill Transfer (PaST) — фреймворк, поддерживающий модульный перенос навыков для эффективной и действенной адаптации знаний. Извлекая не зависящий от домена «вектор навыков» из исходного домена, мы можем линейно внедрить навыки манипулирования знаниями в целевую модель после того, как она прошла облегченное SFT на новых данных. Эксперименты на тестах по включению знаний в вопросно-ответные системы (SQuAD, LooGLE) и на бенчмарках инструментального использования агентами (ToolBench) демонстрируют эффективность нашего метода. На SQuAD PaST превосходит современный базовый метод саморедактирующегося SFT на величину до 9.9 баллов. PaST также масштабируется на задачи вопросно-ответных систем с длинным контекстом на LooGLE с абсолютным приростом точности на 8.0 баллов и улучшает показатели успешности на ToolBench в режиме zero-shot в среднем на +10.3 балла с устойчивым приростом across категориям инструментов, что указывает на сильную масштабируемость и кросс-доменную переносимость вектора навыков.

Mecellem Models: Турецкие модели, обученные с нуля и дообученные для юридической сферы
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

В данной статье представлены модели Mecellem — фреймворк для разработки специализированных языковых моделей для турецкой юридической области с помощью стратегий адаптации к предметной области. Мы вносим два основных вклада: (1) **Энкодерная модель, предобученная с нуля**: двунаправленные энкодеры на основе ModernBERT, предобученные на корпусе объемом 112,7 млрд токенов с преобладанием турецкого языка. Мы реализуем стратегию выбора контрольных точек, которая оценивает производительность поиска на протяжении всего обучения, показывая, что оптимальные контрольные точки достигают наилучших результатов поиска до того, как функция потерь предобучения достигает минимума. Наши модели-энкодеры занимают позиции в топ-3 турецкого лидерборда по поиску, при этом меньшие модели (155 млн параметров) демонстрируют сопоставимую производительность с более крупными референсными моделями (307–567 млн параметров). Наш подход обеспечивает 92,36% производственной эффективности по сравнению с современными моделями (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), занимая четвертое место в общем рейтинге, несмотря на требование меньших вычислительных ресурсов. SOTA-модели полагаются на многоэтапные, вычислительно затратные конвейеры обучения, что делает наш подход — одноэтапное предобучение с последующим эффективным пост-тренингом — экономичной альтернативой; (2) **Декодерная модель с непрерывным предобучением (CPT)**: модели Qwen3-1.7B и Qwen3-4B, адаптированные к турецкой юридической области посредством контролируемого обучения по учебному плану. Четырехфазное CPT с оптимальными соотношениями выборок позволяет осуществить плавный переход от общих языковых знаний к специализированной юридической терминологии и рассуждениям в длинном контексте. Данный подход обеспечивает снижение перплексии на 36,2% для турецких юридических текстов, демонстрируя преимущества адаптации к домену.

VISTA-PATH: Интерактивная фундаментальная модель для сегментации патологических изображений и количественного анализа в вычислительной патологии
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

Точная семантическая сегментация гистопатологических изображений крайне важна для количественного анализа тканей и последующего клинического моделирования. Современные фундаментальные модели сегментации улучшили обобщающую способность за счет масштабного предварительного обучения, однако остаются слабо адаптированными к патологии, поскольку трактуют сегментацию как статическую задачу визуального прогнозирования. Мы представляем VISTA-PATH — интерактивную, класс-ориентированную фундаментальную модель сегментации патологических изображений, разработанную для разрешения гетерогенных структур, интеграции экспертной обратной связи и генерации пиксельных сегментаций, имеющих непосредственное значение для клинической интерпретации. VISTA-PATH совместно учитывает при сегментации визуальный контекст, семантические описания тканей и опциональные пространственные подсказки экспертов, что обеспечивает точную многоклассовую сегментацию на разнородных патологических изображениях. Для поддержки данной парадигмы мы создали VISTA-PATH Data — масштабный корпус данных для патологической сегментации, содержащий более 1,6 миллиона троек «изображение-маска-текст», охватывающих 9 органов и 93 класса тканей. На обширных внутренних и внешних тестовых наборах VISTA-PATH последовательно превосходит существующие фундаментальные модели сегментации. Важно, что VISTA-PATH поддерживает динамическое уточнение с участием человека, распространяя разреженные аннотации в виде ограничивающих рамок на уровне патчей на сегментацию целых слайдов. Наконец, мы демонстрируем, что высокоточная класс-ориентированная сегментация, обеспечиваемая VISTA-PATH, делает её предпочтительной моделью для вычислительной патологии. Она улучшает анализ микроокружения ткани за счёт предложенного Tumour Interaction Score (TIS), который демонстрирует сильную и значимую связь с выживаемостью пациентов. В совокупности эти результаты утверждают VISTA-PATH в качестве фундаментальной модели, которая преобразует сегментацию патологических изображений из статического прогноза в интерактивное и клинически обоснованное представление для цифровой патологии. Исходный код и демонстрация доступны по адресу https://github.com/zhihuanglab/VISTA-PATH.

Руководство по составлению промптов для больших языковых моделей при генерации кода: эмпирическая характеристика
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

Крупные языковые модели (LLM) в настоящее время широко используются для решения различных задач в области разработки программного обеспечения, в первую очередь для генерации кода. Предыдущие исследования показали, как грамотное проектирование промптов (prompt engineering) может помочь разработчикам улучшать свои промпты для генерации кода. Однако до сих пор не существовало конкретных руководств, которые бы направляли разработчиков в создании эффективных промптов для этой цели. В данной работе мы выводим и оцениваем специализированные рекомендации по оптимизации промптов для разработки. Сначала мы используем итеративный тест-ориентированный подход для автоматического улучшения промптов генерации кода и анализируем результаты этого процесса, чтобы выявить элементы улучшения промптов, которые приводят к успешному прохождению тестов. На основе этих элементов мы формулируем 10 рекомендаций по улучшению промптов, связанных с лучшим описанием входных и выходных данных, предусловий и постусловий, предоставлением примеров, различными типами деталей и устранением неоднозначностей. Мы провели оценку с участием 50 практикующих специалистов, которые сообщили о частоте использования выявленных паттернов улучшения промптов, а также о их perceived usefulness (воспринимаемой полезности), которая не всегда совпадала с фактической частотой использования до ознакомления с нашими рекомендациями. Наши результаты имеют значение не только для практиков и преподавателей, но и для тех, кто стремится создавать более совершенные инструменты для разработки ПО с поддержкой LLM.