HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

25 papers found

GLM-5: от Вайб-кодинга к Агентной инженерии
GLM-5: from Vibe Coding to Agentic Engineering

Feb 17

ByGLM-5 Team, Aohan Zeng, Xin Lv, Zhenyu Hou, Zhengxiao Du, Qinkai Zheng, Bin Chen, Da Yin, Chendi Ge, Chengxing Xie, Cunxiang Wang, Gengzheng Pan, Hao Zeng, Haoke Zhang, Haoran Wang, Huilong Chen, Jiajie Zhang, Jian Jiao, Jiaqi Guo, Jingsen Wang, Jingzhao Du, Jinzhu Wu, Kedong Wang, Lei Li, Lin Fan, Lucen Zhong, Mingdao Liu, Mingming Zhao, Pengfan Du, Qian Dong, Rui Lu, Shuang-Li, Shulin Cao, Song Liu, Ting Jiang, Xiaodong Chen, Xiaohan Zhang, Xuancheng Huang, Xuezhen Dong, Yabo Xu, Yao Wei, Yifan An, Yilin Niu, Yitong Zhu, Yuanhao Wen, Yukuo Cen, Yushi Bai, Zhongpei Qiao, Zihan Wang, Zikang Wang, Zilin Zhu, Ziqiang Liu, Zixuan Li, Bojie Wang, Bosi Wen, Can Huang, Changpeng Cai, Chao Yu, Chen Li, Chen Li, Chenghua Huang, Chengwei Hu, Chenhui Zhang, Chenzheng Zhu, Congfeng Yin, Daoyan Lin, Dayong Yang, Di Wang, Ding Ai, Erle Zhu, Fangzhou Yi, Feiyu Chen, Guohong Wen, Hailong Sun, Haisha Zhao, Haiyi Hu, Hanchen Zhang, Hanrui Liu, Hanyu Zhang, Hao Peng, Hao Tai, Haobo Zhang, He Liu, Hongwei Wang, Hongxi Yan, Hongyu Ge, Huan Liu, Huan Liu, Huanpeng Chu, Jia'ni Zhao, Jiachen Wang, Jiajing Zhao, Jiamin Ren, Jiapeng Wang, Jiaxin Zhang, Jiayi Gui, Jiayue Zhao, Jijie Li, Jing An, Jing Li, Jingwei Yuan, Jinhua Du, Jinxin Liu, Junkai Zhi, Junwen Duan, Kaiyue Zhou, Kangjian Wei, Ke Wang, Keyun Luo, Laiqiang Zhang, Leigang Sha, Liang Xu, Lindong Wu, Lintao Ding, Lu Chen, Minghao Li, Nianyi Lin, Pan Ta, Qiang Zou, Rongjun Song, Ruiqi Yang, Shangqing Tu, Shangtong Yang, Shaoxiang Wu, Shengyan Zhang, Shijie Li, Shuang Li, Shuyi Fan, Wei Qin, Wei Tian, Weining Zhang, Wenbo Yu, Wenjie Liang, Xiang Kuang, Xiangmeng Cheng, Xiangyang Li, Xiaoquan Yan, Xiaowei Hu, Xiaoying Ling, Xing Fan, Xingye Xia, Xinyuan Zhang, Xinze Zhang, Xirui Pan, Xunkai Zhang, Yandong Wu, Yanfu Li, Yidong Wang, Yifan Zhu, Yijun Tan, Yilin Zhou, Yiming Pan, Ying Zhang, Yinpei Su, Yipeng Geng, Yipeng Geng, Yong Yan, Yonglin Tan, Yuean Bi, Yuhan Shen, Yuhao Yang, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yurong Wu, Yutao Zhang, Yuxi Duan, Yuxuan Zhang, Zezhen Liu, Zhengtao Jiang, Zhenhe Yan, Zheyu Zhang, Zhixiang Wei, Zhuo Chen, Zhuoer Feng, Zijun Yao, Ziwei Chai, Ziyuan Wang, Zuzhou Zhang, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

105

Мы представляем GLM-5 — модель нового поколения, предназначенную для перехода от парадигмы вибр-кодинга к агентной инженерии. Развивая агентные, логические и кодирующие (ARC) возможности своей предшественницы, GLM-5 использует архитектуру DSA для значительного снижения затрат на обучение и вывод при сохранении точности в длинных контекстах. Для повышения согласованности и автономности модели мы внедрили новую инфраструктуру асинхронного обучения с подкреплением, которая радикально улучшает эффективность пост-обучения за счёт разделения генерации и обучения. Кроме того, мы предлагаем новые асинхронные агентные алгоритмы RL, которые дополнительно повышают качество обучения с подкреплением, позволяя модели эффективнее обучаться на сложных долгосрочных взаимодействиях. Благодаря этим инновациям GLM-5 демонстрирует передовые результаты на основных открытых бенчмарках. Наиболее важно, что GLM-5 показывает беспрецедентную способность в решении практических задач программирования, превосходя предыдущие базовые уровни в решении сквозных задач программной инженерии. Код, модели и дополнительная информация доступны по адресу https://github.com/zai-org/GLM-5.

SkillsBench: Оценка эффективности навыков агентов в разнообразных задачах
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Feb 13

ByXiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Навыки агентов представляют собой структурированные пакеты процедурных знаний, которые расширяют возможности LLM-агентов во время вывода. Несмотря на быстрое внедрение, не существует стандартного способа измерить, действительно ли они помогают. Мы представляем SkillsBench — бенчмарк из 86 задач в 11 предметных областях, снабженных тщательно отобранными навыками и детерминированными верификаторами. Каждая задача оценивается в трех условиях: без навыков, с отобранными навыками и с самостоятельно сгенерированными навыками. Мы тестируем 7 конфигураций агентов-моделей на 7308 траекториях. Отобранные навыки повышают средний показатель успешности на 16,2 процентных пункта (п.п.), но эффекты сильно различаются в зависимости от области: от +4,5 п.п. для разработки программного обеспечения до +51,9 п.п. для здравоохранения; при этом 16 из 84 задач демонстрируют отрицательную динамику. Самостоятельно сгенерированные навыки в среднем не приносят пользы, что показывает неспособность моделей надежно создавать те процедурные знания, которые им полезно потреблять. Сфокусированные навыки с 2–3 модулями превосходят по эффективности комплексную документацию, а меньшие модели с навыками могут соответствовать более крупным моделям без них.

Проверка адекватности разреженных автокодировщиков: превосходят ли SAE случайные базовые модели?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Feb 15

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina

Разреженные автоэнкодеры (SAE) стали перспективным инструментом для интерпретации нейронных сетей, разлагая их активации на разреженные наборы признаков, интерпретируемых человеком. В последних работах представлены несколько вариантов SAE и успешно масштабированы для передовых моделей. Несмотря на значительный энтузиазм, растущее число негативных результатов в смежных задачах ставит под сомнение, действительно ли SAE выделяют содержательные признаки. Для прямого исследования этого вопроса мы проводим две взаимодополняющие оценки. На синтетической задаче с известными истинными признаками мы показываем, что SAE восстанавливают лишь 9% реальных признаков, несмотря на достижение 71% объяснённой дисперсии, что демонстрирует их неспособность выполнить основную задачу даже при высокой точности реконструкции. Для оценки SAE на реальных активациях мы вводим три базовых метода, которые ограничивают направления признаков SAE или их паттерны активации случайными значениями. В ходе масштабных экспериментов с различными архитектурами SAE мы показываем, что наши базовые методы соответствуют полностью обученным SAE по интерпретируемости (0.87 против 0.90), разреженному probing-анализу (0.69 против 0.72) и каузальному редактированию (0.73 против 0.72). В совокупности эти результаты свидетельствуют, что SAE в их текущем состоянии не обеспечивают надёжного разложения внутренних механизмов моделей.

Возникает ли социализация в обществе ИИ-агентов? Пример Moltbook
Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

Feb 15

ByMing Li, Xirui Li, Tianyi Zhou

По мере того, как агенты больших языковых моделей все активнее заполняют сетевые среды, возникает фундаментальный вопрос: претерпевают ли общества искусственного интеллекта (ИИ) динамику конвергенции, подобную человеческим социальным системам? В рамках проекта Moltbook моделируется правдоподобный сценарий будущего, в котором автономные агенты участвуют в открытом, непрерывно эволюционирующем онлайн-обществе. Мы представляем первую крупномасштабную системную диагностику такого общества ИИ-агентов. Выходя за рамки статического наблюдения, мы вводим количественную диагностическую систему для анализа динамической эволюции в обществах ИИ-агентов, измеряя семантическую стабилизацию, лексический оборот, индивидуальную инерцию, устойчивость влияния и коллективный консенсус. Наш анализ выявляет в Moltbook систему в состоянии динамического баланса: в то время как глобальные семантические средние быстро стабилизируются, отдельные агенты сохраняют высокое разнообразие и устойчивый лексический оборот, сопротивляясь гомогенизации. Однако агенты демонстрируют сильную индивидуальную инерцию и минимальную адаптивную реакцию на партнеров по взаимодействию, что препятствует взаимному влиянию и достижению консенсуса. Как следствие, влияние остается преходящим без формирования устойчивых суперузлов, и общество не развивает стабильные коллективные центры влияния из-за отсутствия разделяемой социальной памяти. Эти результаты демонстрируют, что масштаб и плотность взаимодействий сами по себе недостаточны для индукции социализации, и предлагают практические принципы проектирования и анализа для грядущих обществ ИИ-агентов следующего поколения.

jina-embeddings-v5-text: Целевое дистилляционное обучение эмбеддингов
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Feb 17

ByMohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao

Модели текстовых эмбеддингов широко применяются для задач семантического сходства, включая информационный поиск, кластеризацию и классификацию. Универсальные модели обычно обучаются по одно- или многоэтапным процедурам с использованием контрастивных функций потерь. Мы представляем новую методику обучения, сочетающую техники дистилляции моделей с задачно-специфичными контрастивными потерями для создания компактных высокопроизводительных моделей эмбеддингов. Наши результаты свидетельствуют, что данный подход более эффективен для обучения небольших моделей по сравнению с чисто контрастивными или основанными исключительно на дистилляции парадигмами. Бенчмарк-показатели полученных моделей, jina-embeddings-v5-text-small и jina-embeddings-v5-text-nano, превосходят или соответствуют state-of-the-art для моделей сопоставимого размера. Модели jina-embeddings-v5-text дополнительно поддерживают длинные тексты (до 32 тыс. токенов) на многих языках и генерируют эмбеддинги, сохраняющие устойчивость при усечении и бинарной квантизации. Веса моделей находятся в открытом доступе, что, как мы надеемся, стимулирует дальнейший прогресс в разработке моделей эмбеддингов.

Аудит безопасности Clawdbot (OpenClaw) на основе анализа траекторий
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Feb 16

ByTianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang

Clawdbot — это саморазмещаемый персональный ИИ-агент с поддержкой инструментов, обладающий широким пространством действий, охватывающим локальное выполнение задач и веб-опосредованные рабочие процессы. Это порождает повышенные проблемы безопасности и защищенности в условиях неопределенности и враждебного управления. Мы представляем траекторно-центричную оценку Clawdbot по шести параметрам риска. Наш тестовый набор выборочно и с минимальной адаптацией заимствует сценарии из предыдущих бенчмарков безопасности агентов (включая ATBench и LPS-Bench) и дополняет их специально разработанными случаями, учитывающими инструментальную поверхность Clawdbot. Мы регистрируем полные траектории взаимодействия (сообщения, действия, аргументы/результаты вызовов инструментов) и оцениваем безопасность с помощью как автоматического траекторного арбитра (AgentDoG-Qwen3-4B), так и ручной проверки. На 34 канонических тест-кейсах мы наблюдаем неоднородный профиль безопасности: производительность в целом стабильна на задачах, ориентированных на надежность, в то время как большинство сбоев возникает при нечетко определенных намерениях, открытых целях или безобидных на вид джейлбрек-промптах, где незначительные misinterpretations могут эскалировать в инструментальные действия с более серьезными последствиями. Мы дополнили общие результаты репрезентативными кейс-стади, обобщили общие черты этих случаев, проанализировали уязвимости безопасности и типичные режимы сбоев, которые Clawdbot склонен провоцировать на практике.

ResearchGym: Оценка языковых моделей-агентов в реальных исследованиях искусственного интеллекта
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Feb 16

ByAniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Мы представляем ResearchGym — эталонный набор данных и среду исполнения для оценки AI-агентов в задачах сквозного научного исследования. Для его реализации мы адаптировали пять устных и стендовых докладов с конференций ICML, ICLR и ACL. Из репозитория каждой статьи мы сохранили наборы данных, средства оценки и реализации базовых методов, но исключили метод, предложенный в самой статье. В результате получилось пять контейнеризованных сред выполнения задач, включающих в общей сложности 39 подзадач. В каждой среде агенты должны выдвигать новые гипотезы, проводить эксперименты и пытаться превзойти сильные человеческие базовые показатели по метрикам исходной статьи. В контролируемой оценке агента на основе GPT-5 мы наблюдаем резкий разрыв между потенциальными возможностями и надежностью. Агент улучшает предоставленные базовые показатели из репозитория лишь в 1 из 15 оценок (6.7%) на 11.5% и в среднем завершает только 26.5% подзадач. Мы выявили повторяющиеся ошибки на длинных горизонтах планирования, включая нетерпеливость, плохое управление временем и ресурсами, излишнюю уверенность в слабых гипотезах, трудности с координацией параллельных экспериментов и жесткие ограничения, связанные с длиной контекста. Однако в одном запуске агент превзошел решение для задачи из стендового доклада ICML 2025, что указывает на то, что передовые агенты могут иногда достигать уровня современных результатов, но делают это ненадежно. Дополнительно мы оценили проприетарные каркасы агентов, включая Claude Code (Opus-4.5) и Codex (GPT-5.2), которые демонстрируют аналогичный разрыв. ResearchGym предоставляет инфраструктуру для систематической оценки и анализа автономных агентов в условиях замкнутого цикла научных исследований.

UniT: Унифицированное мультимодальное масштабирование с цепочкой рассуждений на этапе тестирования
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Feb 12

ByLeon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu

Унифицированные модели способны выполнять как мультимодальное понимание, так и генерацию в рамках единой архитектуры, однако обычно они работают в один проход, без итеративного уточнения своих выходных данных. Многие мультимодальные задачи, особенно те, которые связаны со сложными пространственными композициями, множеством взаимодействующих объектов или развивающимися инструкциями, требуют декомпозиции инструкций, проверки промежуточных результатов и внесения итеративных исправлений. Хотя масштабирование на этапе тестирования (Test-Time Scaling, TTS) показало, что выделение дополнительных вычислительных ресурсов для итеративных рассуждений существенно улучшает производительность языковых моделей, распространение этой парадигмы на унифицированные мультимодальные модели остается нерешенной задачей. Мы представляем UniT — фреймворк для мультимодального масштабирования цепочек рассуждений на этапе тестирования, который позволяет единой унифицированной модели рассуждать, проверять и уточнять результаты на протяжении нескольких раундов. UniT сочетает синтез агентных данных, унифицированное обучение модели и гибкий вывод на этапе тестирования для проявления когнитивных поведений, включая верификацию, декомпозицию подцелей и контентную память. Наши ключевые выводы таковы: (1) унифицированные модели, обученные на коротких траекториях рассуждений, обобщаются на более длинные цепочки вывода во время тестирования; (2) последовательные цепочки рассуждений обеспечивают более масштабируемую и вычислительно эффективную стратегию TTS, чем параллельная выборка; (3) обучение на траекториях генерации и редактирования улучшает визуальные рассуждения на несмещенных данных. Эти результаты утверждают мультимодальное масштабирование на этапе тестирования как эффективную парадигму для прогресса как в генерации, так и в понимании в унифицированных моделях.

Пересмотр платоновской гипотезы репрезентации: аристотелевский взгляд
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

Feb 16

ByFabian Gröger, Shuo Wen, Maria Brbić

Гипотеза платоновских представлений предполагает, что репрезентации в нейронных сетях сходятся к общей статистической модели реальности. Мы демонстрируем, что существующие метрики для оценки сходства репрезентаций подвержены влиянию масштаба сети: увеличение глубины или ширины модели может систематически завышать показатели репрезентационного сходства. Для коррекции этих эффектов мы предлагаем основанную на перестановках систему нулевой калибровки, которая преобразует любую метрику сходства репрезентаций в калиброванную оценку со статистическими гарантиями. Пересматривая гипотезу платоновских представлений с помощью нашей системы калибровки, мы выявляем более сложную картину: кажущаяся конвергенция, регистрируемая глобальными спектральными мерами, практически исчезает после калибровки, в то время как локальное сходство окрестностей (но не локальные расстояния) сохраняет значительную согласованность между различными модальностями. На основе этих результатов мы предлагаем аристотелевскую гипотезу представлений: репрезентации в нейронных сетях сходятся к общим локальным отношениям соседства.

Геометрически-осознанное ротационное позиционное кодирование для согласованной видео-мировой модели
Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Feb 8

ByChendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Прогностические мировые модели, которые симулируют будущие наблюдения при явном управлении камерой, являются основой интерактивного искусственного интеллекта. Несмотря на быстрый прогресс, современные системы страдают от отсутствия пространственной устойчивости: они не способны сохранять стабильные структуры сцены на длительных траекториях, часто галлюцинируя детали при повторном посещении камерой ранее наблюдаемых мест. Мы установили, что этот геометрический дрейф проистекает из зависимости от позиционных эмбеддингов в экранном пространстве, которые конфликтуют с проективной геометрией, необходимой для 3D-согласованности. Мы представляем ViewRope — геометрически осознанное кодирование, которое внедряет направления лучей камеры непосредственно в слои самовнимания видео-трансформеров. Параметризуя внимание относительной геометрией лучей, а не локальностью пикселей, ViewRope обеспечивает встроенное в модель индуктивное смещение для извлечения 3D-согласованного контента через временные промежутки. Мы также предлагаем Геометрически Осознанное Редкое Внимание по Кадрам, которое использует эти геометрические сигналы для выборочного обращения к релевантным историческим кадрам, повышая эффективность без ущерба для согласованности памяти. Кроме того, мы представляем ViewBench — диагностический набор тестов, измеряющий точность замыкания траекторий и геометрический дрейф. Наши результаты демонстрируют, что ViewRope существенно улучшает долгосрочную согласованность, одновременно снижая вычислительные затраты.

О поразительной эффективности маскирования обновлений в адаптивных оптимизаторах
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Feb 17

ByTaejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie

Обучение больших языковых моделей (LLM) почти исключительно опирается на плотные адаптивные оптимизаторы со все более сложными прекондиционерами. Мы оспариваем этот подход, демонстрируя, что случайное маскирование обновлений параметров может быть высокоэффективным: маскированный вариант RMSProp стабильно превосходит последние современные оптимизаторы. Наш анализ показывает, что случайное маскирование индуцирует геометрическую регуляризацию, зависящую от кривизны, которая сглаживает траекторию оптимизации. Мотивированные этим открытием, мы представляем маскирование градиентов, согласованное с моментом (Magma), которое модулирует маскированные обновления с использованием согласования момента и градиента. Многочисленные эксперименты по предварительному обучению LLM показывают, что Magma является простой заменой адаптивных оптимизаторов, обеспечивая стабильное улучшение с пренебрежимо малыми вычислительными затратами. Примечательно, что для модели размером 1B Magma снижает перплексию более чем на 19% и 9% по сравнению с Adam и Muon соответственно.

HLE-Verified: Систематическая верификация и структурированный пересмотр последнего экзамена человечества
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Feb 15

ByWeiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

Экзамен последнего рубежа человечества (HLE) стал широко используемым эталоном для оценки передовых больших языковых моделей на сложных, многодоменных вопросах. Однако проведенные сообществом анализы выявили проблему наличия в HLE значительного числа зашумленных элементов, что может искажать результаты оценки и сравнительный анализ моделей. Для решения этой проблемы мы представляем HLE-Verified — верифицированную и пересмотренную версию HLE с прозрачным протоколом проверки и детальной таксономией ошибок. Наша методология построения следует двухэтапному рабочему процессу «валидация-исправление», результатом которого является сертифицированный эталон. На Этапе I каждый элемент проходит бинарную проверку условия задачи и окончательного ответа с помощью экспертной оценки и перекрестных проверок на основе моделей, в результате чего получено 641 верифицированный элемент. На Этапе II дефектные, но исправимые элементы пересматриваются в строгих рамках, сохраняющих исходный замысел оценки, посредством двойного независимого экспертного исправления, аудита с помощью моделей и окончательного арбитража, что дает 1170 исправленных и сертифицированных элементов. Оставшиеся 689 элементов выпускаются в качестве документированного набора с неопределенностью, содержащего явные источники неопределенности и экспертные метки для будущей доработки. Мы оценили семь современных языковых моделей на HLE и HLE-Verified, наблюдая средний абсолютный прирост точности на 7–10 процентных пунктов на HLE-Verified. Улучшение особенно заметно на элементах, где исходная постановка задачи и/или эталонный ответ содержат ошибки, с приростом в 30–40 процентных пунктов. Наш анализ также выявляет сильную связь между уверенностью модели и наличием ошибок в условии задачи или эталонном ответе, что подтверждает эффективность наших исправлений. В целом, HLE-Verified улучшает оценки в стиле HLE за счет снижения аннотационного шума и обеспечивает более достоверное измерение возможностей моделей. Данные доступны по адресу: https://github.com/SKYLENAGE-AI/HLE-Verified

TAROT: Тест-ориентированная и способностно-адаптивная учебная программа для тонкой настройки с подкреплением при генерации кода с помощью больших языковых моделей
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Feb 17

ByChansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li

Крупные языковые модели (LLM) меняют парадигму программирования, известную как "виб-кодирование", однако синтез алгоритмически сложного и надежного кода по-прежнему остается критической проблемой. Стимулирование глубоких рассуждений LLM крайне важно для преодоления этого барьера. Подход под названием Reinforcement Fine-Tuning (RFT, тонкая настройка с подкреплением) стал перспективной стратегией для решения этой задачи. Однако большинство существующих методов игнорируют присущую тест-кейсам неоднородную сложность и гранулярность, что приводит к несбалансированному распределению сигналов вознаграждения и, как следствие, к смещенным градиентным обновлениям во время обучения. Для решения этой проблемы мы предлагаем Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT систематически строит для каждой задачи четырехуровневый тестовый набор (базовый, промежуточный, сложный, граничный), создавая контролируемый ландшафт сложности для проектирования учебного плана и оценки. Ключевым моментом является то, что TAROT отделяет прогрессию учебного плана от сырых оценок вознаграждения, позволяя проводить оценку с учетом возможностей модели и принципиальный выбор из портфеля политик учебного плана, а не зависеть от случайного состава сложности тест-кейсов. Такая конструкция способствует стабильной оптимизации и более эффективному приобретению компетенций. Результаты многочисленных экспериментов показывают, что оптимальный учебный план для RFT в генерации кода тесно связан с внутренними возможностями модели: менее способные модели достигают большего прогресса при движении от простого к сложному, тогда как более компетентные модели преуспевают при стратегии "сначала сложное". TAROT предоставляет воспроизводимый метод, который адаптивно настраивает учебный план в соответствии с возможностями модели, тем самым последовательно улучшая функциональную корректность и надежность генерируемого кода. Весь код и данные опубликованы для обеспечения воспроизводимости и развития исследований сообщества по адресу https://github.com/deep-diver/TAROT.

COMPOT: Калибровочно-оптимизированная ортогонализация по Прокрусту для сжатия трансформаторов
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Feb 16

ByDenis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis

Посттренировочное сжатие моделей-трансформеров обычно основывается на усеченном сингулярном разложении (SVD). Однако принудительное задание единого общего подпространства может ухудшить точность даже при умеренном сжатии. Разреженное словарное обучение обеспечивает более гибкое представление в виде объединения подпространств, но существующие подходы часто страдают от итеративных обновлений словаря и коэффициентов. Мы предлагаем COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) — свободный от дообучения фреймворк для сжатия, который использует небольшой калибровочный набор данных для оценки разреженной факторизации весов. COMPOT использует ортогональные словари, что позволяет применять замкнутые обновления Проскурякова для словаря и аналитическое одношаговое разреженное кодирование для коэффициентов, исключая итеративную оптимизацию. Для учета неоднородной чувствительности слоев при глобальном бюджете сжатия COMPOT дополнительно вводит одношаговую стратегию динамического распределения, которая адаптивно перераспределяет уровни сжатия по слоям. Многочисленные эксперименты на различных архитектурах и задачах показывают, что COMPOT стабильно обеспечивает превосходный компромисс между качеством и сжатием по сравнению с сильными низкоранговыми и разреженными базовыми методами, оставаясь при этом полностью совместимым с посттренировочной квантизацией для экстремального сжатия. Код доступен {здесь}(https://github.com/mts-ai/COMPOT).

Causal-JEPA: Обучение мировых моделей через объектно-ориентированные латентные вмешательства
Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Feb 11

ByHeejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero

Модели мира требуют надежного реляционного понимания для поддержки прогнозирования, логического вывода и управления. Хотя объектно-ориентированные представления предоставляют полезную абстракцию, они недостаточны для описания динамики, зависящей от взаимодействий. Поэтому мы предлагаем C-JEPA — простую и гибкую объектно-ориентированную модель мира, которая расширяет задачу предсказания маскированных совместных представлений с патчей изображений на объектно-ориентированные представления. Применяя маскирование на уровне объектов, которое требует вывода состояния объекта из состояний других объектов, C-JEPA индуцирует латентные вмешательства с контрфактическими эффектами и предотвращает поиск упрощенных решений, делая анализ взаимодействий необходимым. Экспериментально C-JEPA демонстрирует устойчивое улучшение в задачах визуального ответа на вопросы, с абсолютным приростом около 20% в контрфактическом reasoning по сравнению с той же архитектурой без объектного маскирования. В задачах управления агентом C-JEPA обеспечивает существенно более эффективное планирование, используя лишь 1% от общего количества латентных признаков, требуемых моделями мира на основе патчей, при достижении сопоставимой производительности. Наконец, мы предоставляем формальный анализ, показывающий, что маскирование на уровне объектов индуцирует каузальную индуктивную предвзятость через латентные вмешательства. Наш код доступен по адресу https://github.com/galilai-group/cjepa.

Понимание против генерации: навигация по дилемме оптимизации в мультимодальных моделях
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Feb 17

BySen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu

Современные исследования мультимодальных моделей сталкиваются с ключевой проблемой: улучшение генеративных возможностей часто достигается за счёт снижения способности к пониманию, и наоборот. Мы проанализировали этот компромисс и выявили, что основной причиной, вероятно, является потенциальный конфликт между генерацией и пониманием, создающий конкурентную динамику внутри модели. Для решения этой проблемы мы предлагаем фреймворк Reason-Reflect-Refine (R3). Этот инновационный алгоритм преобразует задачу одношаговой генерации в многошаговый процесс "сгенерировать-понять-перегенерировать". Явно задействуя способность модели к пониманию в процессе генерации, мы успешно смягчаем дилемму оптимизации, достигая более качественных результатов генерации и улучшая способность к пониманию, связанную с процессом генерации. Это даёт ценные insights для проектирования унифицированных мультимодальных моделей следующего поколения. Код доступен по адресу https://github.com/sen-ye/R3.

Панини: Непрерывное обучение в токенном пространстве с помощью структурированной памяти
Panini: Continual Learning in Token Space via Structured Memory

Feb 16

ByShreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

Языковые модели все чаще используются для анализа информации, на которой они не обучались, такой как новые документы, эволюционирующие знания и пользовательские данные. Распространенным подходом является генерация с расширением выборки (RAG), при которой дословные документы хранятся внешне (в виде фрагментов), и на этапе вывода извлекается только релевантное подмножество для анализа LLM. Однако это приводит к неэффективному использованию вычислительных ресурсов во время тестирования (LLM многократно анализирует одни и те же документы); более того, извлечение фрагментов может добавлять нерелевантный контекст, что увеличивает количество неподтвержденных генераций. Мы предлагаем похожий на человеческий непараметрический фреймворк непрерывного обучения, в котором базовая модель остается неизменной, а обучение происходит за счет интеграции каждого нового опыта во внешнее состояние семантической памяти, которое постоянно накапливается и консолидируется. Мы представляем Panini, который реализует это, представляя документы в виде генеративных семантических рабочих пространств (GSW) — сети пар "вопрос-ответ" (QA), учитывающей сущности и события, что достаточно для LLM, чтобы восстанавливать пережитые ситуации и извлекать скрытые знания с помощью обоснованных логических цепочек вывода в сети. При получении запроса Panini проходит только по постоянно обновляемому GSW (а не по дословным документам или фрагментам) и извлекает наиболее вероятные цепочки вывода. На шести бенчмарках QA Panini демонстрирует наивысшую среднюю производительность, на 5–7% выше, чем у других конкурентоспособных базовых методов, при этом используя в 2–30 раз меньше токенов контекста ответа, поддерживает полностью открытые конвейеры и сокращает количество неподтвержденных ответов на специально подобранные неотвечаемые запросы. Результаты показывают, что эффективная и точная структуризация опыта на этапе записи — как это реализовано в рамках GSW — обеспечивает выигрыш как в эффективности, так и в надежности на этапе чтения. Код доступен по адресу https://github.com/roychowdhuryresearch/gsw-memory.

Визуальное убеждение: что влияет на принятие решений моделями «визуальный язык»?
Visual Persuasion: What Influences Decisions of Vision-Language Models?

Feb 17

ByManuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh

Интернет переполнен изображениями, изначально созданными для восприятия человеком, но всё чаще интерпретируемыми агентами, использующими визуально-языковые модели (VLM). Эти агенты принимают визуальные решения в масштабе, определяя, на что кликнуть, что порекомендовать или купить. Однако мы мало знаем о структуре их визуальных предпочтений. Мы представляем фреймворк для изучения этого, помещая VLM в контролируемые задачи выбора на основе изображений и систематически изменяя их входные данные. Наша ключевая идея заключается в том, чтобы рассматривать функцию принятия решений агентом как скрытую визуальную полезность, которую можно вывести через выявленные предпочтения: выбор между систематически редактируемыми изображениями. Отправляясь от распространённых изображений, таких как фотографии товаров, мы предлагаем методы оптимизации визуальных промптов, адаптируя методы текстовой оптимизации для итеративного предложения и применения визуально правдоподобных модификаций с использованием модели генерации изображений (например, в композиции, освещении или фоне). Затем мы оцениваем, какие правки увеличивают вероятность выбора. В ходе масштабных экспериментов с передовыми VLM мы демонстрируем, что оптимизированные правки значительно смещают вероятности выбора в прямых сравнениях. Мы разрабатываем автоматизированный конвейер интерпретируемости, чтобы объяснить эти предпочтения, выявляя устойчивые визуальные темы, которые управляют выбором. Мы утверждаем, что такой подход предлагает практичный и эффективный способ выявления визуальных уязвимостей и проблем безопасности, которые в противном случае могли бы быть обнаружены неявно в реальных условиях, что способствует более проактивному аудиту и управлению AI-агентами, работающими с изображениями.

Предписывающее масштабирование раскрывает эволюцию возможностей языковых моделей.
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Feb 17

ByHanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade

При развертывании фундаментальных моделей специалистам все чаще требуются предписывающие законы масштабирования: при заданном бюджете вычислительных ресурсов на предварительное обучение, какая точность достижима на последующих задачах с использованием современных методов постобработки и насколько стабильно это соответствие по мере развития области? Используя крупномасштабные наблюдательные оценки с 5 тыс. существующих и 2 тыс. вновь собранных данных о производительности моделей, мы оцениваем границы возможностей — высокие условные квантили результатов на бенчмарках как функцию логарифма FLOPs предварительного обучения — с помощью сглаженной квантильной регрессии с монотонной насыщающей сигмоидальной параметризацией. Мы проверяем временную надежность метода, обучая его на более ранних поколениях моделей и оценивая на более поздних версиях. На различных задачах оцененные границы в основном стабильны, за исключением математических рассуждений, где граница последовательно повышается со временем. Затем мы расширяем наш подход для анализа насыщения, зависящего от задачи, и исследования сдвигов, связанных с контаминацией данных, на задачах математических рассуждений. Наконец, мы представляем эффективный алгоритм, который восстанавливает почти полные границы данных, используя примерно 20% бюджета на оценку. В совокупности наша работа представляет Proteus 2k — новейший набор данных для оценки производительности моделей — и предлагает практическую методологию для пересчета вычислительных бюджетов в надежные ожидания по производительности и для отслеживания временных сдвигов границ возможностей.

STAPO: Стабилизация обучения с подкреплением для больших языковых моделей путем подавления редких ложных токенов
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Feb 17

ByShiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

Обучение с подкреплением (RL) значительно улучшило способность крупных языковых моделей к рассуждениям, однако существующие методы тонкой настройки на основе RL в значительной степени опираются на эвристические приемы, такие как регуляризация энтропии и перевзвешивание, для обеспечения стабильности. На практике они часто сталкиваются с коллапсом производительности на поздних этапах, что приводит к ухудшению качества рассуждений и нестабильности обучения. Мы выводим, что величина пошаговых градиентов политики в RL отрицательно коррелирует с вероятностью токена и локальной энтропией политики. Основываясь на этом результате, мы доказываем, что нестабильность обучения обусловлена крайне малой долей токенов, приблизительно 0,01%, которые мы называем ложными токенами. Когда такие токены появляются в правильных ответах, они мало влияют на результат рассуждений, но получают полное вознаграждение на уровне последовательности, что приводит к аномально усиленным обновлениям градиента. Руководствуясь этим наблюдением, мы предлагаем Оптимизацию политики с учетом ложных токенов (STAPO) для масштабного уточнения моделей, которая выборочно маскирует такие обновления и перенормирует потери по валидным токенам. На шести тестах математических рассуждений с использованием базовых моделей Qwen 1,7B, 8B и 14B метод STAPO стабильно демонстрирует превосходную стабильность энтропии и достигает среднего прироста производительности на 7,13% по сравнению с методами GRPO, 20-Entropy и JustRL.

Изучение естественного продолжения для потоковых политик сегментации действий
Learning Native Continuation for Action Chunking Flow Policies

Feb 13

ByYufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao

Разделение действий на сегменты позволяет моделям «Зрение-Язык-Действие» (VLA) работать в реальном времени, однако наивное выполнение по сегментам часто приводит к разрывам на границах фрагментов. Метод Real-Time Chunking (RTC) смягчает эту проблему, но, будучи внешним по отношению к политике, вызывает ложное мультимодальное переключение и траектории, не обладающие внутренней плавностью. Мы предлагаем Legato — метод продолжения на этапе обучения для потоковых VLA-политик с фрагментированными действиями. В частности, Legato инициализирует удаление шума из сформированного расписанием смеси известных действий и шума, предоставляя модели доступ к частичной информации о действиях. Более того, Legato перестраивает изученную потоковую динамику, чтобы обеспечить согласованность процесса удаления шума между обучением и выводом при пошаговом руководстве. Legato также использует рандомизированное условие расписания во время обучения для поддержки переменных задержек вывода и достижения контролируемой плавности. Экспериментально Legato демонстрирует более плавные траектории и снижает ложное мультимодальное переключение во время выполнения, что приводит к меньшим колебаниям и сокращению времени выполнения задачи. Многочисленные эксперименты в реальных условиях показывают, что Legato стабильно превосходит RTC в пяти задачах манипулирования, достигая примерно 10% улучшений как в плавности траектории, так и во времени выполнения задачи.

Зрительный червоточина: коммуникация в латентном пространстве гетерогенных мультиагентных систем
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Feb 17

ByXiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao

Многоагентные системы (МАС), основанные на больших языковых моделях, открыли возможности для продвинутого коллективного рассуждения, однако остаются скованы неэффективностью дискретной текстовой коммуникации, которая приводит к значительным накладным расходам времени выполнения и потере информации при квантовании. Хотя передача латентных состояний предлагает высокоскоростную альтернативу, существующие подходы либо предполагают однородные архитектуры отправителя-получателя, либо опираются на специализированные обученные преобразователи, что ограничивает масштабируемость и модульность для разнородных семейств моделей с несвязанными многообразиями. В данной работе мы предлагаем Vision Wormhole — новую архитектуру, которая перепрофилирует визуальный интерфейс моделей Vision-Language (VLM) для обеспечения модельно-независимой бестекстовой коммуникации. Благодаря введению универсального визуального кодека мы отображаем гетерогенные цепочки рассуждений в общее непрерывное латентное пространство и напрямую внедряем их в визуальный путь обработки получателя, используя визуальный энкодер как универсальный порт для межагентной «телепатии». Наша архитектура реализует топологию «звезда» для снижения сложности попарного согласования с O(N²) до O(N) и использует цель дистилляции «учитель-ученик» без разметки для согласования высокоскоростного визуального канала с устойчивыми паттернами рассуждений текстового пути. Экстенсивные эксперименты с разнородными семействами моделей (например, Qwen-VL, Gemma) демонстрируют, что Vision Wormhole сокращает сквозное время выполнения в контролируемых сравнениях при сохранении достоверности рассуждений, сопоставимой со стандартными текстовыми МАС. Код доступен по адресу https://github.com/xz-liu/heterogeneous-latent-mas

ClinAlign: Масштабирование согласования в здравоохранении на основе предпочтений клиницистов
ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Feb 10

ByShiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen

Хотя большие языковые модели (LLМ) демонстрируют экспертные медицинские знания, согласование их открытых ответов с детализированными предпочтениями клиницистов остается сложной задачей. Существующие методы часто опираются на грубые целевые показатели или ненадежные автоматические оценки, слабо основанные на профессиональных рекомендациях. Мы предлагаем двухэтапную структуру для решения этой проблемы. Во-первых, мы представляем HealthRubrics — набор данных из 7034 проверенных врачами примеров предпочтений, в которых клиницисты дорабатывают рубрики, составленные LLМ, для соответствия строгим медицинским стандартам. Во-вторых, мы дистиллируем эти рубрики в HealthPrinciples: 119 широко применимых, клинически обоснованных принципов, организованных по клиническим измерениям, что позволяет масштабировать контроль за пределами ручной разметки. Мы используем HealthPrinciples для (1) офлайн-выравнивания путем синтеза рубрик для немаркированных запросов и (2) инструмента на этапе вывода для управляемой самокоррекции. Модель с 30 млрд параметров, которая активирует только 3 млрд параметров на этапе вывода и обученная с использованием нашей структуры, достигает показателя 33.4% на HealthBench-Hard, превосходя значительно более крупные модели, включая Deepseek-R1 и o3, и устанавливая ресурсоэффективный базовый уровень для клинического согласования.

Обнаружение переполнения в сжатых токенных представлениях для поисково-усиленного порождения текста
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Feb 12

ByJulia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko

Эффективная обработка длинных контекстов остается ключевой проблемой для современных больших языковых моделей (LLM), особенно в условиях ограниченных ресурсов. Архитектуры мягкого сжатия предлагают расширить эффективную длину контекста путем замены длинных последовательностей токенов на меньшие наборы обученных сжатых токенов. Однако пределы сжимаемости — и момент, когда сжатие начинает удалять информацию, релевантную для задачи, — остаются недостаточно изученными. В данной статье мы определяем переполнение токенов как режим, в котором сжатые представления больше не содержат достаточной информации для ответа на заданный запрос, и предлагаем методологию для его характеристики и обнаружения. В условиях мягкого сжатия xRAG мы обнаруживаем, что независимая от запроса статистика насыщения надежно отделяет сжатые представления токенов от несжатых, предоставляя практический инструмент для идентификации сжатых токенов, но демонстрируя ограниченную способность к обнаружению переполнения. Легковесные пробующие классификаторы, работающие с представлениями как запроса, так и контекста xRAG, обнаруживают переполнение со средним значением AUC-ROC 0.72 на наборах данных HotpotQA, SQuADv2 и TriviaQA, что демонстрирует улучшение производительности обнаружения при учете информации запроса. Эти результаты знаменуют переход от независимой от запроса диагностики к детекторам, учитывающим запрос, что позволяет реализовать низкозатратное предварительное ветвление до LLM для минимизации ошибок, вызванных сжатием.

Насколько больше логических рассуждений добавляют модели с расширенным поиском по сравнению с большими языковыми моделями? Система оценки для многозвенных выводов на основе гибридных знаний
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Feb 10

ByJunhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu

Крупные языковые модели (LLM) по-прежнему испытывают трудности с вопросами, требующими обширных знаний, актуальной информации и многошаговых рассуждений. Расширение возможностей LLM за счет гибридных внешних знаний, таких как неструктурированный текст и структурированные графы знаний, представляет собой перспективную альтернативу дорогостоящему непрерывному предварительному обучению. В связи с этим надежная оценка их способностей к извлечению и рассуждению становится критически важной. Однако многие существующие бенчмарки все больше пересекаются с данными предварительного обучения LLM, что означает, что ответы или вспомогательные знания могут быть уже закодированы в параметрах модели, что затрудняет различение подлинного извлечения и рассуждений от запоминания параметров. Мы представляем HybridRAG-Bench — фреймворк для создания бенчмарков, оценивающих интенсивное извлечение и многошаговые рассуждения на основе гибридных знаний. HybridRAG-Bench автоматически объединяет неструктурированный текст и структурированные представления графов знаний, полученные из недавних научных статей на arXiv, и генерирует пары «вопрос-ответ», требующие глубоких знаний и основанные на явных путях рассуждений. Фреймворк поддерживает гибкий выбор предметной области и временного периода, что позволяет проводить настраиваемую оценку с учетом возможного загрязнения данных по мере развития моделей и знаний. Эксперименты в трех областях (искусственный интеллект, государственное управление и политика, а также биоинформатика) показывают, что HybridRAG-Bench поощряет именно подлинное извлечение и рассуждения, а не запоминание параметров, предлагая принципиальную основу для оценки систем рассуждений, усиленных гибридными знаниями. Наш код и данные доступны по адресу github.com/junhongmit/HybridRAG-Bench.