HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

48 papers found

ResearchClawBench: эталон для сквозных автономных научных исследований
ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

May 28

ByWanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

Агенты ИИ-кодирования все чаще используются в научной работе, но их способность к полностью автономным исследованиям остается трудно проверяемой. Мы представляем ResearchClawBench — эталон для оценки автономных научных исследований, охватывающий 40 задач из 10 научных областей. Каждая задача основана на реальной опубликованной статье, включает связанную литературу и исходные данные, а целевая статья скрывается во время оценки. Экспертно составленные мультимодальные рубрики разбивают целевые научные артефакты на взвешенные критерии, позволяя оценивать повторное открытие на уровне целевой статьи, оставляя пространство для новых открытий. Мы оцениваем семь агентов автономных исследований (auto-research) по единому протоколу и семнадцать нативных LLM с помощью легковесного ResearchHarness. Текущие системы далеки от надежного повторного открытия: сильнейший автономный агент Claude Code набирает в среднем 21,5, сильнейшая LLM в ResearchHarness — Claude-Opus-4.7 — в среднем 20,7, а среднее значение для передовых LLM составляет лишь 26,5. Анализ ошибок показывает, что неудачи сосредоточены в несоответствии экспериментального протокола, несоответствии доказательств и отсутствии научной основы. ResearchClawBench обеспечивает воспроизводимый оценочный рубеж для измерения прогресса на пути к автономным научным исследованиям.

Токены воображаемого восприятия улучшают пространственное рассуждение в мультимодальных языковых моделях
Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

Jun 3

ByMahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

Визуально-языковые модели (VLM) превосходно справляются со множеством задач, однако всё ещё испытывают трудности с пространственными рассуждениями, когда критически важная информация не является непосредственно наблюдаемой. Многие подобные проблемы требуют образного восприятия: вывода о том, что было бы видно с ненаблюдаемой точки зрения, прослеживания путей через скрытые пространства или интеграции частичных наблюдений в целостное пространственное представление. Мы вводим токены образного восприятия (Imaginative Perception Tokens, IPT) — промежуточные перцептивные представления, которые экстернализуют то, что VLM воспринимала бы при альтернативных пространственных конфигурациях, оставаясь при этом согласованными с наблюдаемыми входными данными. Для изучения этой способности мы формулируем три задачи: принятие перспективы (Perspective Taking, PET), трассировку путей (Path Tracing, PT) и мультивидовой подсчёт (Multiview Counting, MVC), а также создаём наборы данных объёмом примерно 20 000 примеров с эталонными воображаемыми представлениями, ответами и оценочными тестами. Используя унифицированную VLM BAGEL в качестве базовой архитектуры, контроль с помощью IPT последовательно улучшает пространственные рассуждения и часто превосходит обучение на текстовых цепочках рассуждений, даже без генерации изображений на этапе вывода. На задаче MVC IPT повышает точность на 3,4% и достигает конкурентоспособной производительности с сильными закрытыми моделями на PT. Кроме того, мы обнаруживаем, что комбинация IPT и контроля только по меткам даёт дополнительный выигрыш, тогда как текстовая цепочка рассуждений может существенно снижать производительность, что указывает на несоответствие модальностей, когда пространственные вычисления проводятся через язык. В целом, IPT предоставляет принципиальный сигнал контроля для рассуждений о ненаблюдаемой пространственной структуре, улучшая обобщение и формируя интерпретируемые промежуточные представления.

Ваша матрица обратного вложения — это скрытая линза признаков для текстовых эмбеддингов
Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

Jun 5

BySonghao Wu, Zhongxin Chen, Yuxuan Liu, Heng Cui, Cong Li, Rui Yan

Большие языковые модели демонстрируют впечатляющие способности к обучению без примеров (zero-shot) в широком спектре последующих задач. Однако им трудно функционировать в качестве готовых моделей эмбеддингов, что приводит к неоптимальной производительности на крупномасштабных тестах текстовых эмбеддингов. В данной работе мы выявляем потенциальную причину этого недостатка. Наша мотивация проистекает из неожиданного наблюдения: при проецировании на пространство словаря текстовые эмбеддинги имеют тенденцию выравниваться по частотным, но неинформативным токенам. Мы утверждаем, что такое чрезмерное выражение высокочастотных токенов подавляет способность модели улавливать тонкую семантику. Для решения этой проблемы мы представляем EmbedFilter — простое линейное преобразование, предназначенное для непосредственного уточнения текстовых эмбеддингов, полученных от LLM. В частности, мы обнаружили, что матрица разэмбеддинга (unembedding matrix) в LLM кодирует скрытое пространство, которое активно записывает эти частотные токены в пространство эмбеддингов. Фильтруя это подпространство, EmbedFilter подавляет влияние высокочастотных токенов, тем самым улучшая семантические представления. В качестве важного побочного эффекта это позволяет осуществить внутреннее снижение размерности, уменьшая объем хранилища индексов и ускоряя поиск при полном сохранении качества уточненных эмбеддингов. Наши эксперименты на нескольких базовых LLM показывают, что LLM, оснащенные EmbedFilter, достигают превосходной производительности в последующих задачах в режиме zero-shot даже при значительно уменьшенной размерности эмбеддингов. Мы надеемся, что наши результаты дадут более глубокое понимание механизмов представлений на основе LLM и вдохновят на создание более обоснованных методов для улучшения обучения текстовых эмбеддингов. Наш код доступен по адресу https://github.com/CentreChen/EmbFilter.

SoCRATES: К надежной автоматизированной оценке проактивного посредничества LLM в различных областях и социокогнитивных вариациях
SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

Jun 4

ByTaewon Yun, Hyeonseong Park, Jeonghwan Choi, Hayoon Park, Yeeun Choi, Hwanjun Song

Оценка LLM-посредников остаётся сложной задачей, поскольку медиация разворачивается в реальном времени как траектория, формируемая меняющимися эмоциями, намерениями и контекстом участников спора. Существующие тестовые среды опираются на несколько предметных областей, созданных экспертами, варьируют в основном стратегическую позицию и оценивают каждый шаг по каждой теме, что вносит шум, не связанный с темой. Мы представляем SoCRATES — бенчмарк для оценки проактивных LLM-посредников в реалистичных многодисциплинарных тестовых средах. Он конструирует сценарии на основе реальных конфликтов с помощью агентного конвейера по восьми предметным областям, исследует пять осей социокогнитивной адаптации (стратегическая позиция, состав сторон, длина истории, эмоциональная реактивность и культурная идентичность) и оценивает каждую тему только по тем шагам, которые её продвигают, используя локализованный по темам оценщик. Этот оценщик достигает согласованности с экспертами на уровне 0.82, более чем вдвое превосходя пошаговый базовый показатель. В ходе бенчмаркинга восьми передовых LLM мы обнаружили, что даже самый сильный посредник закрывает лишь около трети разрыва в консенсусе без посредничества в разнообразных и реалистичных тестовых средах, причём производительность резко различается по социокогнитивным осям, что подчёркивает: прогресс лежит в социальной адаптации к разнообразным условиям.

GENEB: Почему геномные модели сложно сравнивать
GENEB: Why Genomic Models Are Hard to Compare

Jun 3

ByDaria Ledneva, Mikhail Nuridinov, Denis Kuznetsov

Прогресс в области фундаментальных геномных моделей трудно оценить из-за фрагментированных бенчмарков, несовместимых протоколов оценки и специфической для задач отчетности. В результате утверждения о превосходстве или общности моделей часто не являются напрямую сопоставимыми. Мы представляем GENEB — крупномасштабный диагностический бенчмарк, который оценивает замороженные представления 40 фундаментальных геномных моделей по 100 задачам, охватывающим 13 функциональных категорий, в рамках унифицированного протокола на основе зондирования, включая режимы с малым количеством примеров. GENEB позволяет проводить контролируемое сравнение по масштабу модели, архитектуре, токенизации и данным предварительного обучения, одновременно явно выявляя компромиссы на уровне задач. Наш анализ показывает, что агрегированные таблицы лидеров нестабильны: ранжирование моделей резко варьируется в зависимости от категорий задач, масштаб дает лишь скромные и непостоянные улучшения, а согласованность архитектуры и предварительного обучения часто перевешивает количество параметров. Эти результаты подчеркивают ограничения текущих практик оценки и позиционируют GENEB как эталонную платформу для принципиального сравнения и выбора моделей с учетом категорий в геномном машинном обучении.

MMAE: Масштабный мультизадачный бенчмарк аудиоредактирования
MMAE: A Massive Multitask Audio Editing Benchmark

Jun 5

ByZiyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, Zhikang Niu, Yi-Wen Chao, Wenming Tu, Tianrui Wang, Auden, Qi Chen, Wenxi Chen, Jiaying Chi, Yanru Huo, Zixuan Jiang, Xiquan Li, Yalin Li, Junxi Liu, Minghao Liu, Binghao Qiang, Yijia Shan, Zheshu Song, Tian Tan, Zixiang Wang, Zeyu Xie, Zhifei Xie, Xiaoyu Xing, Qixiang Xu, Chen Yang, Guanrou Yang, Shan Yang, Yifan Yang, Steve Yves, Haotian Zhang, Haina Zhu, Kai Yu, Liefeng Bo, Eng-Siong Chng, Xie Chen

Мы представляем MMAE — Massive Multitask Audio Editing Benchmark, первый комплексный оценочный полигон, разработанный для универсального редактирования аудио по инструкциям. Под влиянием перехода к интеллектуальному творчеству интерактивное редактирование быстро распространилось из визуальной сферы (благодаря таким моделям, как Nano-banana 2 для изображений и Gemini-Omni для видео) на аудио. Однако современная инфраструктура оценки значительно отстаёт, оставаясь сильно фрагментированной и ограниченной конкретными поддоменами или базовыми операциями. В отличие от существующих бенчмарков с узкой областью применения, MMAE охватывает широкий спектр реальных сценариев, включая 7 различных аудиомодальностей: звук, речь, музыку и их смеси. Кроме того, мы устанавливаем всеобъемлющую таксономию, охватывающую 6 уровней сложности задач (от простых модификаций до многошаговых рассуждений и многораундового редактирования), 2 уровня детализации и 8 типов операций. Тщательно собранный с помощью человеко-агентного взаимодействия, MMAE включает 2 000 высококачественных образцов, дополненных новаторской критериальной системой оценки. Разлагая свободные задачи на 17 741 верифицируемый критерий, эта надёжная критериальная парадигма обеспечивает точную многомерную оценку как следования инструкциям, так и контекстной согласованности. Наш обширный анализ ведущих моделей показывает, что текущие системы всё ещё далеки от надёжного редактирования. Поразительно, но уровень точного совпадения (EMR) стабильно ниже 5% и падает до абсолютного 0% в сложных смешанных модальностях, обнажая критические узкие места в точном исполнении и структурной устойчивости. Мы надеемся, что MMAE станет катализатором будущих достижений в сообществе интеллектуального творчества, предоставляя чёткую диагностическую карту и устанавливая стандартизированную долгосрочную парадигму оценки для систем редактирования аудио следующего поколения.

AnchorWorld: Воплощенная эгоцентрическая симуляция мира с настройкой эволюции на основе обзора
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

Jun 5

ByYu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang

Несмотря на то, что интерактивное моделирование мира является ключевым рубежом, оно остается недостаточно изученным с точки зрения разносторонней управляемости, необходимой для практических сценариев. Для преодоления этого разрыва мы представляем AnchorWorld — фреймворк, который развивает эгоцентрическую симуляцию за счет повышенной целостности взаимодействия и гибкого механизма настройки мира. Во-первых, мы использует трехмерное движение человека в качестве основного способа взаимодействия. Для дополнения частей тела, находящихся вне поля зрения или кадрированных в эгоцентрических видах, мы вводим вспомогательное обучение с учителем, которое включает внешние точки обзора, не привязанные к сенсорному восприятию агента от первого лица. Это позволяет модели наблюдать полное положение тела агента относительно окружающей среды, способствуя более надежной пространственной привязке взаимодействий человека с миром. Кроме того, мы предлагаем простой, но эффективный механизм настройки саморазвивающихся миров. Это достигается путем определения якорных видов в единой мировой системе координат в сочетании с текстовыми описаниями, задающими динамическую эволюцию локальных сцен. Экспериментальные результаты показывают, что AnchorWorld значительно превосходит передовые базовые модели, а абляционные исследования подтверждают эффективность наших ключевых решений. Примечательно, что наша схема настройки демонстрирует многообещающую пространственно-временную геометрическую согласованность и строго следует заданной динамике эволюции.

Роботам требуется не только VLA и мировые модели
Robots Need More than VLA and World Models

Jun 4

ByElis Karcini, Faisal Mehrban, Quang Nguyen, Mac Schwager, Arash Ajoudani, Cesar Cadena, Jan Peters, Marco Hutter, Haitham Bou-Ammar

Обобщённый роботизированный интеллект часто рассматривается как проблема масштабирования политик: собирать больше демонстраций роботов, обучать более крупные модели «Vision-Language-Action» (VLA) и ожидать более широкого обобщения. В этой позиционной статье мы утверждаем, что такая постановка неполна. Основное узкое место заключается не только в обучении политикам, но и в отсутствии механизмов, преобразующих изобилие неструктурированных поведенческих данных из реального мира в обоснованное роботизированное обучение с учителем. Движения человека, видео из интернета, прогоны симуляции и интерактивные демонстрации содержат богатую информацию о задачах, целях, контактах, отказах и физических ограничениях, однако большая часть этой информации не может быть напрямую использована политиками роботов из-за отсутствия специфических для воплощения меток действий, семантики задач и структуры вознаграждения. Мы выделяем четыре недостающих компонента для робототехники следующего поколения: интерфейсы данных для автоматической разметки неструктурированного поведения, интерфейсы воплощения для перенацеливания движений человека на действия робота, интерфейсы мировых моделей для обоснованного физикой 3D-рассуждения и интерфейсы вознаграждения для вывода о ходе и успешности задачи на основе видео и языка. Мы рассматриваем недавние достижения в области фундаментальных моделей роботов, кроссивоплощённых наборов данных, обучения по видео, мировых моделей и моделирования вознаграждений, а также предлагаем исследовательскую программу для построения робототехнических систем, способных обучаться не только на демонстрациях роботов, но и на основе более широкого физического мира.

Прямая 3D-осведомлённая вставка объектов посредством декомпозированных визуальных прокси
Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

Jun 4

ByJingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy

Внедрение объектов направлено на бесшовное композитирование эталонного объекта в заданную область фонового изображения. Современные методы, основанные на диффузионных моделях, достигают высокого визуального качества, но формулируют внедрение как простую задачу 2D-инпейнтинга, не обеспечивая явного контроля над 3D-позой объекта, что ограничивает их практическую применимость. Мы предлагаем DIRECT (Decomposed Injection for Reference Composition and Target-integration) — новую структуру, которая объединяет интерактивное манипулирование позой с высококачественным 2D-синтезом изображений, обеспечивая контролируемое по позе внедрение объекта. Наш метод разлагает условия внедрения на три взаимодополняющих компонента: направляющая внешнего вида, захватывающая визуальные детали эталонного объекта; направляющая геометрии, полученная из скорректированного пользователем 3D-прокси; и направляющая контекста из целевого фона. Внедряя их через отдельные пути, DIRECT избегает переплетения признаков и одновременно сохраняет внешний вид эталонного объекта, следует заданной пользователем позе и адаптирует объект к целевой сцене. Мы также вводим автоматизированный конвейер создания данных для улучшения разнообразия и качества обучающих данных. Эксперименты показывают, что DIRECT превосходит предыдущие методы как в геометрической управляемости, так и в визуальном качестве.

OpenSkill: Самоэволюция в открытом мире для LLM-агентов
OpenSkill: Open-World Self-Evolution for LLM Agents

Jun 4

ByZhiling Yan, Dingjie Song, Hanrong Zhang, Wei Liang, Yuxuan Zhang, Yutong Dai, Lifang He, Philip S. Yu, Ran Xu, Xiang Li, Lichao Sun

Саморазвивающиеся агенты требуют адаптации после развертывания, однако существующие подходы предполагают наличие работоспособного цикла обучения, такого как подобранные навыки, успешные траектории или сигналы верификатора. В реальных развертываниях в открытом мире может не быть ничего из этого, а только промпт задачи. В данной работе мы исследуем саморазвитие в открытом мире, когда агент должен с нуля формировать как свои навыки, так и собственные сигналы верификации, используя ресурсы открытого мира, но без какого-либо контроля целевой задачи. Мы предлагаем OpenSkill — фреймворк, который запускает этот цикл: он извлекает обоснованные знания и якоря верификации из документации, репозиториев и веба, синтезирует их в переносимые навыки и совершенствует эти навыки на самостоятельно созданных виртуальных задачах, основанных на якорях, а не на целевых ответах. Таким образом, открытый мир предоставляет как знания для изучения, так и независимую от контроля среду для практики, при этом контроль целевой задачи зарезервирован для итоговой оценки. На трех бенчмарках и с двумя целевыми агентами OpenSkill достигает наилучшего автоматизированного показателя прохождения, соблюдая ограничение на отсутствие контроля. Анализ показывает, что его навыки переносятся между моделями без специфической для модели адаптации, а самостоятельно созданный верификатор согласуется с фактическими результатами, хотя никогда к ним не обращается.

Когда инструменты подводят: бенчмаркинг динамического перепланирования и восстановления после аномалий в агентах на основе LLM
When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

Jun 4

ByDongsheng Zhu, Xuchen Ma, Yucheng Shen, Xiang Li, Yukun Zhao, Shuaiqiang Wang, Lingyong Yan, Dawei Yin

Существующие эталоны оценивают интегрированное с инструментами рассуждение (Tool-Integrated Reasoning, TIR) в больших языковых моделях (БЯМ) на идеализированных «сценариях успеха», в значительной степени игнорируя реальные сбои инструментов. Мы представляем ToolMaze — эталон для динамического обнаружения путей и восстановления после ошибок в TIR-агентах. Чтобы отделить систематическое перепланирование от слепого метода проб и ошибок, ToolMaze использует двумерную структуру: топологическую сложность на основе DAG и таксономию возмущений инструментов размером 2×2 (явные/неявные, транзиторные/перманентные). Оценки показывают, что возмущения снижают производительность практически всех моделей, причем наиболее резкое падение наблюдается при неявных семантических сбоях. Вследствие системного чрезмерного доверия к искаженным результатам коэффициент восстановления после возмущений (Perturbation Recovery Rate, PRR) в таких сценариях падает примерно на 37%, в то время как сложные топологии заставляют агентов застревать в бесполезных циклах проб и ошибок. Критически важно, что агентная отказоустойчивость улучшается с ростом масштаба модели в 3,66 раза медленнее, чем базовое выполнение задач, что подчеркивает динамическое перепланирование как отдельное узкое место, не устраняемое ни масштабированием модели, ни подсказками. Данные и код доступны по адресу https://github.com/Zhudongsheng75/ToolMaze.

Смотри, запоминай, рассуждай: понимание видео с человеческой точки зрения с помощью MLLMs
Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Jun 5

ByJiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang

Понимание видео стремительно трансформируется под влиянием мультимодальных больших языковых моделей (МБЯМ), поскольку исследования переходят от коротких клипов к длинным, мультимодальным и насыщенным знаниями видеосценариям. Такие сценарии требуют от моделей обработки разреженных свидетельств, долгосрочных зависимостей, мультимодального согласования и надежного вывода в условиях ограниченных вычислительных ресурсов. В данной работе предлагается перспектива человеческого взгляда на понимание видео на основе языковых моделей, организованная вокруг трех функциональных способностей: наблюдения, запоминания и рассуждения. Вместо рассмотрения видеозадач как изолированных эталонов, этот взгляд обеспечивает единую структуру для анализа того, как видеоМБЯМ получают свидетельства, сохраняют контекст и формируют обоснованные выходные данные. Мы вводим формализацию, которая характеризует системы понимания видео через их перцептивные представления, состояния памяти, трассы рассуждений и итоговые предсказания. На основе этой формализации мы определяем проблемы в пространственно-временном восприятии, эффективной обработке длинных видео, моделировании памяти, потоковом понимании и достоверном рассуждении. Репрезентативные методы организованы по их ролям в системах видеоМБЯМ. Наблюдение охватывает детализированное, всестороннее, аудиовизуальное и эффективное восприятие. Запоминание включает автономную и потоковую память, в то время как рассуждение охватывает рассуждение только по тексту и мышление с видео. Мы дополнительно рассматриваем прикладные области, такие как эгоцентрические, спортивные, обучающие, медицинские и повествовательные видео, а также охватываем обучающие наборы данных и оценочные эталоны по типам задач, форматам разметки, модальностям и аспектам возможностей. Наконец, мы обозначаем открытые проблемы и будущие направления для масштабируемого, осознающего память и основанного на свидетельствах интеллекта видео. Связанные работы будут непрерывно отслеживаться по адресу https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.

SubtleMemory: бенчмарк для мелкозернистой дискриминации реляционной памяти в долгосрочных ИИ-агентах
SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

Jun 4

ByWenxuan Wang, Haoyu Sun, Fukuan Hou, Mingyang Song, Weinan Zhang, Yu Cheng, Yang Yang

Постоянно действующие ИИ-ассистенты, такие как OpenClaw, накапливают обширные коллекции связанных воспоминаний в ходе долгосрочных взаимодействий. По мере роста этих воспоминаний они могут усиливать друг друга, расходиться в зависимости от контекста или вступать в прямое противоречие, в результате чего корректная помощь оказывается зависимой от отношений между воспоминаниями, а не от их изолированного извлечения. Существующие тесты для долговременной памяти редко проверяют, как агенты сохраняют и используют такие отношения при выполнении последующих задач. Для заполнения этого пробела мы представляем SubtleMemory — тестовый набор для тонкой дискриминации реляционной памяти в долгоживущих ИИ-агентах. SubtleMemory создает контролируемые по реляционным связям латентные семантические артефакты, варианты которых реализуют взаимодополняющие, нюансированные или противоречивые отношения, и встраивает их в реалистичные истории взаимодействия пользователя с агентом, требуя от агента восстановления распределенных реляционных структур при последующих запросах и инструкциях. Тестовый набор содержит 1 522 оценочных примера, распределенных по 10 длинным историям, основанным на 1 090 контролируемых по реляционным связям наборах вариантов воспоминаний, и охватывает запросы, связанные и не связанные с пользователем. Оценивая шесть автономных систем памяти, два агента кланового типа с встроенными модулями памяти и три агента кланового типа с подключаемыми модулями памяти, мы обнаруживаем, что современные системы остаются слабыми в области тонкой дискриминации реляционной памяти. Мы также вводим диагностические протоколы, выявляющие различные профили способностей на этапах сохранения памяти, извлечения и последующих рассуждений.

UnpredictaBench: Бенчмарк для оценки распределительной случайности в больших языковых моделях
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Jun 4

ByAmirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

Мы представляем UnpredictaBench — тест, оценивающий способность больших языковых моделей (БЯМ) улавливать истинные лежащие в основе распределения. По мере того как БЯМ всё чаще используются в качестве заменителей других сущностей (например, людей в экономических симуляциях), тенденция многих моделей схлопываться к единственному правдоподобному ответу означает неспособность отразить непредсказуемость реальных систем. Недавние работы по улучшению разнообразия выходных данных недостаточны для этого сценария: симуляция требует выборок, откалиброванных под целевое распределение, а не просто вариативных ответов. UnpredictaBench выделяет упрощённую, но фундаментальную версию этой задачи: извлечение результатов из индивидуальных целевых распределений, включая канонические статистические распределения, распределения, порождённые стохастическими программами, и сценарии на естественном языке, описывающие случайные процессы. Мы вводим 448 таких задач вместе с KS@N — универсальной метрикой оценки, которая количественно определяет, насколько хорошо модель производит аппроксимацию «чёрного ящика» целевых распределений с помощью статистического критерия Колмогорова–Смирнова. Это частота, с которой мы не можем отвергнуть гипотезу о том, что модельные выборки размера N взяты из того же распределения, что и эталонные (истинные) выборки; при этом большее N указывает на большую сложность. Протестировав открытые и проприетарные модели, мы обнаружили значительный разброс в способностях работы с распределениями. Например, когда модели генерируют выборки объёма 100 (KS@100 — наш стандартный показатель), оценки варьируются от почти 0% до более 20%. Ни одна модель не достигает более 40% по KS@100, что свидетельствует о значительном потенциале улучшения в способности к выборке из распределений. Хотя добавление рассуждений может несколько повысить баллы, мы не находим немедленного решения этой проблемы. UnpredictaBench показывает, что даже простая симуляция из распределений остаётся сложной задачей, что делает её необходимым первым шагом на пути к использованию БЯМ в качестве заменителей для сложных систем.

Объяснимость LLM с помощью контрфактических цепочек и каузальных графов
LLM Explainability with Counterfactual Chains and Causal Graphs

Jun 4

ByNirit Nussbaum-Hoffer, Nitay Calderon, Liat Ein-Dor, Roi Reichart

Причинно-следственные графы предоставляют высокоуровневый язык для обеспечения прозрачности механизмов. В недавних работах большие языковые модели (БЯМ) используются для восстановления причинно-следственных графов процессов внешнего мира. В данной статье, напротив, мы применяем причинно-следственные графы для моделирования самого процесса вывода БЯМ, предоставляя заинтересованным сторонам прозрачное представление о том, как модель воспринимает и организует высокоуровневые концепции для формирования прогноза. Мы предлагаем четырехфазный метод построения таких графов. Для заданной целевой БЯМ и набора текстовых примеров наш метод обнаруживает класс-дискриминативные, интерпретируемые человеком концепции и сопоставляет каждому входному примеру состояния концепций, воспринимаемые БЯМ. Затем мы вводим процедуру аугментации контрфактуалов, вдохновленную методом MCMC, которая расширяет разреженные наблюдательные данные с помощью цепочек контрфактуалов. Это обеспечивает стабильное выявление причинно-следственных связей с помощью σ-CG, позволяя получать информативные, интерпретируемые графы. Мы применяем наш метод к трем БЯМ в задачах диагностики заболеваний, анализа тональности и классификации с использованием БЯМ в роли судьи. Мы оцениваем полученные графы по предсказательной точности и структурной устойчивости, а MCMC-вдохновленную аугментацию — по сходимости и полезности для последующих задач. Наши результаты показывают, что обнаруженные причинно-следственные графы отражают осмысленные зависимости, согласующиеся с рассуждениями БЯМ. Таким образом, данная статья закладывает основу для объяснимости БЯМ на уровне концепций.

Мышление с помощью воображения: агентное визуально-пространственное рассуждение с мировыми симуляторами
Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

Jun 4

ByChenming Zhu, Jingli Lin, Yilin Long, Peizhou Cao, Tai Wang, Jiangmiao Pang, Xihui Liu

Хотя модели зрения и языка (VLM) демонстрируют мощные способности к визуальным рассуждениям, их возможности пространственного мышления в значительной степени ограничены наблюдаемыми изображениями и текстоориентированными цепочками рассуждений. Они часто испытывают трудности при выводе ненаблюдаемых компоновок, поддержании согласованности между видами и рассуждениях с альтернативных точек зрения, когда доступны только ограниченные эгоцентрические наблюдения. В данной работе мы изучаем эту проблему как мышление с воображением, в котором VLM активно получает воображаемые визуальные свидетельства, взаимодействуя с симулятором мира в процессе рассуждения. Мы предлагаем Astra — агентную структуру пространственного мышления, которая наделяет VLM обусловленным действиями визуальным воображением. В частности, Astra объединяет Astra-VL, политику VLM, обученную с помощью подкрепления (RL), с Astra-WM, симулятором мира на основе Bagel, который генерирует наблюдения с новых точек зрения из контекстных изображений и движений камеры на естественном языке. Чтобы обеспечить надежные воображаемые свидетельства, Astra-WM обучается с настройкой согласованности видов для улучшения согласованности позы и содержимого между различными видами. На этапе RL мы предлагаем двухфазную учебную программу RL с симулятором мира в цикле для стабилизации исследования использования инструментов и повышения способности модели вызывать симулятор только тогда, когда воображаемые наблюдения улучшают результаты по сравнению с прямым ответом. Эксперименты показывают, что необходимы как симулятор мира, так и агентная политика: Astra-WM улучшает показатели Gemini-3-Flash, дополненного симулятором, на MMSI-Bench с 45,1 до 49,5, в то время как Astra-VL улучшает базовую модель Qwen3-VL с 29,8 до 38,8 на MMSI-Bench и с 36,8 до 42,7 на MindCube. Эти результаты демонстрируют, что воображаемые наблюдения могут предоставлять полезные пространственные свидетельства, но эффективные рассуждения с дополнением моделей мира требуют изучения того, когда, где и как воображать.

UniSHARP: Универсальный синтез резких монокулярных изображений
UniSHARP: Universal Sharp Monocular View Synthesis

Jun 5

ByMeixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi

В данной работе мы сосредоточились на расширении популярного метода фотореалистичного синтеза видов SHARP для универсального монокулярного рендеринга в континууме камерных систем — от обычных перспективных камер до широкоугольных, «рыбий глаз» и всесторонних панорамных настроек. Чтобы преодолеть предположения SHARP, специфичные для камеры-обскуры, наша ключевая идея заключается в выравнивании различных изображений в едином всестороннем латентном пространстве. Таким образом, мы предлагаем UniSHARP, который выполняет неявное выравнивание как в пространстве признаков, так и в пространстве гауссовых примитивов. В частности, гауссовы примитивы располагаются вдоль лучей и радиальных расстояний в универсальном представлении на основе лучей, в то время как 2D семантические и 3D пространственные признаки, извлеченные кодерами, вдохновленными UniK3D, совместно декодируются для генерации полного гауссова облака. Для всесторонней оценки нашего метода мы создали бенчмарк, охватывающий различные системы визуализации в разнообразных сценах. Бенчмарк дополнительно стратифицирован по полю зрения (FoV), что позволяет провести детальную оценку задачи универсального монокулярного рендеринга. Многочисленные эксперименты на предложенном бенчмарке демонстрируют эффективность UniSHARP, превосходящего альтернативные методы с большим отрывом. Страница проекта доступна по ссылке: https://insta360-research-team.github.io/Unisharp-website/

LIMMT: Меньше — значит больше для отслеживания движения
LIMMT: Less is More for Motion Tracking

Jun 5

ByYu Guan, Zekun Qi, Chenghuai Lin, Xuchuan Chen, Dairu Liu, Wenyao Zhang, Jilong Wang, Xinqiang Yu, He Wang, Li Yi

Мы утверждаем, что высококачественные данные о движении способны направлять алгоритмы отслеживания к более эффективным оптимизационным траекториям уже на ранних этапах обучения. В данной работе мы представляем LIMMT (Less Is More for Motion Tracking — «Меньше — значит больше для отслеживания движения»). Насколько нам известно, это первое исследование, ориентированное на данные, посвящённое отслеживанию движения человекоподобных объектов на основе физики. Мы выходим за рамки простого удаления низкокачественных и ошибочных фрагментов и определяем качество данных о движении через три измерения: физическую осуществимость, разнообразие и сложность. Мы показываем, что обучение даже на менее чем 3% данных из AMASS даёт лучшие показатели отслеживания, чем обучение на полном наборе данных. Дополнительно мы проводим очистку оценённых данных захвата движения из интернет-источников. Обширные эксперименты и анализ подтверждают эффективность нашего подхода.

Технический отчет dots.tts
dots.tts Technical Report

Jun 5

ByShi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu

Мы представляем dots.tts — фундаментальную модель преобразования текста в речь (TTS) с непрерывным авторегрессионным моделированием, содержащую 2 миллиарда параметров и работающую в непрерывном латентном пространстве. По сравнению с существующими непрерывными авторегрессионными моделями наши ключевые нововведения тройственны. Во-первых, мы обучили AudioVAE с несколькими целевыми функциями для построения семантически структурированного и удобного для предсказания непрерывного речевого пространства. Во-вторых, мы используем кондиционирование полной истории в блоке согласования потоков (flow-matching head) для сохранения долгосрочной согласованности и уменьшения дрейфа во время генерации. В-третьих, мы применяем этап посттренировки самокоррекции без вознаграждения (reward-free self-corrective post-training) к блоку согласования потоков для дальнейшего улучшения устойчивости и акустического качества. После обучения на крупномасштабном многоязычном корпусе dots.tts достигает наилучшей средней производительности на бенчмарке Seed-TTS-Eval с показателями WER 0,94%/1,30%/6,60% и оценками SIM 81,0/77,1/79,5 на тестовых наборах zh/en/zh-hard соответственно. На других бенчмарках dots.tts также последовательно демонстрирует передовые результаты среди моделей с открытым исходным кодом, проявляя высокую стабильность генерации, способность к клонированию голоса и эмоциональную выразительность. Для эффективного инференса мы дополнительно применили MeanFlow-дистилляцию с учётом CFG, что позволяет генерировать речь с низкой задержкой: 85/54 мс для первого пакета в режимах потокового вывода и двойного потокового вывода соответственно. Для обеспечения воспроизводимости исследований и практического развертывания мы публикуем код обучения и инференса вместе с предобученными, посттренированными и дистиллированными с помощью MeanFlow чекпойнтами под лицензией Apache 2.0.

Физика в два шага: фиксация априорных знаний о движении до их удаления визуальным уточнением
Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

Jun 4

ByWoojung Han, Seil Kang, Youngjun Jun, Min-Hung Chen, Fu-En Yang, Seong Jae Hwang

Диффузионные модели преобразования изображений в видео используют входные изображения для создания визуально впечатляющего контента, однако часто генерируют движение, нарушающее физические законы. Мы обнаружили удивительный факт: генерация за 2 шага часто демонстрирует лучшую физическую согласованность, чем результат за 50 шагов из той же модели. С помощью спектрального анализа мы связываем это с эрозией фазы в процессе шумоподавления; фаза значительно ухудшается (снижаясь примерно на 18% от шага 2 к шагу 50), в то время как амплитуда остается относительно стабильной. Основываясь на этом наблюдении, мы предлагаем PhaseLock — фреймворк без обучения, который сохраняет корректные априорные представления о движении, полученные на основе малошагового вывода, на протяжении всей траектории шумоподавления. Вместо того чтобы полагаться на полный шаговый вывод для физической согласованности, PhaseLock извлекает априорное представление о движении всего за 2 шага и навязывает его генерации высокого качества с помощью Latent Delta Guidance. Наш подход эффективно смягчает ухудшение фазы, повышая физическую согласованность в среднем на 6,2 балла для различных моделей, при этом в значительной степени сохраняя визуальное качество, с незначительными накладными расходами (в 1,06 раза по времени, в 1,02 раза по памяти) и снижая зависимость от дорогостоящих внешних методов управления (примерно в 5 раз по времени).

SIA: Самоулучшающийся ИИ с обновлением привязки и весов
SIA: Self Improving AI with Harness & Weight Updates

May 26

ByPrannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran

Люди являются узким местом в создании и совершенствовании ИИ. Как модели, так и агенты, их оборачивающие, пишутся, настраиваются и корректируются людьми. Долгосрочная цель создания ИИ, способного самостоятельно улучшать себя, остаётся нерешённой. Два во многом разрозненных направления исследований пытаются устранить это узкое место. Школа «обновление обвязки» использует мета-агента, который переписывает каркас (scaffold) целевого агента (его инструменты, промпты, логику повторных попыток и процедуру поиска), при этом веса модели остаются фиксированными. Школа «обучение в момент тестирования» применяет написанные вручную конвейеры обучения с подкреплением для обновления собственных весов модели на основе обратной связи от задачи, в то время как обвязка остаётся фиксированной. Эти два направления работают изолированно. Мы предлагаем SIA — цикл самоулучшения, в котором агент на основе языковой модели (Feedback-Agent) обновляет как обвязку, так и веса целевого агента. Мы проводим оценку в трёх контрастных областях: классификация статей китайского уголовного права, низкоуровневая оптимизация ядер GPU и очистка одноклеточной РНК. Сочетание обоих рычагов превосходит итерацию одного только каркаса на всех трёх наборах данных. Улучшения составляют: 56.6% на LawBench, сокращение времени выполнения на 91.9% для ядер GPU и 502% по очистке данных по сравнению с исходным базовым уровнем. Обновления обвязки делают агента активным, формируя то, как он ищет и действует, в то время как обновления весов создают интуитивное понимание предметной области, которое не может привить ни один промпт или каркас.

PaperFlow: профилирование, рекомендация и адаптация в ежедневных потоках статей
PaperFlow: Profiling, Recommending, and Adapting Across Daily Paper Streams

Jun 5

ByFuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan

Рекомендация научных статей обычно оценивается как статическое ранжирование по фиксированному набору кандидатов, однако реальное научное чтение представляет собой ежедневный долгосрочный процесс, в котором интересы меняются, а обратная связь накапливается. Мы представляем PaperFlow — фреймворк, который организует этот процесс в три взаимосвязанных этапа: профилирование, которое строит и поддерживает структурированный, проверяемый научный профиль на основе разнородных данных «холодного старта»; рекомендация, которая ранжирует каждый датированный поток статей с помощью агрегации множества сигналов при фиксированном бюджете отображения; и адаптация, которая обновляет состояние пользователя на основе семантически различных сигналов обратной связи и моделирует дрейф интересов по дням. Мы также определяем долгосрочный бенчмарк «пользователь-день», который фиксирует пользователей, даты, пулы кандидатов, видимые входные данные и скрытые смоделированные метки релевантности в рамках общей временной информационной границы. Бенчмарк содержит 24 смоделированных исследовательских пользователя, 50 ежедневных потоков статей, 1 200 эпизодов «пользователь-день», 20 727 уникальных статей и 497 448 записей «эпизод-статья». Дополнительно мы описываем протокол слепой человеческой оценки для проверки согласованности автоматических метрик и экспертных суждений. Эксперименты с пятью базовыми подходами к рекомендации научных статей показывают, что PaperFlow достигает наиболее сильного ранжирования на основе oracle, наивысшей поведенческой согласованности с симулированными выборами чтения и лучшего показателя слепой человеческой оценки.

Socratic-SWE: саморазвивающиеся агенты кодирования на основе навыков, полученных из трассировок
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

Jun 5

ByChuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

Агенты разработки ПО на основе больших языковых моделей (LLM) стали центральным испытательным стендом для оценки возможностей языковых моделей в реальных условиях, однако их обучение по-прежнему ограничено доступностью качественных задач SWE. Существующие методы синтетических данных обычно создают задачи с помощью фиксированных процедур мутации или внесения ошибок, что делает результирующие распределения в значительной степени независимыми от собственных слабых мест агента и хода обучения. Мы представляем Socratic-SWE — замкнутую самоэволюционирующую структуру, которая повторно использует исторические трассы решения агента как источник обучающего сигнала. Вместо того чтобы рассматривать трассы только как доказательства для вычисления вознаграждения, Socratic-SWE извлекает из них структурированные навыки агента, которые обобщают повторяющиеся неудачи и эффективные шаблоны исправлений. Затем эти навыки направляют генерацию целевых задач по исправлению в реальных репозиториях. Кандидатные задачи проверяются с помощью валидации на основе выполнения и оцениваются с помощью вознаграждения за согласование с градиентом решателя, так что отобранные задачи являются как верифицируемыми, так и полезными для улучшения решателя (Solver). Обновленный решатель порождает новые трассы, что позволяет учебной программе задач адаптироваться на последовательных итерациях. На наборах SWE-bench Verified, SWE-bench Lite, SWE-bench Pro и Terminal-Bench 2.0 Socratic-SWE последовательно превосходит самоэволюционирующие базовые линии при том же вычислительном бюджете, достигая 50,40% на SWE-bench Verified после трех итераций. Эти результаты позволяют предположить, что трассы решения могут служить масштабируемой основой для самоэволюционирующих SWE-агентов.

HarnessForge: Совместная эволюция обвязки и политик для адаптивных агентных систем
HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems

Jun 1

ByMingju Chen, Can Lv, Guibin Zhang, Heng Chang, Shiji Zhou

Агенты на основе больших языковых моделей (LLM) всё чаще сталкиваются с необходимостью работы в гетерогенных режимах задач, требующих различных парадигм выполнения. Это ставит под сомнение фиксированные агентные системы и стимулирует системную мета-адаптацию, выходящую за рамки изолированных обновлений компонентов. Хотя существующие работы адаптируют внешнюю обвязку (harness) или обучают лежащие в основе политики рассуждений, полносистемная адаптация остаётся недостаточно охарактеризованной. Пространство адаптации между структурой и выполнением редко делается явным, а совместимость между внешней обвязкой и внутренним механизмом рассуждений не оптимизируется совместно. Мы предлагаем HarnessForge — мета-адаптивный фреймворк для эволюции агентных систем на основе LLM. HarnessForge формулирует агентную систему как пару «обвязка–политика», определяя стабильное пространство адаптации, разделяющее структуру выполнения на уровне обвязки и поведение рассуждений на уровне политики. Затем он выполняет совместную эволюцию обвязки и политики посредством настройки обвязки под управлением ошибок и согласования политики с учётом обвязки. Эксперименты на пяти эталонных наборах данных из различных областей показывают, что HarnessForge последовательно улучшает как базовые модели Qwen3-4B, так и Qwen3-8B, превосходя базовые линии, использующие только обвязку или только политику, с приростом до 12,0% по сравнению с сильнейшей базовой линией, а также достигает выгодного компромисса между производительностью и эффективностью развёртывания. Это демонстрирует, что совместная эволюция обвязки и политики эффективна, и что исполнительная совместимость между обвязкой и политикой рассуждений необходима для адаптации агентной системы. Код доступен по адресу https://github.com/mingju-c/HarnessForge.

Almieyar-Oryx-BloomBench: двуязычный мультимодальный бенчмарк для когнитивно обоснованной оценки визуально-языковых моделей
Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

Jun 4

ByMohammad Mahdi Abootorabi, Omid Ghahroodi, Anas Madkoor, Marzia Nouri, Doratossadat Dastgheib, Mohamed Hefeeda, Ehsaneddin Asgari

Несмотря на стремительный прогресс визуально-языковых моделей (VLM), в этой области по-прежнему не хватает бенчмарков, позволяющих строго диагностировать их истинные способности к рассуждению и отслеживать значимый прогресс на пути к человекоподобному мультимодальному интеллекту. Большинство существующих оценок фокусируются на разрозненных или слабо связанных задачах, что скрывает критические когнитивные недостатки и даёт мало ориентиров для целенаправленного улучшения. Для восполнения этого пробела мы представляем BloomBench, часть серии бенчмарков Almieyar, — первый когнитивно обоснованный на человеческом познании двуязычный (английский-арабский) мультимодальный бенчмарк для VLM. Опираясь на таксономию Блума, BloomBench систематически оценивает шесть уровней познания (запоминание, понимание, применение, анализ, оценка, создание) с помощью тщательно разработанных заданий типа «изображение — вопрос — ответ». Созданный с использованием полуавтоматизированного конвейера и валидированный посредством стратифицированного гибридного протокола обеспечения качества, он обеспечивает масштабируемость, культурную инклюзивность и лингвистическую точность. Используя эту структуру, мы проводим всестороннее исследование современных VLM для диагностики их когнитивных профилей. Наш анализ выявляет резкую когнитивную асимметрию: хотя передовые модели демонстрируют высокие потолки производительности в области семантического понимания, они существенно затрудняются с фактическим воспроизведением (запоминанием) и творческим синтезом. Это показывает, что текущая общая мультимодальная компетентность маскирует более глубокие ограничения в отдельных когнитивных слоях. Кроме того, наше исследование подчеркивает критический разрыв в производительности между арабским и английским языками, обнажая ограничения современного кросс-лингвистического мультимодального рассуждения. Эти результаты закладывают основу для разработки более когнитивно согласованных и инклюзивных VLM. Структура бенчмарка и набор данных доступны по адресу: https://github.com/qcri/Almieyar-Oryx-BloomBench.

SPACENUM: Пересмотр пространственного числового понимания в VLMs
SPACENUM: Revisiting Spatial Numerical Understanding in VLMs

May 22

ByJianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

Визуально-языковые модели (VLM) все чаще развертываются в воплощенных средах, где им необходимо генерировать числовые выходные данные, такие как величины действий и пространственные координаты. Хотя эти числа кажутся осмысленными, остается неясным, действительно ли эти числовые выходные данные обусловлены пространственным восприятием. Поэтому в данной работе мы заново исследуем пространственное числовое понимание с помощью SpaceNum — единой рамки, охватывающей две взаимодополняющие постановки: числа как динамические переходы во время пространственного исследования и числа как статические компоновки в пространственном рассуждении. Мы формулируем две двунаправленные задачи, Num2Space и Space2Num, чтобы оценить, насколько хорошо VLM отображают взаимосвязь между пространственной структурой со стороны зрения и числовыми представлениями со стороны языка. Мы систематически изучаем, действительно ли современные VLM понимают числовые значения в пространственных контекстах. В рамках динамических переходов и статических компоновок мы обнаруживаем, что модели в значительной степени не могут привязать числа к пространственному смыслу и часто выполняют задачи на уровне случайного угадывания. С помощью анализа ошибок, анализа цепочек рассуждений и контролируемых вмешательств мы показываем, что современные VLM сильно полагаются на поверхностные пространственные подсказки, с трудом строят стабильные представления, учитывающие координаты, и не способны абстрагировать структурированные пространственные компоновки из визуальных наблюдений. Мы также показываем, что явное рассуждение дает лишь незначительные улучшения, в то время как тонкая настройка может частично улучшить пространственное числовое понимание и переноситься на внешние бенчмарки пространственного рассуждения.

Stream3D-VLM: Онлайн понимание трехмерного пространства с инкрементальными геометрическими априорными знаниями
Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors

Jun 5

ByHanxun Yu, Xuan Qu, Lei Ke, Boqiang Zhang, Yuxin Wang, Jianke Zhu, Dong Yu

Несмотря на прогресс в понимании 3D-сцен, существующие большие мультимодальные 3D-модели работают в офлайн-режиме, требуя полных наблюдений сцены или заранее заданных видеоклипов. В данной работе мы представляем онлайн 3D-модель «язык-зрение», которая обеспечивает пространственное понимание в реальном времени из потокового видео. Наш подход использует авторегрессионное моделирование управления потоком на основе задачи предсказания следующего токена LLM для обучения моментам ответа, а также применяет легковесный модуль интеграции визуально-пространственных признаков (VSFI) для инкрементального внедрения временно согласованных геометрических априорных знаний в визуальный поток. Для снижения вычислительных затрат при декодировании длинных контекстов мы предлагаем подключаемый модуль геометрически-адаптивного сжатия вокселов (GAVC) для эффективного сжатия визуальных токенов. Для решения проблемы нехватки потоковых 3D-языковых данных мы дополнительно разрабатываем масштабируемый конвейер генерации данных, который собирает более 1 млн онлайн пространственно-временных 3D QA-пар и создает комплексный бенчмарк, охватывающий 29 задач. Обширные эксперименты показывают, что наш подход значительно превосходит как проприетарные модели, так и модели с открытым исходным кодом в задачах онлайн и офлайн пространственного понимания, рассуждения и привязки 3D. Страница проекта доступна по адресу https://stream3d-vlm.github.io/.

Сборник рецептов 3D-зрения: данные, парадигмы обучения и применение
A Cookbook of 3D Vision: Data, Learning Paradigms, and Application

Jun 2

ByHongyang Du, Zongxia Li, Dawei Liu, Runhao Li, Haoyuan Song, Qingyu Zhang, Yubo Wang, Jingcheng Ni, Shihang Gui, Congchao Dong, Tao Hu

Трехмерное зрение стремительно развивается благодаря все более разнообразным представлениям данных, парадигмам обучения и стратегиям моделирования. Однако эта область остается фрагментированной с точки зрения представлений и эталонных тестов, что затрудняет выработку единых взглядов на эффективность, точность и масштабируемость. Данная работа предлагает таксономию трехмерного зрения, ориентированную на данные, которая связывает геометрические представления, наборы данных, обучающие фреймворки и приложения в рамках единой концептуальной карты. Мы начинаем с анализа основных структурных представлений 3D-данных — облаков точек, сеток, вокселей и 3D-гауссиан, — а также конвейеров их получения. Затем мы рассматриваем, как проектирование наборов данных, построение эталонных тестов и режимы обучения с учителем определяют последние достижения, включая 3D-обучение под надзором 2D-данных, неявные нейронные представления и 4D-моделирование мира. С помощью этого интегративного подхода мы проясняем взаимосвязи между представлениями, парадигмами обучения и прикладными задачами в реконструкции, генерации и моделировании видео, предлагая консолидированный взгляд на emerging trends в направлении баланса между эффективностью и точностью, а также мультимодального геометрического обоснования.

К извлечению пространств взаимодействий для агентного поиска
Towards Retrieving Interaction Spaces for Agentic Search

Jun 5

ByShengyao Zhuang, Yuansheng Ni, Hengxin Fun, Jimmy Lin, Xueguang Ma

Поисковые агенты по-прежнему наследуют методологию неагентного информационного поиска: ретривер ранжирует корпус, а агент считывает небольшой набор возвращённых документов. Недавние работы по прямому взаимодействию с корпусом (Direct Corpus Interaction, DCI) показывают, что агенты могут взаимодействовать с исходным корпусом с помощью оболочечных инструментов, таких как grep и чтение файлов. Однако неограниченное взаимодействие не масштабируется: любая широкая команда оболочки означает сканирование всего корпуса, а задержка резко возрастает при его увеличении. Мы утверждаем, что роль поиска для агентного поиска заключается не только в отборе документов, помещающихся в контекстное окно LLM, но и в построении пространства взаимодействия: ограниченного подмножества корпуса, которое агент может исследовать с помощью соответствующих инструментов. Отсюда вытекают два конструктивных следствия. Пространство нуждается в границе, обеспечиваемой поиском, а объекты внутри него должны быть обработаны для взаимодействия. В качестве подтверждения концепции мы предлагаем RISE (Retrieving Interaction SpacE — извлечение пространства взаимодействия): мы используем BM25 для построения пространства взаимодействия; при этом его документы обрабатываются во время индексации для навигации в стиле командной оболочки. На BrowseComp-Plus RISE достигает точности 78% с gpt-5.4-mini при использовании чистого DCI-базиса, затрачивая примерно четверть стоимости на запрос. При 1 миллионе документов RISE-BM25 достигает 81% на gpt-5.4-mini, тогда как DCI на gpt-5.4-nano снижается до 60% при 33 отказах из 100 по реальному времени.

Энтропия как структурный априор: как логарифмический барьер в пространстве убеждений DiT стимулирует музыкальное разнообразие и развитие
Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

Jun 5

ByZixi Li, Youzhen Li

Обычно избегают использования взвешивания потерь на основе уверенности в генеративных моделях, поскольку оно ускоряет накопление ошибок, когда модель уверенно ошибается, однако эта интуиция нарушается в случае контролируемого обучения диффузионных моделей. Мы предлагаем логарифмический барьер Эйсбаха — параметрически свободный вес, выведенный из энтропии пространственного энергетического распределения выхода DiT: высокая энтропия ослабляет градиент, а низкая — сохраняет его. Применение этого подхода к тонкой настройке Stable Audio 3 Medium с помощью LoRA на MusicCaps неожиданно приводит к более сильному тематическому развитию, более чёткой акустической дифференциации и более высокому текстурному разнообразию по сравнению с обучением без взвешивания — противоположность коллапсу моды. Это работает потому, что в контролируемой диффузии направление градиента привязано к истинному значению, поэтому уверенность лишь масштабирует размер шага, а также потому, что временна́я энтропия снижает вес плоских образцов, сохраняя при этом высококонтрастные. В результате возникает онлайн-самореферентный учебный набор данных, который формируется исключительно за счёт прямого прохода, с проанализированной динамикой уровней шума и проверяемыми предсказаниями.

CORE: Контрастивная рефлексия обеспечивает быстрое улучшение способности к рассуждению
CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning

May 27

ByLinas Nasvytis, Simon Jerome Han, Ben Prystawski, Satchel Grant, Noah D. Goodman, Judith E. Fan

Языковые модели могут использовать верифицируемые вознаграждения для улучшения в широком спектре задач, требующих рассуждений. Однако как параметрические (например, RLVR), так и непараметрические (например, оптимизация промптов) подходы к этому обычно требуют сотен обучающих примеров и тысяч прогонов модели, что делает их дорогостоящими в лучшем случае и нереализуемыми в худшем. Для решения этой задачи мы представляем Contrastive Reflection (CORE) — непараметрический обучающий алгоритм, который сравнивает прошлые следы рассуждений для генерации инсайтов: кратких описаний на естественном языке стратегий и ограничений рассуждений, отражающих различия между успешными и неуспешными попытками решения задач. На четырех задачах, требующих рассуждений, мы демонстрируем, что CORE обеспечивает более быстрое улучшение, чем как параметрические (GRPO), так и непараметрические (GEPA, эпизодический RAG и MemRL) методы, при этом используя меньше прогонов. При фиксированных бюджетах прогонов и всего пяти обучающих примерах мы затем показываем, что CORE также достигает сравнимого или большего прироста производительности по сравнению с каждым из базовых методов. Наконец, мы подчеркиваем, что CORE существенно более контекстно-эффективен, чем непараметрические базовые методы, требуя меньше токенов в промпте при сохранении изученных знаний в виде компактных интерпретируемых инсайтов на естественном языке. Таким образом, наши результаты свидетельствуют о том, что дистилляция контрастов между успешными и неуспешными следами рассуждений в абстрактные и полезные инсайты может обеспечить более эффективный и интерпретируемый путь к самоулучшению модели, чем обновление весов, оптимизация промптов или прямое повторное использование сохраненных следов рассуждений.

Когда градиенты сталкиваются: режимы отказа многоцелевой оптимизации промптов для LLM-судей
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges

May 25

ByParth Darshan, Abhishek Divekar

Настройка LLM-судьи под конкретную задачу или предметную область часто требует одновременной оптимизации его промпта по нескольким критериям оценки. Методы текстовых градиентов автоматизируют этот процесс для одного критерия, однако они выдают критические замечания на естественном языке, а не числовые векторы. Таким образом, инструментарий разрешения конфликтов из многозадачного обучения (PCGrad, MGDA) неприменим в условиях многоцелевых текстовых градиентов. Мы тестируем пять режимов декомпозиции оптимизаторов текстовых градиентов, варьируя объём перекрёстной информации, которой обмениваются LLM потерь, градиента и оптимизатора. В 6 из 10 конфигураций мы наблюдаем, что оптимизация никогда не улучшает исходный промпт. Специфичность градиента падает на 59% (с 9,0 до 3,7), когда LLM градиента обрабатывает несколько критериев совместно. Отдельно мы отмечаем, что простое объединение пошаговых инструкций в единый промпт снижает коэффициент Спирмена (rho) на -5,3%. Эти результаты выявляют два разделимых режима сбоя: разбавление градиента на этапе оптимизации и интерференцию инструкций на этапе инференса, которые вместе ограничивают пространство проектирования для многоцелевой настройки судей с использованием текстовой обратной связи.

Обучение с подкреплением на основе богатой обратной связи с дистрибуционным DAgger
Reinforcement Learning from Rich Feedback with Distributional DAgger

Jun 3

ByRishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

Модели рассуждений быстро развиваются, но доминирующая парадигма обучения с подкреплением на основе проверяемых вознаграждений (RLVR) остается удивительно узкой: генерируется множество ответов, и каждый из них вознаграждается одним битом, указывающим, правилен ли окончательный ответ. Однако многие сценарии предоставляют богатую обратную связь, включая трассировки выполнения, выводы инструментов, исправления экспертов и самооценки модели. Мы изучаем, как использовать такую обратную связь с помощью дистрибутивного варианта классического алгоритма имитационного обучения DAgger, где обучающийся имеет локальный доступ к распределению эксперта по состояниям, посещаемым текущей политикой. Это дает простую целевую функцию прямой кросс-энтропии, которая допускает эксперта в виде "черного ящика" и чей градиент на уровне последовательности осуществляет детальное распределение кредита путем распространения будущего несоответствия между экспертом и учеником на более ранние решения. Мы показываем, что предыдущие методы RL с целями самодистилляции на основе обратной KL-дивергенции или дивергенции Дженсена-Шеннона не гарантируют монотонное улучшение политики: даже если у эксперта более высокое вознаграждение, их обновления могут увеличивать вероятность худших действий. В отличие от этого, мы показываем, что прямая кросс-энтропия допускает монотонное улучшение политики и имеет гарантии на сожаление. Кроме того, мы показываем, что наша целевая функция оптимизирует нижнюю границу взвешенной учителем вероятности успеха, что приводит к улучшению показателя Pass@N. Эмпирически наш подход DistIL превосходит RLVR и RL с базовыми методами самодистилляции в различных областях: научные рассуждения, программирование и решение сложных математических задач.

Compress-Distill: сжатие трасс рассуждений для эффективной дистилляции знаний
Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

Jun 4

ByMaxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham

Модели рассуждений генерируют длинные цепочки рассуждений (chain-of-thought), которые дороги в дистилляции и способствуют многословным выходным данным студентов. Мы исследуем пост-хок компрессию таких следов перед дистилляцией знаний. Два учителя, Qwen3.5-397B-A17B и gpt-oss-120B, генерируют примерно по 283 тыс. корректных следов; две модели, дообученные на инструкциях, сжимают их до 8,6–21,0% от исходной длины в символах. В рамках основной сетки из 48 запусков и семи абляций по усечению учителя Qwen сжатые следы сокращают количество токенов для обучения до 12–30% от исходного, ускоряют обучение в 2,0–7,6 раза и уменьшают длину выходных данных при инференсе в 3–19 раз, при этом reductions менее выражены для более короткого учителя gpt-oss. Однако необработанные следы сохраняют наивысшую точность на downstream-задачах при любом масштабе и для обоих учителей. Абляция с усечением необработанных следов, сопоставимых по длине, показывает, что сжатие не сводится лишь к меньшему токенному бюджету: модели-компрессоры обычно превосходят или сравнимы с наивным усечением, особенно для меньших студентов, при этом сохраняя более короткие выходные данные при инференсе. В целом, сжатие следов рассуждений представляет собой компромисс между точностью и эффективностью, а не бесплатное улучшение: студенты сохраняют до 96% точности необработанных следов, одновременно достигая до 18-кратного повышения эффективности на токен; при масштабе 0,8B с LoRA сжатые следы сокращают разрыв между необработанными и сжатыми, но не превосходят необработанные.

LayerRoute: Адаптивный пропуск слоев, обусловленный входными данными, посредством тонкой настройки LoRA для агентных языковых моделей
LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models

Jun 1

ByPrateek Kumar Sikdar

Агентные системы языковых моделей чередуют два структурно различных типа шагов: структурированные вызовы инструментов (короткие, детерминированные, с низкой перплексией) и открытые шаги планирования/рассуждения (длинные, сложные, с высокой перплексией). Несмотря на такую гетерогенность, современные системы инференса применяют одинаковые вычислительные затраты к каждому шагу. Мы представляем LayerRoute — легковесный адаптер, который обучается выборочно пропускать блоки трансформера для каждого входного образца. LayerRoute дополняет каждый из 24 блоков трансформера в Qwen2.5-0.5B-Instruct: (1) маршрутизатором на уровне слоя (~897 параметров, Linear(896,1)), который выдает жесткий бинарный шлюз через прямой оценщик, и (2) LoRA-адаптерами (ранг 8, ~1,08M параметров) на проекциях внимания Q/K/V/O. Веса основной модели остаются замороженными. Один сквозной проход обучения на агентных данных (Hermes, Glaive, GSM8K, Turing) с членом регуляризации шлюзов заставляет систему обнаруживать, какие блоки являются пропускаемыми для каждого типа входных данных. После 3000 шагов (6,4 минуты на A100 40GB) LayerRoute достигает дифференциала пропусков в 12,91%: вызовы инструментов пропускают 15,25% FLOPs, тогда как шаги планирования — лишь 2,34%, используя всего 1,10M обучаемых параметров (0,22% от 494M параметров основной модели). Качество улучшается по сравнению с базовой моделью за счет LoRA-адаптации, с дельтой перплексии -1,29 для вызовов инструментов и -1,30 для планирования.

Параметрическое внедрение социальной идентичности и диверсификация в симуляции общественного мнения
Parametric Social Identity Injection and Diversification in Public Opinion Simulation

Jun 1

ByHexi Wang, Yujia Zhou, Bangde Du, Qingyao Ai, Yiqun Liu

Большие языковые модели (БЯМ) недавно начали использоваться в качестве синтетических агентов для моделирования общественного мнения, предлагая многообещающую альтернативу дорогостоящим и медленным опросам людей. Несмотря на свою масштабируемость, современные методы моделирования на основе БЯМ не способны отразить социальное разнообразие, демонстрируя сглаженные межгрупповые различия и излишне однородные ответы среди демографических групп. Мы идентифицируем это ограничение как явление коллапса разнообразия (Diversity Collapse) в скрытых представлениях БЯМ, при котором различные социальные идентичности становятся всё менее различимыми по мере прохождения слоёв. Основываясь на этом наблюдении, мы предлагаем параметрическое внедрение социальной идентичности (PSII) — общую структуру, которая напрямую вводит явные параметрические представления демографических атрибутов и ценностных ориентаций в промежуточные скрытые состояния БЯМ. В отличие от кондиционирования личности на основе промптов, PSII обеспечивает тонко настраиваемую и управляемую модуляцию идентичности на уровне представлений. Обширные эксперименты на данных World Values Survey с использованием нескольких открытых БЯМ показывают, что PSII значительно улучшает распределительную точность и разнообразие, снижая расхождение Кульбака-Лейблера (KL-расхождение) с реальными данными опросов и одновременно повышая общее разнообразие. Данная работа даёт новое понимание контроля на уровне представлений для агентов на основе БЯМ и продвигает масштабируемое, учитывающее разнообразие моделирование общественного мнения.

К человекоподобному интерактивному распознаванию речи с агентной коррекцией и семантической оценкой
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

May 28

ByZixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen

Автоматическое распознавание речи (АРР) является ключевым компонентом человеко-компьютерного взаимодействия и всё более важным интерфейсом для ассистентов и агентов на основе больших языковых моделей. Однако большинство современных систем АРР по-прежнему следуют однопроходной парадигме, которая плохо согласуется с человеческой коммуникацией, где недопонимания разрешаются путём итеративного уточнения и доработки. Это несоответствие затрудняет исправление ошибок, критически важных для смысла, после их возникновения. Кроме того, потоковые метрики, такие как WER или CER, не в полной мере отражают данную проблему. Для преодоления этих ограничений мы формулируем интерактивное АРР как задачу многократного уточнения и предлагаем Agentic ASR — замкнутую структуру, объединяющую однопроходный фронтенд АРР с семантической коррекцией, маршрутизацией намерений и редактированием на основе рассуждений. Мы также вводим метрику семантической частоты ошибок на уровне предложений (S²ER) — метрику семантической оценки на основе LLM, а также интерактивную систему моделирования для масштабируемого и воспроизводимого бенчмаркинга. Эксперименты на многоязычных тестах, интенсивных по именованным сущностям, и тестах с переключением кодов показывают, что итеративное взаимодействие последовательно снижает семантические ошибки, причём выигрыш по S²ER значительно больше, чем по традиционным потоковым метрикам. Исследования согласования человека и ИИ, а также абляционные исследования дополнительно подтверждают надёжность семантического судьи и устойчивость предложенной структуры. Код доступен по адресу: https://interactiveasr.github.io/, а живая демонстрация — по адресу: https://i-asr.sjtuxlance.com/.

Игра дистилляции: адаптивные атаки и эффективные защиты
The Distillation Game: Adaptive Attacks & Efficient Defenses

May 29

ByYoussef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri

Атаки дистилляции создают компромисс при развертывании для поставщиков моделей: одни и те же выходные данные, которые делают модель более полезной, также могут облегчить её имитацию. Мы изучаем этот компромисс через минимаксную игру между учителем с ограничением полезности и адаптивным студентом. Предложенная нами схема даёт разрешимые односторонние правила реагирования: адаптивное правило оценки, в котором студент перевзвешивает высокоценные примеры, и шаблон защиты со стороны учителя, подавляющий выходные данные, наиболее полезные для дистилляции. На основе дешёвого прокси ценности примеров мы выводим произведение экспертов (Product-of-Experts, PoE) — простую защиту, требующую только прямого прохода, которая во время генерации комбинирует учителя с прокси-студентом. Эмпирически адаптивная оценка выявляет значительный разрыв между пассивным и адаптивным подходами: на современных методах защиты адаптивные студенты восстанавливают гораздо больше способностей, чем предполагает пассивная оценка на наборах данных GSM8K и MATH. В условиях такой более строгой оценки кажущийся разрыв в устойчивости между дорогими методами защиты и PoE существенно сокращается, при этом PoE остаётся значительно дешевле и сохраняет более качественные цепочки рассуждений. В целом наши результаты показывают, что сильную дистилляцию трудно остановить, и прогресс в противодействии дистилляции следует оценивать на основе адаптивных студентов, а не пассивных. Наш код доступен по адресу: https://github.com/ysfalh/distillation-game.

Генерация потокового видео с управлением силой потока
Streaming Video Generation with Streaming Force Control

Jun 5

ByHanhui Wang, Yiming Xie, Haiwen Feng, Zhaoyang Lv, Shenlong Wang, Huaizu Jiang

Мы представляем StreamForce — фреймворк для потоковой генерации видео, обеспечивающий физически обоснованное управление через непрерывные силовые воздействия. В отличие от предыдущих видеомоделей, которые обучали отдельные модели для разных типов сил, предполагали фиксированные силы или полагались на некаузальную обработку, StreamForce представляет собой каузальную и унифицированную модель, мгновенно и согласованно реагирующую как на локальные, так и на глобальные, изменяющиеся во времени силы. Для этого мы разработали унифицированное представление сил в качестве управляющего сигнала и создали конвейер дистилляции для генерации видео, управляемой силами. Наша модель сочетает эффективность авторегрессии с откликом на силы, обеспечивая стабильный фотометрический и динамический реализм. StreamForce работает со скоростью до 16,6 кадров в секунду на одном GPU, достигая передовых показателей как по соблюдению силовых воздействий, так и по реалистичности движений. Веб-сайт проекта: https://neu-vi.github.io/StreamForce/

ECI_{sem}: Семантическая остаточная эффективная контрастивная информация для оценки трудных отрицательных примеров
ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

Jun 5

ByAarush Sinha, Rahul Seetharaman, Aman Bansal

Выбор источников жестких негативных примеров для плотного поиска обычно определяется только после тонкой настройки и последующей оценки. Мы предлагаем ECI_{sem} — вариант семантического остатка эффективной контрастивной информации (ECI), который ранжирует кандидатов-источников негативных примеров с использованием замороженных эмбеддингов целевого кодировщика. ECI_{sem} не требует обучения, но требует разметки: каждый оцениваемый пример включает запрос, размеченный положительный пример и явный кандидат-негатив. ECI_{sem} строит взвешенную матрицу остаточной информации на основе целевой согласованности, семантической локальности, лексической остаточности и целевой функции разнообразия с лог-детерминантом. На источниках негативных примеров MS MARCO внутрисемейный ECI_{sem} ранжирует негативные примеры от LLM как наилучшие среди негибридных источников, а Dense+LLM — как наилучшие среди гибридных, что совпадает с сильнейшими совокупными результатами переноса на BEIR для DistilBERT, E5-base и Contriever. Контролируемые абляции показывают, что это соответствие зависит от использования семейства целевых кодировщиков, а дополнительные абляции демонстрируют устойчивость к возмущениям размера выборки, температуры, токенизатора и IDF-корпуса. Теория дает локальную линеаризованную связь со снижением потерь, в то время как эмпирическое исследование рассматривает последующую оценку как финальный тест.

Эмпирическое исследование характеристик и эволюции использования ИИ в репозиториях GitHub: свидетельства из комментариев к коду
Empirical Study on the Characteristics and Evolution of AI-usage in GitHub Repositories: Evidence from Code Comments

Jun 5

ByAbdullah Al Mujahid, Preetha Chatterjee, Mia Mohammad Imran

Разработчики все чаще используют ИИ-инструменты, такие как ChatGPT, Copilot и Claude, в повседневных программных рабочих процессах, однако предыдущие исследования зачастую оценивают результаты работы LLM изолированно, не изучая, как разработчики адаптируют их в реальных проектах. Мы анализируем 35 361 комментарий к коду на GitHub, прямо упоминающий использование ИИ, и соответствующие блоки кода. Сначала мы вручную кодируем 500 уникальных комментариев и блоков кода для построения таксономии видов деятельности при разработке с помощью ИИ, затем аннотируем полный набор данных с помощью двух классификаторов на основе LLM и агрегируем прогнозы с помощью метода максимизации ожидания Давида-Скена. Также мы анализируем 12 996 последующих сообщений коммитов, чтобы изучить, как код, созданный с помощью ИИ, эволюционирует после внедрения, и исследуем временные тенденции с декабря 2022 года по март 2026 года. Наши результаты показывают, что разработчики в основном используют LLM для реализации кода, за чем следуют улучшение кода, отладка, документирование и тестирование. Последующие коммиты часто включают рефакторинг и очистку, интеграцию и расширение функциональности, а также исправление ошибок, что указывает на постоянный человеческий контроль при адаптации кода, созданного с помощью ИИ. Со временем комментарии, ссылающиеся на ИИ, смещаются от прямой генерации кода в сторону поддержки знаний и концепций, а также улучшения кода. Эти результаты позволяют предположить, что инструменты ИИ внедряются не только как средства генерации кода, но и как механизмы совместной поддержки, результаты которых разработчики со временем дорабатывают, расширяют и исправляют.

Измерение робастности модели с помощью информации Фишера: спектральные границы, теоретические гарантии и практические алгоритмы
Measuring Model Robustness via Fisher Information: Spectral Bounds, Theoretical Guarantees, and Practical Algorithms

Jun 3

ByChong Zhang, Xiang Li, Jia Wang, Qiufeng Wang, Xiaobo Jin

Устойчивость глубоких нейронных сетей имеет решающее значение для их применения в критически важных с точки зрения безопасности областях, однако существующие методы оценки часто зависят от конкретных атак и лишены интерпретируемости. Мы предлагаем обоснованный показатель устойчивости, не зависящий от атак, основанный на спектральной норме информационной матрицы Фишера (Fisher Information Matrix, FIM), который количественно оценивает наихудшую чувствительность распределения выходных данных модели к возмущениям входных данных. Теоретически мы устанавливаем, что FIM равна дисперсии якобиана по входным данным, и выводим замкнутые формы спектральных границ для распространенных архитектур, включая VGG, ResNet, DenseNet и Transformer, что дает первое теоретическое ранжирование устойчивости. Для обеспечения масштабируемой оценки мы разрабатываем эффективные алгоритмы, включающие степенной метод (power iteration) и оценку на основе метода Хатчинсона, которые поддерживают как настройки с белым ящиком (white-box), так и с черным ящиком (black-box). Обширные эксперименты на нескольких наборах данных, включая CIFAR, ImageNet и медицинские изображения, а также на нескольких архитектурах, показывают сильную корреляцию между нашим показателем и уязвимостью к состязательным атакам. Наш фреймворк служит интерпретируемым диагностическим инструментом, дополняющим оценки на основе атак, предоставляя понимание чувствительности архитектуры и направляя проектирование более устойчивых моделей. Код доступен по адресу: https://github.com/franz-chang/SRP/.

Эффективные по данным авторегрессионно-диффузионные языковые модели посредством дистилляции на политике
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Jun 4

ByXingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

Мы исследуем преобразование авторегрессионных языковых моделей (ARLM) в диффузионные языковые модели (DLM). В отличие от обучения с нуля, в предыдущих работах каузальное внимание в ARLM заменяется двунаправленным, после чего полученная модель обучается с использованием DLM-целевой функции. Однако такие подходы вызывают два распределённых сдвига. Во-первых, переход от цели предсказания следующего токена к DLM-цели может привести к потере знаний, приобретённых ARLM в процессе обучения. Во-вторых, стандартные DLM страдают от несоответствия между обучением и инференсом, поскольку функция потерь на этапе обучения определяется на случайно замаскированных последовательностях, а не на траекториях, порождаемых на инференсе при декодировании на основе уверенности. Для решения обеих проблем мы предлагаем диффузионную языковую модель на политике (OPDLM), в которой для преобразования ARLM в DLM применяется дистилляция на политике (OPD). В частности, OPDLM обучается с помощью самодистилляции на политике, где ученик (ARLM с двунаправленным вниманием) генерирует собственные траектории, а учитель (исходная замороженная ARLM) передаёт свои знания, предоставляя целевые логиты для этих траекторий. Благодаря прямому обучению в стиле on-policy, OPDLM устраняет несоответствие между обучением и инференсом в DLM, а дистилляция от исходной модели повышает сохранение знаний, полученных от ARLM. Эмпирические результаты показывают, что OPDLM требует в 15–7000 раз меньше обучающих токенов, демонстрируя высокую производительность на широком спектре задач. OPDLM позволяет избежать непомерно высоких затрат на предварительное обучение DLM и позиционирует преобразование DLM как форму постобучения ARLM.

TBD-VLA: Временная блочная диффузионная модель видения-языка-действия
TBD-VLA: Temporal Block Diffusion Vision Language Action Model

Jun 5

BySung-Wook Lee, Xuhui Kang, Yen-Ling Kuo

Дискретные модели «зрение-язык-действие» (VLA) обычно формулируют генерацию действий как предсказание следующего токена в дискретизированных пространствах действий, обусловливая каждый токен авторегрессивно на основе предыдущего контекста. Будучи эффективной, эта парадигма приводит к высокой задержке вывода и в значительной степени игнорирует временную структуру, присущую траекториям действий. Недавние попытки вводят параллельное декодирование для повышения эффективности, обеспечивая более быстрый вывод, но не имеют явных механизмов для моделирования зависимостей токенов. Мы представляем TBD-VLA — фреймворк VLA на основе дискретных токенов, который включает блочную диффузию для обеспечения генерации временных действий. Мы разбиваем последовательности действий на временные блоки и выполняем маскированную дискретную диффузию в каждом блоке, сохраняя при этом авторегрессивную генерацию между блоками. Этот дизайн объединяет временную авторегрессию и параллельное декодирование действий, достигая как сильной временной согласованности, так и повышенной скорости вывода. Кроме того, явное временное моделирование позволяет асинхронно выполнять фрагменты действий (например, Real-Time Chunking) с помощью временного инпейнтинга. TBD-VLA значительно превосходит предыдущие подходы VLA как в симуляции, так и в реальных задачах манипуляции, предлагая масштабируемый путь к быстрым, темпорально осведомленным дискретным моделям VLA. Веб-страница проекта: https://tbd-vla.github.io/

WorldBench: сложный и визуально разнообразный мультимодальный бенчмарк для рассуждений
WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

Jun 4

ByYida Yin, Harish Krishnakumar, Chung Peng Lee, Boya Zeng, Wenhao Chai, Shengbang Tong, Wenhu Chen, Hu Xu, Xingyu Fu, Gabriel Sarch, Aleksandra Korolova, Zhuang Liu

В реальных приложениях модели должны надежно работать в разнообразных условиях. Тем не менее, многие существующие мультимодальные бенчмарки расширяют типы задач, не охватывая визуальное разнообразие, необходимое для работы с открытыми визуальными входами. Мы представляем WorldBench — сложный и визуально разнообразный бенчмарк для рассуждений, предназначенный для оценки мультимодальных больших языковых моделей (MLLMs). Мы строим таксономию тысяч визуальных концепций в нескольких областях (например, живые существа). Руководствуясь этой таксономией, мы подбираем широкий набор изображений из поисковых систем и существующих наборов данных, чтобы всесторонне представить визуальный мир. Путем структурированных проб и ошибок мы вручную разрабатываем сложные вопросы, на которые передовые MLLMs не могут ответить. По результатам количественных и человеческих оценок WorldBench демонстрирует более высокое визуальное разнообразие, чем любой существующий разнообразный бенчмарк. Оценка 15 MLLMs на WorldBench выявляет слабые места в визуальном понимании: даже самая сильная модель достигает лишь 64,0% точности, в то время как некоторые модели работают лишь немного выше уровня случайности. Мы надеемся, что наша работа подчеркивает важность визуального разнообразия при создании мультимодальных бенчмарков.

Critic-R: Улучшение агентного поиска с использованием инструктивно-настроенных ретриверов с интроспективной обратной связью на естественном языке
Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

May 30

ByMd Zarif Ul Alam, Alireza Salemi, Hamed Zamani

Агентные поисковые системы итеративно взаимодействуют с моделями извлечения информации для ответа на сложные запросы. Несмотря на значительный прогресс, оптимизация ретриверов для агентного поиска остается сложной задачей, часто требующей интенсивного совместного обучения или эталонных аннотаций, что ограничивает применимость в реальных условиях. Мы предлагаем Critic-R — фреймворк, который явно замыкает обратную связь между агентом рассуждений и моделью извлечения как на этапе инференса, так и на этапе обучения. Critic-R вводит модель-критик, которая оценивает интроспективный след рассуждений агента после потребления извлеченных свидетельств, чтобы определить, достаточно ли извлеченный контекст поддерживает следующий шаг рассуждений. Critic-R включает два взаимодополняющих механизма: Critic-R-Zero — цикл уточнения запроса на этапе инференса, который итеративно переписывает запросы и инструкции по извлечению, и Critic-Embed — подход к оптимизации моделей извлечения, использующий успешные и неудачные траектории уточнения в качестве автоматического контроля без необходимости ручной аннотации релевантности. Мы оцениваем Critic-R на наборах данных HotpotQA, 2WikiMultihopQA, MuSiQue и Bamboogle. Результаты показывают, что Critic-R значительно улучшает как качество извлечения информации, так и точность итогового ответа.

Дополнение внимания экспоненциально затухающей памятью улучшает разреженность KV, учитывающую запросы
Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

May 27

ByXiuying Wei, Caglar Gulcehre

Эффективный инференс имеет решающее значение для языковых моделей с длинным контекстом, где доминирующую роль в вычислительных затратах играют вычисление внимания и доступ к KV-кэшу. Недавняя работа RAT+ предлагает рекуррентно-усиленный каркас внимания, который обеспечивает гибкое дилатированное внимание на этапе инференса. В данной статье мы исследуем, может ли эта экспоненциально затухающая память также улучшить существующие методы разреженного инференса с учетом запроса. Используя репрезентативные методы, включая Quest, MoBA и SnapKV, мы показываем, что RAT+ последовательно повышает точность по сравнению со стандартным вниманием в условиях ограниченного бюджета разреженности на восьми задачах поиска иголки в стоге сена. Мы подтверждаем эти улучшения как на опубликованных контрольных точках из статьи RAT+, так и на модели OLMo2-7B, для которой мы продолжили предварительное обучение с добавленным модулем памяти на 10B токенов. Наконец, мы предлагаем две гипотезы, объясняющие, почему данный модуль памяти способствует разреженному инференсу с учетом запроса, и разрабатываем целенаправленные эксперименты для их подтверждения.

Насколько далеко может зайти адаптация временных рядов аккордовых символов в передаче жанровой идентичности? Возможности и границы многожанрового моделирования аккордовых символов.
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

Jun 5

ByJinju Lee

Гармония — это компактный символический уровень, где пересекаются математические высотные соотношения, акустический консонанс и музыкальные условности. В настоящем отчёте последовательности аккордовых символов рассматриваются не как полное представление музыки, а как интерпретируемый и управляемый временной ряд для жанрово-локального гармонического моделирования. Отталкиваясь от замороженной контрольной точки музыкального трансформера поп-джаза, я оцениваю, насколько далеко небольшие интерфейсы адаптации могут расширить модель на одиннадцать целевых жанров: блюз, босса-нова, хоралы Баха, кантри, электроника, фолк, фанк, госпел, хип-хоп, R&B/соул и рок. Основное сравнение включает LoRA, IA3, BitFit, префиксную настройку и полную донастройку по 11 жанрам и 3 начальным состояниям, образуя полную сетку из 165 ячеек. Все пять методов улучшают замороженную базу по показателям прогнозирования аккордов на отложенных данных, с макроприростом от +2,89 до +3,61 балла; LoRA и IA3 показывают наивысшие результаты, но тесты Уилкоксона с поправками Холма и Бенджамини-Хохберга не подтверждают явного победителя. Контроль с выравниванием объёма данных уточняет этот результат: при субдискретизации жанров до общего корпусного размера IA3 сохраняет лидерство, но преимущество LoRA при полном объёме данных исчезает, и она опускается на последнее место, что указывает на частичную зависимость малых разрывов от данных. Базовый контроль с токеном-заполнителем также показывает высокие результаты, а адаптеры с неверным жанром часто превосходят замороженную базу, предполагая, что большая часть эффекта обусловлена легковесным обусловливанием на основе многократно используемой гармонической базы, а не конкретным семейством адаптеров. Дополнительные диагностические проверки (обход рангов, ротация неверных жанров, абляция базовой контрольной точки, классификация жанров только по аккордам, статистика сгенерированного вывода, оценка на реальных песнях и анализ дубликатов) подтверждают ограниченный вывод: адаптация аккордовых символов надёжно улучшает жанрово-локальное гармоническое прогнозирование, но одни лишь аккордовые символы не несут полной жанровой идентичности. Таким образом, отчёт избегает утверждений о воспринимаемой жанровой аутентичности или полном музыкальном качестве, для оценки которых требуются контролируемые эксперименты со слушателями или музыкантами.