ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Seedance 2.0: Развитие генерации видео для моделирования сложности мира
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0 — это новая нативная мультимодальная модель генерации аудио-видео контента, официально выпущенная в Китае в начале февраля 2026 года. По сравнению с предыдущими версиями Seedance 1.0 и 1.5 Pro, модель Seedance 2.0 использует унифицированную, высокоэффективную и масштабируемую архитектуру для совместной мультимодальной генерации аудио и видео. Это позволяет ей поддерживать четыре входные модальности: текст, изображение, аудио и видео, благодаря интеграции одного из наиболее полных в отрасли наборов функций для работы с мультимодальным контентом — от ссылочных материалов до редактирования. Модель демонстрирует существенное и всестороннее улучшение по всем ключевым аспектам генерации видео и звука. Как в экспертных оценках, так и в тестах с участием обычных пользователей, модель показала результаты, соответствующие ведущим уровням в данной области. Seedance 2.0 поддерживает прямую генерацию аудио-видео контента длительностью от 4 до 15 секунд с нативным разрешением вывода 480p и 720p. Для мультимодальных входных данных в качестве ссылки её текущая открытая платформа поддерживает до 3 видеоклипов, 9 изображений и 3 аудиоклипов. Кроме того, мы предоставляем версию Seedance 2.0 Fast — ускоренный вариант Seedance 2.0, предназначенный для повышения скорости генерации в сценариях с низкой задержкой. Seedance 2.0 значительно улучшила базовые возможности генерации и мультимодальную производительность, предлагая пользователям расширенный опыт для творчества.

2

GameWorld: К стандартизированной и проверяемой оценке мультимодальных игровых агентов
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

В стремлении к воплощённому универсальному агенту для взаимодействия с реальным миром мультимодальные большие языковые модели (МБЯМ) по-прежнему сталкиваются с проблемами высокой задержки, разреженной обратной связи и необратимыми ошибками. Видеоигры предлагают идеальный полигон с богатыми визуальными наблюдениями и замкнутым циклом взаимодействия, требующим тонкого восприятия, долгосрочного планирования и точного управления. Однако систематическая оценка этих способностей в настоящее время затруднена из-за неоднородных интерфейсов действий и эвристической верификации. Для решения этой проблемы мы представляем GameWorld — бенчмарк, предназначенный для стандартизированной и проверяемой оценки МБЯМ в качестве универсальных игровых агентов в браузерных средах. Изучаются два интерфейса игрового агента: (i) агенты, использующие компьютер, которые непосредственно генерируют управление клавиатурой и мышью, и (ii) универсальные мультимодальные агенты, которые действуют в семантическом пространстве действий с помощью детерминированного семантического парсинга действий. GameWorld содержит 34 разнообразные игры и 170 задач, каждая из которых снабжена проверяемыми метриками состояния для оценки по результату. Результаты, полученные для 18 пар «модель-интерфейс», свидетельствуют о том, что даже лучший агент ещё далёк от достижения человеческих возможностей в видеоиграх. Масштабные эксперименты с повторными прогонами всего бенчмарка демонстрируют его устойчивость, в то время как дальнейшие исследования в области взаимодействия в реальном времени, чувствительности к контекстуальной памяти и валидности действий выявляют дополнительные проблемы для игровых агентов. Таким образом, предлагая стандартизированную, проверяемую и воспроизводимую систему оценки, GameWorld закладывает прочную основу для продвижения исследований в области мультимодальных игровых агентов и не только. Страница проекта находится по адресу https://gameworld-bench.github.io.

3

RationalRewards: Вознаграждения за логику масштабируют визуальное создание как во время обучения, так и во время тестирования
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

Большинство моделей оценки для визуальной генерации сводят богатые человеческие суждения к единственной необъяснимой оценке, отбрасывая обоснования, лежащие в основе предпочтений. Мы демонстрируем, что обучение моделей оценки формулировать явные многомерные критические анализы перед выставлением балла превращает их из пассивных оценщиков в активные инструменты оптимизации, улучшая генераторы двумя взаимодополняющими способами: на этапе обучения структурированные обоснования предоставляют интерпретируемые, детализированные вознаграждения для обучения с подкреплением; на этапе тестирования цикл «Генерация-Критика-Уточнение» превращает критические анализы в целенаправленные редакции промптов, которые улучшают результаты без каких-либо обновлений параметров. Чтобы обучить такую модель оценки без трудоёмких разметок обоснований, мы представляем Preference-Anchored Rationalization (PARROT) — принципиальную框架, которая восстанавливает качественные обоснования из легкодоступных данных о предпочтениях с помощью анкерной генерации, фильтрации на согласованность и дистилляции. Получившаяся модель, RationalRewards (8B), достигает наилучших результатов в прогнозировании предпочтений среди открытых моделей оценки, конкурируя с Gemini-2.5-Pro, при этом используя в 10–20 раз меньше обучающих данных, чем сопоставимые базовые модели. В качестве вознаграждения для обучения с подкреплением она последовательно улучшает генераторы для текста-в-изображение и редактирования изображений по сравнению со скалярными аналогами. Наиболее поразительно, что её цикл критики и уточнения на этапе тестирования соответствует или превосходит тонкую настройку на основе обучения с подкреплением в нескольких тестах, что позволяет предположить, что структурированное рассуждение может раскрыть скрытые возможности существующих генераторов, которые неоптимальные промпты не могут активировать.

4

SpatialEvo: Саморазвивающийся пространственный интеллект через детерминированные геометрические среды
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

Пространственное мышление в трехмерных сценах является ключевой способностью для воплощенного интеллекта, однако постоянное улучшение моделей остается ограниченным дороговизной геометрической разметки. Парадигма саморазвития предлагает перспективный путь, но ее зависимость от консенсуса моделей для построения псевдоразметки приводит к тому, что обучение закрепляет, а не исправляет собственные геометрические ошибки модели. Мы выявляем уникальное свойство 3D-пространственного мышления, которое позволяет обойти это ограничение: истинные значения являются детерминированным следствием лежащей в основе геометрии и могут быть точно вычислены из облаков точек и поз камер без какого-либо участия модели. Основываясь на этом инсайте, мы представляем SpatialEvo — саморазвивающуюся систему для 3D-пространственного мышления, построенную вокруг Детерминированного Геометрического Окружения (DGE). DGE формализует 16 категорий задач пространственного мышления с помощью явных правил геометрической валидации и преобразует неразмеченные 3D-сцены в интерактивные оракулы с нулевым шумом, заменяя консенсус моделей объективной физической обратной связью. Единая политика с общими параметрами совместно эволюционирует в ролях задающего вопросы и решателя в рамках ограничений DGE: задающий генерирует физически корректные пространственные вопросы на основе наблюдений за сценой, а решатель выводит точные ответы против проверенной DGE истинной разметки. Адаптивный планировщик задач эндогенно концентрирует обучение на самых слабых категориях модели, создавая динамическую учебную программу без ручного проектирования. Эксперименты на девяти бенчмарках показывают, что SpatialEvo достигает наивысшего среднего балла как для масштабов 3B, так и 7B, с последовательным улучшением на бенчмарках пространственного мышления и без деградации на задачах общего визуального понимания.

5

OccuBench: Оценка ИИ-агентов на реальных профессиональных задачах с помощью языковых моделей мира
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

Ожидается, что ИИ-агенты будут выполнять профессиональную работу в сотнях профессиональных областей (от сортировки пациентов в приемном отделении до мониторинга безопасности ядерных реакторов и таможенной обработки импорта), однако существующие бенчмарки могут оценивать агентов лишь в немногих областях, где есть публичные среды. Мы представляем OccuBench — бенчмарк, охватывающий 100 реальных профессиональных сценариев задач в 10 отраслевых категориях и 65 специализированных областях, реализованный с помощью Языковых Моделей Мира (Language World Models, LWMs), которые симулируют предметно-ориентированные среды через генерацию ответов инструментов на основе больших языковых моделей (LLM). Наш многокомпонентный синтезирующий конвейер автоматически создает оценочные примеры с гарантированной разрешимостью, калиброванной сложностью и разнообразием, основанным на документах. OccuBench оценивает агентов по двум взаимодополняющим направлениям: выполнение задач в профессиональных областях и устойчивость к воздействиям среды при контролируемом внедрении сбоев (явные ошибки, неявная деградация данных и смешанные сбои). Мы оценили 15 передовых моделей из 8 семейств и обнаружили, что: (1) ни одна модель не доминирует во всех отраслях, поскольку каждая обладает уникальным профилем профессиональных способностей; (2) неявные сбои (усеченные данные, отсутствующие поля) сложнее как явных ошибок (тайм-ауты, ошибки 500), так и смешанных сбоев, поскольку они не имеют явных сигналов ошибок и требуют от агента самостоятельного обнаружения деградации данных; (3) более крупные модели, новые поколения и повышенные вычислительные усилия на рассуждение последовательно улучшают результаты. GPT-5.2 улучшает показатель на 27.5 баллов при переходе от минимальных к максимальным вычислительным усилиям на рассуждение; и (4) мощные агенты не обязательно являются мощными симуляторами среды. Качество симулятора критически важно для надежности оценки на основе LWMs. OccuBench предоставляет первую систематическую межотраслевую оценку ИИ-агентов на профессиональных задачах.

6

От P(y|x) к P(y): Исследование обучения с подкреплением в пространстве предварительного обучения
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

Хотя обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) значительно улучшает рассуждения больших языковых моделей (LLM) за счёт оптимизации условного распределения P(y|x), его потенциал фундаментально ограничен существующим распределением выходных данных базовой модели. Оптимизация маргинального распределения P(y) в пространстве предобучения преодолевает это узкое место, кодируя способность к рассуждению и сохраняя широкие возможности для исследования. Однако традиционное предобучение опирается на статические корпуса для пассивного обучения, что приводит к сдвигу распределения, препятствующему целенаправленному улучшению рассуждений. В данной статье мы представляем PreRL (Reinforcement Learning в пространстве предобучения), который применяет управляемые вознаграждением онлайн-обновления непосредственно к P(y). Мы теоретически и эмпирически подтверждаем сильное выравнивание градиентов между log P(y) и log P(y|x), устанавливая PreRL в качестве жизнеспособной замены стандартному обучению с подкреплением. Кроме того, мы раскрываем ключевой механизм: подкрепление негативных примеров (Negative Sample Reinforcement, NSR) в рамках PreRL служит исключительно эффективным драйвером для рассуждений. NSR-PreRL быстро отсекает неправильные пространства рассуждений, одновременно стимулируя эндогенные рефлексивные поведения, увеличивая переходные и рефлексивные мысли в 14,89 и 6,54 раза соответственно. Используя эти идеи, мы предлагаем Dual Space RL (DSRL), стратегию реинкарнации политики, которая инициализирует модели с помощью NSR-PreRL для расширения горизонта рассуждений перед переходом к стандартному обучению с подкреплением для тонкой оптимизации. Многочисленные эксперименты демонстрируют, что DSRL последовательно превосходит сильные базовые уровни, доказывая, что прореживание пространства предобучения эффективно направляет политику в уточнённое подпространство правильных рассуждений.

7

Трансферное обучение памяти: как воспоминания передаются между доменами в кодирующих агентах
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

Саморазвитие на основе памяти стало перспективной парадигмой для создания программных агентов. Однако существующие подходы обычно ограничивают использование памяти однородными предметными областями, не используя общие инфраструктурные основы, такие как среды выполнения и языки программирования, существующие в разнородных реальных задачах программирования. Для преодоления этого ограничения мы исследуем перенос памяти (Memory Transfer Learning, MTL), используя единый пул памяти из гетерогенных доменов. Мы оцениваем производительность на шести тестовых наборах по программированию, используя четыре представления памяти — от конкретных трассировок до абстрактных инсайтов. Наши эксперименты показывают, что междоменная память повышает среднюю производительность на 3,7%, в основном за счет передачи мета-знаний, таких как процедуры валидации, а не специфичного для задачи кода. Важно, что мы обнаружили: уровень абстракции определяет переносимость — высокоуровневые инсайты хорошо обобщаются, тогда как низкоуровневые трассировки часто вызывают отрицательный перенос из-за чрезмерной специфичности. Кроме того, мы показываем, что эффективность переноса масштабируется с размером пула памяти, и память может передаваться даже между разными моделями. Наша работа устанавливает эмпирические принципы проектирования для расширения использования памяти за пределы изолированных доменов. Страница проекта: https://memorytransfer.github.io/

8

Ошибки исследования и эксплуатации измеримы для языковых моделей-агентов
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

Языковые модели (LM) все чаще применяются для решения сложных открытых задач, требующих принятия решений, — от ИИ-программирования до физического ИИ. Ключевым требованием в таких сценариях является способность как исследовать пространство проблем, так и эффективно использовать приобретенные знания. Однако систематическое различение и количественная оценка исследований и эксплуатации на основе наблюдаемых действий без доступа к внутренней политике агента остается сложной задачей. Для решения этой проблемы мы разработали управляемые среды, вдохновленные практическими сценариями воплощенного ИИ. Каждая среда состоит из частично наблюдаемой двумерной сеточной карты и неизвестной задачи, представленной направленным ациклическим графом (DAG). Генерация карты может быть программно настроена для акцента на сложности исследования или эксплуатации. Для оценки, не зависящей от политики, мы разработали метрику для количественного определения ошибок исследования и эксплуатации на основе действий агента. Мы протестировали ряд передовых LM-агентов и обнаружили, что даже современные модели испытывают трудности с нашей задачей, причем разные модели демонстрируют distinct типы сбоев. Мы также заметили, что модели с рассуждением решают задачу эффективнее, и показали, что как исследование, так и эксплуатацию можно значительно улучшить с помощью минимальной инженерии окружения. Мы публикуем наш код https://github.com/jjj-madison/measurable-explore-exploit{здесь}.

9

Оптимизация целевой политики
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

В обучении с подкреплением (RL) при заданном промпте мы сэмплируем набор завершений из модели и оцениваем их. Возникают два вопроса: какие завершения должны получить большую вероятностную массу и как должны измениться параметры, чтобы реализовать это изменение? Стандартные методы policy-gradient отвечают на оба вопроса одновременно, поэтому обновление может привести к перерегулированию или недорегулированию в зависимости от скорости обучения, отсечения (clipping) и других настроек оптимизатора. Мы представляем Target Policy Optimization (TPO), который разделяет эти два вопроса. Для заданных оцененных завершений TPO строит целевое распределение q_i ∝ p_i^{старое} exp(u_i) и подгоняет политику к нему с помощью перекрестной энтропии. Градиент потерь по логитам сэмплированных завершений равен p^θ - q, который обращается в ноль, когда политика совпадает с целевой. На табличных бандитах, задачах с трансформерными последовательностями и RLVR для LLM с миллиардами параметров TPO показывает результаты, сопоставимые с PG, PPO, GRPO и DG на простых задачах, и существенно превосходит их в условиях разреженного вознаграждения. Код доступен по адресу https://github.com/JeanKaddour/tpo.

10

Sema Code: Разделение ИИ-агентов программирования на программируемую, встраиваемую инфраструктуру
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

Искусственные интеллекты для программирования стали центральным элементом рабочих процессов разработчиков, однако все существующие решения ограничивают свои возможности рассуждений определенной формой представления, такой как CLI, плагин для IDE или веб-приложение. Это ограничение создает системные барьеры, когда предприятия пытаются повторно использовать эти возможности в гетерогенных инженерных средах. Для решения этой проблемы мы представляем Sema Code — открытую фреймворк-ориентированную платформу для ИИ-программирования, построенную на принципах встраиваемости, модульности и приоритета фреймворка. Sema Code полностью отделяет ядро агента от всех клиентских слоев, публикуя его в виде автономной библиотеки npm, которой любая среда выполнения может управлять программно. Вокруг этой архитектуры мы разработали восемь ключевых механизмов: изоляцию движка в многопользовательской среде, FIFO-очередь ввода с безопасным восстановлением сеанса, адаптивное сжатие контекста, совместное планирование многоАгентных систем, интеллектуальное управление процессами на основе Todo, четырехуровневый асинхронный контроль разрешений, трехуровневую интеграцию с экосистемой, охватывающую MCP, Skills и Plugins, а также фреймворк фоновых задач с разделением привилегий на выполнение и наблюдение. В совокупности эти механизмы решают инженерные задачи преобразования сложного движка агента в общее программируемое ядро. Продемонстрировав архитектурную универсальность, один и тот же движок Sema Core одновременно поддерживает расширение для VSCode и многоканальный шлюз обмена сообщениями, который мы называем SemaClaw, для унификации взаимодействия с агентом на таких платформах, как Telegram и Feishu. Эти два решения представляют собой принципиально разные продуктовые формы, использующие идентичное ядро рассуждений и различающиеся только на клиентском уровне.

11

SemaClaw: Шаг к созданию универсальных персональных ИИ-агентов с помощью инженерии возможностей
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

Подъем OpenClaw в начале 2026 года знаменует момент, когда миллионы пользователей начали внедрять персональные ИИ-агенты в свою повседневную жизнь, делегируя им задачи — от планирования путешествий до многоэтапных исследований. Масштаб этого внедрения указывает на то, что две параллельные линии развития достигли переломного момента. Во-первых, это смена парадигмы в ИИ-инженерии: переход от инженерии промптов и контекста к инженерии управляющих систем — проектированию полной инфраструктуры, необходимой для превращения неограниченных агентов в контролируемые, аудируемые и надежные производственные системы. По мере конвергенции возможностей моделей этот управляющий уровень становится основным местом архитектурной дифференциации. Во-вторых, это эволюция взаимодействия человека и агента от дискретных задач к постоянным, контекстно-осознающим отношениям сотрудничества, что требует открытой, доверенной и расширяемой инфраструктуры управления. Мы представляем SemaClaw — фреймворк с открытым исходным кодом для многоАгентных приложений, который отвечает на эти изменения, делая шаг к универсальным персональным ИИ-агентам через инженерию управляющих систем. Наши основные вклады включают метод оркестрации гибридных команд агентов на основе DAG с двухфазным выполнением, систему поведенческой безопасности PermissionBridge, трехуровневую архитектуру управления контекстом и навык «агентной вики» для автоматизированного построения личной базы знаний.

12

Свободная геометрия: уточнение трёхмерной реконструкции с помощью более длинных версий самой себя
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

Прямые (feed-forward) модели 3D-реконструкции эффективны, но жестки: после обучения они выполняют вывод в zero-shot режиме и не могут адаптироваться к тестовой сцене. В результате визуально правдоподобные реконструкции часто содержат ошибки, особенно в условиях окклюзий, бликов и неоднозначных визуальных ключей. Чтобы решить эту проблему, мы представляем Free Geometry — фреймворк, который позволяет прямым моделям 3D-реконструкции саморазвиваться во время тестирования без наличия эталонных 3D-данных. Наше ключевое наблюдение заключается в том, что при получении большего количества ракурсов модель выдает более надежные и согласованные между видами реконструкции. Используя это свойство, для заданной тестовой последовательности мы маскируем подмножество кадров, чтобы создать самообучаемую задачу. Free Geometry обеспечивает кросс-ракурсную согласованность признаков между представлениями, полученными из полных и частичных наблюдений, сохраняя при этом попарные отношения, подразумеваемые скрытыми кадрами. Такая само-супервизия позволяет выполнять быструю перекалибровку с помощью легковесных обновлений LoRA, занимая менее 2 минут на набор данных на одном GPU. Наш подход стабильно улучшает передовые фундаментальные модели, включая Depth Anything 3 и VGGT, на 4 эталонных наборах данных, обеспечивая среднее улучшение на 3.73% в точности оценки позы камеры и на 2.88% в предсказании карты точек. Код доступен по адресу https://github.com/hiteacherIamhumble/Free-Geometry .

13

LangFlow: Непрерывная диффузия конкурирует с дискретными подходами в языковом моделировании
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

Непрерывная диффузия стала основой для высококачественного, управляемого и быстрого (за несколько шагов) генерации различных типов данных, таких как изображения. Однако в области языкового моделирования предыдущие модели непрерывной диффузии (continuous diffusion language models, DLMs) отставали от дискретных аналогов из-за разреженного пространства данных и недостаточно изученного пространства проектных решений. В данной работе мы устраняем этот разрыв с помощью LangFlow — первой непрерывной DLM, способной конкурировать с дискретной диффузией, — связывая DLM в пространстве эмбеддингов с методом сопоставления потоков (Flow Matching) через дивергенцию Брегмана, а также предлагая три ключевых нововведения: (1) мы выводим новую нижнюю оценку NLL на основе ОДУ для принципиальной оценки непрерывных языковых моделей на основе потоков; (2) мы предлагаем принцип информационной равномерности для установки графика зашумления, который обосновывает обучаемый планировщик шума на основе распределения Гумбеля; и (3) мы пересматриваем предыдущие протоколы обучения, включая самокондиционирование (self-conditioning), так как обнаружили, что оно улучшает как правдоподобие, так и качество сэмплов для DLM в пространстве эмбеддингов, причем его эффекты существенно отличаются от дискретной диффузии. Объединив все компоненты, LangFlow конкурирует с лучшими дискретными DLM как по перплексии (PPL), так и по генеративной перплексии (Gen. PPL), достигая PPL 30.0 на LM1B и 24.6 на OpenWebText. Она даже превосходит авторегрессионные базовые модели в условиях zero-shot переноса на 4 из 7 тестовых наборов. LangFlow представляет первое четкое свидетельство того, что непрерывная диффузия является перспективной парадигмой для языкового моделирования. Домашняя страница: https://github.com/nealchen2003/LangFlow

14

СОВЕТ: Важность токенов при дистилляции в режиме онлайн
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

Обучение с дистилляцией знаний на стратегии (OPD) обучает студента на основе его собственных траекторий с потактовым контролем со стороны учителя. Не все позиции токенов одинаково важны, однако существующие представления о значимости токенов неполны. Мы задаем прямой вопрос: какие токены несут наиболее полезный обучающий сигнал в OPD? Наш ответ заключается в том, что информативные токены происходят из двух областей: позиций с высокой энтропией студента и позиций с низкой энтропией студента, но высокой дивергенцией учитель–студент, где студент излишне уверен и ошибается. Эмпирически энтропия студента является сильным прокси первого порядка: сохранение 50% токенов с помощью энтропийной выборки соответствует или превосходит обучение на всех токенах, одновременно снижая пиковое потребление памяти до 47%. Однако одной энтропии недостаточно для учета второй важной области. Когда мы изолируем токены с низкой энтропией и высокой дивергенцией, обучение на менее чем 10% всех токенов почти достигает результатов базовых методов на полном наборе токенов, что демонстрирует: переоцененные токены несут плотный корректирующий сигнал, несмотря на то, что они практически невидимы для правил, основанных только на энтропии. Мы систематизируем эти находки в рамках TIP (Важность токенов при дистилляции на стратегии) — таксономии по двум осям: энтропия студента и дивергенция учитель–студент, а также даем теоретическое объяснение, почему энтропия полезна, но структурно неполна. Этот взгляд мотивирует правила выбора токенов, учитывающие тип и сочетающие неопределенность и расхождение. Мы проверяем эту картину на трех парах учитель–студент, охватывающих Qwen3, Llama и Qwen2.5, на данных MATH-500 и AIME 2024/2025, а также на бенчмарке DeepPlanning для долгосрочного агентского планирования, где обучение только на Q3 с использованием <20% токенов превосходит полную OPD на всех токенах. Наши эксперименты реализованы путем расширения репозитория OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, который поддерживает эффективную по памяти дистилляцию больших моделей при ограниченных GPU-бюджетах.

15

UI-Zoomer: Адаптивное приближение интерфейса на основе неопределенности для задач граундинга GUI
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

Граундинг графического интерфейса (GUI), заключающийся в локализации элементов интерфейса по скриншотам на основе текстовых запросов, остается сложной задачей для мелких иконок и плотных макетов. Методы увеличения на этапе тестирования улучшают локализацию за счет обрезки и повторного вывода в более высоком разрешении, но применяют обрезку единообразно ко всем экземплярам с фиксированными размерами областей, игнорируя факт наличия неопределенности модели в каждом конкретном случае. Мы предлагаем UI-Zoomer, беcтренинговую адаптивную систему увеличения, которая рассматривает как условие, так и масштаб увеличения как задачу количественной оценки неопределенности прогноза. Уверенность-чувствительный механизм объединяет пространственный консенсус среди стохастических кандидатов с уверенностью генерации на уровне токенов для выборочного запуска увеличения только в случаях неопределенной локализации. При срабатывании модуль определения размера области обрезки на основе неопределенности декомпозирует дисперсию прогноза на межвыборочное позиционное разброс и внутривыборочный разброс границ, выводя индивидуальный радиус обрезки для каждого экземпляра с помощью формулы полной дисперсии. Экстенсивные эксперименты на наборах данных ScreenSpot-Pro, UI-Vision и ScreenSpot-v2 демонстрируют стабильное улучшение по сравнению с сильными базовыми методами для различных архитектур моделей, достигая прироста в +13,4%, +10,3% и +4,2% соответственно, без необходимости дополнительного обучения.

16

TREX: Автоматизация тонкой настройки больших языковых моделей с помощью агентного древовидного поиска
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

Хотя большие языковые модели (LLM) позволили ИИ-агентам выполнять изолированные научные задачи, автоматизация сложных реальных рабочих процессов, таких как обучение LLM, остается серьезной проблемой. В данной статье мы представляем TREX — мульти-агентную систему, которая автоматизирует полный жизненный цикл обучения LLM. Оркестрируя взаимодействие между двумя основными модулями — Исследователем и Исполнителем — система бесшовно выполняет анализ требований, поиск литературы и данных в открытых источниках, формирование стратегий обучения, подготовку рецептов данных, а также обучение и оценку моделей. Многораундовый экспериментальный процесс моделируется в виде дерева поиска, что позволяет системе эффективно планировать пути исследования, повторно использовать исторические результаты и выводить обобщенные инсайты из итеративных испытаний. Для оценки возможности автоматизированного обучения LLM мы создали FT-Bench — бенчмарк, включающий 10 задач, основанных на реальных сценариях, от оптимизации базовых возможностей модели до улучшения производительности на узкоспециализированных задачах. Результаты экспериментов демонстрируют, что агент TREX последовательно оптимизирует производительность модели на целевых задачах.

17

ReconPhys: Восстановление внешнего вида и физических атрибутов по одному видео
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

Восстановление нежестких объектов с физической правдоподобностью остается серьезной проблемой. Существующие подходы используют дифференцируемый рендеринг для оптимизации отдельной сцены, восстанавливая геометрию и динамику, но требуют трудоемкой настройки или ручной разметки, что ограничивает практическую применимость и обобщаемость. Для решения этой проблемы мы предлагаем ReconPhys — первую прямую (feedforward) архитектуру, которая совместно обучается оценке физических атрибутов и реконструкции методом 3D Gaussian Splatting на основе одного монохромного видео. Наш метод использует двухветвевую архитектуру, обучаемую по самодостаточной стратегии, что исключает необходимость в размеченных данных по физике. Для заданной видеопоследовательности ReconPhys одновременно восстанавливает геометрию, внешний вид и физические атрибуты. Эксперименты на крупном синтетическом наборе данных демонстрируют превосходную производительность: наш метод достигает PSNR 21.64 при предсказании будущих кадров против 13.27 у современных оптимизационных методов, одновременно уменьшая расстояние Чемфера с 0.349 до 0.004. Ключевым преимуществом является скорость работы ReconPhys (<1 секунды) против часов у существующих методов, что позволяет быстро создавать ресурсы, готовые для симуляции в робототехнике и компьютерной графике.

18

MERRIN: Бенчмарк для извлечения и анализа мультимодальных свидетельств в зашумленных веб-средах
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

Мотивированные неполнотой и многошаговым характером поисковых запросов, а также мультимодальным, гетерогенным и зачастую противоречивым характером веб-результатов из реального мира, мы представляем MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) — размеченный человеком бенчмарк для оценки поисково-усиленных агентов. MERRIN измеряет способность ИИ-агентов идентифицировать релевантные модальности, извлекать мультимодальные свидетельства и выполнять многошаговые рассуждения на основе зашумленных веб-источников. Он отличается от предыдущих работ тремя важными аспектами: (1) использованием естественно-языковых запросов без явных указаний на модальность, (2) включением недостаточно изученных модальностей, таких как видео и аудио, и (3) требованием извлечения сложных, часто зашумленных или противоречивых мультимодальных свидетельств в процессе веб-поиска. Мы оцениваем разнообразные поисковые агенты, работающие на десяти моделях, включая мощные проприетарные модели (например, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) и модели с открытыми весами (Qwen3-4B/30B/235B), в трех режимах поиска (без поиска, нативный поиск и агентный поиск). Наши результаты показывают, что MERRIN является чрезвычайно сложным: средняя точность по всем агентам составляет 22,3%, при этом лучший агент достигает лишь 40,1%. Мы также наблюдаем, что хотя более сильные агенты, такие как Gemini Deep Research, демонстрируют более высокую производительность, прирост скромен из-за чрезмерного исследования; они выполняют больше шагов и используют больше инструментов, но часто отвлекаются на противоречивый или частично релевантный веб-контент, что приводит к неверным ответам. По сравнению с людьми эти агенты потребляют больше ресурсов, но достигают меньшей точности, в основном из-за неэффективного выбора источников и чрезмерной зависимости от текстовых модальностей. Эти результаты подчеркивают необходимость в поисковых агентах, способных к надежному поиску и рассуждениям в различных модальностях в зашумленных веб-средах, что делает MERRIN ценным полигоном для оценки таких способностей.

19

Генерация презентаций из статей на основе сюжетной линии с помощью ArcDeck
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

Мы представляем ArcDeck — многоагентный фреймворк, который формулирует задачу генерации презентаций из научных статей как структурированную реконструкцию нарратива. В отличие от существующих методов, которые напрямую суммируют исходный текст в слайды, ArcDeck явно моделирует логическую структуру исходной статьи. Сначала система анализирует входные данные для построения дискурсивного дерева и создания глобального документа обязательств, обеспечивая сохранение высокоуровневой цели. Эти структурные априорные знания затем направляют итеративный процесс многоагентного уточнения, в котором специализированные агенты последовательно критикуют и修订 черновой набросок презентации перед финальной визуализацией макетов и дизайна. Для оценки нашего подхода мы также представляем ArcBench — новый тщательно отобранный бенчмарк пар "научная статья-презентация". Результаты экспериментов демонстрируют, что явное моделирование дискурса в сочетании с координацией агентов с четкими ролями значительно улучшает нарративный поток и логическую связность генерируемых презентаций.

20

Само-дистилляция Ноль: Самокоррекция превращает бинарные вознаграждения в плотное обучение с учителем
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

Современные методы пост-обучения в верифицируемых условиях делятся на две категории. Обучение с подкреплением (RLVR) опирается на бинарные вознаграждения, которые широко применимы и мощны, но обеспечивают лишь разреженный контроль в процессе обучения. Дистилляция обеспечивает плотный покомпонентный контроль, обычно получаемый от внешнего учителя или с использованием высококачественных демонстраций. Сбор такого контроля может быть дорогостоящим или недоступным. Мы предлагаем Self-Distillation Zero (SD-Zero) — метод, который существенно более эффективен по выборкам обучения, чем RL, и не требует внешнего учителя или высококачественных демонстраций. SD-Zero обучает единую модель выполнять две роли: Генератор, который создает исходный ответ, и Ревизор, который, учитывая этот ответ и его бинарное вознаграждение, формирует улучшенный ответ. Затем мы выполняем самодистилляцию на политике, чтобы дистиллировать ревизора в генератор, используя покомпонентные распределения ревизора, обусловленные ответом генератора и его вознаграждением, в качестве контроля. По сути, SD-Zero обучает модель преобразовывать бинарные вознаграждения в плотный покомпонентный самоконтроль. На бенчмарках математических и программных рассуждений с моделями Qwen3-4B-Instruct и Olmo-3-7B-Instruct SD-Zero повышает производительность как минимум на 10% по сравнению с базовыми моделями и превосходит сильные базовые методы, включая Rejection Fine-Tuning (RFT), GRPO и Self-Distillation Fine-Tuning (SDFT), при одинаковом наборе вопросов и бюджете обучающих выборок. Обширные абляционные исследования демонстрируют две новые характеристики нашего алгоритма: (а) покомпонентную самолокализацию, при которой ревизор может идентифицировать ключевые компоненты, требующие исправления в ответе генератора на основе вознаграждения, и (б) итеративное саморазвитие, при котором улучшающаяся способность исправлять ответы может быть дистиллирована обратно в производительность генерации при регулярной синхронизации учителя.

21

Антропогенная региональная адаптация мультимодальной модели «зрение–язык»
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

Хотя область обработки визуально-языковой информации (VL) достигла значительных успехов в интеграции визуальной и текстовой информации для множества языков и доменов, до сих пор не существует специализированной системы для оценки антропоцентричной согласованности в VL-системах. Мы предлагаем два вклада для устранения этого пробела. Во-первых, мы представляем Антропогенную Региональную Адаптацию: новую парадигму, направленную на оптимизацию релевантности моделей для конкретных региональных контекстов при сохранении глобальных возможностей обобщения. Во-вторых, мы предлагаем простой, но эффективный метод адаптации под названием Географическое-обобщение-сделанное-просто (GG-EZ), который использует фильтрацию региональных данных и слияние моделей. В ходе всесторонних экспериментов на 3 VL-архитектурах: больших мультимодальных моделях, диффузионных моделях текст-изображение и моделях визуально-языкового embedding, а также на примере региональной адаптации в Юго-Восточной Азии (ЮВА), мы демонстрируем важность Антропогенной Региональной Адаптации и эффективность GG-EZ, показывая рост на 5-15% по метрикам культурной релевантности в ЮВА при сохранении более 98% глобальной производительности и даже периодическом её превышении. Наши результаты устанавливают Антропогенную Региональную Согласованность в качестве фундаментальной парадигмы для применимости мультимодальных VL-моделей в различных регионах и демонстрируют простой, но эффективный базовый метод, который оптимизирует региональную ценностную согласованность, сохраняя глобальную способность к обобщению.

22

UI-Copilot: Развитие автоматизации графического интерфейса для длительных задач с помощью оптимизации политики, интегрированной с инструментами
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

Агенты с графическим интерфейсом на основе MLLM продемонстрировали высокие возможности в решении сложных задач взаимодействия с пользовательским интерфейсом. Однако сценарии с длительным горизонтом планирования остаются сложными, поскольку эти агенты перегружены задачами, выходящими за пределы их внутренних возможностей, и страдают от деградации памяти, путаницы в ходе выполнения и математических галлюцинаций. Для решения этих проблем мы представляем UI-Copilot — коллаборативную框架, в которой GUI-агент фокусируется на выполнении задач, а облегченный ко-пилот обеспечивает помощь по запросу для извлечения из памяти и численных вычислений. Мы вводим разделение памяти для отделения постоянных наблюдений от временного контекста выполнения и обучаем агента политики выборочно вызывать ко-пилот в роли Извлекателя или Калькулятора в зависимости от требований задачи. Для обеспечения эффективного обучения вызову инструментов мы предлагаем Оптимизацию Политики с Интегрированными Инструментами (TIPO), которая раздельно оптимизирует выбор инструментов через одношаговое предсказание и выполнение задачи через многошаговые он-политичные прогоны. Результаты экспериментов показывают, что UI-Copilot-7B достигает наилучших результатов на сложном MemGUI-Bench, превосходя мощные GUI-агенты масштаба 7B, такие как GUI-Owl-7B и UI-TARS-1.5-7B. Более того, UI-Copilot-7B демонстрирует абсолютное улучшение на 17,1% на AndroidWorld по сравнению с базовой моделью Qwen, что подчеркивает сильную обобщающую способность UI-Copilot для реальных задач GUI.

23

SkVM: Компиляция навыков для эффективного выполнения повсюду
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

Агенты больших языковых моделей всё чаще используют навыки в качестве переиспользуемой единицы композиции. Хотя навыки распространяются на различных платформах для агентов, современные системы рассматривают их как необработанный контекст, что приводит к нестабильному поведению одного и того же навыка у разных агентов. Эта хрупкость подрывает переносимость навыков и эффективность их выполнения. Для решения этой проблемы мы проанализировали 118 000 навыков и почерпнули идеи из традиционного проектирования компиляторов. Мы рассматриваем навыки как код, а большие языковые модели — как гетерогенные процессоры. Чтобы сделать переносимость практичной, мы декомпозируем требования навыка в набор примитивных возможностей и оцениваем, насколько хорошо каждая пара «модель-обвязка» их поддерживает. На основе этих профилей возможностей мы предлагаем SkVM — систему компиляции и исполнения, разработанную для переносимого и эффективного выполнения навыков. На этапе компиляции SkVM выполняет компиляцию на основе возможностей, привязку к среде и извлечение параллелизма. Во время выполнения SkVM применяет JIT-твердение кода и адаптивную перекомпиляцию для оптимизации производительности. Мы оценили SkVM на восьми больших языковых моделях различного масштаба и трёх обвязках для агентов, охвативших SkillsBench и репрезентативные задачи на навыки. Результаты демонстрируют, что SkVM значительно повышает процент успешного выполнения задач в различных моделях и средах, одновременно сокращая потребление токенов до 40%. С точки зрения производительности SkVM достигает до 3,2-кратного ускорения за счёт улучшенного параллелизма и снижения задержек в 19–50 раз благодаря твердению кода.

24

Журналируют ли ИИ-агенты для программирования как люди? Эмпирическое исследование
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

Логирование программного обеспечения является важнейшим элементом поддержки и отладки сложных систем, однако до сих пор неясно, как ИИ-агенты для написания кода справляются с этим нефункциональным требованием. В то время как предыдущие исследования характеризуют практики логирования, применяемые людьми, поведение ИИ-агентов и эффективность использования инструкций на естественном языке для управления ими остаются неизученными. Чтобы восполнить этот пробел, мы провели эмпирическое исследование 4550 запросов на включение изменений (pull requests), сгенерированных агентами, в 81 репозитории с открытым исходным кодом. Мы сравнили шаблоны логирования, используемые агентами, с базовыми показателями, характерными для людей, и проанализировали влияние явных инструкций по логированию. Мы выяснили, что агенты изменяют логирование реже, чем люди, в 58,4% репозиториев, хотя когда они это делают, плотность логов у них выше. Кроме того, явные инструкции по логированию встречаются редко (4,7%) и неэффективны, поскольку агенты не выполняют конструктивные запросы в 67% случаев. Наконец, мы наблюдаем, что люди выполняют 72,5% исправлений логов, сделанных после генерации кода, выступая в роли «тихих уборщиков», которые устраняют проблемы логирования и наблюдаемости без явного ревью. Эти результаты указывают на двойной провал инструкций на естественном языке (а именно, на недостаток инструкций по логированию и низкую исполнительность агентов), что позволяет предположить, что для обеспечения согласованной практики логирования могут потребоваться детерминированные защитные механизмы.

25

Генерация HDR-видео через латентное выравнивание с логарифмическим кодированием
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

Изображения с высоким динамическим диапазоном (HDR) обеспечивают богатое и точное представление о яркости сцены, однако их генерация остается сложной задачей для генеративных моделей из-за несоответствия между HDR-данными и ограниченными, перцептивно сжатыми данными, на которых эти модели обучаются. Естественным решением является изучение новых представлений для HDR, что влечет за собой дополнительную сложность и потребность в данных. В данной работе мы показываем, что генерацию HDR можно реализовать гораздо проще, используя сильные визуальные априорные знания, уже усвоенные предварительно обученными генеративными моделями. Мы наблюдаем, что логарифмическое кодирование, широко используемое в кинематографических конвейерах, отображает HDR-изображения в распределение, которое естественным образом согласуется с латентным пространством этих моделей, что позволяет проводить прямую адаптацию с помощью легкой тонкой настройки без переобучения энкодера. Для восстановления деталей, которые не наблюдаются напрямую во входных данных, мы дополнительно вводим стратегию обучения, основанную на имитации деградации камеры, которая побуждает модель восстанавливать недостающее содержимое с высоким динамическим диапазоном на основе своих априорных знаний. Объединив эти идеи, мы демонстрируем генерацию высококачественного HDR-видео с использованием предварительно обученной видео-модели с минимальной адаптацией, достигая убедительных результатов в разнообразных сценах и сложных условиях освещения. Наши результаты показывают, что HDR, несмотря на принципиально иной режим формирования изображения, может эффективно обрабатываться без перепроектирования генеративных моделей при условии, что представление данных выбрано так, чтобы согласовываться с их усвоенными априорными знаниями.

26

Геометрический контекстный трансформер для потоковой 3D-реконструкции
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

Потоковая 3D-реконструкция ставит целью восстановление 3D-информации, такой как позы камер и облака точек, из видеопотока, что требует геометрической точности, временной согласованности и вычислительной эффективности. Руководствуясь принципами одновременной локализации и построения карт (SLAM), мы представляем LingBot-Map — прямую 3D-фундаментальную модель для реконструкции сцен из потоковых данных, построенную на основе архитектуры геометрического трансформера контекста (GCT). Ключевой особенностью LingBot-Map является тщательно спроектированный механизм внимания, который интегрирует якорный контекст, позо-ориентированное окно и память траектории для решения задач привязки к системе координат, использования плотных геометрических признаков и коррекции долгосрочного дрейфа соответственно. Такая конструкция сохраняет состояние потока компактным, одновременно удерживая богатый геометрический контекст, что позволяет стабильно выполнять эффективный вывод со скоростью около 20 кадров/с на входных данных разрешением 518 x 378 в длинных последовательностях, превышающих 10 000 кадров. Обширные оценки на различных бенчмарках демонстрируют, что наш подход превосходит по производительности как существующие потоковые методы, так и подходы, основанные на итеративной оптимизации.

27

ROSE: Улучшение сегментации для поиска
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

Существующие модели сегментации на основе мультимодальных больших языковых моделей (MLLM), такие как LISA, часто сталкиваются с трудностями при работе с новыми или возникающими объектами из-за неспособности учитывать актуальные знания. Для решения этой проблемы мы представляем задачу сегментации новых и возникающих объектов (Novel Emerging Segmentation Task, NEST), которая фокусируется на сегментации (i) новых объектов, которые MLLM не распознают из-за их отсутствия в обучающих данных, и (ii) возникающих объектов, которые существуют в знаниях модели, но требуют привлечения актуальной внешней информации для точного распознавания. Для поддержки исследований в области NEST мы создали эталонный набор данных NEST с использованием автоматизированного конвейера, генерирующего новостные данные для всесторонней оценки. Кроме того, мы предлагаем ROSE: Retrieval-Oriented Segmentation Enhancement — модульную платформу, предназначенную для улучшения любой модели сегментации на основе MLLM. ROSE состоит из четырех ключевых компонентов. Во-первых, представлен модуль генерации с интернет-поисковым усилением (Internet Retrieval-Augmented Generation), который использует предоставленные пользователем мультимодальные входные данные для получения информации из интернета в реальном времени. Затем модуль улучшения текстовых промтов (Textual Prompt Enhancer) обогащает модель актуальной информацией и обширными фоновыми знаниями, повышая ее способность к восприятию возникающих объектов. Далее, предлагается модуль улучшения визуальных промтов (Visual Prompt Enhancer), который компенсирует недостаточную знакомость MLLM с новыми объектами за счет использования изображений из интернета. Для поддержания эффективности представлен модуль WebSense, который интеллектуально определяет необходимость активации механизмов поиска на основе пользовательского ввода. Результаты экспериментов показывают, что ROSE значительно повышает производительность на эталоне NEST, превосходя сильный базовый подход на основе Gemini-2.0 Flash с поиском на 19.2 пункта по метрике gIoU.

28

InfiniteScienceGym: Неограниченный, процедурно-генерируемый эталон для научного анализа
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

Крупные языковые модели становятся научными ассистентами, однако оценка их способности к рассуждению на основе эмпирических данных остается сложной задачей. Бенчмарки, созданные на основе опубликованных исследований и человеческих аннотаций, наследуют такие проблемы, как систематическая ошибка публикаций, смещение в сторону известных знаний, шум в разметке и значительные требования к хранению данных. Мы представляем InfiniteScienceGym — процедурно генерируемый бенчмарк научных репозиториев, сопряженный с верифицируемой задачей «вопрос-ответ». На основе исходного затравки симулятор детерминированно генерирует самодостаточный репозиторий с реалистичной структурой каталогов, файлами и табличными данными, а привилегированный генератор вопросов создает как отвечаемые, так и неотвечаемые вопросы с точными эталонными ответами. Это позволяет оценивать обоснованное доказательствами рассуждение, способность воздерживаться от ответа и инструментально опосредованный анализ в контролируемых условиях без распространения крупного статического корпуса. InfiniteScienceGym дополняет реальные научные бенчмарки, нацеливаясь на слепые зоны и режимы сбоев, которые сложно оценить, используя только опубликованные наборы данных. Оценивая как проприетарные, так и открытые модели, мы обнаружили, что ни одна из них не достигает общей точности выше 45%, что распознавание неотвечаемых вопросов остается серьезным недостатком и что более сильные модели склонны эффективнее использовать инструменты, а не просто потреблять больше токенов.

29

Мобильные GUI-агенты в условиях реальных угроз: Достигли ли мы цели?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

В последние годы наблюдается стремительное развитие мобильных GUI-агентов на базе больших языковых моделей (LLM), способных автономно выполнять разнообразные задачи управления устройствами на основе инструкций на естественном языке. Рост точности этих агентов на стандартных бенчмарках повысил ожидания относительно их широкомасштабного развертывания в реальных условиях, и уже выпущено несколько коммерческих агентов, используемых ранними последователями. Однако действительно ли мы готовы к интеграции GUI-агентов в наши повседневные устройства как системных компонентов? Мы утверждаем, что отсутствует важная проверка перед развертыванием, призванная оценить, способны ли агенты сохранять свою производительность в условиях реальных угроз. В частности, в отличие от существующих распространенных бенчмарков, основанных на простом статическом контенте приложений (что необходимо для обеспечения согласованности среды между различными тестами), реальные приложения наполнены контентом из ненадежных сторонних источников, таких как рекламные электронные письма, пользовательские публикации и медиафайлы и т.д. ... С этой целью мы представляем масштабируемую инфраструктуру инструментирования контента приложений для обеспечения гибких и целенаправленных модификаций контента в существующих приложениях. Используя эту инфраструктуру, мы создаем тестовый набор, включающий как динамическую среду выполнения задач, так и статический набор данных сложных состояний GUI. Динамическая среда охватывает 122 воспроизводимые задачи, а статический набор данных состоит из более чем 3000 сценариев, созданных на основе коммерческих приложений. Мы проводим эксперименты как с открытыми, так и с коммерческими GUI-агентами. Наши результаты показывают, что все исследованные агенты могут быть существенно деградированы из-за стороннего контента, со средней частотой введения в заблуждение 42,0% и 36,1% в динамической и статической средах соответственно. Инфраструктура и бенчмарк выпущены по адресу https://agenthazard.github.io.

30

Что изучают языковые модели и когда? Гипотеза о неявной учебной программе
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

Крупные языковые модели (LLM) способны выполнять исключительно сложные задачи, однако тонкие детали того, как эти способности возникают в процессе предварительного обучения, остаются малоизученными. Законы масштабирования, основанные на валидационной ошибке, показывают, насколько модель улучшается с увеличением вычислительных ресурсов, но не раскрывают, какие именно навыки и в каком порядке она приобретает. Чтобы устранить этот пробел, мы предлагаем Гипотезу неявного учебного плана: предварительное обучение следует композиционному и предсказуемому учебному плану, который согласован для разных моделей и смесей данных. Мы проверяем эту гипотезу, разработав набор простых, композируемых задач, охватывающих поиск информации, морфологические преобразования, кореференцию, логические рассуждения и математику. Используя эти задачи, мы отслеживаем точки возникновения способностей в четырех семействах моделей размером от 410 млн до 13 млрд параметров. Мы обнаруживаем, что порядок возникновения способностей (моменты, когда модели достигают фиксированных порогов точности) является поразительно согласованным (ρ = 0,81 для 45 пар моделей), и что составные задачи чаще всего возникают после своих компонентов. Кроме того, мы обнаруживаем, что эта структура закодирована в репрезентациях моделей: задачи с похожими векторными представлениями функций также имеют тенденцию следовать схожим траекториям в ходе обучения. Используя пространство репрезентаций, полученное из нашего набора задач, мы можем эффективно предсказывать траектории обучения простых составных задач, не участвовавших в обучении (R² = 0,68–0,84 для разных моделей), на протяжении всего процесса предварительного обучения без их предварительной оценки. В совокупности эти результаты свидетельствуют о том, что предварительное обучение имеет более структурированный характер, чем это видно по кривым потерь: навыки возникают в композиционном порядке, который согласован для разных моделей и может быть считан из их внутренних представлений.

Apr 15
Apr 16
Apr 17