ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Технический отчет Kling-Omni
Kling-Omni Technical Report

Dec 18
ByKling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu
122
2

Мы представляем Kling-Omni — универсальную генеративную систему, предназначенную для синтеза видео высокого качества непосредственно из мультимодальных визуально-языковых входных данных. Принимая сквозной подход, Kling-Omni устраняет функциональный разрыв между разнородными задачами генерации, редактирования и интеллектуального анализа видео, интегрируя их в целостную систему. В отличие от разрозненных конвейерных подходов, Kling-Omni поддерживает широкий спектр пользовательских входных данных, включая текстовые инструкции, эталонные изображения и видеоконтексты, преобразуя их в унифицированное мультимодальное представление для создания кинематографичного и высокоинтеллектуального видеоконтента. Для обеспечения этих возможностей мы создали комплексную систему данных, которая служит основой для мультимодального создания видео. Эффективность системы дополнительно повышена за счёт стратегий масштабного предварительного обучения и оптимизации инфраструктуры для вывода. Всесторонние оценки показывают, что Kling-Omni демонстрирует исключительные способности в контекстно-зависимой генерации, редактировании на основе логического вывода и выполнении мультимодальных инструкций. Выходя за рамки инструмента для создания контента, мы считаем, что Kling-Omni является ключевым шагом на пути к созданию мультимодальных симуляторов мира, способных воспринимать, анализировать, генерировать и взаимодействовать с динамичными и сложными мирами.

2

Адаптация агентного искусственного интеллекта
Adaptation of Agentic AI

Dec 18
ByPengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
64
4

Современные агентные системы искусственного интеллекта строятся на базе фундаментальных моделей, которые можно адаптировать для планирования, рассуждений и взаимодействия с внешними инструментами с целью выполнения все более сложных и специализированных задач. По мере роста возможностей и масштаба таких систем адаптация становится ключевым механизмом повышения их производительности, надежности и способности к обобщению. В данной статье мы объединяем быстро расширяющийся ландшафт исследований в систематическую структуру, охватывающую как адаптацию агентов, так и адаптацию инструментов. Мы дополнительно разлагаем их на сигнализируемые выполнением инструментов и сигнализируемые выходом агента формы адаптации агентов, а также на агентно-независимые и контролируемые агентом формы адаптации инструментов. Мы показываем, что данная структура помогает прояснить пространство проектирования стратегий адаптации в агентном ИИ, делает их компромиссы явными и предоставляет практические рекомендации по выбору или переключению между стратегиями в процессе проектирования системы. Затем мы рассматриваем репрезентативные подходы в каждой категории, анализируем их сильные и слабые стороны и выделяем ключевые нерешенные проблемы и перспективные направления. В целом, данная статья призвана предложить концептуальную основу и практический план действий для исследователей и практиков, стремящихся создавать более способные, эффективные и надежные агентные системы ИИ.

3

LLaDA2.0: Масштабирование диффузионных языковых моделей до 100 миллиардов параметров
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10
ByTiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
55
2

В данной статье представлена LLaDA2.0 — пара дискретных диффузионных больших языковых моделей (dLLM), масштабируемых до 100 млрд общих параметров за счет систематического преобразования авторегрессионных (AR) моделей, что устанавливает новую парадигму для развертывания на передовом уровне. Вместо дорогостоящего обучения с нуля LLaDA2.0 следует принципам наследования знаний, прогрессивной адаптации и эффективности, обеспечивая бесшовное преобразование предобученной AR-модели в dLLM с помощью новой 3-фазной схемы обучения на основе блочного WSD: прогрессивное увеличение размера блока в блочной диффузии (разогрев), крупномасштабная диффузия на полных последовательностях (стабильная фаза) и возврат к компактной блочной диффузии (затухание). Совместно с посттренировочной адаптацией методами SFT и DPO мы получаем LLaDA2.0-mini (16B) и LLaDA2.0-flash (100B) — две инструктивно-настроенные варианты моделей типа Mixture-of-Experts (MoE), оптимизированные для практического развертывания. Сохраняя преимущества параллельного декодирования, эти модели демонстрируют превосходную производительность и эффективность на передовом уровне. Обе модели были открыты для общего доступа.

4

Предсказание следующих эмбеддингов создает сильные визуальные модели
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18
BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
51
2

Вдохновленные успехом генеративного предварительного обучения в обработке естественного языка, мы задаемся вопросом, могут ли те же принципы дать сильные самообучающиеся модели для компьютерного зрения. Вместо обучения моделей генерировать признаки для последующего использования мы обучаем их генерировать эмбеддинги для непосредственного выполнения прогностических задач. Данная работа исследует такой переход от обучения представлений к обучению моделей. В частности, модели учатся предсказывать эмбеддинги будущих патчей на основе прошлых, используя каузальное маскирование и остановку градиента, что мы называем Авторегрессионным Предсказанием Следующего Эмбеддинга (NEPA). Мы демонстрируем, что простая архитектура Transformer, предварительно обученная на ImageNet-1k с предсказанием следующего эмбеддинга в качестве единственной задачи, эффективна — без реконструкции пикселей, дискретных токенов, контрастных функций потерь или специализированных голов для конкретных задач. Данная формулировка сохраняет архитектурную простоту и масштабируемость, не требуя дополнительной сложности проектирования. NEPA показывает высокие результаты в различных задачах, достигая точности 83.8% и 85.3% Top-1 на ImageNet-1K с бэкбонами ViT-B и ViT-L после дообучения, а также эффективно переносится на задачу семантической сегментации на ADE20K. Мы полагаем, что генеративное предварительное обучение на эмбеддингах предоставляет простую, масштабируемую и потенциально модально-независимую альтернативу для самообучения в компьютерном зрении.

5

StereoPilot: Обучение унифицированному и эффективному стереопреобразованию с использованием генеративных априорных моделей
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18
ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
34
2

Быстрое развитие стереоскопических дисплеев, включая VR-шлемы и 3D-кинотеатры, привело к растущему спросу на высококачественный стереоскопический видеоконтент. Однако создание 3D-видео остается дорогостоящим и сложным процессом, в то время как автоматическое монокулярно-стереоскопическое преобразование ограничено недостатками многокаскадного конвейера «Глубина-Трансформация-Заполнение» (Depth-Warp-Inpaint, DWI). Данная парадигма страдает от распространения ошибок, неоднозначности определения глубины и несовместимости форматов между параллельной и сходящейся стереоконфигурациями. Для решения этих проблем мы представляем UniStereo — первую крупномасштабную унифицированную базу данных для стереоскопического преобразования видео, охватывающую оба стереоформата для обеспечения объективного сравнительного анализа и надежного обучения моделей. На основе этого набора данных мы предлагаем StereoPilot — эффективную прямую модель, которая напрямую синтезирует целевой вид, не полагаясь на явные карты глубины или итеративную диффузионную выборку. Оснащенная обучаемым переключателем доменов и функцией потерь на основе цикловой согласованности, модель StereoPilot легко адаптируется к различным стереоформатам и обеспечивает повышенную согласованность. Многочисленные эксперименты демонстрируют, что StereoPilot существенно превосходит современные методы как по визуальному качеству, так и по вычислительной эффективности. Страница проекта: https://hit-perfect.github.io/StereoPilot/.

6

Seedance 1.5 pro: Базовая модель для совместного нативного аудиовизуального синтеза
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15
ByHeyi Chen, Siyan Chen, Xin Chen, Yanfei Chen, Ying Chen, Zhuo Chen, Feng Cheng, Tianheng Cheng, Xinqi Cheng, Xuyan Chi, Jian Cong, Jing Cui, Qinpeng Cui, Qide Dong, Junliang Fan, Jing Fang, Zetao Fang, Chengjian Feng, Han Feng, Mingyuan Gao, Yu Gao, Dong Guo, Qiushan Guo, Boyang Hao, Qingkai Hao, Bibo He, Qian He, Tuyen Hoang, Ruoqing Hu, Xi Hu, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Donglei Ji, Siqi Jiang, Wei Jiang, Yunpu Jiang, Zhuo Jiang, Ashley Kim, Jianan Kong, Zhichao Lai, Shanshan Lao, Yichong Leng, Ai Li, Feiya Li, Gen Li, Huixia Li, JiaShi Li, Liang Li, Ming Li, Shanshan Li, Tao Li, Xian Li, Xiaojie Li, Xiaoyang Li, Xingxing Li, Yameng Li, Yifu Li, Yiying Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Zhiqiang Liang, Wang Liao, Yalin Liao, Heng Lin, Kengyu Lin, Shanchuan Lin, Xi Lin, Zhijie Lin, Feng Ling, Fangfang Liu, Gaohong Liu, Jiawei Liu, Jie Liu, Jihao Liu, Shouda Liu, Shu Liu, Sichao Liu, Songwei Liu, Xin Liu, Xue Liu, Yibo Liu, Zikun Liu, Zuxi Liu, Junlin Lyu, Lecheng Lyu, Qian Lyu, Han Mu, Xiaonan Nie, Jingzhe Ning, Xitong Pan, Yanghua Peng, Lianke Qin, Xueqiong Qu, Yuxi Ren, Kai Shen, Guang Shi, Lei Shi, Yan Song, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Yan Sun, Zeyu Sun, Wenjing Tang, Yaxue Tang, Zirui Tao, Feng Wang, Furui Wang, Jinran Wang, Junkai Wang, Ke Wang, Kexin Wang, Qingyi Wang, Rui Wang, Sen Wang, Shuai Wang, Tingru Wang, Weichen Wang, Xin Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Ziyu Wang, Guoqiang Wei, Wanru Wei, Di Wu, Guohong Wu, Hanjie Wu, Jian Wu, Jie Wu, Ruolan Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Liang Xiang, Fei Xiao, XueFeng Xiao, Pan Xie, Shuangyi Xie, Shuang Xu, Jinlan Xue, Shen Yan, Bangbang Yang, Ceyuan Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yang Yang, Yihang Yang, ZhiXian Yang, Ziyan Yang, Songting Yao, Yifan Yao, Zilyu Ye, Bowen Yu, Jian Yu, Chujie Yuan, Linxiao Yuan, Sichun Zeng, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Chuntao Zhang, Heng Zhang, Jingjie Zhang, Kuo Zhang, Liang Zhang, Liying Zhang, Manlin Zhang, Ting Zhang, Weida Zhang, Xiaohe Zhang, Xinyan Zhang, Yan Zhang, Yuan Zhang, Zixiang Zhang, Fengxuan Zhao, Huating Zhao, Yang Zhao, Hao Zheng, Jianbin Zheng, Xiaozheng Zheng, Yangyang Zheng, Yijie Zheng, Jiexin Zhou, Jiahui Zhu, Kuan Zhu, Shenhan Zhu, Wenjia Zhu, Benhui Zou, Feilong Zuo
32
2

Последние достижения в области генерации видео открыли путь к созданию единых аудиовизуальных моделей. В данной работе представлена Seedance 1.5 pro — фундаментальная модель, разработанная специально для нативной совместной генерации аудио и видео. Используя архитектуру Diffusion Transformer с двумя ветвями, модель интегрирует кросс-модальный совместный модуль со специализированным многоэтапным конвейером данных, достигая исключительной аудиовизуальной синхронизации и превосходного качества генерации. Для обеспечения практической полезности реализованы тщательные посттренировочные оптимизации, включая контролируемое тонкое обучение (SFT) на высококачественных наборах данных и обучение с подкреплением на основе человеческих оценок (RLHF) с многомерными моделями вознаграждения. Кроме того, представлена система ускорения, повышающая скорость вывода более чем в 10 раз. Seedance 1.5 pro выделяется точной синхронизацией губ для многоязычных и диалектных речевых данных, динамическим кинематографическим управлением камерой и улучшенной нарративной связностью, что позиционирует её как мощный инструмент для создания контента профессионального уровня. Модель Seedance 1.5 pro теперь доступна в Volcano Engine по адресу: https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.

7

Глубинные панорамы Any: Базовая модель для оценки глубины панорамных изображений
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18
ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
29
2

В данной работе мы представляем панорамную фоновую модель метрической глубины, которая обобщается для различных дистанций съемки. Мы исследуем парадигму "данные в цикле" с точки зрения как построения данных, так и проектирования архитектуры. Мы собрали масштабный набор данных, объединив публичные датасеты, высококачественные синтетические данные из нашего симулятора UE5 и моделей "текст-в-изображение", а также реальные панорамные изображения из интернета. Для сокращения междоменного разрыва между данными для помещений/улиц и синтетическими/реальными данными мы внедряем трехэтапный конвейер курации псевдо-разметки для генерации достоверной эталонной истины для немаркированных изображений. Для модели мы используем DINOv3-Large в качестве основы благодаря ее сильной предобученной обобщающей способности и вводим подключаемую голову диапазонной маски, оптимизацию с фокусом на резкости и оптимизацию с фокусом на геометрии для повышения устойчивости к varying distances и обеспечения геометрической согласованности между видами. Эксперименты на нескольких бенчмарках (например, Stanford2D3D, Matterport3D и Deep360) демонстрируют высокую производительность и обобщение "с нуля", с особенно robust и стабильными метрическими предсказаниями в разнообразных реальных сценах. Страница проекта доступна по адресу: https://insta360-research-team.github.io/DAP_website/.

8

Генеративное перефокусирование: гибкое управление размытием на основе одного изображения
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18
ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu
27
2

Управление глубиной резкости является важной задачей в фотографии, но достижение идеальной фокусировки часто требует множества попыток или специального оборудования. Рефокусировка на основе одного изображения остается сложной проблемой. Она включает восстановление резкого содержимого и создание реалистичного боке. Существующие методы имеют существенные недостатки: они требуют полностью сфокусированных входных данных, зависят от синтетических данных из симуляторов и обладают ограниченным контролем над апертурой. Мы представляем Generative Refocusing — двухэтапный процесс, использующий DeblurNet для восстановления полностью сфокусированных изображений из различных исходных данных и BokehNet для создания управляемого боке. Нашим ключевым нововведением является полуконтролируемое обучение. Этот метод сочетает синтетические парные данные с непарными реальными изображениями с боке, используя EXIF-метаданные для захвата реальных оптических характеристик, недоступных в симуляторах. Наши эксперименты демонстрируют превосходные результаты в тестах по удалению размытия, синтезу боке и рефокусировке. Кроме того, наш метод позволяет осуществлять текстовые корректировки и использовать пользовательские формы апертуры.

9

DeContext как защита: безопасное редактирование изображений в диффузионных трансформаторах
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18
ByLinghui Shen, Mingyue Cui, Xingyi Yang
22
2

Модели диффузии в контексте позволяют пользователям с невероятной легкостью и реалистичностью редактировать изображения. Однако та же самая мощь порождает серьезные проблемы конфиденциальности: личные фотографии можно легко изменять для подмены личности, распространения дезинформации или иного злонамеренного использования, причем все это — без согласия владельца. В то время как предыдущие работы исследовали вносимые на входе возмущения для защиты от неправомерного использования в персонализированной генерации изображений по тексту, устойчивость современных крупномасштабных контекстных моделей на основе DiT (Diffusion Transformer) остается в значительной степени неисследованной. В данной статье мы предлагаем DeContext — новый метод защиты исходных изображений от несанкционированного контекстного редактирования. Наше ключевое наблюдение заключается в том, что контекстная информация из исходного изображения передается на выход преимущественно через мультимодальные слои внимания. Внося небольшие целенаправленные возмущения, которые ослабляют эти перекрестные связи внимания, DeContext разрывает этот поток, эффективно разделяя связь между входом и выходом. Эта простая защита является одновременно эффективной и надежной. Мы также показываем, что ранние этапы шумоподавления и определенные трансформаторные блоки доминируют в распространении контекста, что позволяет нам сосредоточить возмущения там, где они наиболее важны. Эксперименты на Flux Kontext и Step1X-Edit демонстрируют, что DeContext последовательно блокирует нежелательное редактирование изображений, сохраняя визуальное качество. Эти результаты подчеркивают эффективность возмущений на основе механизма внимания как мощной защиты от манипуляций с изображениями.

10

Алхимик: Повышение эффективности обучения моделей генерации изображений по тексту с помощью мета-градиентного отбора данных
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18
ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
21
2

Последние достижения в области генеративных моделей «текст-изображение» (Text-to-Image, T2I), таких как Imagen, Stable Diffusion и FLUX, привели к значительному улучшению визуального качества. Однако их производительность фундаментально ограничена качеством обучающих данных. Веб-скрапленные и синтетические наборы данных изображений часто содержат низкокачественные или избыточные примеры, что приводит к снижению визуальной достоверности, нестабильности обучения и неэффективным вычислениям. Следовательно, эффективный отбор данных крайне важен для повышения эффективности их использования. Существующие подходы полагаются на дорогостоящую ручную курацию или эвристическую оценку на основе одномерных признаков при фильтрации данных для T2I. Хотя методы на основе мета-обучения исследовались для больших языковых моделей (LLM), их адаптация для модальности изображений отсутствует. Для решения этой проблемы мы предлагаем **Alchemist** — фреймворк на основе мета-градиентов для отбора подходящего подмножества из крупномасштабных пар «текст-изображение». Наш подход автоматически обучается оценивать влияние каждого образца путем итеративной оптимизации модели с центрированной на данных точки зрения. Alchemist состоит из двух ключевых этапов: оценка данных и прореживание данных. Мы обучаем легковесный модуль оценки, чтобы предсказывать влияние каждого примера на основе градиентной информации, усиленной многомасштабным восприятием. Затем мы используем стратегию Shift-Gsampling для отбора информативных подмножеств с целью эффективного обучения модели. Alchemist является первой автоматической, масштабируемой системой отбора данных на основе мета-градиентов для обучения T2I-моделей. Эксперименты на синтетических и веб-скрапленных наборах данных демонстрируют, что Alchemist стабильно улучшает визуальное качество и результаты на последующих задачах. Обучение на 50% данных, отобранных с помощью Alchemist, может превзойти обучение на полном наборе данных.

11

Мир — ваш холст: создание управляемых событий с помощью референсных изображений, траекторий и текста
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18
ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
19
2

Мы представляем WorldCanvas — фреймворк для управления событиями виртуального мира, который обеспечивает насыщенное моделирование под контролем пользователя за счет комбинации текста, траекторий и референсных изображений. В отличие от чисто текстовых подходов и существующих методов генерации видео по изображениям с контролем траекторий, наш мультимодальный метод объединяет траектории — кодирующие движение, время и видимость — с естественным языком для передачи семантического замысла и референсными изображениями для визуального закрепления идентичности объектов. Это позволяет генерировать согласованные и управляемые события, включающие взаимодействия множества агентов, появление/исчезновение объектов, внешний вид на основе референсов и контринтуитивные сценарии. Получаемые видео демонстрируют не только временную согласованность, но и эмерджентную целостность, сохраняя идентичность объектов и сцены несмотря на временные исчезновения. Благодаря поддержке генерации выразительных событий мира, WorldCanvas продвигает мировые модели от пассивных предсказателей к интерактивным симуляторам, формируемым пользователем. Страница проекта доступна по адресу: https://worldcanvas.github.io/.

12

РЕГЛЮЙ свои латентные переменные с глобальной и локальной семантикой для запутанной диффузии
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18
ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
19
2

Латентные диффузионные модели (LDM) достигают передовых результатов в синтезе изображений, однако их реконструкционная цель по удалению шума обеспечивает лишь косвенную семантическую супервизию: высокоуровневая семантика возникает медленно, что требует более длительного обучения и ограничивает качество образцов. В последних работах семантика внедряется из Vision Foundation Models (VFM) либо внешне через выравнивание представлений, либо внутренне путем совместного моделирования лишь узкого среза признаков VFM внутри процесса диффузии, что не полностью использует доступную богатую, нелинейную, многоуровневую пространственную семантику. Мы представляем REGLUE (Representation Entanglement with Global-Local Unified Encoding) — унифицированную латентную диффузионную структуру, которая совместно моделирует (i) латентные представления изображений VAE, (ii) компактную локальную (на уровне патчей) семантику VFM и (iii) глобальный (на уровне изображения) токен [CLS] в рамках единого SiT-бэкбона. Легковесный сверточный семантический компрессор нелинейно агрегирует многоуровневые признаки VFM в низкоразмерное пространственно структурированное представление, которое переплетается с латентными переменными VAE в процессе диффузии. Внешняя функция потерь на выравнивание дополнительно регуляризует внутренние представления в сторону замороженных целевых показателей VFM. На данных ImageNet 256x256 REGLUE последовательно улучшает FID и ускоряет сходимость по сравнению с базовыми моделями SiT-B/2 и SiT-XL/2, а также методами REPA, ReDi и REG. Многочисленные эксперименты показывают, что (a) пространственная семантика VFM имеет критическое значение, (b) нелинейное сжатие является ключом к раскрытию их полного потенциала и (c) глобальные токены и внешнее выравнивание выступают в качестве дополнительных, легковесных улучшений в рамках нашей структуры совместного моделирования «глобальное-локальное-латентное». Код доступен по адресу https://github.com/giorgospets/reglue.

13

N3D-VLM: Нативная 3D-привязка обеспечивает точное пространственное мышление в визуально-языковых моделях
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18
ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
17
2

Хотя современные мультимодальные модели способны отвечать на вопросы на основе двумерных изображений, они лишены внутреннего восприятия трехмерных объектов, что ограничивает их способность понимать пространственные отношения и глубину в 3D-сценах. В данной работе мы предлагаем N3D-VLM — новую унифицированную архитектуру, которая органично объединяет нативное восприятие 3D-объектов с трехмерным визуальным мышлением, обеспечивая как точную 3D-привязку, так и интерпретируемое пространственное понимание. В отличие от традиционных end-to-end моделей, напрямую предсказывающих ответы по RGB/RGB-D данным, наш подход наделяет модель врожденными способностями к восприятию трехмерных объектов, позволяя ей напрямую локализовывать объекты в 3D-пространстве на основе текстовых описаний. На основе точной 3D-локализации модель далее выполняет явные рассуждения в трехмерном пространстве, достигая более интерпретируемого и структурированного пространственного понимания. Для обеспечения надежного обучения этим способностям мы разработали масштабируемый конвейер построения данных, который использует оценку глубины для преобразования крупномасштабных 2D-аннотаций в 3D-пространство, значительно увеличивая разнообразие и охват данных для трехмерной привязки объектов — полученный набор данных более чем в шесть раз превосходит крупнейший существующий датасет 3D-детекции на одиночных изображениях. Кроме того, конвейер генерирует наборы данных с пространственными вопросами и ответами, ориентированные на цепочку рассуждений (Chain-of-Thought, CoT) в 3D, что способствует совместному обучению как 3D-локализации объектов, так и пространственному мышлению. Экспериментальные результаты демонстрируют, что наша унифицированная архитектура не только достигает state-of-the-art результатов в задачах 3D-привязки, но и последовательно превосходит существующие методы в области трехмерного пространственного мышления в моделях компьютерного зрения и естественного языка.

14

JustRL: Масштабирование языковой модели на 1.5 млрд параметров с помощью простого рецепта обучения с подкреплением
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18
ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
13
3

Последние достижения в области обучения с подкреплением для больших языковых моделей демонстрируют тенденцию к усложнению: многоэтапные конвейеры обучения, динамические графики изменения гиперпараметров и стратегии обучения по учебному плану. Это поднимает фундаментальный вопрос: необходима ли такая сложность? Мы представляем JustRL — минималистичный подход, использующий одноэтапное обучение с фиксированными гиперпараметрами, который достигает уровня передовых результатов на двух 1,5-миллиардных моделях для решения задач (54,9% и 64,3% средней точности по девяти математическим тестам), потребляя при этом в 2 раза меньше вычислительных ресурсов, чем сложные методы. Одни и те же гиперпараметры переносятся между обеими моделями без дополнительной настройки, а обучение демонстрирует плавное, монотонное улучшение на протяжении более 4000 шагов без сбоев или плато, которые обычно требуют вмешательства. Критически важно, что ablation-исследования показывают, что добавление «стандартных приёмов», таких как явные штрафы за длину и устойчивые верификаторы, может ухудшить производительность, разрушая процесс исследования. Эти результаты позволяют предположить, что область исследований добавляет сложность для решения проблем, которые исчезают при наличии стабильного, масштабированного базового уровня. Мы публикуем наши модели и код, чтобы создать простой, проверенный базовый уровень для научного сообщества.

15

AdaTooler-V: Адаптивное использование инструментов для изображений и видео
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18
ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
10
2

Последние исследования показали, что мультимодальные большие языковые модели (MLLM) выигрывают от использования межмодальных цепочек рассуждений (CoT) с интерактивными визуальными инструментами. Однако существующие модели с открытым исходным кодом часто демонстрируют слепой паттерн использования инструментов, активируя визуальные инструменты даже когда в этом нет необходимости, что значительно увеличивает вычислительные затраты и снижает производительность модели. Для решения этой проблемы мы предлагаем AdaTooler-V — MLLM, которая адаптивно использует инструменты, определяя, действительно ли визуальная задача требует их применения. Во-первых, мы представляем AT-GRPO — алгоритм обучения с подкреплением, который адаптивно корректирует шкалу вознаграждений на основе показателя полезности инструментов для каждого образца, поощряя модель задействовать инструменты только когда они обеспечивают реальное улучшение. Кроме того, мы создали два набора данных для обучения: AdaTooler-V-CoT-100k для холодного старта SFT и AdaTooler-V-300k для RL с верифицируемыми вознаграждениями, охватывающие данные с одним изображением, несколькими изображениями и видео. Эксперименты на двенадцати тестовых наборах демонстрируют высокие способности AdaTooler-V к рассуждениям, превосходящие существующие методы в разнообразных задачах визуального мышления. Примечательно, что AdaTooler-V-7B достигает точности 89.8% на бенчмарке высокого разрешения V*, опережая коммерческие проприетарные модели GPT-4o и Gemini 1.5 Pro. Весь код, модели и данные опубликованы.

16

EasyV2V: Высококачественная фреймворк для редактирования видео на основе инструкций
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18
ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
10
2

Хотя редактирование изображений быстро развивалось, редактирование видео остаётся менее изученной областью, сталкиваясь с проблемами согласованности, управления и обобщения. Мы исследуем пространство проектирования данных, архитектуры и управления и представляем EasyV2V — простую и эффективную систему для редактирования видео на основе инструкций. В части данных мы комбинируем существующие экспертные методы с быстрыми инверсиями для создания разнообразных видеопар, преобразуем пары редактирования изображений в видео с помощью одно-кадрового контроля и псевдопар с общим аффинным движением, извлекаем клипы с плотными описаниями для формирования видеопар и добавляем контроль переходов для обучения тому, как разворачиваются правки. В части модели мы наблюдаем, что предобученные модели для генерации видео из текста обладают способностью к редактированию, что мотивирует упрощённый дизайн. Простой метод конкатенации последовательностей для conditioning с лёгкой тонкой настройкой LoRA достаточен для обучения мощной модели. Для управления мы унифицируем пространственно-временной контроль с помощью единого механизма масок и поддерживаем опциональные эталонные изображения. В целом, EasyV2V работает с гибкими входными данными, например, видео+текст, видео+маска+текст, видео+маска+эталон+текст, и достигает передовых результатов в редактировании видео, превосходя конкурирующие и коммерческие системы. Страница проекта: https://snap-research.github.io/easyv2v/

17

FlashPortrait: 6-кратное ускорение бесконечной анимации портретов с адаптивным предсказанием в латентном пространстве
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18
ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
9
2

Современные методы ускорения диффузионных моделей для анимирования длинных портретов сталкиваются с проблемой сохранения идентичности (ID). В данной статье представлен FlashPortrait — эндо-энд видео-диффузионный трансформер, способный синтезировать видео неограниченной длины с сохранением идентичности, обеспечивая до 6-кратного ускорения инференса. В частности, FlashPortrait начинает с вычисления агностичных к идентичности признаков мимики с помощью готового экстрактора. Затем вводится блок нормализованных мимических признаков, который выравнивает лицевые особенности с латентными переменными диффузии путем их нормализации по средним значениям и дисперсиям, что повышает стабильность идентичности при моделировании лица. На этапе инференса FlashPortrait использует динамическую схему скользящего окна со взвешенным смешиванием в областях перекрытия, обеспечивая плавные переходы и консистентность ID в длинных анимациях. В каждом контекстном окне, на основе скорости изменения латентных переменных на определенных временных шагах и соотношения величин производных между слоями диффузии, модель использует производные высших порядков на текущем шаге для прямого предсказания латентных состояний на будущих шагах, пропуская несколько шагов шумоподавления и достигая 6-кратного ускорения. Эксперименты на бенчмарках демонстрируют эффективность FlashPortrait как качественно, так и количественно.

18

Multimodal RewardBench 2: Оценка универсальных моделей вознаграждения для чередующегося текста и изображений
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18
ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
9
2

Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении больших языковых моделей (LLMs), однако их применение к омни-моделям, обрабатывающим чередующиеся последовательности изображений и текста, остается малоизученным. Мы представляем Multimodal RewardBench 2 (MMRB2) — первый комплексный бенчмарк для оценки моделей вознаграждения на задачах мультимодального понимания и (чередующейся) генерации. MMRB2 охватывает четыре типа задач: текст-в-изображение, редактирование изображений, чередующаяся генерация и мультимодальные рассуждения («мышление с изображениями»), предоставляя по 1000 экспертно размеченных пар предпочтений для каждой задачи, собранных из 23 моделей и агентов на основе 21 исходной задачи. MMRB2 разработан с учетом: (1) практичных, но сложных промптов; (2) ответов от современных моделей и агентов; и (3) пар предпочтений с высоким консенсусом среди экспертов-людей, отобранных с помощью стратегии ансамблевой фильтрации. Используя MMRB2, мы исследуем существующие системы оценки для каждой подзадачи, включая подход «мультимодальная LLM как судья» и модели, обученные на человеческих предпочтениях. Новейшая модель Gemini 3 Pro достигает точности 75–80%. GPT-5 и Gemini 2.5 Pro демонстрируют точность 66–75% по сравнению с >90% у людей, но превосходят широко используемую GPT-4o (59%). Лучшая открытая модель Qwen3-VL-32B показывает схожую точность с Gemini 2.5 Flash (64%). Мы также демонстрируем, что производительность на MMRB2 сильно коррелирует с успехом на downstream-задачах при использовании Best-of-N сэмплирования, и проводим углубленный анализ, который выявляет ключевые направления для улучшения моделей вознаграждения в будущем.

19

Исследование против эксплуатации: переосмысление RLVR через ограничение, энтропию и ложные вознаграждения
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18
ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
9
2

В данной работе исследуется компромисс между исследованием и эксплуатацией в обучении с подкреплением с верифицируемыми вознаграждениями (RLVR) — подходе, направленном на улучшение способности к рассуждению у больших языковых моделей (LLM). Недавние исследования показывают, что RLVR может стимулировать развитие сильных математических навыков рассуждения в LLM за счет двух, казалось бы, парадоксальных механизмов: ложных вознаграждений, которые подавляют эксплуатацию, поощряя результаты, не связанные с истинным ответом, и минимизации энтропии, которая подавляет исследование, подталкивая модель к более уверенным и детерминированным выходам. Это выявляет загадочную динамику: как подавление эксплуатации, так и подавление исследования улучшают результаты рассуждений, однако базовые принципы, объясняющие эти эффекты, остаются малоизученными. Мы сосредотачиваемся на двух фундаментальных вопросах: (i) как энтропия политики связана с производительностью и (ii) приводят ли ложные вознаграждения к улучшениям, возможно, за счет взаимодействия смещения ограничения (clipping bias) и контаминации модели. Наши результаты показывают, что смещение ограничения при ложных вознаграждениях снижает энтропию политики, что приводит к более уверенным и детерминированным выходам, в то время как одна лишь минимизация энтропии недостаточна для улучшения. Мы также предлагаем модель рассогласования вознаграждений, объясняющую, почему ложные вознаграждения могут повышать производительность и за пределами условий контаминации. Наши выводы проясняют механизмы, лежащие в основе преимуществ ложных вознаграждений, и предлагают принципы для более эффективного обучения по методу RLVR.

20

RePlan: Планирование областей на основе логических рассуждений для сложного редактирования изображений по инструкциям
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18
ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
9
2

Редактирование изображений на основе инструкций позволяет управлять визуальными изменениями с помощью естественного языка, однако существующие модели не справляются со Сложностью Инструкций и Визуала (IV-Complexity), когда сложные инструкции сталкиваются с загроможденными или неоднозначными сценами. Мы представляем RePlan (Планирование с привязкой к регионам) — фреймворк «спланируй-и-выполни», который объединяет визуально-языковой планировщик с диффузионным редактором. Планировщик декомпозирует инструкции посредством пошагового рассуждения и явно привязывает их к целевым регионам; редактор затем применяет изменения с помощью свободного от обучения механизма инъекции внимания в регионы, обеспечивая точное параллельное редактирование нескольких регионов без итеративного инпейнтинга. Для улучшения планирования мы применяем обучение с подкреплением на основе GRPO, используя всего 1К примеров с инструкциями, что дает значительный прирост в достоверности рассуждений и надежности формата. Мы также представляем IV-Edit — бенчмарк, сфокусированный на тонкой привязке и редактировании, требующем знаний. В условиях IV-Complexity RePlan стабильно превосходит сильные базовые модели, обученные на значительно больших наборах данных, улучшая региональную точность и общую достоверность. Страница проекта: https://replan-iv-edit.github.io

21

ModelTables: Корпус таблиц о моделях
ModelTables: A Corpus of Tables about Models

Dec 18
ByZhengyuan Dong, Victor Zhong, Renée J. Miller
8
1

Мы представляем ModelTables — эталонный набор таблиц в "озерах моделей", который фиксирует структурированную семантику таблиц производительности и конфигурации, часто упускаемую при текстовом поиске. Корпус построен на основе карт моделей Hugging Face, файлов README из GitHub и ссылочных научных статей, связывая каждую таблицу с контекстом соответствующей модели и публикации. По сравнению с таблицами открытых озер данных, таблицы моделей меньше по размеру, но демонстрируют более плотные междтабличные связи, отражающие тесную взаимосвязь эволюции моделей и бенчмарков. Текущий выпуск охватывает более 60 тыс. моделей и 90 тыс. таблиц. Для оценки связанности моделей и таблиц мы формируем эталонную истину из нескольких источников, используя три взаимодополняющих сигнала: (1) ссылки цитирования статей, (2) явные ссылки в картах моделей и наследование, (3) общие наборы обучающих данных. Мы демонстрируем расширенный практический пример использования набора — поиск таблиц. Сравниваем канонические операторы поиска в озерах данных (объединяемые, соединяемые, ключевые слова) и базовые методы информационного поиска (плотный, разреженный, гибридный поиск) на данном наборе. Семантический поиск таблиц на основе объединения достигает 54,8% P@1 в целом (54,6% по цитированию, 31,3% по наследованию, 30,6% по общим наборам данных); плотный поиск на основе таблиц показывает 66,5% P@1, а гибридный поиск по метаданным — 54,1%. Данная оценка указывает на значительный потенциал для разработки более совершенных методов поиска таблиц. Публикуя ModelTables и протокол его создания, мы представляем первый крупномасштабный эталонный набор структурированных данных, описывающих ИИ-модели. Наш пример использования — обнаружение таблиц в озерах моделей — предоставляет интуитивное понимание и доказательную базу для разработки более точного семантического поиска, структурированного сравнения и принципиальной организации структурированных знаний о моделях. Исходный код, данные и другие артефакты доступны по адресу https://github.com/RJMillerLab/ModelTables.

22

VenusBench-GD: Комплексный мультиплатформенный GUI-бенчмарк для разнообразных задач заземления
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18
ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
8
2

Граундинг графического интерфейса пользователя (GUI) является ключевым компонентом при создании эффективных GUI-агентов. Однако существующие бенчмарки для граундинга имеют существенные ограничения: они либо предлагают недостаточный объем данных и узкий охват предметных областей, либо чрезмерно фокусируются на одной платформе и требуют узкоспециальных знаний. В данной работе мы представляем VenusBench-GD — комплексный двуязычный бенчмарк для граундинга GUI, охватывающий несколько платформ и позволяющий проводить иерархическую оценку для реальных приложений. Вклад VenusBench-GD заключается в следующем: (i) мы представляем крупномасштабный кроссплатформенный бенчмарк с широким охватом приложений, разнообразными элементами интерфейса и богатыми размеченными данными; (ii) мы создаем высококачественный конвейер построения данных для задач граундинга, достигая более высокой точности разметки по сравнению с существующими бенчмарками; (iii) мы расширяем область граундинга элементов, предлагая иерархическую таксономию задач, которая делит граундинг на базовые и продвинутые категории, включающие шесть различных подзадач, предназначенных для оценки моделей с взаимодополняющих позиций. Результаты наших экспериментов выявляют важные закономерности: универсальные мультимодальные модели теперь не уступают или даже превосходят специализированные GUI-модели в базовых задачах граундинга. В то же время, в продвинутых задачах по-прежнему лидируют специализированные GUI-модели, хотя они демонстрируют значительное переобучение и низкую устойчивость. Эти результаты подчеркивают необходимость комплексных многоуровневых систем оценки.

23

Слух для перевода: Эффективность интеграции речевой модальности в большие языковые модели
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18
BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
7
1

По мере того как большие языковые модели (LLM) выходят за рамки текста, интеграция речи в качестве собственной модальности привела к появлению SpeechLLM — моделей, предназначенных для прямого перевода устной речи, минуя традиционные конвейеры на основе транскрипции. Однако вопрос о том, улучшает ли такая интеграция качество перевода речь-текст по сравнению с устоявшимися каскадными архитектурами, остается открытым. Мы представляем Hearing to Translate — первый комплексный набор тестов, в котором проводится строгое сравнение 5 современных моделей SpeechLLM с 16 мощными прямыми и каскадными системами, объединяющими передовые фундаментальные модели речи (Speech Foundation Models, SFM) с многоязычными LLM. Наш анализ охватывает 16 тестовых наборов, 13 языковых пар и 9 сложных условий, включая речь с запинками, зашумленную речь и длинные высказывания. В ходе этого масштабного оценивания мы обнаружили, что каскадные системы в целом остаются наиболее надежными, тогда как современные SpeechLLM превосходят каскады лишь в отдельных сценариях, а модели SFM отстают от обоих подходов. Это подчеркивает, что интеграция LLM — как внутри модели, так и в составе конвейера — является ключевым условием для высококачественного перевода речи.

24

Различия, имеющие значение: аудит моделей для выявления и устранения разрывов в возможностях
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18
ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
5
1

Традиционные методы оценки мультимодальных больших языковых моделей (MLLM) страдают от недостаточной интерпретируемости и часто не позволяют полностью выявить значительные различия в возможностях между моделями. Для решения этой проблемы мы представляем AuditDM — автоматизированную систему, которая активно выявляет и исправляет режимы сбоев MLLM путем аудита их расхождений. AuditFM дообучает MLLM в роли аудитора с помощью обучения с подкреплением, чтобы генерировать сложные вопросы и контрафактные изображения, максимизирующие расхождения между целевыми моделями. После обучения аудитор обнаруживает разнообразные, интерпретируемые примеры, которые раскрывают слабые места моделей и служат данными для исправления без необходимости разметки. Применение AuditDM к современным моделям, таким как Gemma-3 и PaliGemma-2, выявило более 20 различных типов сбоев. Дообучение на этих выявленных примерах стабильно улучшает все модели по 16 тестовым наборам и позволяет модели объемом 3B превзойти свою 28B версию. Наши результаты показывают, что по мере исчерпания потенциала масштабирования данных целенаправленный аудит моделей предлагает эффективный путь для диагностики и улучшения моделей.

25

Insight Miner: набор данных для анализа временных рядов для межпредметного согласования с естественным языком
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12
ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
4
2

Временные ряды играют ключевую роль во многих научных и промышленных областях, включая экологический анализ, сельское хозяйство, транспорт и финансы. Однако извлечение инсайтов из таких данных традиционно требует глубоких предметных знаний — процесса, который является одновременно трудоемким и затратным по времени. В данной статье мы представляем Insight Miner — крупномасштабную мультимодальную модель (LMM), предназначенную для генерации качественных и всесторонних описаний временных рядов, обогащенных предметной экспертизой. Для решения этой задачи мы представляем TS-Insights (доступен по ссылке: \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), первую общедоменную базу данных для согласования временных рядов и естественного языка. TS-Insights содержит 100 тыс. временных окон, выбранных из 20 наборов данных для прогнозирования. Мы создали этот набор данных с помощью нового агентного workflow, в котором используем статистические инструменты для извлечения признаков из исходных временных рядов, а затем синтезируем их в связные описания трендов с помощью GPT-4. После инструктивного тонкого настроя на TS-Insights модель Insight Miner превосходит современные мультимодальные модели, такие как LLaVA (liu2023llava) и GPT-4, в генерации описаний и инсайтов по временным рядам. Наши результаты указывают на перспективное направление использования LMM в анализе временных рядов и служат основой для того, чтобы большие языковые модели могли интерпретировать временные ряды как естественный тип входных данных.

26

Обучаемое логарифмически-линейное разреженное внимание для эффективных диффузионных трансформаторов
Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

Dec 18
ByYifan Zhou, Zeqi Xiao, Tianyi Wei, Shuai Yang, Xingang Pan
3
2

Диффузионные трансформаторы (DiT) задают современный уровень в области визуальной генерации, однако их квадратичная вычислительная сложность, обусловленная механизмом самовнимания, фундаментально ограничивает масштабирование на длинные последовательности токенов. Недавние подходы с разреженным вниманием Top-K сокращают вычисления в DiT путем сжатия токенов в блочные представления и выбора небольшого набора релевантных ключевых блоков, но все еще страдают от (i) квадратичной стоимости выбора на сжатых токенах и (ii) необходимости увеличивать K для сохранения качества модели по мере роста последовательностей. Мы выявили, что их неэффективность связана с одноуровневым дизайном, поскольку единственный грубый уровень недостаточен для представления глобальной структуры. В данной статье мы представляем Log-linear Sparse Attention (LLSA) — обучаемый механизм разреженного внимания для чрезвычайно длинных последовательностей токенов, который сокращает как стоимость выбора, так и стоимость внимания с квадратичной до логарифмически-линейной сложности за счет использования иерархической структуры. LLSA выполняет иерархический выбор Top-K, постепенно применяя разреженный выбор Top-K с индексами, найденными на предыдущем уровне, и вводит механизм Hierarchical KV Enrichment, который сохраняет глобальный контекст, используя меньшее количество токенов разной гранулярности при вычислении внимания. Для обеспечения эффективного обучения мы разработали высокопроизводительную реализацию для GPU, которая использует только разреженные индексы как для прямого, так и для обратного прохода, устраняя необходимость в плотных масках внимания. Мы оцениваем LLSA на задаче генерации изображений в высоком разрешении в пиксельном пространстве без использования патчификации и кодирования VAE. LLSA ускоряет вывод внимания в 28.27 раз и обучение DiT в 6.09 раз на последовательностях токенов размером 256x256 пикселей, сохраняя при этом качество генерации. Результаты демонстрируют, что LLSA предлагает перспективное направление для эффективного обучения DiT на длинных последовательностях. Код доступен по адресу: https://github.com/SingleZombie/LLSA

27

FrameDiffuser: G-буфер-условная диффузия для нейронного рендеринга последующих кадров
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Dec 18
ByOle Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
3
2

Нейронный рендеринг для интерактивных приложений требует преобразования геометрических и материальных свойств (G-буфера) в фотореалистичные изображения с реалистичным освещением на покадровой основе. Хотя современные диффузионные методы демонстрируют перспективность в синтезе изображений на основе G-буфера, они сталкиваются с критическими ограничениями: однокадровые модели, такие как RGBX, генерируют кадры независимо без временной согласованности, в то время как видео-модели, подобные DiffusionRenderer, слишком ресурсоемки для большинства игровых систем и требуют полных последовательностей заранее, что делает их непригодными для интерактивных приложений, где будущие кадры зависят от пользовательского ввода. Мы представляем FrameDiffuser — авторегрессионную архитектуру нейронного рендеринга, которая генерирует временно согласованные фотореалистичные кадры, используя данные G-буфера и предыдущие выходы модели. После начального кадра FrameDiffuser работает исключительно на входящих данных G-буфера, включающих геометрию, материалы и свойства поверхностей, используя при этом ранее сгенерированный кадр для временного руководства, обеспечивая стабильную генерацию с временной согласованностью на протяжении сотен и тысяч кадров. Наша двухуровневая архитектура условий сочетает ControlNet для структурного руководства с ControlLoRA для временной когерентности. Трехэтапная стратегия обучения позволяет достичь стабильной авторегрессионной генерации. Мы специализируем нашу модель под отдельные среды, отдавая приоритет согласованности и скорости вывода над широкой обобщающей способностью, демонстрируя, что специализированное обучение для конкретной среды обеспечивает превосходное фотореалистичное качество с точным освещением, тенями и отражениями по сравнению с обобщенными подходами.

28

Двунаправленный нормализующий поток: от данных к шуму и обратно
Bidirectional Normalizing Flow: From Data to Noise and Back

Dec 11
ByYiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He
2
1

Нормализующие потоки (NF) утвердились как принципиальная основа для генеративного моделирования. Стандартные NF состоят из прямого и обратного процессов: прямой процесс преобразует данные в шум, тогда как обратный процесс генерирует выборки путём его обращения. Типичные прямые преобразования в NF ограничены требованием явной обратимости, что гарантирует, что обратный процесс может служить их точным аналитическим обращением. Последние разработки TARFlow и его вариантов возродили интерес к методам NF, объединив трансформеры и авторегрессионные потоки, но также выявили причинное декодирование как ключевое узкое место. В данной работе мы представляем двунаправленный нормализующий поток (BiFlow) — подход, который устраняет необходимость в точном аналитическом обращении. BiFlow обучает обратную модель, аппроксимирующую базовое обратное отображение "шум-данные", что позволяет использовать более гибкие функции потерь и архитектуры. Эксперименты на ImageNet демонстрируют, что BiFlow по сравнению с методами, использующими причинное декодирование, улучшает качество генерации, одновременно ускоряя семплирование до двух порядков величины. BiFlow показывает наилучшие результаты среди методов на основе NF и конкурентоспособную производительность среди методов с однократной оценкой ("1-NFE"). Вслед за недавним обнадёживающим прогрессом в области NF, мы надеемся, что наша работа привлечёт дальнейшее внимание к этой классической парадигме.

29

Связанное вариационное обучение с подкреплением для обобщённого логического вывода языковых моделей
Coupled Variational Reinforcement Learning for Language Model General Reasoning

Dec 14
ByXueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
2
2

Хотя обучение с подкреплением достигло значительного прогресса в области логического вывода языковых моделей, оно ограничено требованием верифицируемых вознаграждений. Недавние методы RL без верификатора устраняют это ограничение, используя внутренние вероятности генерации эталонных ответов большими языковыми моделями в качестве сигналов вознаграждения. Однако эти подходы обычно сэмплируют траектории рассуждений, обусловленные только вопросом. Такая конструкция отделяет сэмплирование траекторий рассуждений от информации об ответе, что приводит к неэффективному исследованию и несогласованности между траекториями и конечными ответами. В данной статье мы предлагаем **Связанное Вариационное Обучение с Подкреплением** (CoVRL), которое объединяет вариационный вывод и обучение с подкреплением путем связывания априорного и апостериорного распределений с помощью гибридной стратегии сэмплирования. Путем построения и оптимизации композитного распределения, интегрирующего эти два распределения, CoVRL обеспечивает эффективное исследование, сохраняя при этом сильную согласованность между ходом мыслей и ответом. Многочисленные эксперименты на эталонах математических и общих рассуждений показывают, что CoVRL улучшает производительность на 12.4% по сравнению с базовой моделью и достигает дополнительного улучшения на 2.3% по сравнению с сильными современными базовыми методами RL без верификатора, предоставляя принципиальную основу для расширения общих логических возможностей языковых моделей.

30

Make-It-Poseable: Модель прямой передачи латентных поз для анимации трехмерных персонажей-гуманоидов
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

Dec 18
ByZhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li
2
2

Позирование 3D-персонажей является фундаментальной задачей в компьютерной графике и компьютерном зрении. Однако существующие методы, такие как автоматический риггинг и генерация с условием позы, часто сталкиваются с проблемами неточного предсказания весов скиннинга, топологических несовершенств и слабого соответствия позе, что ограничивает их надежность и способность к обобщению. Для преодоления этих ограничений мы представляем Make-It-Poseable — новую прямую (feed-forward) архитектуру, которая переформулирует задачу позирования персонажа как проблему преобразования в латентном пространстве. В отличие от традиционных подходов, деформирующих вершины сетки, наш метод реконструирует персонажа в новых позах путем непосредственного манипулирования его латентным представлением. Основой нашего метода является трансформер латентного позирования, который управляет токенами формы на основе скелетной анимации. Этот процесс обеспечивается плотным (dense) представлением позы для точного контроля. Для гарантии высококачественной геометрии и учета топологических изменений мы также вводим стратегию латентного контроля (supervision) и адаптивный модуль дополнения (completion). Наш метод демонстрирует превосходное качество позирования. Он также естественным образом расширяется для применения в задачах 3D-редактирования, таких как замена и доработка частей.

31

MomaGraph: Единые графы сцен с учетом состояния на основе модели "визуальный язык" для планирования задач в воплощенных системах
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Dec 18
ByYuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
1
2

Мобильные манипуляторы в домашних условиях должны одновременно перемещаться и выполнять манипуляции. Это требует компактного, семантически насыщенного представления сцены, которое фиксирует местоположение объектов, их функциональное назначение и то, какие части являются интерактивными. Сценарные графы представляются естественным выбором, однако предыдущие работы часто разделяют пространственные и функциональные отношения, рассматривают сцены как статичные снимки без учета состояний объектов или временных обновлений и упускают информацию, наиболее релевантную для выполнения текущей задачи. Для преодоления этих ограничений мы представляем MomaGraph — унифицированное представление сцены для воплощенных агентов, которое интегрирует пространственно-функциональные отношения и интерактивные элементы на уровне деталей. Однако развитие такого представления требует как подходящих данных, так и строгой оценки, которые до сих пор в значительной степени отсутствовали. Таким образом, мы представляем MomaGraph-Scenes — первый масштабный набор данных с богато аннотированными целеориентированными сценарными графами в домашних условиях, а также MomaGraph-Bench — системный набор для оценки, охватывающий шесть способностей к рассуждению: от высокоуровневого планирования до детального понимания сцены. На основе этого фундамента мы также разработали MomaGraph-R1, 7-миллиардную визуально-языковую модель, обученную с подкреплением на данных MomaGraph-Scenes. MomaGraph-R1 предсказывает целеориентированные сценарные графы и функционирует как планировщик задач с нулевым разгоном в рамках парадигмы «Сначала граф, затем план». Многочисленные эксперименты демонстрируют, что наша модель достигает передовых результатов среди открытых моделей, показывая точность 71.6% на бенчмарке (+11.4% по сравнению с лучшим базовым методом), одновременно обобщаясь на публичные бенчмарки и эффективно переносясь на эксперименты с реальными роботами.

32

Рассуждения в сознании: динамическое чередование модальностей в латентном пространстве
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Dec 14
ByChengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
1
1

Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили межмодальное понимание и логические рассуждения за счёт внедрения цепочек мыслей (CoT) в семантическом пространстве. Основываясь на этом, современные исследования расширяют механизм CoT на визуальную модальность, позволяя моделям интегрировать зрительную информацию в процессе рассуждений с помощью внешних инструментов или явного генерирования изображений. Однако эти методы остаются зависимыми от явного пошагового рассуждения, нестабильного взаимодействия восприятия и логики и значительных вычислительных затрат. Вдохновляясь человеческим познанием, мы предполагаем, что мышление разворачивается не линейно, а через динамическое чередование рассуждений и восприятия в сознании. Руководствуясь этой перспективой, мы предлагаем DMLR — динамическую мультимодальную систему латентных рассуждений в режиме тестирования, которая использует оптимизацию латентного градиента политики с управлением по уверенности для уточнения латентных токенов мышления с целью углублённого анализа. Кроме того, представлена стратегия динамической визуальной инжекции, которая извлекает наиболее релевантные визуальные признаки на каждом латентном токене мышления и обновляет набор наилучших визуальных патчей. Обновлённые патчи затем внедряются в латентный токен мышления для достижения динамического чередования визуальной и текстовой информации. Эксперименты на семи мультимодальных бенчмарках для оценки логических рассуждений и с использованием различных архитектур моделей демонстрируют, что DMLR значительно улучшает показатели логического анализа и восприятия при сохранении высокой эффективности вывода.

33

Пространства для творческого взаимодействия и визуального самовыражения
Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Dec 16
ByHuzheng Yang, Katherine Xu, Andrew Lu, Michael D. Grossberg, Yutong Bai, Jianbo Shi
1
1

Создание новых визуальных концепций часто требует соединения различных идей через их наиболее релевантные общие атрибуты — их "вибрацию" (vibe). Мы представляем Vibe Blending — новую задачу генерации согласованных и осмысленных гибридов, раскрывающих эти общие атрибуты между изображениями. Достижение таких смесей является сложной задачей для современных методов, которые не способны эффективно идентифицировать и перемещаться по нелинейным путям, связывающим удалённые концепции в латентном пространстве. Мы предлагаем Vibe Space — иерархическое многообразие в виде графа, которое изучает низкоразмерные геодезические в таких пространствах признаков, как CLIP, обеспечивая плавные и семантически согласованные переходы между концепциями. Для оценки творческого качества мы разрабатываем когнитивно-вдохновлённую систему, сочетающую человеческие оценки, рассуждения больших языковых моделей (LLM) и геометрическую оценку сложности на основе пути. Мы обнаружили, что Vibe Space создаёт смеси, которые люди последовательно оценивают как более креативные и согласованные по сравнению с существующими методами.

34

TabReX: Бесссылочная объяснимая оценка табличных данных
TabReX : Tabular Referenceless eXplainable Evaluation

Dec 17
ByTejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
1
1

Оценка качества таблиц, генерируемых большими языковыми моделями (БЯМ), остается открытой проблемой: существующие метрики либо преобразуют таблицы в плоский текст, игнорируя структуру, либо опираются на фиксированные эталоны, что ограничивает их обобщающую способность. Мы представляем TabReX — беэталонную, свойственно-ориентированную систему для оценки табличной генерации на основе графовых рассуждений. TabReX преобразует исходный текст и генерируемые таблицы в канонические графы знаний, выравнивает их с помощью процесса сопоставления, управляемого БЯМ, и вычисляет интерпретируемые оценки, учитывающие критерии рубрики, которые количественно определяют структурную и фактическую достоверность. Результирующая метрика обеспечивает контролируемый баланс между чувствительностью и специфичностью, давая согласованные с человеческими суждения оценки и трассировку ошибок на уровне ячеек. Для систематической оценки устойчивости метрики мы представляем TabReX-Bench — масштабный эталонный набор данных, охватывающий шесть предметных областей и двенадцать типов возмущений, управляемых планировщиком, по трем уровням сложности. Эмпирические результаты показывают, что TabReX достигает наивысшей корреляции с экспертными ранжированиями, остается стабильной при более сложных возмущениях и позволяет проводить детальный анализ «модель против промпта», устанавливая новую парадигму для достоверной и объяснимой оценки систем структурированной генерации.

35

Улучшение рекуррентных трансформеров с помощью смеси адаптеров LoRA
Improving Recursive Transformers with Mixture of LoRAs

Dec 14
ByMohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
0
1

Разделение параметров в рекуррентных трансформерах сокращает размер модели, но снижает выразительность на уровне слоев. Мы предлагаем смесь адаптаций LoRA (MoL) — механизм условных вычислений с низкими затратами, который интегрирует экспертов на основе низкоранговой адаптации (LoRA) в общую прямую сеть (FFN). MoL обеспечивает токен-условную модуляцию весового пространства общей FFN без разделения параметров базовой архитектуры, в отличие от предыдущих подходов, добавляющих фиксированные или внешние адаптеры. Мы проводим предварительное обучение модернизированной рекуррентной архитектуры ModernALBERT, объединяющей ротационные эмбеддинги, GeGLU, FlashAttention и инициализацию на основе дистилляции. На наборах данных GLUE, SQuAD-v2 и BEIR модель ModernALBERT (50–120 млн параметров) демонстрирует наилучшие результаты среди компактных моделей и превосходит более крупные полностью параметризованные базовые линии. Мы также предлагаем процедуру объединения экспертов, которая сжимает MoL в единый адаптер на этапе вывода с сохранением точности, обеспечивая эффективное развертывание. Наши результаты показывают, что условная модуляция весового пространства эффективно восстанавливает выразительность, утраченную при агрессивном разделении параметров в рекуррентных трансформерах.

36

EmoCaliber: Повышение надежности визуального распознавания эмоций через вербализацию уверенности и калибровку
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Dec 17
ByDaiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
0
1

Визуальное распознавание эмоций (VEC) ставит целью вывод сентиментальных полярностей или категорий эмоций на основе аффективных сигналов, заложенных в изображениях. В последние годы мультимодальные большие языковые модели (MLLM) создали популярную парадигму в VEC, используя свою обобщающую способность для унификации задач VEC, определенных в рамках различных эмоциональных таксономий. Хотя данная парадигма демонстрирует значительный успех, она обычно формулирует VEC как детерминистическую задачу, требуя от модели вывода единственного, определенного ярлыка эмоции для каждого изображения. Такая формулировка недостаточно учитывает присущую субъективность восприятия эмоций, упуская альтернативные интерпретации, которые могут быть в равной степени правдоподобны для разных наблюдателей. Чтобы устранить этот недостаток, мы предлагаем оснастить MLLM способностью вербализировать свою уверенность в эмоциональных прогнозах. Этот дополнительный сигнал предоставляет пользователям оценку как правдоподобности альтернативных интерпретаций, так и самооценки компетентности MLLM, тем самым повышая надежность на практике. Основываясь на этом insight, мы представляем трехэтапную framework обучения, которая последовательно наделяет модель структурированными рассуждениями, учит вербализировать уверенность и калибрует выражение уверенности, culminая в создании EmoCaliber — confidence-aware MLLM для VEC. В ходе объективных и всесторонних оценок на унифицированном benchmark VECBench, EmoCaliber продемонстрировала общее превосходство над существующими методами как в прогнозировании эмоций, так и в оценке уверенности. Эти результаты подтверждают эффективность нашего подхода и обозначают осуществимый шаг к созданию более надежных систем VEC. Страница проекта: https://github.com/wdqqdw/EmoCaliber.

37

Немотрон-Мат: Эффективное дистилляция математических рассуждений с длинным контекстом на основе мультимодального обучения
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Dec 17
ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
0
1

Для обеспечения высококачественного контроля математических рассуждений требуются разнообразные стили рассуждений, развернутые последовательности решений и эффективная интеграция инструментов — возможности, которые существующие наборы данных предоставляют лишь в ограниченной форме. Используя многомодальную способность генерации модели gpt-oss-120b, мы представляем Nemotron-Math — крупномасштабный набор данных для математических рассуждений, содержащий 7,5 миллиона траекторий решений с высоким, средним и низким уровнями сложности рассуждений, каждый из которых доступен как с использованием Python-инструментов (TIR), так и без них. Набор данных интегрирует 85 тысяч тщательно отобранных задач из AoPS с 262 тысячами задач, собранных сообществом на StackExchange-Math, сочетая структурированные олимпиадные задания с разнообразными математическими запросами из реального мира. Мы проводим контролируемые оценки для проверки качества набора данных. Nemotron-Math стабильно превосходит исходный OpenMathReasoning на сопоставимых задачах из AoPS. Включение данных StackExchange-Math существенно повышает устойчивость и способность к обобщению, особенно на наборе HLE-Math, при этом сохраняя точность на математических олимпиадных тестах. Для поддержки эффективного обучения с длинным контекстом мы разработали стратегию последовательного бакетирования, которая ускоряет тонкую настройку с длиной контекста 128K токенов в 2–3 раза без значительной потери точности. В целом, Nemotron-Math обеспечивает передовые результаты, включая 100% точность maj@16 на AIME 2024 и 2025 с использованием Python TIR.

38

Обмен состоянием между промптами и программами
Sharing State Between Prompts and Programs

Dec 16
ByEllie Y. Cheng, Logan Weber, Tian Jin, Michael Carbin
0
1

Появление больших языковых моделей (LLM) ознаменовало рождение нового типа программирования: программирования на естественном языке. Составляя промпты, которые направляют LLM на выполнение обработки естественного языка, генерации кода, логических рассуждений и т.д., пользователи, по сути, пишут код на естественном языке — код на естественном языке — для исполнения LLM. Возникающая область исследований обеспечивает интероперабельность между кодом на естественном языке и формальными языками, такими как Python. Мы представляем новую программную абстракцию — общее состояние программы, — которая устраняет необходимость ручной работы для обеспечения взаимодействия между кодом на естественном языке и состоянием программы. С общим состоянием программы программисты могут писать естественный код, который напрямую записывает значения программных переменных, выполняет вычисления с программными объектами и реализует управляющие конструкции в программе. Мы представляем схему для спецификации интерфейсов естественных функций, которая расширяет программные системы для поддержки естественного кода, и используем эту схему для определения общего состояния программы как интерфейса естественной функции. Мы реализовали общее состояние программы в программной системе Nightjar. Nightjar позволяет программистам писать программы на Python, которые содержат естественный код, имеющий доступ к общему состоянию Python-программы. Мы демонстрируем, что программы, написанные на Nightjar, достигают сопоставимой или более высокой точности выполнения задач, чем реализации, написанные вручную (+4–19%), при этом сокращая количество строк кода в среднем на 39,6%. Компромиссом при использовании Nightjar является возможное увеличение времени выполнения (в 0,4–4,3 раза по сравнению с ручными реализациями).

Dec 18
Dec 19