HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

31 papers found

Технический отчет по Step-GUI
Step-GUI Technical Report

Dec 17

ByHaolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang

132

Последние достижения в области мультимодальных больших языковых моделей открывают беспрецедентные возможности для автоматизации графических интерфейсов. Однако фундаментальная проблема сохраняется: как эффективно получать высококачественные данные для обучения, обеспечивая надежность аннотаций? Мы представляем саморазвивающийся конвейер обучения, работающий на основе Калиброванной системы пошагового вознаграждения, которая преобразует траектории, сгенерированные моделью, в надежные обучающие сигналы посредством калибровки на уровне траекторий, достигая точности аннотаций >90% при стоимости в 10-100 раз ниже. Используя этот конвейер, мы представляем Step-GUI — семейство моделей (4B/8B), которое демонстрирует наилучшую производительность в задачах GUI (8B: 80.2% на AndroidWorld, 48.5% на OSWorld, 62.6% на ScreenShot-Pro), сохраняя при этом надежные общие способности. По мере улучшения возможностей GUI-агентов практическое развертывание требует стандартизированных интерфейсов для гетерогенных устройств при обеспечении конфиденциальности пользователей. Для этой цели мы предлагаем GUI-MCP — первый Model Context Protocol для автоматизации GUI с иерархической архитектурой, сочетающей низкоуровневые атомарные операции и высокоуровневую делегацию задач локальным специализированным моделям, что позволяет осуществлять выполнение с высоким уровнем конфиденциальности, когда чувствительные данные остаются на устройстве. Наконец, чтобы оценить, способны ли агенты справляться с реальными повседневными задачами, мы представляем AndroidDaily — эталонный тест, основанный на реальных паттернах использования мобильных устройств, включающий 3146 статических действий и 235 сквозных задач в высокочастотных ежедневных сценариях (8B: статические 89.91%, сквозные 52.50%). Наша работа способствует развитию практических GUI-агентов и демонстрирует значительный потенциал для реального развертывания в повседневном цифровом взаимодействии.

Qwen-Image-Layered: Достижение внутренней редактируемости посредством декомпозиции по слоям
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Dec 17

ByShengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu

Современные модели визуальной генерации часто сталкиваются с проблемами согласованности при редактировании изображений из-за природы растровых изображений, где всё визуальное содержание объединено в единый холст. В отличие от них, профессиональные инструменты дизайна используют послойное представление, позволяющее изолированно редактировать элементы, сохраняя согласованность. Вдохновлённые этим, мы представляем Qwen-Image-Layered — эндо-энд диффузионную модель, которая декомпозирует одиночное RGB-изображение на несколько семантически разъединённых RGBA-слоёв, обеспечивая врождённую редактируемость, когда каждый RGBA-слой можно независимо изменять, не затрагивая остальное содержимое. Для поддержки декомпозиции с переменным числом слоёв мы вводим три ключевых компонента: (1) RGBA-VAE для унификации латентных представлений RGB- и RGBA-изображений; (2) архитектуру VLD-MMDiT (Variable Layers Decomposition MMDiT), способную декомпозировать переменное количество слоёв изображения; и (3) стратегию многоэтапного обучения для адаптации предварительно обученной модели генерации изображений в многслойный декомпозер. Кроме того, для решения проблемы нехватки высококачественных многослойных изображений для обучения мы создали пайплайн для извлечения и аннотирования многослойных изображений из документов Photoshop (PSD). Эксперименты показывают, что наш метод значительно превосходит существующие подходы по качеству декомпозиции и устанавливает новую парадигму для согласованного редактирования изображений. Наш код и модели доступны по адресу https://github.com/QwenLM/Qwen-Image-Layered.

DEER: Черновик с диффузией, проверка авторегрессионными моделями
DEER: Draft with Diffusion, Verify with Autoregressive Models

Dec 17

ByZicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu

Эффективность, являясь критически важной практической проблемой для агентских и рассуждающих систем на основе больших языковых моделей (LLM), все в большей степени ограничивается присущей авторегрессионному (AR) декодированию задержкой. Спекулятивное декодирование смягчает эти затраты с помощью схемы «черновик-верификация», однако существующие подходы полагаются на AR-модели для генерации черновиков (т.н. драфтеры), что порождает две фундаментальные проблемы: (1) пошаговое накопление неопределенности приводит к прогрессирующему коллапсу доверия между целевой моделью и драфтером, и (2) присущее AR-драфтерам последовательное декодирование. В совокупности эти факторы ограничивают достигаемое ускорение. В данной работе мы показываем, что драфтеры на основе диффузионных больших языковых моделей (dLLM) могут естественным образом преодолеть эти проблемы благодаря принципиально иному вероятностному моделированию и эффективной стратегии параллельного декодирования. Основываясь на этом инсайте, мы представляем DEER — эффективную框架 спекулятивного декодирования, которая генерирует черновики с помощью диффузии и проверяет их с помощью AR-моделей. Для обеспечения генерации качественных черновиков DEER использует двухэтапный пайплайн обучения для согласования dLLM-драфтеров с целевой AR-моделью и дополнительно применяет одношаговое декодирование для создания длинных сегментов черновика. Эксперименты показывают, что DEER достигает длины принимаемого черновика до 32 токенов, что значительно превосходит результат в 10 токенов, достигнутый EAGLE-3. Более того, на тесте HumanEval с моделью Qwen3-30B-A3B, DEER демонстрирует ускорение в 5.54 раза, в то время как EAGLE-3 достигает лишь 2.41 раза. Код, модели, демо и т.д. будут доступны по адресу https://czc726.github.io/DEER/

Универсальная модель рассуждений
Universal Reasoning Model

Dec 16

ByZitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai

Универсальные трансформеры (UT) широко применяются для решения сложных задач логического вывода, таких как ARC-AGI и Судоку, однако конкретные источники их производительности остаются малоизученными. В данной работе мы систематически анализируем варианты UT и показываем, что улучшения на ARC-AGI в основном обусловлены рекуррентным индуктивным смещением и сильными нелинейными компонентами трансформера, а не сложными архитектурными решениями. Руководствуясь этим открытием, мы предлагаем Универсальную модель логического вывода (URM), которая улучшает UT за счёт коротких свёрток и усечённого обратного распространения ошибки. Наш подход значительно повышает производительность логического вывода, достигая state-of-the-art показателей 53,8% pass@1 на ARC-AGI 1 и 16,0% pass@1 на ARC-AGI 2. Наш код доступен по адресу https://github.com/zitian-gao/URM.

Быстрое и точное причинно-следственное параллельное декодирование с использованием метода Якоби
Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Dec 16

ByLanxiang Hu, Siqi Kou, Yichao Fu, Samyam Rajbhandari, Tajana Rosing, Yuxiong He, Zhijie Deng, Hao Zhang

Многотокенная генерация стала перспективной парадигмой для ускорения вывода больших моделей на основе трансформеров. Современные исследования в основном изучают диффузионные большие языковые модели (dLLM) для параллельного декодирования с целью снижения задержек вывода. Для достижения качества генерации на уровне авторегрессионных (AR) моделей многие методы адаптируют AR-модели в dLLM для обеспечения параллельного декодирования. Однако они страдают от ограниченного ускорения по сравнению с AR-моделями из-за несоответствия между предварительным и последующим обучением. В частности, маскированное распределение данных при последующем обучении существенно отклоняется от распределения реальных данных, наблюдаемых при предварительном обучении, а dLLM полагаются на двунаправленное внимание, что конфликтует с причинными априорными знаниями, усвоенными при предварительном обучении, и препятствует интеграции точного повторного использования KV-кэша. Для решения этой проблемы мы представляем Jacobi Forcing — прогрессивную парадигму дистилляции, в которой модели обучаются на собственных сгенерированных траекториях параллельного декодирования, плавно преобразуя AR-модели в эффективные параллельные декодеры с сохранением их причинных свойств вывода, усвоенных при предварительном обучении. Модели, обученные по этой парадигме (Jacobi Forcing Model), достигают 3.8-кратного ускорения в реальном времени на бенчмарках по программированию и математике при минимальной потере производительности. На основе характеристик траекторий Jacobi Forcing Models мы вводим многоблочное декодирование с рециклингом отклонений, которое позволяет увеличить количество принимаемых токенов за итерацию до 4.5 раз и достичь почти 4.0-кратного ускорения в реальном времени, эффективно обменивая дополнительные вычисления на снижение задержки вывода. Наш код доступен по адресу https://github.com/hao-ai-lab/JacobiForcing.

HyperVL: Эффективная и динамичная мультимодальная большая языковая модель для периферийных устройств
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Dec 16

ByHyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang

Современные мультимодальные большие языковые модели обладают мощными перцептивными и логическими способностями, однако высокие вычислительные затраты и требования к памяти затрудняют их прямое развертывание в on-device средах. Хотя модели с малым количеством параметров постепенно наделяются сильными общими возможностями, стандартные энкодеры Vision Transformer (ViT) остаются ключевым узким местом, страдая от чрезмерной задержки и потребления памяти при обработке входных данных высокого разрешения. Для решения этих проблем мы представляем HyperVL — эффективную мультимодальную большую языковую модель, адаптированную для инференса на устройстве. HyperVL использует стратегию разбиения изображения на фрагменты для ограничения пикового использования памяти и включает две новые методики: (1) Компрессор визуального разрешения (VRC), который адаптивно предсказывает оптимальное разрешение кодирования для устранения избыточных вычислений, и (2) Обучение двойной согласованности (DCL), которое согласует энкодеры ViT разных масштабов в единой структуре, позволяя динамически переключаться между визуальными ветвями при общем LLM. Экстенсивные эксперименты демонстрируют, что HyperVL достигает наилучших результатов среди моделей сопоставимого размера в нескольких бенчмарках. Кроме того, она существенно снижает задержку и энергопотребление на реальных мобильных устройствах, подтверждая свою практическую пригодность для мультимодального инференса на устройстве.

Учебный план-головоломка GRPO для визуально-центрированного мышления
Puzzle Curriculum GRPO for Vision-Centric Reasoning

Dec 16

ByAhmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk

Современные подходы с обучением с подкреплением (ОП), такие как GRPO с контролем по результатам, продвинули логические рассуждения типа «цепочки мыслей» в визуально-языковых моделях (VLM), однако ключевые проблемы сохраняются: (i) зависимость от дорогостоящих и зашумленных ручных разметок или внешних верификаторов; (ii) плоские и разреженные схемы вознаграждений в GRPO; и (iii) логическая несогласованность между рассуждениями цепочки и её итоговым ответом. Мы представляем Puzzle Curriculum GRPO (PC-GRPO) — метод ОП с верифицируемыми вознаграждениями (RLVR), не требующий разметки и укрепляющий визуальные рассуждения в VLM без аннотаций или внешних верификаторов. PC-GRPO заменяет метки тремя самоконтролируемыми головоломками: PatchFit, Rotation (с бинарными вознаграждениями) и Jigsaw (с градуированными частичными вознаграждениями, смягчающими разреженность). Для борьбы с плоскими вознаграждениями и исчезающими групповыми относительными преимуществами мы вводим учитывающий сложность учебный план, который динамически взвешивает выборки и достигает пика на средней сложности. Мы дополнительно отслеживаем Согласованность Рассуждений и Ответа (RAC) после обучения: аналогично отчетам для стандартного GRPO в LLM, RAC обычно сначала растет, а затем ухудшается; наш учебный план задерживает этот спад, а схемы вознаграждения, обеспечивающие согласованность, дополнительно повышают RAC. RAC коррелирует с итоговой точностью. На различных бенчмарках и на базе моделей Qwen-7B и Qwen-3B PC-GRPO улучшает качество рассуждений, стабильность обучения и точность на конечных задачах, предлагая практический путь к масштабируемому, верифицируемому и интерпретируемому пост-обучению VLM с помощью ОП.

MMSI-Video-Bench: Комплексный бенчмарк для оценки пространственного интеллекта на основе видео
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

Dec 11

ByJingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang

Пространственное понимание непрерывного визуального потока крайне важно для MLLM, чтобы они могли эволюционировать в универсальных помощников в физических средах. Однако до сих пор не существует всеобъемлющего бенчмарка, который бы комплексно оценивал прогресс в достижении этой цели. В данной работе мы представляем MMSI-Video-Bench — полностью размеченный человеком бенчмарк для оценки пространственного интеллекта MLLM на основе видео. Он реализует четырехуровневую структуру (Восприятие, Планирование, Прогнозирование и Межвидео-рассуждение) с помощью 1106 вопросов, основанных на 1278 клипах из 25 публичных наборов данных и внутренних видео. Каждый элемент тщательно спроектирован и проверен экспертами в области 3D-компьютерного зрения с пояснительными обоснованиями для обеспечения точной и однозначной привязки. Благодаря разнообразным источникам данных и комплексному охвату задач, MMSI-Video-Bench также поддерживает три предметно-ориентированных суб-бенчмарка (Бенчмарк восприятия внутренних сцен, Роботизированный бенчмарк и Бенчмарк локализации) для целевой оценки возможностей. Мы оценили 25 сильных открытых и проприетарных MLLM, выявив разительный разрыв между человеком и ИИ: многие модели показывают результаты, близкие к случайным, а лучшая модель для рассуждений отстает от человека почти на 60%. Мы также обнаружили, что модели, дообученные для пространственных задач, все еще не способны эффективно обобщать знания в нашем бенчмарке. Детальный анализ ошибок выявляет систематические сбои в геометрических рассуждениях, локализации движения, долгосрочном прогнозировании и установлении соответствий между видео. Мы также показываем, что типичные стратегии семплирования кадров плохо переносятся на наш бенчмарк, насыщенный задачами на рассуждение, и что ни 3D-пространственные подсказки, ни prompting по цепочке мыслей не дают значимого улучшения. Мы ожидаем, что наш бенчмарк станет надежной испытательной базой для развития видео-ориентированного пространственного интеллекта.

IC-Effect: Точное и эффективное редактирование видеоэффектов с помощью контекстного обучения
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Dec 17

ByYuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao

Мы представляем IC-Effect — управляемую инструкциями, основанную на DiT (Diffusion Transformer) систему для видеомонтажа с визуальными эффектами (VFX) в условиях ограниченного количества примеров, которая синтезирует сложные эффекты (например, пламя, частицы и мультяшных персонажей), строго сохраняя пространственную и временную согласованность. Редактирование видео с VFX является чрезвычайно сложной задачей, поскольку вносимые эффекты должны бесшовно интегрироваться с фоном, фон должен оставаться полностью неизменным, а паттерны эффектов необходимо эффективно обучать на ограниченных парных данных. Однако существующие модели редактирования видео не удовлетворяют этим требованиям. IC-Effect использует исходное видео в качестве чистого контекстного условия, раскрывая способность моделей DiT к контекстному обучению для достижения точного сохранения фона и естественного внедрения эффектов. Двухэтапная стратегия обучения, состоящая из общей адаптации для редактирования с последующим эффекто-специфичным обучением через Effect-LoRA, обеспечивает точное следование инструкциям и надежное моделирование эффектов. Для дальнейшего повышения эффективности мы вводим пространственно-временную разреженную токенизацию, позволяющую достичь высокой точности при существенно сниженных вычислительных затратах. Мы также публикуем парный набор данных для VFX-редактирования, охватывающий 15 высококачественных визуальных стилей. Многочисленные эксперименты показывают, что IC-Effect обеспечивает высококачественное, управляемое и временно согласованное VFX-редактирование, открывая новые возможности для создания видео.

Могут ли языковые модели направлять собственное исследование? Градиентно-направленное обучение с подкреплением для рассуждений в LLM
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Dec 17

ByZhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu

Подкрепляющее обучение стало ключевым инструментом для усиления способностей к рассуждению у больших языковых моделей, однако современные механизмы исследования фундаментально не согласованы с тем, как эти модели фактически обучаются. Бонусы за энтропию и внешние семантические компараторы поощряют поверхностное варьирование, но не гарантируют, что сэмплированные траектории будут различаться в направлениях обновления, формирующих оптимизацию. Мы предлагаем G2RL — градиентно-управляемый фреймворк подкрепляющего обучения, в котором исследование направляется не внешними эвристиками, а собственной геометрией обновления первого порядка модели. Для каждого ответа G2RL строит признак на уровне последовательности из чувствительности последнего слоя модели, получаемый с пренебрежимо малой стоимостью при стандартном прямом проходе, и измеряет, как каждая траектория повлияет на политику, сравнивая эти признаки внутри сэмплированной группы. Траектории, вносящие новые направления градиента, получают ограниченный мультипликативный множитель вознаграждения, в то время как избыточные или отклоняющиеся от многообразия обновления ослабляются, что создает самореферентный сигнал исследования, естественным образом согласованный со стабильностью в стиле PPO и KL-контролем. На наборах задач по математике и общим рассуждениям (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) для базовых моделей Qwen3 1.7B и 4B G2RL последовательно улучшает показатели pass@1, maj@16 и pass@k по сравнению с GRPO на основе энтропии и методами с внешними эмбеддингами. Анализируя индуцированную геометрию, мы обнаруживаем, что G2RL расширяет исследование в существенно более ортогональные и зачастую противоположные направления градиента, сохраняя семантическую связность, что демонстрирует: собственное пространство обновления политики предоставляет гораздо более достоверную и эффективную основу для направления исследования в подкрепляющем обучении больших языковых моделей.

Skyra: Обнаружение сгенерированных ИИ видео через обоснованный анализ артефактов
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Dec 17

ByYifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu

Неправомерное использование технологий генерации видео на основе искусственного интеллекта вызвало серьезную общественную озабоченность, подчеркнув острую необходимость в надежных детекторах видео, созданных ИИ. Однако большинство существующих методов ограничиваются бинарной классификацией и не предоставляют необходимых объяснений для интерпретации человеком. В данной статье мы представляем Skyra — специализированную мультимодальную большую языковую модель (MLLM), которая идентифицирует визуальные артефакты, воспринимаемые человеком, в видео, сгенерированных ИИ, и использует их в качестве обоснованных доказательств как для обнаружения, так и для объяснения. Для достижения этой цели мы создали ViF-CoT-4K для контролируемого тонкого обучения (SFT) — первый масштабный набор данных об артефактах в видео, созданных ИИ, с детализированными аннотациями, выполненными человеком. Затем мы разработали двухэтапную стратегию обучения, которая систематически улучшает пространственно-временное восприятие артефактов, способность к объяснению и точность обнаружения нашей модели. Для всесторонней оценки Skyra мы представляем ViF-Bench — эталонный набор, содержащий 3 тыс. высококачественных образцов, сгенерированных более чем десятью передовыми генераторами видео. Многочисленные эксперименты демонстрируют, что Skyra превосходит существующие методы по нескольким эталонным тестам, а наша оценка дает ценные insights для развития объяснимого обнаружения видео, сгенерированных ИИ.

VOYAGER: Обучение без обучения для генерации разнообразных наборов данных с использованием больших языковых моделей
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs

Dec 12

ByAvinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi

Крупные языковые модели (LLM) все чаще используются для генерации синтетических наборов данных для оценки и обучения последующих моделей. Однако предыдущие исследования отмечали, что такие сгенерированные данные страдают от недостатка разнообразия. В данной статье мы предлагаем Voyager — новый принципиальный подход к созданию разнообразных наборов данных. Наш подход является итеративным и напрямую оптимизирует математическую величину, отвечающую за разнообразие набора данных, с использованием аппарата детерминантных точечных процессов. Кроме того, наш подход не требует обучения, применим к моделям с закрытым исходным кодом и масштабируем. Наряду с теоретическим обоснованием работы нашего метода, мы также демонстрируем в ходе всесторонних экспериментов, что Voyager значительно превосходит популярные базовые подходы, обеспечивая повышение разнообразия в 1,5–3 раза.

DiffusionVL: Преобразование любых авторегрессионных моделей в диффузионные модели «визуальный язык»
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

Dec 17

ByLunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang

В последних мультимодальных исследованиях диффузионная парадигма стала перспективной альтернативой авторегрессионной парадигме (AR) благодаря своим уникальным преимуществам при декодировании. Однако из-за ограниченных возможностей базовой диффузионной языковой модели производительность диффузионной визуально-языковой модели (dVLM) по-прежнему значительно отстает от основных моделей. Это порождает простой, но фундаментальный вопрос: возможно ли создавать dVLM на основе существующих мощных AR-моделей? В ответ мы предлагаем DiffusionVL — семейство dVLM, которое можно получить из любой мощной AR-модели. С помощью простого тонкого настроя мы успешно адаптируем предварительно обученные AR-модели к диффузионной парадигме. Этот подход позволил сделать два ключевых наблюдения: (1) Переход от мультимодальных моделей на основе AR к диффузии оказывается чрезвычайно эффективным. (2) Прямое преобразование AR-языковой модели в dVLM также осуществимо и демонстрирует производительность, сопоставимую с визуально-инструктивным тонким настроем в стиле LLaVA. Кроме того, мы внедряем в dVLM блочное декодирование, которое поддерживает генерацию произвольной длины и повторное использование KV-кэша, что обеспечивает значительное ускорение вывода. Мы провели многочисленные эксперименты. Несмотря на обучение с использованием менее 5% данных, требуемых предыдущими методами, DiffusionVL демонстрирует всестороннее улучшение производительности — прирост на 34,4% на тесте MMMU-Pro (vision) и на 37,5% на тесте MME (Cog.) — наряду с двукратным ускорением вывода. Модель и код доступны по адресу https://github.com/hustvl/DiffusionVL.

Надежное и калиброванное обнаружение подлинного мультимедийного контента
Robust and Calibrated Detection of Authentic Multimedia Content

Dec 17

BySarim Hashmi, Abdelrahman Elsayed, Mohammed Talha Alam, Samuele Poppi, Nils Lukas

Генеративные модели способны синтезировать высокореалистичный контент, так называемые дипфейки, который уже массово используется для подрыва достоверности цифровых медиа. Современные методы обнаружения дипфейков ненадежны по двум причинам: (i) последующее различение недостоверного контента часто невозможно (например, с запомненными образцами), что приводит к неограниченному уровню ложноположительных срабатываний (FPR); и (ii) обнаружению не хватает устойчивости, поскольку злоумышленники могут адаптироваться к известным детекторам с почти идеальной точностью, используя минимальные вычислительные ресурсы. Для преодоления этих ограничений мы предлагаем фреймворк повторного синтеза, позволяющий определить, является ли образец подлинным или его аутентичность может быть правдоподобно оспорена. Мы делаем два ключевых вклада, ориентируясь на настройку высокой точности при низкой полноте в условиях противодействия эффективным (т.е. с ограниченными вычислительными ресурсами) оппонентам. Во-первых, мы демонстрируем, что наш калиброванный метод повторного синтеза является наиболее надежным подходом для верификации подлинных образцов при сохранении контролируемо низкого FPR. Во-вторых, мы показываем, что наш метод обеспечивает устойчивость к атакам со стороны эффективных противников, в то время как предыдущие методы легко обходятся при идентичных вычислительных бюджетах. Наш подход поддерживает работу с несколькими модальностями и использует передовые методы инверсии.

SAGE: Обучение умных агентов для произвольного горизонта в задачах анализа длинных видео с помощью обучения с подкреплением
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Dec 15

ByJitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi

Как люди, мы по своей природе способны рассуждать на любом временном горизонте, то есть можем решать, нужно ли нам последовательно просматривать длинные видео или полностью смотреть короткие, в зависимости от требований конкретной задачи. Учитывая это, можно было бы ожидать, что модели для анализа видео будут гибко рассуждать в различных временных масштабах. Однако современные передовые модели по-прежнему обучаются давать ответы за один шаг, обрабатывая при этом большое количество кадров, что аналогично просмотру всего длинного видео и требует значительных ресурсов. Это поднимает вопрос: возможно ли создать производительные системы анализа видео с произвольным горизонтом? Вдохновляясь поведением человека, мы, во-первых, предлагаем SAGE — агентную систему, которая проводит многошаговый анализ длинных видео, решая при этом более простые задачи за один шаг. Во-вторых, мы представляем простой конвейер генерации синтетических данных с использованием Gemini-2.5-Flash для обучения оркестратора SAGE-MM, который является ядром системы SAGE. Мы также предлагаем эффективный рецепт последующего обучения с подкреплением, необходимый для привития SAGE-MM способности к рассуждению на любом горизонте. В-третьих, мы создали SAGE-Bench со средней продолжительностью видео более 700 секунд для оценки способности к анализу видео в реальных сценариях развлекательного контента. Наконец, мы эмпирически подтверждаем эффективность нашей системы, данных и метода обучения с подкреплением, наблюдая значительное улучшение результатов — до 6.1% в задачах открытого анализа видео и впечатляющее улучшение на 8.2% для видео длиннее 10 минут.

Сквозное обучение авторегрессионной видеодиффузии посредством самопередискретизации
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Dec 17

ByYuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin

Авторегрессионные диффузионные модели для видео демонстрируют потенциал в моделировании мира, но уязвимы к смещению экспозиции, возникающему из-за несоответствия между обучением и тестированием. Хотя последние работы решают эту проблему с помощью пост-обработки, они обычно полагаются на двунаправленную учительскую модель или онлайн-дискриминатор. Для создания сквозного решения мы представляем Resampling Forcing — безучительскую архитектуру, которая позволяет обучать авторегрессионные видео-модели с нуля и в больших масштабах. Ключевым элементом нашего подхода является схема самопередискретизации, которая имитирует ошибки модели на исторических кадрах во время вывода в процессе обучения. Условливаясь на этих деградировавших историях, разреженная причинная маска обеспечивает временную причинность, одновременно позволяя параллельное обучение с использованием диффузионных потерь на уровне кадров. Для эффективного генерации длинных последовательностей мы дополнительно вводим маршрутизацию истории — беспараметрический механизм, который динамически извлекает k наиболее релевантных исторических кадров для каждого запроса. Эксперименты показывают, что наш подход достигает производительности, сопоставимой с базовыми методами на основе дистилляции, демонстрируя при этом превосходную временную согласованность на длинных видео благодаря обучению на нативной длине.

FiNERweb: Наборы данных и артефакты для масштабируемого многозычного распознавания именованных сущностей
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

Dec 15

ByJonas Golde, Patrick Haller, Alan Akbik

Современные исследования в области многозадачного распознавания именованных сущностей (NER) показали, что большие языковые модели (LLM) способны обеспечивать эффективное синтетическое обучение, однако такие наборы данных в основном появлялись как побочные продукты широкомасштабных экспериментов, а не как систематические, пригодные для повторного использования ресурсы. Мы представляем FiNERweb — конвейер создания наборов данных, который масштабирует парадигму «учитель-ученик» до 91 языка и 25 систем письменности. Основываясь на FineWeb-Edu, наш подход использует обучение регрессионных моделей для идентификации фрагментов текста, релевантных для NER, и аннотирует их с помощью многоязычных LLM, в результате чего получается около 225 тысяч фрагментов с 235 тысячами уникальных меток сущностей. Наши эксперименты показывают, что регрессионная модель достигает показателя F1 выше 84, а модели, обученные на FiNERweb, демонстрируют сопоставимую или улучшенную производительность в условиях zero-shot переноса на английский, тайский и суахили, несмотря на обучение на данных в 19 раз меньшего объема по сравнению с сильными базовыми уровнями. Кроме того, мы оцениваем качество аннотаций с использованием LLM-как-судьи и наблюдаем стабильно высокие баллы как за достоверность (3,99 из 5), так и за полноту (4,05 из 5), что указывает на надежные и информативные аннотации. Дополнительно мы публикуем набор данных как с английскими метками, так и с переведенными наборами меток на соответствующих целевых языках, поскольку мы наблюдаем, что производительность современных передовых моделей снижается на 0,02–0,09 F1 при оценке с использованием меток на целевом языке вместо английских. Мы публикуем FiNERweb вместе со всеми сопутствующими материалами для исследовательского сообщества, чтобы способствовать более эффективному обучению по схеме «учитель-ученик» для многозадачного распознавания именованных сущностей.

Модели «Зрение-Язык-Действие» для автономного вождения: прошлое, настоящее и будущее
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Dec 18

ByTianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang

Автономное вождение долгое время основывалось на модульных конвейерах «Восприятие-Решение-Действие», где созданные вручную интерфейсы и основанные на правилах компоненты часто дают сбой в сложных или редких сценариях. Их каскадная конструкция дополнительно распространяет ошибки восприятия, ухудшая последующее планирование и управление. Модели «Видение-Действие» (Vision-Action, VA) решают некоторые ограничения, изучая прямые соответствия от визуальных входных данных к действиям, но они остаются «чёрными ящиками», чувствительными к сдвигам распределения данных и лишены структурированного мышления или способностей следовать инструкциям. Недавний прогресс в области больших языковых моделей (Large Language Models, LLMs) и мультимодального обучения стимулировал появление фреймворков «Видение-Язык-Действие» (Vision-Language-Action, VLA), которые интегрируют восприятие с принятием решений, основанным на языке. Объединяя визуальное понимание, лингвистические рассуждения и исполнительные выходные данные, VLA открывают путь к более интерпретируемым, обобщаемым и согласованным с человеком политикам вождения. Данная работа предлагает структурированную характеристику формирующегося ландшафта VLA для автономного вождения. Мы прослеживаем эволюцию от ранних подходов VA к современным фреймворкам VLA и систематизируем существующие методы по двум основным парадигмам: сквозные VLA (End-to-End VLA), которые интегрируют восприятие, рассуждение и планирование в единой модели, и двухсистемные VLA (Dual-System VLA), которые разделяют медленное обдумывание (с помощью VLM) и быстрое, критичное к безопасности выполнение (с помощью планировщиков). В рамках этих парадигм мы далее выделяем подклассы, такие как текстовые и численные генераторы действий, а также механизмы явного и неявного управления. Мы также обобщаем репрезентативные наборы данных и бенчмарки для оценки систем вождения на основе VLA и выделяем ключевые проблемы и открытые направления, включая устойчивость, интерпретируемость и точность следования инструкциям. В целом, данная работа направлена на создание последовательной основы для продвижения систем автономного вождения, совместимых с человеком.

В поисках пиксельного супервизирования для визуального предобучения
In Pursuit of Pixel Supervision for Visual Pre-training

Dec 17

ByLihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu

На самом базовом уровне пиксели являются источником визуальной информации, посредством которой мы воспринимаем мир. Пиксели содержат информацию всех уровней — от низкоуровневых атрибутов до высокоуровневых концепций. Автокодировщики представляют собой классическую и проверенную временем парадигму для обучения представлений из пикселей или других исходных данных. В данной работе мы демонстрируем, что самообучение на основе автокодировщиков остается конкурентоспособным и сегодня, позволяя получать качественные представления для последующих задач, сохраняя при этом простоту, стабильность и эффективность. Наша модель, получившая кодовое название «Pixio», представляет собой усовершенствованный маскированный автокодировщик (MAE) с более сложными задачами предварительного обучения и более мощными архитектурами. Модель обучалась на 2 миллиардах веб-изображений с использованием стратегии самоотбора при минимальном участии человека. Pixio демонстрирует конкурентоспособные результаты в широком спектре практических задач, включая оценку монокулярной глубины (например, Depth Anything), прямое 3D-восстановление (MapAnything), семантическую сегментацию и обучение роботов, превосходя или соответствуя результатам DINOv3, обученной в аналогичных масштабах. Наши результаты позволяют предположить, что самообучение в пространстве пикселей может служить перспективной альтернативой и дополнением к подходам, работающим в латентном пространстве.

Является ли Nano Banana Pro универсальным решением для низкоуровневого компьютерного зрения? Комплексная оценка на 14 задачах и 40 наборах данных
Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

Dec 17

ByJialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao

Быстрая эволюция моделей генерации изображений по тексту произвела революцию в создании визуального контента. Хотя коммерческие продукты, такие как Nano Banana Pro, привлекли значительное внимание, их потенциал в качестве универсальных решений для традиционных задач низкоуровневого компьютерного зрения остается в значительной степени неисследованным. В данном исследовании мы изучаем ключевой вопрос: является ли Nano Banana Pro универсальным решением для низкоуровневого зрения? Мы провели всестороннюю оценку с нулевым разгоном (zero-shot) на 14 различных низкоуровневых задачах, охватывающих 40 разнообразных наборов данных. Используя простые текстовые промпты без тонкой настройки, мы сравнили Nano Banana Pro с передовыми специализированными моделями. Наш обширный анализ выявляет отчетливую дихотомию производительности: хотя Nano Banana Pro демонстрирует превосходное субъективное визуальное качество, часто генерируя правдоподобные высокочастотные детали, которые превосходят результаты специализированных моделей, он отстает по традиционным количественным метрикам, основанным на эталонных изображениях. Мы объясняем это расхождение присущей генеративным моделям стохастичностью, которая мешает им поддерживать строгую пиксельную согласованность, требуемую традиционными метриками. Данный отчет идентифицирует Nano Banana Pro как способного претендента для zero-shot решения задач низкоуровневого зрения, но при этом подчеркивает, что достижение высокой точности, свойственной узкоспециализированным моделям, остается значительным препятствием.

VABench: Комплексный эталонный тест для генерации аудио-видео контента
VABench: A Comprehensive Benchmark for Audio-Video Generation

Dec 10

ByDaili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang

Последние достижения в области генерации видео впечатляют: модели теперь способны создавать визуально привлекательные видео с синхронизированным звуком. Хотя существующие бенчмарки для генерации видео предлагают всесторонние метрики для оценки визуального качества, в них отсутствуют убедительные методы оценки для аудио-видео генерации, особенно для моделей, предназначенных для создания синхронизированных аудио-видео выходных данных. Чтобы восполнить этот пробел, мы представляем VABench — всеобъемлющую и многомерную систему бенчмарков, разработанную для систематической оценки возможностей синхронной аудио-видео генерации. VABench охватывает три основных типа задач: генерация аудио-видео по тексту (T2AV), генерация аудио-видео по изображению (I2AV) и генерация стерео аудио-видео. Кроме того, в рамках системы созданы два основных оценочных модуля, покрывающих 15 измерений. Эти измерения специально оценивают парное сходство (текст-видео, текст-аудио, видео-аудио), синхронизацию аудио и видео, соответствие артикуляции речи, а также тщательно отобранные пары вопрос-ответ (QA) для аудио и видео, среди других аспектов. Более того, VABench охватывает семь основных содержательных категорий: животные, звуки, производимые человеком, музыка, звуки окружающей среды, синхронные физические звуки, сложные сцены и виртуальные миры. Мы предоставляем систематический анализ и визуализацию результатов оценки, стремясь установить новый стандарт для оценки моделей генерации видео с функциями синхронного звука и способствовать всестороннему прогрессу в данной области.

SonicMoE: Ускорение MoE с помощью оптимизаций с учётом ввода-вывода и структуры тайлов
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Dec 16

ByWentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao

Модели типа «Смесь экспертов» (MoE) стали фактически стандартной архитектурой для масштабирования языковых моделей без значительного увеличения вычислительных затрат. Современные MoE-модели демонстрируют явную тенденцию к высокой гранулярности экспертов (меньшая промежуточная размерность эксперта) и большей разреженности (постоянное число активируемых экспертов при увеличении общего их количества), что повышает качество модели на один FLOP. Однако мелкозернистые MoE страдают от увеличения объема памяти для активаций и снижения аппаратной эффективности из-за более высоких затрат на ввод-вывод, в то время как более разреженные MoE сталкиваются с бесполезными вычислениями из-за дополнения (padding) в групповых ядрах GEMM. В ответ на это мы предлагаем эффективный по памяти алгоритм для вычисления прямого и обратного проходов MoE с минимальным кэшированием активаций для обратного прохода. Мы также разрабатываем GPU-ядро, которое совмещает операции ввода-вывода с вычислениями, принося пользу всем MoE-архитектурам. Наконец, мы предлагаем новый метод «округления токенов», который минимизирует бесполезные вычисления, вызванные дополнением в групповых ядрах GEMM. В результате наш метод SonicMoE сокращает объем памяти для активаций на 45% и обеспечивает увеличение пропускной способности вычислений в 1.86 раза на GPU Hopper по сравнению с ядром MoE в формате BF16 от ScatterMoE для мелкозернистой 7B MoE. Конкретно, SonicMoE на 64 H100 обеспечивает пропускную способность обучения в 213 миллиардов токенов в день, что сопоставимо с 225 миллиардами токенов в день у ScatterMoE на 96 H100 для обучения 7B MoE-модели с использованием FSDP-2 в кодовой базе lm-engine. В условиях высокой разреженности MoE наш алгоритм округления токенов с учетом блоков (tile-aware) дает дополнительное ускорение времени выполнения ядра в 1.16 раза по сравнению с классической маршрутизацией top-K, сохраняя при этом схожую производительность на downstream-задачах. Мы открываем исходный код всех наших ядер, чтобы обеспечить более быструю обучение MoE-моделей.

WAY: Прогнозирование пункта назначения судна по глобальным траекториям AIS
WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory

Dec 15

ByJin Sob Kim, Hyun Joon Park, Wooseok Shin, Dongil Park, Sung Won Han

Система автоматической идентификации (АИС) обеспечивает мониторинг морской деятельности на основе данных, но страдает от проблем с надежностью и нерегулярными интервалами передачи. Мы решаем задачу прогнозирования пункта назначения судна с использованием глобальных данных АИС, предлагая дифференцированный подход, который преобразует протяженные порт-порт траектории во вложенную последовательную структуру. Используя пространственную сетку, данный метод снижает пространственно-временные искажения, сохраняя при этом детальное разрешение. Мы представляем новую архитектуру глубокого обучения WAY, разработанную для обработки этих реструктурированных траекторий с целью долгосрочного прогнозирования пункта назначения за несколько дней или недель. Архитектура WAY состоит из слоя представления траекторий и блоков канально-агрегирующей последовательной обработки (CASP). Слой представления генерирует многоканальные векторные последовательности из кинематических и некинематических признаков. Блоки CASP используют многоголовую канальную и самовнимательность для агрегации и передачи последовательной информации. Дополнительно мы предлагаем специализированную технику Gradient Dropout (GD), которая позволяет осуществлять обучение по схеме «многие-ко-многим» на одиночных метках, предотвращая всплески смещенной обратной связи за счет стохастического блокирования потока градиентов в зависимости от длины выборки. Эксперименты на 5-летних данных АИС демонстрируют превосходство WAY над традиционными подходами, основанными на пространственной сетке, независимо от стадии прохождения траектории. Результаты также подтверждают, что применение GD приводит к повышению производительности. Наконец, мы исследуем потенциал применения WAY в реальных условиях посредством многозадачного обучения для оценки времени прибытия.

VTCBench: Способны ли модели «визуальный язык» понимать длинный контекст при сжатии визуально-текстовой информации?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

Dec 17

ByHongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang

Вычислительные затраты и затраты памяти, связанные с расширением контекстного окна больших языковых моделей (LLM), серьезно ограничивают их масштабируемость. Примечательным решением является визуально-текстовое сжатие (VTC), примером которого служат такие фреймворки, как DeepSeek-OCR и Glyph, преобразующие длинные тексты в плотные двумерные визуальные представления, достигая тем самым коэффициентов сжатия токенов в 3–20 раз. Однако влияние такой высокой информационной плотности на ключевые способности визуально-языковых моделей (VLM) к работе с длинным контекстом остается недостаточно изученным. Чтобы восполнить этот пробел, мы представляем первый бенчмарк для VTC и систематически оцениваем производительность VLM в трех сценариях понимания длинного контекста: VTC-Retrieval, который оценивает способность модели извлекать и агрегировать информацию; VTC-Reasoning, который требует от моделей выявления скрытых связей для нахождения фактов с минимальным лексическим перекрытием; и VTC-Memory, который измеряет способность к комплексному ответу на вопросы в рамках долгосрочной диалоговой памяти. Кроме того, мы создали VTCBench-Wild для моделирования разнообразных сценариев ввода. Мы всесторонне оценили ведущие модели с открытым исходным кодом и проприетарные модели на наших бенчмарках. Результаты показывают, что, несмотря на способность хорошо декодировать текстовую информацию (например, с помощью OCR), большинство VLM демонстрируют удивительно низкую способность к пониманию длинного контекста при работе со сжатой VTC информацией, не справляясь с выявлением длинных связей или зависимостей в контексте. Данное исследование обеспечивает глубокое понимание VTC и служит основой для проектирования более эффективных и масштабируемых VLM.

ОБЛАСТЬ ПРИМЕНЕНИЯ: Эволюция промптов для повышения эффективности агентов
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

Dec 17

ByZehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu

Агенты больших языковых моделей (LLM) все чаще развертываются в средах, генерирующих массовый динамический контекст. Однако сохраняется ключевое ограничение: хотя агенты имеют доступ к этому контексту, их статические промты не обладают механизмами для эффективного управления им, что приводит к повторяющимся ошибкам коррекции и улучшения. Для преодоления этого пробела в возможностях мы представляем SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE формулирует управление контекстом как задачу онлайн-оптимизации, синтезируя руководства из траекторий выполнения для автоматической эволюции промта агента. Мы предлагаем механизм Dual-Stream, который балансирует тактическую специфичность (устранение непосредственных ошибок) со стратегической обобщенностью (развитие долгосрочных принципов). Кроме того, мы вводим Perspective-Driven Exploration для максимизации охвата стратегий, повышая вероятность наличия у агента правильной стратегии для любой конкретной задачи. Эксперименты на бенчмарке HLE показывают, что SCOPE повышает процент успешного выполнения задач с 14,23% до 38,64% без вмешательства человека. Мы публикуем наш код по адресу https://github.com/JarvisPei/SCOPE.

Понимание и улучшение гиперболического глубокого обучения с подкреплением
Understanding and Improving Hyperbolic Deep Reinforcement Learning

Dec 16

ByTimo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek

Эффективность агентов обучения с подкреплением (ОП) критически зависит от качества базовых признаковых представлений. Гиперболические пространства признаков хорошо подходят для этой цели, поскольку они естественным образом отражают иерархическую и реляционную структуру, часто присутствующую в сложных средах ОП. Однако использование этих пространств обычно сталкивается с проблемами оптимизации из-за нестационарности ОП. В данной работе мы определяем ключевые факторы, определяющие успех и неудачу при обучении глубоких гиперболических агентов ОП. Анализируя градиенты основных операций в моделях гиперболической геометрии — шаре Пуанкаре и гиперболоиде — мы показываем, что embeddings с большой нормой дестабилизируют градиентное обучение, приводя к нарушениям trust-region в проксимальной оптимизации политики (PPO). На основе этих инсайтов мы представляем Hyper++ — нового гиперболического агента PPO, который состоит из трех компонентов: (i) стабильное обучение критика с помощью категориальной функции потерь для ценности вместо регрессии; (ii) регуляризация признаков, гарантирующая ограниченность норм и избегающая проклятия размерности, присущего отсечению (clipping); и (iii) использование более удобной для оптимизации формулировки гиперболических слоев нейронной сети. В экспериментах на ProcGen мы показываем, что Hyper++ гарантирует стабильное обучение, превосходит предыдущие гиперболические агенты и сокращает реальное время обучения примерно на 30%. На Atari-5 с Double DQN Hyper++ значительно превосходит евклидовые и гиперболические базовые методы. Наш код доступен по адресу https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.

FrontierCS: Развивающиеся вызовы для развивающегося интеллекта
FrontierCS: Evolving Challenges for Evolving Intelligence

Dec 17

ByQiuyang Mang, Wenhao Chai, Zhifei Li, Huanzhi Mao, Shang Zhou, Alexander Du, Hanchen Li, Shu Liu, Edwin Chen, Yichuan Wang, Xieting Chu, Zerui Cheng, Yuan Xu, Tian Xia, Zirui Wang, Tianneng Shi, Jianzhu Yao, Yilong Zhao, Qizheng Zhang, Charlie Ruan, Zeyu Shen, Kaiyuan Liu, Runyuan He, Dong Xing, Zerui Li, Zirong Zeng, Yige Jiang, Lufeng Cheng, Ziyi Zhao, Youran Sun, Wesley Zheng, Meiyuwang Zhang, Ruyi Ji, Xuechang Tu, Zihan Zheng, Zexing Chen, Kangyang Zhou, Zhaozi Wang, Jingbang Chen, Aleksandra Korolova, Peter Henderson, Pramod Viswanath, Vijay Ganesh, Saining Xie, Zhuang Liu, Dawn Song, Sewon Min, Ion Stoica, Joseph E. Gonzalez, Jingbo Shang, Alvin Cheung

Мы представляем FrontierCS — набор из 156 открытых задач из различных областей информатики, разработанных и проверенных экспертами, включая PhD в области computer science, участников и авторов задач соревнований по программированию высшего эшелона. В отличие от существующих бенчмарков, сфокусированных на задачах с известными оптимальными решениями, FrontierCS нацелен на проблемы, для которых оптимальное решение неизвестно, но качество решения может быть объективно оценено. Модели решают эти задачи путем реализации исполняемых программ, а не вывода прямого ответа. FrontierCS включает алгоритмические задачи, часто являющиеся NP-трудными вариантами задач из соревновательного программирования с объективной системой частичных баллов, а также исследовательские задачи с аналогичным свойством. Для каждой задачи мы предоставляем эталонное решение от экспертов и автоматический оценщик. Сочетая открытый дизайн, измеримый прогресс и экспертный отбор, FrontierCS предлагает бенчмарк на переднем крае сложности в компьютерных науках. Эмпирически мы обнаружили, что современные модели рассуждений все еще значительно отстают от экспертов-людей как на алгоритмическом, так и на исследовательском треках, что одного лишь увеличения вычислительного бюджета для рассуждений недостаточно для сокращения этого разрыва, и что модели часто чрезмерно оптимизируются под генерацию просто работоспособного кода вместо открытия высококачественных алгоритмов и проектирования систем.

LikeBench: Оценка субъективной привлекательности в больших языковых моделях для персонализации
LikeBench: Evaluating Subjective Likability in LLMs for Personalization

Dec 15

ByMd Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli

Персонализированная языковая модель должна запоминать факты о пользователе, корректно их применять и адаптироваться со временем, чтобы формировать ответы, предпочтительные для пользователя. Существующие бенчмарки персонализации языковых моделей в основном сосредоточены на двух аспектах: точном запоминании информации о пользователе и точном применении запомненной информации в последующих задачах. Мы утверждаем, что третий аспект — **приятность** (likability) — является одновременно субъективным и ключевым для пользовательского опыта, однако недостаточно измеряется текущими бенчмарками. Для комплексного измерения приятности мы представляем **LikeBench** — многосессионную динамическую систему оценки, которая измеряет приятность по нескольким измерениям, оценивая, насколько языковая модель способна адаптироваться со временем к предпочтениям пользователя, чтобы давать более приятные ответы. В LikeBench языковые модели ведут диалог с симулированным пользователем и обучаются предпочтениям исключительно из текущего диалога. По мере развития взаимодействия модели пытаются адаптировать свои ответы, и после каждого хода симулированный пользователь оценивает их приятность по семи измерениям. Насколько нам известно, мы первые, кто декомпозирует приятность на несколько диагностических метрик: эмоциональная адаптация, соответствие формальности общения, адаптация знаний, понимание ссылок, соответствие желаемой длине диалога, соответствие юмору и использование отсылок (callback), — что позволяет точнее определить слабые места модели. Чтобы сделать симулированного пользователя более реалистичным и различающим, LikeBench использует детализированные, психологически обоснованные описательные персонажи вместо грубых персонажей, основанных на оценках черт по шкале "высоко/низко", как в предыдущих работах. Наш бенчмарк показывает, что высокая производительность запоминания не гарантирует высокую приятность: DeepSeek R1, обладая более низкой точностью запоминания (86%, 17 фактов/профиль), превзошел Qwen3 на 28% по баллу приятности, несмотря на более высокую точность запоминания Qwen3 (93%, 43 факта/профиль). Даже передовые модели, такие как GPT-5, хорошо адаптируются в коротких диалогах, но демонстрируют лишь ограниченную устойчивость в более длинных и зашумленных взаимодействиях.

К бесшовному взаимодействию: причинное поуровневое моделирование интерактивной динамики головы в трехмерных диалоговых системах
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Dec 17

ByJunjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang

Человеческое общение включает непрерывный обмен речью и невербальными сигналами, такими как кивки головой, перемещения взгляда и мимика, которые передают внимание и эмоции. Моделирование этих двунаправленных динамик в 3D необходимо для создания выразительных аватаров и интерактивных роботов. Однако существующие подходы часто рассматривают говорение и слушание как независимые процессы или полагаются на некаузальное моделирование полных последовательностей, что нарушает временную согласованность между репликами. Мы представляем TIMAR (Turn-level Interleaved Masked AutoRegression) — каузальную архитектуру для генерации 3D-движений головы в диалоге, которая моделирует беседу как чередующиеся аудиовизуальные контексты. Она объединяет мультимодальную информацию внутри каждой реплики и применяет каузальное внимание на уровне реплик для накопления истории диалога, в то время как облегченный диффузионный модуль прогнозирует непрерывную 3D-динамику головы, учитывающую как координацию, так и выразительную вариативность. Эксперименты на бенчмарке DualTalk показывают, что TIMAR снижает расстояние Фреше и MSE на 15–30% на тестовой выборке и демонстрирует аналогичный прирост на данных вне распределения. Исходный код будет опубликован в репозитории GitHub https://github.com/CoderChen01/towards-seamleass-interaction.

Гибридные априорные распределения для атрибуции в задачах объяснимого и устойчивого обучения моделей
Hybrid Attribution Priors for Explainable and Robust Model Training

Dec 9

ByZhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong

Малые языковые модели (SLM) широко применяются в задачах, требующих низкой задержки и облегченного развертывания, особенно в классификации. Поскольку интерпретируемость и устойчивость приобретают все большее значение, обучение с использованием объяснений стало эффективной парадигмой за счет введения атрибуционного контроля в процессе обучения; однако получение общих и надежных атрибуционных априори остается серьезной проблемой. Анализ репрезентативных методов атрибуции в задачах классификации показывает, что хотя эти методы могут достоверно выделять токены, релевантные классу, они часто фокусируются на общих ключевых словах, разделяемых семантически схожими классами. Поскольку такие классы уже сложно различить при стандартном обучении, эти атрибуции предоставляют недостаточно дискриминативных сигналов, ограничивая их способность улучшать дифференциацию модели. Для преодоления этого ограничения мы предлагаем Class-Aware Attribution Prior (CAP) — новую систему извлечения атрибуционных априори, которая направляет языковые модели на захват тонких межклассовых различий и генерацию более значимых дискриминативных априори. Развивая эту идею, мы дополнительно представляем CAP Hybrid, комбинирующий априори из CAP с априори существующих атрибуционных методов для формирования более полного и сбалансированного контрольного сигнала. Согласовывая самоатрибуцию модели с этими обогащенными априори, наш подход стимулирует изучение разнообразных признаков, релевантных для принятия решений. Многочисленные эксперименты в сценариях с полными данными, малым количеством примеров и в условиях атак демонстрируют, что наш метод последовательно улучшает как интерпретируемость, так и устойчивость.

Синхронное тактильно-зрительное восприятие для обучения мультимодальному манипулированию роботов
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Dec 10

ByYuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu

Роботизированное манипулирование требует как богатого мультимодального восприятия, так и эффективных обучающих систем для решения сложных задач в реальном мире. Сенсоры типа «вижу-сквозь-кожу» (STS), объединяющие тактильное и визуальное восприятие, предлагают перспективные возможности сенсорики, в то время как современное имитационное обучение предоставляет мощные инструменты для формирования политик управления. Однако существующие конструкции STS-сенсоров не обеспечивают одновременного мультимодального восприятия и страдают от ненадежного тактильного отслеживания. Более того, интеграция этих богатых мультимодальных сигналов в обучающиеся системы манипулирования остается нерешенной задачей. Мы представляем TacThru — STS-сенсор, обеспечивающий одновременное визуальное восприятие и надежное извлечение тактильных сигналов, и TacThru-UMI — фреймворк имитационного обучения, который использует эти мультимодальные сигналы для манипулирования. Наш сенсор отличается полностью прозрачным эластомером, постоянной подсветкой, новыми маркерами в виде ключевых линий и эффективным отслеживанием, в то время как наша обучающая система интегрирует эти сигналы с помощью Transformer-based Diffusion Policy. Эксперименты на пяти сложных реальных задачах показывают, что TacThru-UMI достигает среднего показателя успеха 85,5%, значительно превосходя базовые подходы с чередованием тактильного и визуального восприятия (66,3%) и только визуальным восприятием (55,4%). Система демонстрирует превосходство в критических сценариях, включая обнаружение контакта с тонкими и мягкими объектами и прецизионное манипулирование, требующее мультимодальной координации. Данная работа демонстрирует, что сочетание одновременного мультимодального восприятия с современными обучающими фреймворками позволяет реализовать более точное и адаптивное роботизированное манипулирование.