HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

43 papers found

Кэш-к-Кэш: Прямая семантическая коммуникация между крупными языковыми моделями
Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Oct 3

ByTianyu Fu, Zihan Min, Hanling Zhang, Jichao Yan, Guohao Dai, Wanli Ouyang, Yu Wang

Мульти-LLM системы используют комплементарные преимущества различных крупных языковых моделей (LLM), достигая показателей производительности и эффективности, недостижимых для одной модели. В существующих подходах LLM взаимодействуют через текст, что требует преобразования внутренних представлений в последовательности выходных токенов. Этот процесс приводит как к потере богатой семантической информации, так и к задержкам, связанным с пошаговой генерацией токенов. Вдохновленные этими ограничениями, мы задаемся вопросом: Могут ли LLM взаимодействовать за пределами текста? Эксперименты показывают, что обогащение семантики KV-Cache может улучшить качество ответов без увеличения размера кэша, что подтверждает эффективность KV-Cache как средства межмодельного взаимодействия. Таким образом, мы предлагаем Cache-to-Cache (C2C) — новую парадигму для прямого семантического взаимодействия между LLM. C2C использует нейронную сеть для проекции и объединения KV-cache исходной модели с KV-cache целевой модели, что обеспечивает прямой семантический перенос. Обучаемый механизм выбора определяет целевые слои, которые получают преимущество от взаимодействия через кэш. По сравнению с текстовым взаимодействием, C2C использует глубокую специализированную семантику обеих моделей, избегая явной генерации промежуточного текста. Эксперименты показывают, что C2C достигает на 8,5–10,5% более высокой средней точности, чем отдельные модели. Кроме того, он превосходит парадигму текстового взаимодействия примерно на 3,0–5,0%, обеспечивая при этом среднее ускорение задержки в 2,0 раза. Наш код доступен по адресу https://github.com/thu-nics/C2C.

Ming-UniVision: Совместное понимание и генерация изображений с использованием унифицированного непрерывного токенизатора
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer

Oct 8

ByZiyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou

Визуальная токенизация остается ключевой проблемой в объединении задач визуального понимания и генерации в рамках авторегрессивной парадигмы. Существующие методы обычно используют токенизаторы в дискретных латентных пространствах для согласования с токенами из крупных языковых моделей, где ошибки квантования могут ограничивать семантическую выразительность и ухудшать способность к пониманию визуально-языковых данных. Для решения этой проблемы мы представляем MingTok — новое семейство визуальных токенизаторов с непрерывным латентным пространством, предназначенное для унифицированной авторегрессивной генерации и понимания. В то время как задачи понимания требуют дискриминативных высокоразмерных признаков, задачи генерации предпочитают компактные низкоуровневые коды. Чтобы согласовать эти противоречивые требования, MingTok использует трехэтапную последовательную архитектуру, включающую низкоуровневое кодирование, семантическое расширение и визуальную реконструкцию. На основе этой архитектуры Ming-UniVision устраняет необходимость в специализированных визуальных представлениях для конкретных задач и объединяет разнообразные визуально-языковые задачи в рамках единой авторегрессивной парадигмы прогнозирования. Формулируя как понимание, так и генерацию как предсказание следующего токена в общем непрерывном пространстве, система легко поддерживает многозадачные, контекстно-зависимые задачи, такие как итеративное понимание, генерация и редактирование. Экспериментально мы обнаружили, что использование унифицированного непрерывного визуального представления согласует противоречивые требования к токенизаторам со стороны задач понимания и генерации, что приводит к достижению уровня современных достижений в обеих областях. Мы надеемся, что наши результаты будут способствовать развитию унифицированной визуальной токенизации в непрерывной области. Код для вывода и веса модели опубликованы для пользы сообщества.

Lumina-DiMOO: Универсальная диффузионная модель большого языка для многомодальной генерации и понимания
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Oct 7

ByYi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu

Мы представляем Lumina-DiMOO — открытую базовую модель для бесшовной генерации и понимания мультимодальных данных. Lumina-DiMOO выделяется среди предыдущих унифицированных моделей благодаря использованию полностью дискретного диффузионного моделирования для обработки входных и выходных данных в различных модальностях. Этот инновационный подход позволяет Lumina-DiMOO достичь более высокой эффективности выборки по сравнению с предыдущими авторегрессивными (AR) или гибридными AR-диффузионными парадигмами, а также успешно поддерживать широкий спектр мультимодальных задач, включая генерацию текста в изображения, генерацию изображений на основе изображений (например, редактирование изображений, генерация на основе объектов и восстановление изображений), а также понимание изображений. Lumina-DiMOO демонстрирует передовые результаты на множестве бенчмарков, превосходя существующие открытые унифицированные мультимодальные модели. Для стимулирования дальнейших исследований в области мультимодальных и дискретных диффузионных моделей мы публикуем наш код и контрольные точки для сообщества. Страница проекта: https://synbol.github.io/Lumina-DiMOO.

SHANKS: Одновременное восприятие и мышление для моделей разговорного языка
SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

Oct 8

ByCheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

Современные крупные языковые модели (LLM) и модели разговорной речи (SLM) начинают думать и действовать только после того, как пользователь завершил свою реплику. Это препятствует взаимодействию модели во время реплики пользователя и может привести к высокой задержке ответа, пока модель ожидает завершения ввода для начала обработки. Следовательно, обработка после получения полного ввода не подходит для речевого взаимодействия, где важны реальное время и низкая задержка. Мы решаем эту проблему, отмечая, что люди естественным образом "думают во время слушания". В данной статье мы предлагаем SHANKS — общий фреймворк для вывода, который позволяет SLM генерировать неозвученную цепочку рассуждений во время прослушивания ввода пользователя. SHANKS обрабатывает входную речь фрагментами фиксированной длительности и, как только фрагмент получен, генерирует неозвученные рассуждения на основе всей предыдущей речи и рассуждений, пока пользователь продолжает говорить. SHANKS использует эти неозвученные рассуждения для принятия решения о прерывании пользователя и вызова инструментов для выполнения задачи. Мы демонстрируем, что SHANKS улучшает взаимодействие пользователя и SLM в реальном времени в двух сценариях: (1) когда пользователь представляет пошаговое решение математической задачи, SHANKS может слушать, рассуждать и прерывать, если пользователь допускает ошибку, достигая на 37,1% более высокой точности прерывания по сравнению с базовым подходом, который прерывает без рассуждений; и (2) в диалоге с использованием инструментов SHANKS может завершить 56,9% вызовов инструментов до того, как пользователь закончит свою реплику. В целом, SHANKS продвигает модели, которые продолжают думать на протяжении всего разговора, а не только после завершения реплики. Анимированные иллюстрации SHANKS можно найти по адресу https://d223302.github.io/SHANKS/.

MATRIX: Выравнивание масок и треков для генерации видео с учетом взаимодействий
MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Oct 8

BySiyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim

Видео DiTs продвинули генерацию видео, однако они всё ещё испытывают трудности с моделированием взаимодействий между несколькими объектами или субъектами. Это поднимает ключевой вопрос: как эти модели внутренне представляют взаимодействия? Чтобы ответить на него, мы создали MATRIX-11K — видеодатасет с аннотациями, учитывающими взаимодействия, и треками масок для нескольких объектов. Используя этот датасет, мы провели систематический анализ, который формализует два аспекта видео DiTs: семантическую привязку через внимание видео-к-тексту, которая оценивает, захватывают ли токены существительных и глаголов объекты и их отношения; и семантическое распространение через внимание видео-к-видео, которое проверяет, сохраняются ли связи между объектами на протяжении кадров. Мы обнаружили, что оба эффекта сосредоточены в небольшом подмножестве слоёв, доминирующих в обработке взаимодействий. Вдохновлённые этим, мы представляем MATRIX — простую и эффективную регуляризацию, которая выравнивает внимание в определённых слоях видео DiTs с треками масок для нескольких объектов из датасета MATRIX-11K, улучшая как привязку, так и распространение. Мы также предлагаем InterGenEval — протокол оценки для генерации видео с учётом взаимодействий. В экспериментах MATRIX улучшает как точность взаимодействий, так и семантическое соответствие, одновременно уменьшая дрейф и галлюцинации. Обширные абляции подтверждают наши проектные решения. Коды и веса будут опубликованы.

RLinf-VLA: Унифицированная и эффективная структура для обучения VLA+RL
RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Oct 8

ByHongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang

Недавние достижения в области базовых моделей для обработки зрения и языка значительно продвинули мультимодальное понимание, рассуждение и генерацию, что вызвало всплеск интереса к расширению таких возможностей в физических средах с помощью моделей "зрение-язык-действие" (VLA). Однако большинство VLA-моделей по-прежнему обучаются с использованием контролируемой тонкой настройки (SFT), которая плохо справляется с обобщением при сдвигах распределения из-за накопления ошибок. Обучение с подкреплением (RL) предлагает перспективную альтернативу, напрямую оптимизируя выполнение задач через взаимодействие, но существующие попытки остаются разрозненными и не имеют единой платформы для справедливого и систематического сравнения архитектур моделей и алгоритмических решений. Чтобы устранить этот пробел, мы представляем RLinf-VLA — унифицированную и эффективную платформу для масштабируемого RL-обучения VLA-моделей. Система использует гибкий дизайн распределения ресурсов, решающий задачу интеграции рендеринга, обучения и вывода в RL+VLA обучении. В частности, для GPU-параллелизованных симуляторов RLinf-VLA реализует новый гибридный режим распределения с мелкозернистой конвейеризацией, достигая ускорения обучения в 1,61–1,88 раза. Через унифицированный интерфейс RLinf-VLA поддерживает разнообразные архитектуры VLA (например, OpenVLA, OpenVLA-OFT), несколько RL-алгоритмов (например, PPO, GRPO) и различные симуляторы (например, ManiSkill, LIBERO). В симуляции унифицированная модель достигает 98,11% на 130 задачах LIBERO и 97,66% на 25 задачах ManiSkill. Помимо эмпирической производительности, наше исследование формулирует набор лучших практик для применения RL к обучению VLA и выявляет новые закономерности в этой интеграции. Кроме того, мы представляем предварительное развертывание на реальном роботе Franka, где политики, обученные с помощью RL, демонстрируют более сильное обобщение по сравнению с политиками, обученными с использованием SFT. Мы видим RLinf-VLA как основу для ускорения и стандартизации исследований в области воплощенного интеллекта.

Vibe Checker: Согласование оценки кода с человеческими предпочтениями
Vibe Checker: Aligning Code Evaluation with Human Preference

Oct 8

ByMing Zhong, Xiang Zhou, Ting-Yun Chang, Qingze Wang, Nan Xu, Xiance Si, Dan Garrette, Shyam Upadhyay, Jeremiah Liu, Jiawei Han, Benoit Schillings, Jiao Sun

Крупные языковые модели (LLM) стимулировали развитие "виб-кодинга", где пользователи используют LLM для генерации и итеративного улучшения кода через взаимодействие на естественном языке до тех пор, пока он не пройдет их "виб-проверку". Виб-проверка связана с реальными человеческими предпочтениями и выходит за рамки функциональности: решение должно казаться правильным, выглядеть чистым, сохранять замысел и оставаться корректным. Однако текущая оценка кода остается привязанной к метрике pass@k и учитывает только функциональную корректность, игнорируя нефункциональные инструкции, которые пользователи регулярно применяют. В этой статье мы выдвигаем гипотезу, что следование инструкциям — это недостающий элемент, лежащий в основе виб-проверки, который отражает человеческие предпочтения в кодировании помимо функциональной корректности. Чтобы количественно оценить способности моделей следовать инструкциям в коде с измеримыми сигналами, мы представляем VeriCode — таксономию из 30 проверяемых инструкций для кода вместе с соответствующими детерминированными верификаторами. Мы используем эту таксономию для расширения существующих наборов оценки, создавая Vibe Checker — тестовую среду для оценки как следования инструкциям, так и функциональной корректности. Оценив 31 ведущую LLM, мы показываем, что даже самые сильные модели с трудом соблюдают несколько инструкций и демонстрируют явный функциональный регресс. Важнее всего, что комбинированный показатель функциональной корректности и следования инструкциям лучше всего коррелирует с человеческими предпочтениями, причем последнее становится основным дифференцирующим фактором в реальных задачах программирования. Наша работа выявляет ключевые факторы виб-проверки, предлагая конкретный путь для бенчмаркинга и разработки моделей, которые лучше соответствуют предпочтениям пользователей в кодировании.

Многоагентная оптимизация политик с интегрированными инструментами
Multi-Agent Tool-Integrated Policy Optimization

Oct 6

ByZhanfeng Mo, Xingxuan Li, Yuntao Chen, Lidong Bing

Крупные языковые модели (LLM) всё чаще полагаются на многошаговое планирование с интеграцией инструментов для выполнения задач, требующих интенсивного использования знаний и сложных рассуждений. Существующие реализации обычно основываются на одном агенте, однако они сталкиваются с ограниченной длиной контекста и зашумлёнными ответами инструментов. Естественным решением является использование многоагентной структуры с агентами-планировщиками и агентами-исполнителями для управления контекстом. Однако существующие методы не поддерживают эффективное обучение с подкреплением после тренировки для многоагентных структур с интеграцией инструментов. Чтобы устранить этот пробел, мы предлагаем метод Multi-Agent Tool-Integrated Policy Optimization (MATPO), который позволяет обучать различные роли (планировщик и исполнитель) в рамках одного экземпляра LLM с использованием ролевых подсказок посредством обучения с подкреплением. MATPO основан на принципиальном механизме распределения заслуг между эпизодами планировщика и исполнителя. Такой подход устраняет необходимость развёртывания нескольких LLM, что было бы ресурсоёмким, сохраняя при этом преимущества специализации. Эксперименты на наборах данных GAIA-text, WebWalkerQA и FRAMES показывают, что MATPO стабильно превосходит одноагентные базовые методы, демонстрируя среднее относительное улучшение производительности на 18,38%, а также проявляет большую устойчивость к зашумлённым выходам инструментов. Наши результаты подчеркивают эффективность объединения нескольких агентных ролей в рамках одной LLM и предоставляют практические рекомендации для стабильного и эффективного обучения с подкреплением в многоагентных системах.

Искусственные сети гиппокампа для эффективного моделирования длинных контекстов
Artificial Hippocampus Networks for Efficient Long-Context Modeling

Oct 8

ByYunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei

Моделирование длинных последовательностей сталкивается с фундаментальным компромиссом между эффективностью сжатой памяти фиксированного размера в моделях, подобных рекуррентным нейронным сетям (RNN), и точностью без потерь растущей памяти в трансформерах на основе механизма внимания. Вдохновленные Многоуровневой Моделью Памяти из когнитивной науки, мы представляем концепцию памяти для искусственных нейронных сетей. Наш метод поддерживает скользящее окно кэша ключей и значений (KV) трансформера как без потерь кратковременной памяти, в то время как обучаемый модуль, названный Искусственной Сетью Гиппокампа (Artificial Hippocampus Network, AHN), рекурсивно сжимает информацию за пределами окна в компактную долговременную память фиксированного размера. Для проверки этой концепции мы реализуем AHN с использованием современных архитектур, подобных RNN, включая Mamba2, DeltaNet и Gated DeltaNet. Многочисленные эксперименты на бенчмарках для длинных контекстов LV-Eval и InfiniteBench демонстрируют, что модели, дополненные AHN, стабильно превосходят базовые подходы со скользящим окном и достигают производительности, сопоставимой или даже превосходящей модели с полным вниманием, при этом значительно снижая вычислительные и ресурсные затраты. Например, добавление AHN к модели Qwen2.5-3B-Instruct сокращает количество операций с плавающей запятой (FLOPs) на 40,5% и объем кэша памяти на 74,0%, одновременно улучшая средний балл на LV-Eval (длина последовательности 128k) с 4,41 до 5,88. Код доступен по адресу: https://github.com/ByteDance-Seed/AHN.

Расширение возможностей многоязычных моделей рассуждений с использованием смешанного языка в цепочке мыслей
Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

Oct 5

ByGuijin Son, Donghun Yang, Hitesh Laxmichand Patel, Amit Agarwal, Hyunwoo Ko, Chanuk Lim, Srikant Panda, Minhyuk Kim, Nikunj Drolia, Dasol Choi, Kyong-Ha Lee, Youngjae Yu

Современные передовые модели используют длинные цепочки рассуждений для исследования пространства решений в контексте и достижения более высокой производительности. Хотя многие работы изучают дистилляцию для создания более компактных, но способных моделей, большинство из них сосредоточено на английском языке, и мало что известно о языково-специфических рассуждениях. Чтобы устранить этот пробел, мы впервые представляем **Language-Mixed CoT** — схему рассуждений, которая переключается между английским и целевым языком, используя английский как якорь для улучшения рассуждений при минимизации артефактов перевода. В качестве кейса для корейского языка мы создаем **Yi-Sang**: 5,79 млн нативных корейских запросов из веб-вопросов и ответов, экзаменов, STEM и кода; 3,7 млн длинных трасс рассуждений, сгенерированных с помощью Qwen3-32B; и целенаправленное подмножество из 260 тыс. высокоэффективных примеров. Мы обучаем девять моделей (4B–35B) из шести семейств (Qwen2.5, Llama-3.1, Gemma-3 и др.). Наша лучшая модель, **KO-REAson-35B**, достигает наивысшей производительности с наивысшим общим средним баллом (64,0 ± 25), занимая первое место на 5 из 9 бенчмарков и второе — на остальных. Меньшие и средние модели также значительно выигрывают, демонстрируя среднее улучшение на +18,6 баллов по всем девяти бенчмаркам. Абляционные исследования показывают, что **Language-Mixed CoT** эффективнее, чем монолингвальные CoT, а также приводит к улучшениям в кросс-лингвальных и мультимодальных задачах. Мы публикуем наш конвейер подготовки данных, систему оценки, наборы данных и модели для продвижения исследований в области языково-специфических рассуждений. Данные и коллекция моделей доступны по ссылке: https://huggingface.co/KOREAson.

Лаборатория африканских языков: совместный подход к развитию обработки естественного языка для малоресурсных африканских языков
The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP

Oct 7

BySheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel

Несмотря на то, что африканские языки составляют почти треть всех языков мира, они остаются крайне недостаточно охваченными современными технологиями обработки естественного языка (NLP), причем 88\% из них классифицируются как сильно недооцененные или полностью игнорируемые в вычислительной лингвистике. Мы представляем African Languages Lab (All Lab) — комплексную исследовательскую инициативу, направленную на устранение этого технологического разрыва через систематический сбор данных, разработку моделей и развитие потенциала. Наши вклады включают: (1) качественно контролируемый процесс сбора данных, который привел к созданию крупнейшего проверенного мультимодального набора данных для африканских языков, охватывающего 40 языков с 19 миллиардами токенов монолингвального текста и 12 628 часами выровненных речевых данных; (2) обширную экспериментальную проверку, демонстрирующую, что наш набор данных в сочетании с тонкой настройкой обеспечивает значительное улучшение по сравнению с базовыми моделями, в среднем на +23,69 ChrF++, +0,33 COMET и +15,34 BLEU по 31 оцениваемому языку; и (3) структурированную исследовательскую программу, которая успешно наставила пятнадцать начинающих исследователей, создав устойчивый локальный потенциал. Наше сравнительное тестирование с Google Translate показывает конкурентоспособные результаты для нескольких языков, одновременно выявляя области, требующие дальнейшего развития.

Почему обучение трансформеров с низкой точностью терпит неудачу: анализ на основе Flash Attention
Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

Oct 5

ByHaiquan Qiu, Quanming Yao

Стремление к вычислительной эффективности привело к широкому использованию низкоточных форматов для обучения трансформаторных моделей. Однако этот прогресс часто сдерживается известными проблемами нестабильности обучения. В данной статье впервые предлагается механистическое объяснение давней и нерешенной проблемы, при которой обучение с использованием flash attention в условиях низкой точности приводит к катастрофическим взрывам потерь. Наш детальный анализ показывает, что эта проблема не является случайным артефактом, а вызвана двумя взаимосвязанными явлениями: возникновением схожих низкоранговых представлений в механизме внимания и кумулятивным эффектом смещенных ошибок округления, присущих низкоточной арифметике. Мы демонстрируем, как эти факторы создают порочный цикл накопления ошибок, который искажает обновления весов и в конечном итоге нарушает динамику обучения. Для подтверждения наших выводов мы предлагаем минимальную модификацию flash attention, которая устраняет смещение в ошибках округления. Это простое изменение стабилизирует процесс обучения, подтверждая наш анализ и предлагая практическое решение этой давней проблемы.

CALM Before the STORM: Раскрытие естественного мышления для оптимизации моделирования
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

Oct 5

ByZhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang

Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали высокие способности в сложных многошаговых рассуждениях, открывая новые возможности для автоматизации задач оптимизационного моделирования. Однако существующие методы адаптации к предметной области, изначально разработанные для более ранних моделей, настроенных на инструкции, часто не способны использовать продвинутые паттерны рассуждений современных LRMs. В частности, мы показываем, что прямое тонкое настраивание на традиционных нерефлексивных наборах данных приводит к ограниченным улучшениям. Чтобы полностью раскрыть встроенные способности LRMs к рассуждениям, мы предлагаем CALM (Corrective Adaptation with Lightweight Modification) — фреймворк, который постепенно улучшает LRMs в их естественных режимах рассуждений для задач оптимизационного моделирования. В CALM эксперт-интервентор выявляет ошибки в рассуждениях и предоставляет краткие корректирующие подсказки, которые LRM использует для создания улучшенных траекторий рассуждений. Эти вмешательства изменяют менее 2,6% сгенерированных токенов, но создают высококачественные данные для мягкой адаптации через тонкое настраивание с учителем. Затем адаптированная модель дополнительно улучшается с помощью обучения с подкреплением. На основе CALM мы разрабатываем STORM (Smart Thinking Optimization Reasoning Model) — LRM с 4 миллиардами параметров, которая достигает нового рекордного среднего показателя точности 68,9% на пяти популярных бенчмарках оптимизационного моделирования, сопоставимого с производительностью LRM с 671 миллиардом параметров. Эти результаты демонстрируют, что динамический синтез данных на основе подсказок сохраняет и усиливает естественные паттерны рассуждений современных LRMs, предлагая более эффективный и масштабируемый путь к экспертному уровню производительности в сложных задачах оптимизационного моделирования.

Марковский Мыслитель
The Markovian Thinker

Oct 8

ByMilad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy

Обучение с подкреплением (RL) недавно стало мощным инструментом для тренировки языковых моделей (LLM), способных генерировать длинные цепочки рассуждений (LongCoT). Однако стандартная "среда мышления" RL, где состояние включает промт и все предыдущие токены рассуждений, делает состояние неограниченным и вынуждает политики, основанные на внимании, тратить квадратичные вычислительные ресурсы по мере увеличения длины рассуждений. Мы пересматриваем саму среду. Мы предлагаем подход "Марковское мышление" — парадигму, в которой политика продвигает рассуждения, основываясь на состоянии фиксированного размера, что отделяет длину мышления от размера контекста. Это сразу приводит к линейным вычислениям с постоянной памятью. Мы реализуем эту идею в среде Delethink, которая структурирует рассуждения в блоки фиксированного размера. Внутри каждого блока модель рассуждает как обычно; на границе блока среда сбрасывает контекст и переинициализирует промт с кратким переносом. С помощью RL политика учится записывать текстовое состояние ближе к концу каждого блока, достаточное для бесшовного продолжения рассуждений после сброса. Обученная в этой среде модель R1-Distill 1.5B рассуждает в блоках по 8K токенов, но мыслит до 24K токенов, сопоставимо или превосходя LongCoT-RL, обученную с бюджетом в 24K токена. При масштабировании во время тестирования Delethink продолжает улучшаться там, где LongCoT выходит на плато. Эффект линейных вычислений значителен: мы эмпирически оцениваем, что при средней длине рассуждений в 96K токенов LongCoT-RL требует 27 месяцев работы на H100 против 7 для Delethink. Анализ на этапе инициализации RL показывает, что готовые модели рассуждений (1.5B-120B) часто генерируют марковские траектории "из коробки" на различных бенчмарках, предоставляя положительные примеры, которые делают RL эффективным в масштабе. Наши результаты показывают, что перепроектирование среды мышления — это мощный рычаг: оно позволяет осуществлять очень длинные рассуждения без квадратичных накладных расходов и открывает путь к созданию эффективных и масштабируемых LLM для рассуждений.

Переосмысление моделирования длинного контекста с точки зрения очистки контекста
Revisiting Long-context Modeling from Context Denoising Perspective

Oct 7

ByZecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang

Модели с длинным контекстом (LCM) продемонстрировали значительный потенциал в обработке длинных последовательностей, что способствует реализации многих практических приложений. Успех LCM можно объяснить их способностью находить скрытую критическую информацию в контексте для дальнейшего прогнозирования. Однако последние исследования показывают, что LCM часто подвержены влиянию контекстного шума, то есть нерелевантных токенов, которые могут вводить внимание модели в заблуждение. В данной работе мы проводим детальный анализ контекстного шума и предлагаем эффективную метрику — оценку интегрированного градиента (IG), — для обнаружения и количественной оценки шумовой информации в контексте. Наши результаты показывают, что даже простое устранение обнаруженного контекстного шума может существенно усилить внимание модели на критических токенах и улучшить последующие прогнозы. На основе этого наблюдения мы предлагаем стратегию обучения с очисткой контекста (Context Denoising Training, CDT), простой, но эффективный метод, который улучшает внимание на критических токенах и усиливает их влияние на прогнозы модели. Многочисленные эксперименты на четырех задачах, как в условиях масштабирования контекстного окна, так и в настройках выравнивания длинного контекста, демонстрируют превосходство CDT. Примечательно, что при обучении с использованием CDT открытая модель на 8 миллиардов параметров может достичь производительности (50.92), сопоставимой с GPT-4o (51.00).

Нативное гибридное внимание для эффективного моделирования последовательностей
Native Hybrid Attention for Efficient Sequence Modeling

Oct 8

ByJusen Du, Jiaxi Hu, Tao Zhang, Weigao Sun, Yu Cheng

Трансформеры демонстрируют превосходные результаты в моделировании последовательностей, но сталкиваются с квадратичной сложностью, в то время как линейное внимание предлагает улучшенную эффективность, но часто жертвует точностью воспроизведения в длинных контекстах. В данной работе мы представляем Native Hybrid Attention (NHA) — новую гибридную архитектуру, объединяющую линейное и полное внимание, которая интегрирует как внутрислойную, так и межслойную гибридизацию в единый дизайн слоя. NHA сохраняет долгосрочный контекст в ключевых и значениивых слотах, обновляемых линейной RNN, и дополняет их краткосрочными токенами из скользящего окна. Затем применяется единая операция softmax-внимания ко всем ключам и значениям, что позволяет осуществлять контекстно-зависимое взвешивание для каждого токена и каждой головы без необходимости в дополнительных параметрах слияния. Межслойное поведение контролируется с помощью одного гиперпараметра — размера скользящего окна, что позволяет плавно регулировать переход между чисто линейным и полным вниманием, сохраняя структурную однородность всех слоев. Экспериментальные результаты показывают, что NHA превосходит трансформеры и другие гибридные базовые модели на задачах, требующих интенсивного воспроизведения и здравого смысла. Кроме того, предобученные крупные языковые модели (LLM) могут быть структурно гибридизированы с NHA, достигая конкурентоспособной точности при значительном повышении эффективности. Код доступен по адресу https://github.com/JusenD/NHA.

OBS-Diff: Точное прореживание диффузионных моделей за один шаг
OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Oct 8

ByJunhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang

Крупномасштабные диффузионные модели для генерации изображений по тексту, несмотря на свою мощь, страдают от чрезмерно высоких вычислительных затрат. Существующие методы одноэтапного сжатия нейронных сетей (pruning) практически неприменимы к ним из-за итеративной природы процесса удаления шума в диффузионных моделях. Чтобы устранить этот разрыв, в данной статье представлен OBS-Diff — новый одноэтапный фреймворк для сжатия, который позволяет точно и без дополнительного обучения сжимать крупномасштабные диффузионные модели. В частности: (i) OBS-Diff возрождает классический метод Optimal Brain Surgeon (OBS), адаптируя его к сложным архитектурам современных диффузионных моделей и поддерживая различные уровни сжатия, включая неструктурированное, полуструктурированное N:M и структурированное (головы MHA и нейроны FFN) разрежение; (ii) Чтобы согласовать критерии сжатия с итеративной динамикой диффузионного процесса, рассматривая проблему с точки зрения накопления ошибок, мы предлагаем новую конструкцию гессиана, учитывающую временные шаги, которая включает схему весового убывания по логарифмическому закону, придавая большее значение ранним шагам для минимизации потенциального накопления ошибок; (iii) Кроме того, предлагается вычислительно эффективная стратегия последовательного группового сжатия, чтобы распределить затраты на дорогостоящий процесс калибровки. Эксперименты показывают, что OBS-Diff достигает наилучших результатов в одноэтапном сжатии диффузионных моделей, обеспечивая ускорение вывода с минимальной деградацией визуального качества.

Когда эталонные тесты устаревают: временное несоответствие в оценке фактической точности крупных языковых моделей
When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

Oct 8

ByXunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu

Быстрое развитие крупных языковых моделей (LLM) и реального мира опередило статичный характер широко используемых оценочных бенчмарков, вызывая опасения относительно их надежности для оценки фактической точности LLM. Хотя многие исследования продолжают полагаться на популярные, но устаревшие бенчмарки, их временное несоответствие реальным фактам и современным LLM, а также их влияние на оценку фактической точности LLM остаются недостаточно изученными. Поэтому в данной работе мы представляем систематическое исследование этой проблемы, анализируя пять популярных бенчмарков на фактическую точность и восемь LLM, выпущенных в разные годы. Актуальный конвейер извлечения фактов и три метрики были адаптированы для количественной оценки устаревания бенчмарков и их влияния на оценку фактической точности LLM. Результаты экспериментов и анализ показывают, что значительная часть образцов в широко используемых бенчмарках на фактическую точность устарела, что приводит к ненадежным оценкам фактической точности LLM. Мы надеемся, что наша работа может предоставить тестовую площадку для оценки надежности бенчмарков в оценке фактической точности LLM и вдохновить на дальнейшие исследования проблемы устаревания бенчмарков. Код доступен по адресу: https://github.com/JiangXunyi/BenchAge.

TTRV: Обучение с подкреплением во время тестирования для моделей обработки визуальной и текстовой информации
TTRV: Test-Time Reinforcement Learning for Vision Language Models

Oct 8

ByAkshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza

Существующие методы извлечения сигналов вознаграждения в обучении с подкреплением обычно полагаются на размеченные данные и выделенные обучающие выборки, что контрастирует с тем, как люди обучаются непосредственно из окружающей среды. В данной работе мы предлагаем TTRV для улучшения понимания визуально-языковых моделей путем адаптации модели на лету во время вывода, без необходимости в каких-либо размеченных данных. Конкретно, мы улучшаем фреймворк Group Relative Policy Optimization (GRPO), разрабатывая вознаграждения на основе частоты вывода базовой модели, при этом выполняя вывод для каждого тестового образца несколько раз. Кроме того, мы также предлагаем контролировать разнообразие вывода модели, одновременно вознаграждая модель за достижение низкой энтропии эмпирического распределения вывода. Наш подход демонстрирует стабильные улучшения как в задачах распознавания объектов, так и в визуальном ответе на вопросы (VQA), с повышением до 52,4% и 29,8% соответственно, и средним увеличением на 24,6% и 10,0% на 16 наборах данных. Примечательно, что в задачах распознавания изображений TTRV, примененный к InternVL 8B, превосходит GPT-4o в среднем на 2,3% на 8 бенчмарках, оставаясь при этом высококонкурентоспособным в задачах VQA, что демонстрирует, что обучение с подкреплением во время тестирования может соответствовать или превосходить самые сильные проприетарные модели. Наконец, мы обнаруживаем множество интересных свойств обучения с подкреплением во время тестирования для визуально-языковых моделей: например, даже в крайне ограниченных сценариях, где адаптация выполняется на одном случайно выбранном неразмеченном тестовом примере, TTRV все еще дает значительные улучшения до 5,5% в задачах распознавания.

StaMo: Необученное обучение обобщаемым движениям робота на основе компактного представления состояний
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Oct 6

ByMingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen

Фундаментальная проблема в воплощённом интеллекте заключается в разработке выразительных и компактных представлений состояний для эффективного моделирования мира и принятия решений. Однако существующие методы часто не достигают этого баланса, создавая представления, которые либо избыточны, либо лишены критически важной для задачи информации. Мы предлагаем неконтролируемый подход, который обучает высоко сжатое двухтокеновое представление состояния с использованием лёгкого кодировщика и предварительно обученного декодера на основе Diffusion Transformer (DiT), используя его сильный генеративный априор. Наше представление эффективно, интерпретируемо и легко интегрируется в существующие модели на основе VLA, улучшая производительность на 14,3% на LIBERO и на 30% в успешности выполнения реальных задач при минимальных накладных расходах на вывод. Более того, мы обнаруживаем, что разница между этими токенами, полученная через латентную интерполяцию, естественным образом служит высокоэффективным латентным действием, которое может быть декодировано в исполняемые действия робота. Эта возникающая способность показывает, что наше представление захватывает структурированную динамику без явного контроля. Мы называем наш метод StaMo за его способность обучать обобщаемые движения робота из компактного представления состояния, которое кодируется из статических изображений, бросая вызов преобладающей зависимости от обучения латентных действий на сложных архитектурах и видеоданных. Полученные латентные действия также улучшают совместное обучение политик, превосходя предыдущие методы на 10,4% с улучшенной интерпретируемостью. Более того, наш подход эффективно масштабируется на различные источники данных, включая данные реальных роботов, симуляции и эгоцентрическое видео человека.

Используем ли мы правильный эталон: структура оценки методов сжатия визуальных токенов
Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods

Oct 8

ByChenfei Liao, Wensong Wang, Zichen Wen, Xu Zheng, Yiyu Wang, Haocong He, Yuanhuiyi Lyu, Lutao Jiang, Xin Zou, Yuqian Fu, Bin Ren, Linfeng Zhang, Xuming Hu

Последние усилия по ускорению вывода в мультимодальных больших языковых моделях (MLLM) в основном сосредоточены на сжатии визуальных токенов. Эффективность этих методов обычно оценивается путем измерения снижения точности на установленных эталонных тестах, сравнивая производительность модели до и после сжатия. Однако эти тесты изначально разработаны для оценки восприятия и способности к рассуждению MLLM, а не для оценки методов сжатия. В результате их прямое применение к сжатию визуальных токенов приводит к несоответствию задач. Примечательно, что наше исследование показывает, что простое уменьшение разрешения изображения стабильно превосходит многие продвинутые методы сжатия на нескольких широко используемых тестах. В ходе обширных экспериментов мы сделали следующие наблюдения: (i) Текущие тесты являются зашумленными для задачи сжатия визуальных токенов. (ii) Уменьшение разрешения может служить фильтром данных для оценки сложности образцов в задаче сжатия визуальных токенов. Вдохновленные этими выводами, мы представляем VTC-Bench — оценочную платформу, которая включает механизм фильтрации данных для устранения шума в существующих тестах, что позволяет проводить более справедливую и точную оценку методов сжатия визуальных токенов. Все данные и код доступны по адресу https://github.com/Chenfei-Liao/VTC-Bench.

Patch-as-Decodable-Token: К унифицированному подходу к многомодальным задачам компьютерного зрения в MLLM
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

Oct 2

ByYongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu

Мультимодальные большие языковые модели (MLLMs) в последние годы быстро развиваются. Однако существующие подходы для задач компьютерного зрения часто полагаются на косвенные представления, такие как генерация координат в виде текста для детекции, что ограничивает производительность и препятствует выполнению задач плотного предсказания, таких как сегментация. Чтобы преодолеть эти ограничения, мы представляем Patch-as-Decodable Token (PaDT) — унифицированную парадигму, которая позволяет MLLMs напрямую генерировать как текстовые, так и разнообразные визуальные выходы. Основой PaDT являются Visual Reference Tokens (VRTs), полученные из визуальных патч-эмбеддингов запрашиваемых изображений и интегрированные с текстовыми токенами, выводимыми языковой моделью. Легковесный декодер затем преобразует выходы языковой модели в предсказания для задач детекции, сегментации и локализации. В отличие от предыдущих методов, PaDT обрабатывает VRTs независимо на каждом шаге и динамически расширяет таблицу эмбеддингов, что улучшает локализацию и различение схожих объектов. Мы также разработали стратегию обучения для PaDT, случайным образом выбирая VRTs для контролируемой тонкой настройки и вводя устойчивую потерю кросс-энтропии на уровне токенов. Наши эмпирические исследования на четырех задачах визуального восприятия и понимания показывают, что PaDT стабильно достигает наилучших результатов, даже по сравнению с значительно более крупными моделями MLLM. Код доступен по адресу https://github.com/Gorilla-Lab-SCUT/PaDT.

Усиление в середине обучения
Reinforcement Mid-Training

Sep 29

ByYijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang

Разработка современных крупных языковых моделей обычно понимается как двухэтапный процесс, включающий предварительное обучение и пост-обучение. Мы указываем на необходимость дополнительного промежуточного этапа, называемого усиленным срединным обучением, который обладает потенциалом для значительного повышения производительности. В данной работе мы формально определяем проблему и выделяем три ключевых вызова: (1) неэффективное обучение из-за избыточного количества шагов рассуждения, (2) игнорирование несбалансированного распределения энтропии токенов и (3) недостаточное использование информации токенов. Для решения этих проблем мы предлагаем RMT — фреймворк для эффективного, адаптивного и унифицированного усиленного срединного обучения, включающий различные инновационные компоненты. В частности, мы сначала вводим механизм динамического бюджета токенов, который ограничивает ненужные шаги рассуждения и смягчает проблему "переобдумывания" модели. Затем мы разрабатываем метод адаптивной выборки на основе учебного плана, который способствует прогрессивной траектории обучения от простых к сложным токенам. Наконец, мы представляем двойную стратегию обучения, сочетающую обучение с подкреплением и предсказание следующего токена, что обеспечивает целенаправленное обучение ключевым токенам и полное использование всей информации токенов. Многочисленные эксперименты демонстрируют превосходство RMT над современными методами, достигая улучшения производительности до +64,91% при использовании всего 21% длины рассуждения в языковом моделировании. Мы также показываем, что контрольные точки, полученные после усиленного срединного обучения, могут улучшить последующее пост-обучение, обеспечивая улучшение до +18,76% в математической области.

WristWorld: Генерация изображений с перспективы запястья с помощью 4D-моделей мира для роботизированного манипулирования
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

Oct 8

ByZezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang

Наблюдения с точки зрения запястья имеют решающее значение для моделей VLA, так как они фиксируют детализированные взаимодействия руки с объектами, что напрямую улучшает производительность манипуляций. Однако крупномасштабные наборы данных редко включают такие записи, что приводит к значительному разрыву между обилием опорных видов и скудностью видов с запястья. Существующие мировые модели не могут устранить этот разрыв, поскольку они требуют начального кадра с вида запястья и, следовательно, не способны генерировать видео с запястья только на основе опорных видов. В условиях этого разрыва появляются недавние модели визуальной геометрии, такие как VGGT, которые обладают геометрическими и кросс-видовыми априорными знаниями, что делает возможным решение задач с экстремальными сдвигами точек зрения. Вдохновленные этими идеями, мы предлагаем WristWorld — первую 4D мировую модель, которая генерирует видео с запястья исключительно на основе опорных видов. WristWorld работает в два этапа: (i) Реконструкция, которая расширяет VGGT и включает наш Spatial Projection Consistency (SPC) Loss для оценки геометрически согласованных поз с запястья и 4D облаков точек; (ii) Генерация, которая использует нашу модель генерации видео для синтеза временно согласованных видео с запястья на основе восстановленной перспективы. Эксперименты на наборах данных Droid, Calvin и Franka Panda демонстрируют передовые результаты в генерации видео с превосходной пространственной согласованностью, а также улучшают производительность VLA, увеличивая среднюю длину выполнения задач на Calvin на 3.81% и сокращая разрыв между опорными видами и видами с запястья на 42.4%.

MLE-Smith: Масштабирование задач MLE с использованием автоматизированного конвейера на основе мультиагентных систем
MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

Oct 8

ByRushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai

Хотя языковые модели (Language Models, LMs) достигли значительного прогресса в автоматизации инженерии машинного обучения (machine learning engineering, MLE), получение высококачественных обучающих данных для MLE остается серьезно ограниченным. Современные бенчмарки MLE страдают от низкой масштабируемости и ограниченной применимости, поскольку они полагаются на статические, вручную отобранные задачи, требующие значительного времени и ручного труда для создания. Мы представляем MLE-Smith — полностью автоматизированный мультиагентный конвейер, который преобразует исходные наборы данных в соревновательные задачи MLE через эффективную парадигму "генерация-верификация-выполнение", обеспечивая масштабирование задач MLE с проверяемым качеством, практической применимостью и богатым разнообразием. Предложенный мультиагентный конвейер в MLE-Smith способствует структурированному проектированию задач и стандартизированному рефакторингу, дополненному гибридным механизмом проверки, который обеспечивает соблюдение строгих структурных правил и семантической корректности на высоком уровне. Он также подтверждает эмпирическую решаемость и практическую достоверность через интерактивное выполнение. Мы применяем MLE-Smith к 224 реальным наборам данных и генерируем 606 задач, охватывающих множество категорий, целей и модальностей, демонстрируя, что MLE-Smith может эффективно работать с широким спектром реальных данных. Оценка на сгенерированных задачах показывает, что производительность восьми ведущих и передовых LLM на задачах MLE-Smith сильно коррелирует с их производительностью на тщательно разработанных человеком задачах, подчеркивая эффективность MLE-Smith в масштабировании задач MLE при сохранении их качества.

G^2RPO: Гранулированный GRPO для точного вознаграждения в потоковых моделях
G^2RPO: Granular GRPO for Precise Reward in Flow Models

Oct 2

ByYujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai

Интеграция онлайн-обучения с подкреплением (RL) в модели диффузии и потоков недавно стала перспективным подходом для согласования генеративных моделей с предпочтениями человека. Стохастическая выборка с использованием Стохастических Дифференциальных Уравнений (SDE) применяется в процессе удаления шума для генерации разнообразных направлений денизинга, что способствует исследованию в RL. Хотя существующие методы эффективно исследуют потенциально высокоценные образцы, они страдают от субоптимального согласования предпочтений из-за редких и узких сигналов вознаграждения. Для решения этих проблем мы предлагаем новый фреймворк Granular-GRPO (G^2RPO), который обеспечивает точную и всестороннюю оценку вознаграждений направлений выборки в обучении с подкреплением моделей потоков. В частности, вводится стратегия Singular Stochastic Sampling, которая поддерживает пошаговое стохастическое исследование, одновременно обеспечивая высокую корреляцию между вознаграждением и введенным шумом, что способствует достоверному вознаграждению для каждого возмущения SDE. Одновременно, чтобы устранить смещение, присущее денизингу с фиксированной гранулярностью, мы вводим модуль Multi-Granularity Advantage Integration, который агрегирует преимущества, вычисленные на нескольких масштабах диффузии, создавая более полную и устойчивую оценку направлений выборки. Эксперименты, проведенные на различных моделях вознаграждения, включая внутридоменные и внедоменные оценки, демонстрируют, что наш G^2RPO значительно превосходит существующие базовые методы GRPO, основанные на потоках, подчеркивая его эффективность и устойчивость.

Пересмотр гипотезы равномерной плотности информации в рассуждениях языковых моделей: анализ траекторий
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces

Oct 8

ByMinju Gwak, Guijin Son, Jaehyung Kim

Гипотеза равномерной плотности информации (Uniform Information Density, UID) предполагает, что эффективная коммуникация поддерживает стабильный поток информации. В данной работе мы возвращаемся к этому принципу в контексте трасс рассуждений больших языковых моделей (LLM), задаваясь вопросом, отражает ли равномерность на уровне шагов качество рассуждений. Для этого мы предлагаем метрику пошаговой плотности информации на основе энтропии и вводим две дополнительные меры равномерности: локальный и глобальный показатели равномерности. В ходе экспериментов на шести различных бенчмарках для рассуждений мы обнаруживаем, что равномерность на уровне шагов не только предоставляет мощную теоретическую основу, но и приносит практическую пользу; например, выбор трасс рассуждений с более равномерной плотностью информации на уровне шагов повышает точность на 10–32% относительно базовых показателей на AIME2025. Наш анализ также показывает, что корректные трассы рассуждений склонны избегать резких скачков плотности информации, тогда как некорректные трассы демонстрируют нерегулярные всплески информации. Эти результаты демонстрируют, что меры плотности информации, вдохновленные UID, превосходят альтернативные внутренние сигналы в качестве предикторов качества рассуждений. Результаты подчеркивают равномерность плотности информации как надежный диагностический и селекционный критерий для создания более надежных и точных систем рассуждений.

U-Bench: Всестороннее понимание U-Net через бенчмаркинг 100 вариантов
U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking

Oct 8

ByFenghe Tang, Chengqi Dong, Wenxin Ma, Zikang Xu, Heqin Zhu, Zihang Jiang, Rongsheng Wang, Yuhao Wang, Chenxu Wu, Shaohua Kevin Zhou

За последнее десятилетие U-Net стала доминирующей архитектурой в сегментации медицинских изображений, что привело к разработке тысяч U-образных вариантов. Несмотря на широкое распространение, до сих пор отсутствует всеобъемлющий бенчмарк для систематической оценки их производительности и полезности, в основном из-за недостаточной статистической валидации и ограниченного учета эффективности и обобщаемости на различных наборах данных. Чтобы устранить этот пробел, мы представляем U-Bench — первый крупномасштабный, статистически строгий бенчмарк, который оценивает 100 вариантов U-Net на 28 наборах данных и 10 модальностях изображений. Наши вклады заключаются в следующем: (1) Всесторонняя оценка: U-Bench оценивает модели по трем ключевым направлениям: статистическая устойчивость, обобщение с нулевым обучением (zero-shot) и вычислительная эффективность. Мы вводим новый метрический показатель, U-Score, который совместно учитывает компромисс между производительностью и эффективностью, предлагая ориентированный на практическое применение взгляд на прогресс моделей. (2) Систематический анализ и рекомендации по выбору моделей: Мы обобщаем ключевые выводы из крупномасштабной оценки и систематически анализируем влияние характеристик наборов данных и архитектурных парадигм на производительность моделей. На основе этих инсайтов мы предлагаем агента-советника по моделям, который помогает исследователям выбирать наиболее подходящие модели для конкретных наборов данных и задач. (3) Открытая доступность: Мы предоставляем весь код, модели, протоколы и веса, что позволяет сообществу воспроизвести наши результаты и расширить бенчмарк будущими методами. В итоге, U-Bench не только выявляет пробелы в предыдущих оценках, но и закладывает основу для справедливого, воспроизводимого и практически значимого бенчмаркинга в следующем десятилетии моделей сегментации на основе U-Net. Проект доступен по адресу: https://fenghetan9.github.io/ubench. Код доступен по адресу: https://github.com/FengheTan9/U-Bench.

Обнаружение общих границ событий в режиме онлайн
Online Generic Event Boundary Detection

Oct 8

ByHyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi

Обнаружение общих границ событий (Generic Event Boundary Detection, GEBD) направлено на интерпретацию длинных видео с точки зрения человеческого восприятия. Однако современные методы GEBD требуют обработки полных кадров видео для выполнения предсказаний, в отличие от людей, которые обрабатывают данные в режиме реального времени и онлайн. Чтобы устранить этот разрыв, мы представляем новую задачу — Обнаружение общих границ событий в режиме реального времени (Online Generic Event Boundary Detection, On-GEBD), цель которой — немедленно обнаруживать границы общих событий в потоковых видео. Эта задача сталкивается с уникальными вызовами, такими как идентификация тонких, неклассифицированных изменений событий в реальном времени без доступа к будущим кадрам. Для решения этих проблем мы предлагаем новый фреймворк On-GEBD, Estimator, вдохновленный Теорией сегментации событий (Event Segmentation Theory, EST), которая объясняет, как люди разделяют текущую активность на события, используя расхождения между предсказанными и фактическими данными. Наш фреймворк состоит из двух ключевых компонентов: Предсказателя согласованных событий (Consistent Event Anticipator, CEA) и Дискриминатора границ в режиме реального времени (Online Boundary Discriminator, OBD). В частности, CEA генерирует предсказание будущего кадра, отражающего текущую динамику событий, основываясь исключительно на предыдущих кадрах. Затем OBD измеряет ошибку предсказания и адаптивно корректирует порог, используя статистические тесты на основе прошлых ошибок, чтобы захватывать разнообразные, тонкие переходы между событиями. Экспериментальные результаты показывают, что Estimator превосходит все базовые модели, адаптированные из современных методов анализа видео в реальном времени, и достигает производительности, сопоставимой с предыдущими методами offline-GEBD на наборах данных Kinetics-GEBD и TAPOS.

Heptapod: Моделирование языка на основе визуальных сигналов
Heptapod: Language Modeling on Visual Signals

Oct 8

ByYongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang

Мы представляем Heptapod — авторегрессионную модель для работы с изображениями, которая следует фундаментальным принципам языкового моделирования. Heptapod использует каузальное внимание, устраняет зависимость от CFG и отказывается от тенденции использования семантических токенизаторов. Нашим ключевым нововведением является предсказание двумерного распределения: каузальный Transformer с визуальным токенизатором, ориентированным на реконструкцию, обучается предсказывать распределение по всей двумерной пространственной сетке изображений на каждом временном шаге. Эта задача обучения объединяет последовательное моделирование авторегрессионной структуры с целостным самообучением маскированного автокодирования, что позволяет модели захватывать полную семантику изображений через генеративное обучение. На бенчмарке генерации ImageNet Heptapod достигает FID 2.70, значительно превосходя предыдущие каузальные авторегрессионные подходы. Мы надеемся, что наша работа вдохновит на принципиальный пересмотр языкового моделирования для визуальных сигналов и не только.

Code Agent может быть сквозным системным хакером: оценка реальных угроз, создаваемых агентами для работы с компьютерами
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent

Oct 8

ByWeidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao

Фреймворки агентов для работы с компьютером (CUA), основанные на крупных языковых моделях (LLM) или мультимодальных языковых моделях (MLLM), быстро развиваются как помощники, способные воспринимать контекст, рассуждать и действовать непосредственно в программных средах. Одним из их наиболее важных применений является управление операционными системами (ОС). По мере того как CUA в области ОС всё глубже внедряются в повседневные операции, крайне важно изучить их реальные последствия для безопасности, в частности, могут ли CUA быть использованы для выполнения реалистичных атак, связанных с безопасностью. Существующие работы имеют четыре основных ограничения: отсутствие модели знаний злоумышленника о тактиках, техниках и процедурах (TTP), неполное покрытие цепочек атак от начала до конца, нереалистичная среда без учёта многомашинных систем и зашифрованных учётных данных пользователей, а также ненадёжная оценка, зависящая от LLM-как-судьи. Для устранения этих пробелов мы предлагаем AdvCUA — первый бенчмарк, соответствующий реальным TTP из матрицы MITRE ATT&CK Enterprise, который включает 140 задач, в том числе 40 прямых вредоносных задач, 74 задачи на основе TTP и 26 полных цепочек атак, систематически оценивая CUA в реалистичной среде угроз безопасности корпоративных ОС в многомашинной песочнице с использованием жёстко заданной оценки. Мы оцениваем пять существующих популярных CUA, включая ReAct, AutoGPT, Gemini CLI, Cursor CLI и Cursor IDE, на основе 8 базовых LLM. Результаты показывают, что современные передовые CUA недостаточно охватывают угрозы, связанные с безопасностью ОС. Эти возможности CUA снижают зависимость от специализированного вредоносного ПО и глубоких экспертных знаний, позволяя даже неопытным злоумышленникам осуществлять сложные корпоративные вторжения, что вызывает социальную озабоченность в отношении ответственности и безопасности CUA.

NorMuon: Повышение эффективности и масштабируемости Muon
NorMuon: Making Muon more efficient and scalable

Oct 7

ByZichong Li, Liming Liu, Chen Liang, Weizhu Chen, Tuo Zhao

Выбор оптимизатора существенно влияет на эффективность обучения и вычислительные затраты больших языковых моделей (LLM). Недавно оптимизатор Muon продемонстрировал многообещающие результаты за счет ортогонализации обновлений параметров, улучшая геометрию оптимизации через лучшее обусловливание. Несмотря на появление Muon как потенциального преемника Adam, возможность совместного использования их преимуществ систематически не исследовалась. В данной работе мы устраняем этот пробел, предлагая NorMuon (Neuron-wise Normalized Muon) — оптимизатор, который синергетически сочетает ортогонализацию с адаптивными скоростями обучения на уровне нейронов. Наш анализ показывает, что хотя Muon эффективно снижает числа обусловленности, результирующие обновления демонстрируют высокую неравномерность норм нейронов, что приводит к доминированию некоторых нейронов в процессе оптимизации. NorMuon устраняет этот дисбаланс, поддерживая статистику второго момента для каждого нейрона и применяя построчную нормализацию после ортогонализации, обеспечивая сбалансированное использование параметров при сохранении преимуществ обусловленности Muon. Для практического масштабирования мы разработали эффективную распределенную реализацию в рамках FSDP2, стратегически распределяя вычисления ортогонализации между устройствами. Эксперименты на моделях различных масштабов демонстрируют, что NorMuon стабильно превосходит как Adam, так и Muon, достигая на 21,74% лучшей эффективности обучения по сравнению с Adam и на 11,31% улучшения по сравнению с Muon в настройке предварительного обучения на 1,1 млрд параметров, при этом сохраняя сопоставимый с Muon объем памяти. Наши результаты свидетельствуют о том, что ортогонализация и адаптивные скорости обучения являются взаимодополняющими, а не конкурирующими подходами, открывая новые направления в разработке оптимизаторов для крупномасштабного глубокого обучения.

Соединение генерации текста и видео: обзор
Bridging Text and Video Generation: A Survey

Oct 6

ByNilay Kumar, Priyansh Bhandari, G. Maragatham

Технология генерации видео из текста (Text-to-Video, T2V) обладает потенциалом для преобразования множества областей, таких как образование, маркетинг, развлечения и вспомогательные технологии для людей с нарушениями зрения или понимания текста, создавая связный визуальный контент на основе естественноязыковых запросов. С момента своего появления эта область прошла путь от моделей, основанных на состязательных сетях (GAN), до моделей, использующих диффузионные подходы, что привело к созданию более качественных и временно согласованных результатов. Однако сохраняются такие проблемы, как согласованность, долгосрочная связность и вычислительная эффективность. В рамках этого развивающегося ландшафта мы представляем всесторонний обзор моделей генерации видео из текста, прослеживая их развитие от ранних GAN и вариационных автоэнкодеров (VAE) до гибридных архитектур, сочетающих диффузионные модели и трансформеры (DiT). Мы детализируем, как работают эти модели, какие ограничения их предшественников они устранили и почему переход к новым архитектурным парадигмам был необходим для преодоления проблем качества, связности и управляемости. Мы систематически описываем наборы данных, на которых обучались и оценивались рассмотренные модели, а также, для обеспечения воспроизводимости и оценки доступности обучения таких моделей, детализируем их конфигурации обучения, включая аппаратные характеристики, количество GPU, размеры пакетов, скорости обучения, оптимизаторы, количество эпох и другие ключевые гиперпараметры. Кроме того, мы описываем метрики оценки, обычно используемые для тестирования таких моделей, и представляем их производительность на стандартных бенчмарках, одновременно обсуждая ограничения этих метрик и растущий переход к более целостным стратегиям оценки, ориентированным на восприятие. Наконец, основываясь на нашем анализе, мы выделяем текущие открытые проблемы и предлагаем несколько перспективных направлений для будущих исследований, задавая вектор для дальнейшего изучения и развития T2V-технологий и их приложений.

AlphaApollo: Организация взаимодействия базовых моделей и профессиональных инструментов в саморазвивающуюся систему для глубокого агентного рассуждения
AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Oct 5

ByZhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Linrui Xu, Tian Cheng, Guanyu Jiang, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han

Представляем AlphaApollo — саморазвивающуюся систему агентного рассуждения, направленную на устранение двух ключевых ограничений в рассуждениях базовых моделей (FM): ограниченной внутренней ёмкости модели и ненадёжной итерации на этапе тестирования. AlphaApollo координирует работу нескольких моделей с использованием профессиональных инструментов для обеспечения обдуманного и проверяемого рассуждения. Система объединяет (i) вычислительный инструмент (Python с численными и символьными библиотеками) и (ii) инструмент поиска (внешняя информация, релевантная задаче) для выполнения точных вычислений и обоснования решений. Кроме того, система поддерживает многораундовую эволюцию решений с участием нескольких моделей через общую карту состояний, которая фиксирует кандидатов, проверки на выполнимость и обратную связь для итеративного улучшения. В оценках на данных AIME 2024/2025 для нескольких моделей AlphaApollo демонстрирует стабильные улучшения: +5,15% Average@32 и +23,34% Pass@32 для Qwen2.5-14B-Instruct, а также +8,91% Average@32 и +26,67% Pass@32 для Llama-3.3-70B-Instruct. Анализ использования инструментов показывает, что более 80% вызовов инструментов успешно выполняются, что стабильно превосходит базовые подходы без использования инструментов, тем самым повышая пределы возможностей FM. Дополнительные эмпирические результаты и детали реализации будут обновляться на https://github.com/tmlr-group/AlphaApollo.

Один символ может решить успех или провал ваших оценок языковых моделей
A Single Character can Make or Break Your LLM Evals

Oct 2

ByJingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim

В стандартных подходах к оценке больших языковых моделей (LLM) используются демонстрационные примеры для направления ответов модели в желаемый стиль. Хотя количество используемых примеров было изучено и стандартизировано, выбор формата примеров исследован в меньшей степени. В протоколах оценки и реальном использовании пользователи сталкиваются с выбором, как разделять примеры в контексте: использовать запятую? новую строку? точку с запятой? хэштег? и т.д. Удивительно, но мы обнаружили, что этот, казалось бы, незначительный выбор может существенно повлиять на качество ответов модели. Для ведущих семейств моделей (Llama, Qwen, Gemma) производительность на тесте MMLU, например, может варьироваться на ±23% в зависимости от выбранного разделителя. Фактически, можно манипулировать рейтингами моделей, выводя любую модель на первое место, просто изменяя один символ, разделяющий примеры. Мы обнаружили, что хрупкость LLM проявляется в различных темах и семействах моделей и не улучшается с увеличением масштаба. Исследуя показатели внимания (attention head scores), мы выяснили, что хорошо работающие разделители направляют внимание на ключевые токены во входных данных. Наконец, мы исследуем методы повышения устойчивости LLM к выбору разделителя. Мы обнаружили, что указание выбранного разделителя в промпте повышает устойчивость, и предлагаем практические рекомендации по выбору наиболее эффективных разделителей.

За пределами монолингвальных допущений: обзор обработки смешанного кода в NLP в эпоху крупных языковых моделей
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

Oct 8

ByRajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh

Кодовое переключение (CSW), то есть чередование языков и письменностей в рамках одного высказывания, остается фундаментальной проблемой для многоязычной обработки естественного языка (NLP), даже на фоне стремительного прогресса крупных языковых моделей (LLM). Большинство LLM по-прежнему испытывают трудности с обработкой смешанных языковых входных данных, ограниченными наборами данных для CSW и предвзятостью оценки, что затрудняет их внедрение в многоязычных обществах. Этот обзор представляет собой первый всесторонний анализ исследований LLM с учетом CSW, охватывающий уникальные исследования в пяти областях, 12 задачах NLP, более 30 наборах данных и более 80 языках. Мы классифицируем последние достижения по архитектуре, стратегии обучения и методологии оценки, описывая, как LLM изменили моделирование CSW и какие вызовы остаются актуальными. В заключение статьи предлагается дорожная карта, подчеркивающая необходимость создания инклюзивных наборов данных, справедливой оценки и лингвистически обоснованных моделей для достижения подлинного многоязычного интеллекта. Все ресурсы собраны и поддерживаются по адресу: https://github.com/lingo-iitgn/awesome-code-mixing/.

M3Retrieve: Бенчмаркинг мультимодального поиска в медицине
M3Retrieve: Benchmarking Multimodal Retrieval for Medicine

Oct 8

ByArkadeep Acharya, Akash Ghosh, Pradeepika Verma, Kitsuchart Pasupa, Sriparna Saha, Priti Singh

С увеличением использования генерации, дополненной поиском (Retrieval-Augmented Generation, RAG), важность мощных моделей поиска стала как никогда высока. В здравоохранении мультимодальные модели поиска, объединяющие информацию из текста и изображений, предлагают значительные преимущества для многих последующих задач, таких как ответы на вопросы, кросс-модальный поиск и мультимодальное суммирование, поскольку медицинские данные часто включают оба формата. Однако в настоящее время отсутствует стандартный эталон для оценки эффективности таких моделей в медицинских условиях. Чтобы устранить этот пробел, мы представляем M3Retrieve — мультимодальный медицинский эталон для оценки поиска. M3Retrieve охватывает 5 областей, 16 медицинских направлений и 4 различные задачи, включая более 1,2 миллиона текстовых документов и 164 тысячи мультимодальных запросов, собранных с одобренных лицензий. Мы оцениваем ведущие мультимодальные модели поиска на этом эталоне, чтобы изучить проблемы, характерные для различных медицинских специальностей, и понять их влияние на производительность поиска. Публикуя M3Retrieve, мы стремимся обеспечить систематическую оценку, стимулировать инновации в моделях и ускорить исследования в направлении создания более эффективных и надежных мультимодальных систем поиска для медицинских приложений. Набор данных и код базовых моделей доступны на странице GitHub: https://github.com/AkashGhosh/M3Retrieve.

FinLFQA: Оценка генерации атрибутированного текста языковых моделей в финансовой области при ответах на вопросы в длинной форме
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering

Oct 7

ByYitao Long, Tiansheng Hu, Yilun Zhao, Arman Cohan, Chen Zhao

Крупные языковые модели (LLM) часто "галлюцинируют" при ответах на сложные вопросы, создавая правдоподобные, но фактически неверные ответы. Распространённой стратегией для снижения этой проблемы является предоставление атрибуции выходным данным LLM. Однако существующие бенчмарки в основном сосредоточены на простой атрибуции, которая извлекает поддерживающие текстовые доказательства в качестве ссылок. Мы утверждаем, что в реальных сценариях, таких как финансовые приложения, атрибуция выходит за рамки извлечения ссылок. Мы представляем FinLFQA — бенчмарк, разработанный для оценки способности LLM генерировать развёрнутые ответы на сложные финансовые вопросы с надёжной и детализированной атрибуцией. FinLFQA оценивает три критических аспекта атрибуции с помощью аннотаций, выполненных людьми: (1) поддерживающие доказательства, извлечённые из финансовых отчётов, (2) промежуточные шаги численного рассуждения и (3) специализированные финансовые знания, которые информируют процесс рассуждения. Мы также предоставляем автоматизированную систему оценки, охватывающую как качество ответов, так и качество атрибуции. В ходе масштабных экспериментов с восемью LLM в рамках нескольких парадигм генерации атрибуции мы обнаружили, что детализированные метрики важны для различения возможностей моделей, что сквозная генерация достигает сопоставимой производительности с постобработкой и что итеративное уточнение помогает только при наличии внешней обратной связи.

DeepTravel: Сквозная агентная система обучения с подкреплением для автономных агентов планирования путешествий
DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

Sep 26

ByYansong Ning, Rui Liu, Jun Wang, Kai Chen, Wei Li, Jun Fang, Kan Zheng, Naiqiang Tan, Hao Liu

Агент планирования путешествий (Travel Planning, TP) недавно стал важным компонентом для взаимодействия с внешними инструментами и ресурсами при создании маршрутов, обеспечивая приятный пользовательский опыт. Несмотря на свои преимущества, существующие исследования опираются на ручное создание подсказок и фиксированные рабочие процессы агента, что ограничивает гибкость и автономность TP-агента. В данной статье предлагается DeepTravel, сквозная фреймворк агентного обучения с подкреплением для создания автономного агента планирования путешествий, способного самостоятельно планировать, выполнять инструменты и анализировать их ответы для исследования, проверки и уточнения промежуточных действий в многошаговых рассуждениях. Для достижения этого мы сначала создаем надежную песочницу, кэшируя данные о транспорте, жилье и достопримечательностях, что облегчает обучение TP-агента без ограничений, связанных с реальными API (например, нестабильными выходами). Кроме того, мы разрабатываем иерархическую систему моделирования вознаграждений, где проверка на уровне траектории сначала оценивает пространственно-временную осуществимость и отфильтровывает неудовлетворительные маршруты, а затем проверка на уровне шага дополнительно подтверждает согласованность деталей маршрута с ответами инструментов, обеспечивая эффективное и точное вознаграждение. Наконец, мы предлагаем метод обучения с подкреплением с усилением ответов, который позволяет TP-агенту периодически повторять опыт из буфера ошибок, развивая значительные агентные способности. Мы развертываем обученного TP-агента в приложении DiDi Enterprise Solutions и проводим всесторонние онлайн- и офлайн-оценки, демонстрируя, что DeepTravel позволяет небольшим языковым моделям (например, Qwen3 32B) значительно превосходить существующие передовые модели, такие как OpenAI o1, o3 и DeepSeek R1, в задачах планирования путешествий.

TRAVL: Рецепт для улучшения способности видео-языковых моделей оценивать физическую несостоятельность
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

Oct 8

BySaman Motamed, Minghao Chen, Luc Van Gool, Iro Laina

Несмотря на впечатляющую визуальную достоверность, современные модели генерации видео часто создают последовательности, нарушающие интуитивные физические законы, такие как парение объектов, их телепортация или трансформация, противоречащие причинно-следственным связям. Хотя люди легко обнаруживают такие несоответствия, до сих пор не существует надежного метода для количественной оценки физической реалистичности в видео. В данной работе мы исследуем, можно ли обучить видео-языковые модели (VLMs) для надежной оценки физической правдоподобности. Мы обнаруживаем, что существующие VLMs испытывают трудности с выявлением нарушений физики, что указывает на фундаментальные ограничения в их временном и причинно-следственном анализе. Для решения этой проблемы мы представляем TRAVL — метод тонкой настройки, который сочетает сбалансированный набор данных для обучения с модулем внимания, учитывающим траектории, чтобы улучшить кодирование и распознавание движения в VLMs. Для более строгой оценки физического анализа мы предлагаем ImplausiBench — эталонный набор из 300 видео (150 реальных, 150 сгенерированных), который устраняет языковые предубеждения и изолирует визуально-временное понимание. Результаты оцениваются как с помощью эталонных суждений людей, так и с использованием более строгих метрик на основе LLM-судей. Вместе TRAVL и ImplausiBench предлагают унифицированную структуру для исследования и улучшения физической правдоподобности в мультимодальных моделях, проливая свет на сложный и малоизученный аспект визуально-временного понимания.

PuzzlePlex: Оценка базовых моделей на способность к рассуждению и планированию с использованием головоломок
PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

Oct 7

ByYitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha

В данной работе исследуются способности базовых моделей к рассуждению и планированию, а также их масштабируемость в сложных динамических средах. Мы представляем PuzzlePlex — эталонный набор, разработанный для оценки этих способностей с помощью разнообразных головоломок. PuzzlePlex включает 15 типов головоломок, среди которых детерминированные и стохастические игры различной сложности, а также сценарии для одного и двух игроков. Фреймворк PuzzlePlex предоставляет комплексную среду для каждой игры и поддерживает расширяемость для создания более сложных задач по мере развития базовых моделей. Кроме того, мы реализуем специализированные стратегии для игры, предназначенные для сравнения. На основе этого эталонного набора мы разрабатываем детализированные метрики для измерения производительности и проводим углубленный анализ передовых базовых моделей в двух режимах: на основе инструкций и на основе кода. Также мы систематически исследуем их пределы масштабируемости. Наши результаты показывают, что модели рассуждений превосходят другие в режиме на основе инструкций, тогда как выполнение на основе кода представляет большие сложности, но предлагает масштабируемую и эффективную альтернативу. PuzzlePlex позволяет проводить целенаправленную оценку и направляет будущие улучшения в области рассуждений, планирования и обобщения для базовых моделей.

D^3QE: Обучение дискретного распределения с учетом ошибки квантования для обнаружения изображений, сгенерированных авторегрессивными моделями
D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

Oct 7

ByYanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu

Появление визуальных авторегрессионных (AR) моделей произвело революцию в генерации изображений, одновременно представив новые вызовы для обнаружения синтетических изображений. В отличие от предыдущих методов, основанных на GAN или диффузии, AR-модели генерируют изображения через предсказание дискретных токенов, демонстрируя как значительные улучшения в качестве синтеза изображений, так и уникальные характеристики в их векторно-квантованных представлениях. В данной статье мы предлагаем использовать метод обнаружения изображений, сгенерированных авторегрессионными моделями, основанный на осведомленности о дискретных распределениях и ошибках квантования (D^3QE), который использует характерные паттерны и смещение частотного распределения кодовой книги, существующие в реальных и синтетических изображениях. Мы представляем трансформер, учитывающий различия в дискретных распределениях, который интегрирует динамическую статистику частот кодовой книги в механизм внимания, объединяя семантические признаки и скрытые ошибки квантования. Для оценки нашего метода мы создали всеобъемлющий набор данных под названием ARForensics, охватывающий 7 основных визуальных AR-моделей. Эксперименты демонстрируют превосходную точность обнаружения и сильную обобщаемость D^3QE для различных AR-моделей, а также устойчивость к реальным искажениям. Код доступен по адресу https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.

Глокальный информационный бутылочное горлышко для восстановления временных рядов
Glocal Information Bottleneck for Time Series Imputation

Oct 6

ByJie Yang, Kexin Zhang, Guibin Zhang, Philip S. Yu, Kaize Ding

Восстановление временных рядов (Time Series Imputation, TSI), направленное на восстановление пропущенных значений во временных данных, остается фундаментальной задачей из-за сложного и часто высокого уровня пропусков в реальных сценариях. Существующие модели обычно оптимизируют потери при точечной реконструкции, сосредотачиваясь на восстановлении числовых значений (локальная информация). Однако мы наблюдаем, что при высоких уровнях пропусков эти модели по-прежнему хорошо работают на этапе обучения, но дают плохие результаты восстановления и искажают распределения латентных представлений (глобальная информация) на этапе вывода. Это раскрывает критическую дилемму оптимизации: текущие цели не учитывают глобальное руководство, что приводит к переобучению моделей на локальных шумах и неспособности улавливать глобальную информацию данных. Для решения этой проблемы мы предлагаем новую парадигму обучения — Глобально-локальный информационный бутылочный метод (Glocal Information Bottleneck, Glocal-IB). Glocal-IB является модель-независимым и расширяет стандартную структуру IB, вводя функцию потерь глобального выравнивания, основанную на вычислимом приближении взаимной информации. Эта функция потерь выравнивает латентные представления замаскированных входных данных с их изначально наблюдаемыми аналогами. Это помогает модели сохранять глобальную структуру и локальные детали, подавляя шумы, вызванные пропущенными значениями, что способствует лучшей обобщаемости при высоких уровнях пропусков. Многочисленные эксперименты на девяти наборах данных подтверждают, что Glocal-IB приводит к стабильно улучшенной производительности и выровненным латентным представлениям при наличии пропусков. Наша реализация кода доступна по адресу https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.