HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

42 papers found

Технический отчет по Qwen3-Omni
Qwen3-Omni Technical Report

Sep 22

ByJin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin

139

Мы представляем Qwen3-Omni, единую мультимодальную модель, которая впервые демонстрирует передовые результаты в обработке текста, изображений, аудио и видео без ухудшения производительности по сравнению с однозадачными аналогами. Qwen3-Omni соответствует производительности однозадачных моделей того же размера в серии Qwen и особенно выделяется в задачах, связанных с аудио. На 36 бенчмарках для аудио и аудиовизуальных данных Qwen3-Omni достигает открытого SOTA на 32 бенчмарках и общего SOTA на 22, превосходя мощные закрытые модели, такие как Gemini-2.5-Pro, Seed-ASR и GPT-4o-Transcribe. Qwen3-Omni использует архитектуру Thinker-Talker MoE, которая объединяет восприятие и генерацию для текста, изображений, аудио и видео, обеспечивая беглый текст и естественную речь в реальном времени. Модель поддерживает текстовое взаимодействие на 119 языках, понимание речи на 19 языках и генерацию речи на 10 языках. Для снижения задержки первого пакета при потоковом синтезе Talker авторегрессивно предсказывает дискретные аудиокодеки с использованием схемы с несколькими кодовыми книгами. Используя репрезентативные возможности этих кодовых книг, мы заменяем вычислительно затратное блочное диффузионное моделирование на легковесную причинную сверточную сеть, что позволяет осуществлять потоковую передачу с первого кадра кодека. В условиях холодного старта Qwen3-Omni достигает теоретической сквозной задержки первого пакета в 234 мс. Для усиления мультимодального мышления мы вводим модель Thinking, которая явно рассуждает над входными данными любой модальности. Поскольку в научном сообществе в настоящее время отсутствует универсальная модель для генерации описаний аудио, мы дообучили Qwen3-Omni-30B-A3B, получив Qwen3-Omni-30B-A3B-Captioner, которая создает детализированные описания с низким уровнем галлюцинаций для произвольных аудиовходов. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking и Qwen3-Omni-30B-A3B-Captioner публично выпущены под лицензией Apache 2.0.

LIMI: Меньше — значит больше для агентности
LIMI: Less is More for Agency

Sep 22

ByYang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Jifan Lin, Yumin Zhuang, Ji Zeng, Shijie Xia, Qishuo Hua, Xuefeng Li, Xiaojie Cai, Tongyu Wang, Yue Zhang, Liming Liu, Xia Wu, Jinlong Hou, Yuan Cheng, Wenjie Li, Xiang Wang, Dequan Wang, Pengfei Liu

102

Мы определяем Агентность как возникающую способность ИИ-систем функционировать в качестве автономных агентов, активно выявляющих проблемы, формулирующих гипотезы и реализующих решения через самостоятельное взаимодействие с окружением и инструментами. Эта фундаментальная способность знаменует начало Эпохи Агентности ИИ, движимой критическим сдвигом в индустрии: острой потребностью в ИИ-системах, которые не просто думают, но и работают. В то время как современный ИИ преуспевает в рассуждениях и генерации ответов, отрасли требуют автономных агентов, способных выполнять задачи, управлять инструментами и достигать реальных результатов. По мере того как агентный интеллект становится определяющей характеристикой, отделяющей когнитивные системы от продуктивных работников, эффективное развитие машинной автономии становится первостепенным. Современные подходы предполагают, что больше данных приводит к лучшей агентности, следуя традиционным законам масштабирования из области языкового моделирования. Мы принципиально оспариваем эту парадигму. LIMI (Less Is More for Intelligent Agency) демонстрирует, что агентность следует радикально иным принципам развития. Благодаря стратегической фокусировке на совместной разработке программного обеспечения и научно-исследовательских процессах, мы показываем, что сложный агентный интеллект может возникать из минимальных, но стратегически отобранных демонстраций автономного поведения. Используя всего 78 тщательно разработанных обучающих примеров, LIMI достигает 73,5% на комплексных тестах агентности, значительно превосходя современные модели: Kimi-K2-Instruct (24,1%), DeepSeek-V3.1 (11,9%), Qwen3-235B-A22B-Instruct (27,5%) и GLM-4.5 (45,1%). Наиболее поразительно, что LIMI демонстрирует улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примеров, достигая превосходного агентного интеллекта при использовании в 128 раз меньшего количества данных. Наши результаты устанавливают Принцип Эффективности Агентности: машинная автономия возникает не из изобилия данных, а из стратегического отбора высококачественных демонстраций агентного поведения.

OmniInsert: Масконезависимая вставка в видео любых объектов с использованием диффузионных трансформерных моделей
OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

Sep 22

ByJinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He

Недавние достижения в области вставки видео на основе диффузионных моделей впечатляют. Однако существующие методы полагаются на сложные управляющие сигналы, но сталкиваются с проблемами согласованности объектов, что ограничивает их практическую применимость. В данной статье мы сосредотачиваемся на задаче вставки видео без использования масок и стремимся решить три ключевые проблемы: недостаток данных, баланс между объектом и сценой, а также гармонизацию вставки. Для решения проблемы недостатка данных мы предлагаем новый конвейер данных InsertPipe, который автоматически создает разнообразные перекрестные пары данных. На основе нашего конвейера данных мы разрабатываем OmniInsert, новую унифицированную структуру для вставки видео без масок с использованием как одного, так и нескольких эталонных объектов. В частности, для поддержания баланса между объектом и сценой мы вводим простой, но эффективный механизм Condition-Specific Feature Injection, который четко внедряет условия из нескольких источников, и предлагаем новую стратегию Progressive Training, позволяющую модели сбалансировать внедрение признаков из объектов и исходного видео. Одновременно мы разрабатываем Subject-Focused Loss для улучшения детализированного внешнего вида объектов. Для дальнейшего повышения гармонизации вставки мы предлагаем методологию Insertive Preference Optimization, которая оптимизирует модель, имитируя человеческие предпочтения, и включаем модуль Context-Aware Rephraser на этапе ссылки для бесшовной интеграции объекта в исходные сцены. Для решения проблемы отсутствия эталонного набора данных в данной области мы представляем InsertBench, всеобъемлющий эталонный набор, включающий разнообразные сцены с тщательно отобранными объектами. Оценка на InsertBench показывает, что OmniInsert превосходит современные коммерческие решения с закрытым исходным кодом. Код будет опубликован.

ARE: Масштабирование сред и оценок для агентов
ARE: Scaling Up Agent Environments and Evaluations

Sep 21

ByPierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu

Мы представляем Meta Agents Research Environments (ARE) — исследовательскую платформу для масштабируемого создания сред, интеграции синтетических или реальных приложений и выполнения агентских оркестраций. ARE предоставляет простые абстракции для построения сложных и разнообразных сред, каждая из которых имеет свои собственные правила, инструменты, контент и верификаторы, что помогает сократить разрыв между разработкой моделей и их развертыванием в реальном мире. Мы также предлагаем Gaia2 — бенчмарк, созданный в ARE и предназначенный для измерения общих способностей агентов. Помимо поиска и выполнения, Gaia2 требует от агентов умения справляться с неоднозначностью и шумом, адаптироваться к динамическим средам, сотрудничать с другими агентами и работать в условиях временных ограничений. В отличие от предыдущих бенчмарков, Gaia2 работает асинхронно, выявляя новые режимы сбоев, которые не видны в статических условиях. Наши эксперименты показывают, что ни одна система не доминирует на всем спектре интеллекта: более сильные рассуждения часто достигаются за счет эффективности, а кривые масштабирования бюджета выходят на плато, что подчеркивает необходимость новых архитектур и адаптивных стратегий вычислений. Возможно, что более важно, абстракции ARE позволяют непрерывно расширять Gaia2 на другие среды, давая сообществу возможность быстро создавать новые бенчмарки, адаптированные к их областям. Во второй половине развития ИИ прогресс все больше зависит от определения значимых задач и надежных оценок, чтобы продвигать передовые возможности вперед.

OnePiece: Внедрение контекстной инженерии и логического анализа в промышленную систему каскадного ранжирования
OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System

Sep 22

BySunhao Dai, Jiakai Tang, Jiahua Wu, Kun Wang, Yuxuan Zhu, Bingjun Chen, Bangyang Hong, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Wenjie Wang, Xu Chen, Jun Xu, See-Kiong Ng

Несмотря на растущий интерес к воспроизведению масштабируемого успеха крупных языковых моделей (LLM) в промышленных поисковых и рекомендательных системах, большинство существующих промышленных усилий ограничиваются внедрением архитектур Transformer, которые приносят лишь инкрементальные улучшения по сравнению с мощными моделями рекомендаций на основе глубокого обучения (DLRM). С точки зрения фундаментальных принципов, прорывы LLM обусловлены не только их архитектурой, но и двумя дополнительными механизмами: контекстной инженерией, которая обогащает исходные входные запросы контекстными подсказками для более эффективного раскрытия возможностей модели, и многошаговым рассуждением, которое итеративно уточняет выходные данные модели через промежуточные пути рассуждений. Однако эти два механизма и их потенциал для достижения существенных улучшений остаются в значительной степени неисследованными в промышленных системах ранжирования. В данной статье мы предлагаем OnePiece, унифицированную структуру, которая бесшовно интегрирует контекстную инженерию и рассуждения в стиле LLM как в модели поиска, так и в модели ранжирования промышленных каскадных конвейеров. OnePiece построена на чистой архитектуре Transformer и дополнительно вводит три ключевых инновации: (1) структурированная контекстная инженерия, которая обогащает историю взаимодействий сигналами предпочтений и сценариев и объединяет их в структурированную токенизированную входную последовательность как для поиска, так и для ранжирования; (2) блочное латентное рассуждение, которое оснащает модель многошаговым уточнением представлений и масштабирует пропускную способность рассуждений через размер блока; (3) прогрессивное многозадачное обучение, которое использует цепочки пользовательских отзывов для эффективного контроля шагов рассуждений во время обучения. OnePiece была внедрена в основной персонализированный поисковый сценарий Shopee и демонстрирует стабильные улучшения в различных ключевых бизнес-метриках, включая более чем +2% GMV/UU и увеличение рекламных доходов на +2,90%.

TempSamp-R1: Эффективное временное семплирование с тонкой настройкой методом обучения с подкреплением для видеомоделей на основе больших языковых моделей
TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

Sep 22

ByYunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng

В данной статье представлен TempSamp-R1 — новый фреймворк для тонкой настройки с использованием обучения с подкреплением, предназначенный для повышения эффективности адаптации мультимодальных больших языковых моделей (MLLMs) к задачам временной локализации в видео. Мы показываем, что существующие методы обучения с подкреплением, такие как Group Relative Policy Optimization (GRPO), полагаются на on-policy сэмплирование для обновления политик. Однако в задачах с большими временными пространствами поиска эта стратегия становится неэффективной и ограниченной в производительности, так как часто не позволяет находить временно точные решения. Для устранения этого ограничения TempSamp-R1 использует аннотации ground-truth в качестве off-policy супервизии, обеспечивая временно точное руководство и эффективно компенсируя разреженность и несоответствия в on-policy решениях. Для дальнейшей стабилизации обучения и снижения дисперсии в обновлениях на основе наград TempSamp-R1 предлагает нелинейный метод вычисления мягкого преимущества, который динамически преобразует обратную связь по наградам с помощью асимметричного преобразования. Используя гибридную парадигму обучения Chain-of-Thought (CoT), TempSamp-R1 оптимизирует единую модель для поддержки как CoT, так и не-CoT режимов вывода, что позволяет эффективно обрабатывать запросы с различной сложностью рассуждений. Экспериментальные результаты демонстрируют, что TempSamp-R1 превосходит базовые методы на основе GRPO, устанавливая новые рекорды на эталонных наборах данных: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) и QVHighlights (mAP: 30.0%, +3.0%). Кроме того, TempSamp-R1 демонстрирует устойчивые возможности обобщения в условиях ограниченных данных. Код: https://github.com/HVision-NKU/TempSamp-R1.

VideoFrom3D: Генерация видео 3D-сцен с использованием комплементарных моделей диффузии изображений и видео
VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

Sep 22

ByGeonung Kim, Janghyeok Han, Sunghyun Cho

В данной статье мы представляем VideoFrom3D — новый фреймворк для синтеза высококачественных видеороликов 3D-сцен на основе грубой геометрии, траектории камеры и эталонного изображения. Наш подход упрощает рабочий процесс 3D-графического дизайна, обеспечивая гибкость в исследовании дизайна и быструю подготовку конечных материалов. Простой подход к синтезу видео из грубой геометрии мог бы использовать видео-диффузионную модель, учитывающую геометрическую структуру. Однако существующие видео-диффузионные модели сталкиваются с трудностями при генерации высококачественных результатов для сложных сцен из-за сложности совместного моделирования визуального качества, движения и временной согласованности. Для решения этой проблемы мы предлагаем генеративный фреймворк, который объединяет преимущества изображений и видео-диффузионных моделей. В частности, наш фреймворк состоит из модуля Sparse Anchor-view Generation (SAG) и модуля Geometry-guided Generative Inbetweening (GGI). Модуль SAG генерирует высококачественные, согласованные по видам опорные кадры с использованием изображений-диффузионной модели, поддерживаемой Sparse Appearance-guided Sampling. На основе этих опорных кадров модуль GGI точно интерполирует промежуточные кадры с помощью видео-диффузионной модели, улучшенной за счет управления камерой на основе потоков и структурного руководства. Важно отметить, что оба модуля работают без использования парных наборов данных 3D-моделей сцен и натуральных изображений, которые крайне сложно получить. Комплексные эксперименты показывают, что наш метод создает высококачественные, стилистически согласованные видеоролики сцен в разнообразных и сложных сценариях, превосходя простые и расширенные базовые подходы.

SWE-Bench Pro: Способны ли ИИ-агенты решать долгосрочные задачи в области разработки программного обеспечения?
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

Sep 21

ByXiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler

Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который основывается на лучших практиках SWE-BENCH [25], но специально разработан для охвата реалистичных, сложных, корпоративных задач, выходящих за рамки возможностей SWE-BENCH. SWE-BENCH PRO содержит 1 865 задач, собранных из 41 активно поддерживаемого репозитория, охватывающих бизнес-приложения, B2B-сервисы и инструменты для разработчиков. Бенчмарк разделен на публичный набор с открытым доступом к задачам из 11 репозиториев, закрытый набор из 12 репозиториев и коммерческий набор из 18 проприетарных репозиториев, с которыми у нас заключены официальные партнерские соглашения с начинающими стартапами. Задачи из закрытого и коммерческого наборов не доступны публично, но мы публикуем результаты по коммерческому набору. Наш бенчмарк включает долгосрочные задачи, выполнение которых может занимать от нескольких часов до нескольких дней для профессионального инженера-программиста, часто требующие изменений в нескольких файлах и значительных модификаций кода. Все задачи проверены людьми и дополнены достаточным контекстом для обеспечения их разрешимости. В нашей оценке широко используемых моделей генерации кода, проведенной в рамках единой структуры, мы наблюдаем, что их производительность на SWE-Bench PRO остается ниже 25% (Pass@1), при этом GPT-5 достигает наивысшего на данный момент результата в 23,3%. Для лучшего понимания этих ограничений мы группируем наблюдаемые режимы сбоев в собранных траекториях агентов, чтобы более четко охарактеризовать типичные ошибки современных моделей. В целом, SWE-BENCH PRO предоставляет устойчивую к загрязнению тестовую среду, которая более точно отражает сложность и разнообразие реальной разработки программного обеспечения, продвигая стремление к созданию по-настоящему автономных агентов для профессиональной инженерной разработки.

DiffusionNFT: Онлайн-усиление диффузии с использованием прямого процесса
DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Sep 19

ByKaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

Онлайн-обучение с подкреплением (RL) играет ключевую роль в пост-обучении языковых моделей, однако его применение к диффузионным моделям остается сложной задачей из-за невычислимых правдоподобий. Недавние работы дискретизируют процесс обратной выборки для обучения в стиле GRPO, но они наследуют фундаментальные недостатки, включая ограничения на решатели, несоответствие между прямым и обратным процессами и сложную интеграцию с классификатор-фри гидом (CFG). Мы представляем Diffusion Negative-aware FineTuning (DiffusionNFT), новую парадигму онлайн RL, которая оптимизирует диффузионные модели непосредственно на прямом процессе через сопоставление потоков. DiffusionNFT противопоставляет положительные и отрицательные генерации, чтобы определить неявное направление улучшения политики, естественным образом интегрируя сигналы подкрепления в задачу обучения с учителем. Такая формулировка позволяет обучаться с использованием произвольных черных ящиков-решателей, устраняет необходимость оценки правдоподобия и требует только чистых изображений вместо траекторий выборки для оптимизации политики. DiffusionNFT до 25 раз эффективнее, чем FlowGRPO, в прямых сравнениях, при этом не требует CFG. Например, DiffusionNFT улучшает оценку GenEval с 0.24 до 0.98 за 1 тыс. шагов, тогда как FlowGRPO достигает 0.95 за более чем 5 тыс. шагов с дополнительным использованием CFG. Используя несколько моделей вознаграждения, DiffusionNFT значительно повышает производительность SD3.5-Medium во всех протестированных бенчмарках.

EpiCache: Управление эпизодическим кэшем ключ-значение для длительных диалоговых вопросов и ответов
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

Sep 22

ByMinsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho

Последние достижения в области больших языковых моделей (LLM) позволили увеличить длину контекста, что дает ассистентам возможность поддерживать длинные истории для создания связных и персонализированных ответов. Однако эта способность зависит от кэширования ключей и значений (Key-Value, KV), объем памяти которого растет линейно с увеличением длины диалога и быстро становится доминирующим при строгих ограничениях ресурсов. Активное направление исследований, направленное на снижение этой нагрузки, — это сжатие KV-кэша, которое стремится ограничить размер кэша, сохраняя при этом точность. Однако существующие методы сталкиваются с двумя основными ограничениями: (i) удаление записей после полного предзаполнения контекста приводит к неограниченному пиковому использованию памяти, и (ii) удаление, зависящее от запроса, сужает кэш до одного запроса, что приводит к снижению точности в многоходовых диалогах. Мы представляем EpiCache, фреймворк для управления KV-кэшем без обучения, предназначенный для длинных диалоговых вопросов и ответов (LongConvQA) при фиксированных ограничениях памяти. EpiCache ограничивает рост кэша за счет блочного предзаполнения и сохраняет контекст, релевантный теме, с помощью эпизодического сжатия KV, которое группирует историю диалога в связные эпизоды и применяет удаление кэша, специфичное для каждого эпизода. Мы также разработали адаптивную стратегию распределения бюджета по слоям, которая оценивает чувствительность каждого слоя к удалению и распределяет бюджет памяти между слоями соответствующим образом. На трех бенчмарках LongConvQA EpiCache повышает точность до 40% по сравнению с последними базовыми методами, сохраняет почти полную точность KV при сжатии в 4-6 раз и снижает задержку и использование памяти до 2,4 и 3,5 раз соответственно, что позволяет эффективно взаимодействовать в многоходовых диалогах при строгих ограничениях ресурсов.

GeoPQA: Преодоление разрыва в визуальном восприятии MLLM для геометрического анализа
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

Sep 22

ByGuizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong

Последние достижения в области обучения с подкреплением (RL) улучшили способности к рассуждению у крупных языковых моделей (LLM), однако их влияние на мультимодальные языковые модели (MLLM) остается ограниченным. Особенно в задачах, требующих интенсивного использования зрения, таких как геометрическое рассуждение, MLLM часто генерируют ошибочные выводы, что приводит к неточным результатам. Мы связываем это с перцептивным барьером в MLLM, который ограничивает преимущества обучения рассуждению. Для количественной оценки этого явления мы разработали эталонный набор данных Geo-Perception Question-Answering (GeoPQA), ориентированный на базовые геометрические концепции и пространственные отношения. Эксперименты на GeoPQA выявили значительные недостатки MLLM в визуальном восприятии, которые ограничивают сигналы вознаграждения RL для эффективного обучения. Для преодоления этого барьера мы предлагаем двухэтапную структуру обучения RL, сначала улучшая визуальное восприятие геометрических структур, а затем развивая способности к рассуждению. Примененная к модели Qwen2.5-VL-3B-Instruct, наша двухэтапная методика улучшает геометрическое рассуждение на 9,7% и решение геометрических задач на 9,1% по сравнению с подходом прямого обучения рассуждению. Наш метод также обобщается на другие области, требующие интенсивного использования зрения, такие как понимание графиков, подчеркивая важность перцептивной основы для эффективного рассуждения в MLLM.

Отчет о результатах FlagEval: Предварительная оценка крупных моделей рассуждений на автоматически проверяемых текстовых и визуальных вопросах
FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Sep 21

ByBowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

Мы проводим умеренно масштабную, в некоторой степени свободную от загрязнения, оценку современных моделей с большими возможностями рассуждения (LRMs) с некоторыми предварительными результатами. Мы также выпускаем ROME, наш эталонный тест для оценки моделей, работающих с визуальными и языковыми данными, предназначенный для проверки способности рассуждать на основе визуальных подсказок. Мы прилагаем ссылки на эталонный тест, данные для оценки и другие обновления на этом сайте: https://flageval-baai.github.io/LRM-Eval/.

ByteWrist: Параллельный роботизированный запястный механизм, обеспечивающий гибкое и антропоморфное движение в ограниченных пространствах
ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces

Sep 22

ByJiawen Tian, Liqun Huang, Zhongren Cui, Jingchao Qiao, Jiafeng Xu, Xiao Ma, Zeyu Ren

В данной статье представлен ByteWrist — новый высокоэластичный и антропоморфный параллельный запястный механизм для роботизированного манипулирования. ByteWrist устраняет ключевые ограничения существующих последовательных и параллельных запястий при работе в узких пространствах благодаря компактному трехступенчатому параллельному приводному механизму, интегрированному с дугообразными концевыми звеньями. Конструкция обеспечивает точное движение по осям RPY (крен-тангаж-рыскание), сохраняя исключительную компактность, что делает её особенно подходящей для сложных неструктурированных сред, таких как домашнее обслуживание, медицинская помощь и прецизионная сборка. Ключевые инновации включают: (1) вложенные трехступенчатые моторные звенья, которые минимизируют объем, обеспечивая независимое управление по нескольким степеням свободы, (2) дугообразные концевые звенья, оптимизирующие передачу усилия и расширяющие диапазон движения, и (3) центральную опорную сферу, функционирующую как сферический шарнир, которая повышает структурную жесткость без ущерба для гибкости. Кроме того, представлено всестороннее кинематическое моделирование, включая прямую и обратную кинематику, а также численное решение Якобиана для точного управления. Экспериментально подтверждено, что ByteWrist демонстрирует высокую производительность в маневренности в узких пространствах и задачах кооперативного манипулирования двумя руками, превосходя системы на базе Kinova. Результаты показывают значительное улучшение компактности, эффективности и жесткости по сравнению с традиционными конструкциями, что делает ByteWrist перспективным решением для роботизированного манипулирования следующего поколения в ограниченных пространствах.

Анализ влияния контролируемой тонкой настройки на знания модели на уровне токенов и параметров
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

Sep 20

ByJunjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan

Крупные языковые модели (LLM) приобретают значительные знания о мире в процессе предварительного обучения, которые затем уточняются с помощью методов пост-обучения, таких как контролируемое тонкое настройка (SFT). Однако влияние SFT на знания модели остается недостаточно изученным, что ограничивает нашу способность контролировать изменения знаний в тонко настроенных моделях. Чтобы устранить этот пробел, мы оцениваем производительность в задаче закрытого книжного ответа на вопросы (CBQA) для пяти моделей из семейств LLaMA-2 и LLaMA-3. Удивительно, но модели, настроенные на 1920 образцах, показывают результаты до 14% хуже, чем те, которые были настроены всего на 240 образцах. Кроме того, изменение уровня владения знаниями в данных для тонкой настройки приводит к колебаниям производительности более чем на 12%. Чтобы исследовать эти эффекты, мы анализируем поведение модели как на уровне токенов, так и на уровне параметров. Наш анализ показывает, что до 90% обновлений параметров во время SFT не способствуют улучшению знаний. Восстановление этих обновлений может улучшить производительность в задаче CBQA в зависимости от характеристик данных для тонкой настройки. Эти выводы предлагают практические рекомендации для разработки стратегий тонкой настройки, которые более эффективно укрепляют знания модели.

Стратегическая нечестность может подорвать оценку безопасности ИИ в передовых языковых моделях.
Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM

Sep 22

ByAlexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping

Разработчики крупных языковых моделей (LLM) стремятся к тому, чтобы их модели были честными, полезными и безопасными. Однако при столкновении с вредоносными запросами модели обучаются отказывать, жертвуя полезностью. Мы показываем, что передовые LLM могут развивать предпочтение к нечестности как новой стратегии, даже когда доступны другие варианты. Затронутые модели отвечают на вредоносные запросы выводами, которые звучат вредоносно, но на практике являются тонко некорректными или безвредными. Такое поведение проявляется с трудно предсказуемыми вариациями даже внутри моделей одного семейства. Мы не находим явной причины склонности к обману, но показываем, что более способные модели лучше справляются с выполнением этой стратегии. Стратегическая нечестность уже оказывает практическое влияние на оценки безопасности, так как мы демонстрируем, что нечестные ответы обманывают все тестируемые нами мониторы, основанные на выводах, используемые для обнаружения взломов, что делает результаты бенчмарков ненадежными. Кроме того, стратегическая нечестность может действовать как ловушка для злоумышленников, заметно затрудняя предыдущие атаки на взлом. Хотя мониторы выводов не справляются, мы показываем, что линейные зонды на внутренних активациях могут быть использованы для надежного обнаружения стратегической нечестности. Мы проверяем зонды на наборах данных с проверяемыми результатами и используем их признаки в качестве векторов управления. В целом, мы рассматриваем стратегическую нечестность как конкретный пример более широкой проблемы, заключающейся в том, что согласование LLM трудно контролировать, особенно когда полезность и безопасность вступают в конфликт.

Отчет Mano
Mano Report

Sep 22

ByTianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang

Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия человека с компьютером, однако автоматизация взаимодействий с GUI остается сложной задачей из-за сложности визуальных элементов, динамичности среды и необходимости многошагового принятия решений. Существующие методы, основанные на моделях, объединяющих зрение и язык (VLMs), часто страдают от ограниченного разрешения, несоответствия доменов и недостаточной способности к последовательному принятию решений. Для решения этих проблем мы предлагаем Mano — надежного агента для работы с GUI, построенного на основе мультимодальной базовой модели, предварительно обученной на обширных данных из веб- и компьютерных систем. Наш подход включает в себя новую симулированную среду для генерации высококачественных данных, трехэтапный процесс обучения (тонкая настройка с учителем, оффлайн-обучение с подкреплением и онлайн-обучение с подкреплением) и модуль проверки для восстановления после ошибок. Mano демонстрирует передовые результаты на нескольких тестовых наборах для GUI, включая Mind2Web и OSWorld, достигая значительного улучшения в показателях успешности и точности операций. Наша работа предоставляет новые идеи для эффективного интеграции обучения с подкреплением с VLMs в практическом развертывании агентов для GUI, подчеркивая важность доменно-специфичных данных, итеративного обучения и целостного проектирования системы вознаграждений.

Turk-LettuceDetect: Модели обнаружения галлюцинаций для турецких приложений RAG
Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications

Sep 22

BySelva Taş, Mahmut El Huseyni, Özay Ezerceli, Reyhan Bayraktar, Fatma Betül Terzioğlu

Широкое внедрение крупных языковых моделей (LLM) сдерживается их склонностью к галлюцинациям, то есть генерации правдоподобной, но фактически неверной информации. Хотя системы генерации с использованием извлечения знаний (RAG) пытаются решить эту проблему, основывая ответы на внешних источниках, галлюцинации остаются устойчивой проблемой, особенно для морфологически сложных языков с ограниченными ресурсами, таких как турецкий. В данной статье представлен Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанных для RAG-приложений на турецком языке. Основываясь на фреймворке LettuceDetect, мы формулируем задачу обнаружения галлюцинаций как классификацию на уровне токенов и дообучаем три различные архитектуры энкодеров: ModernBERT, адаптированный для турецкого языка, TurkEmbed4STS и многоязычный EuroBERT. Эти модели были обучены на машинно-переведенной версии набора данных RAGTruth, содержащего 17 790 примеров для задач ответов на вопросы, генерации текста из данных и суммаризации. Наши экспериментальные результаты показывают, что модель на основе ModernBERT достигает F1-меры 0,7266 на полном тестовом наборе, демонстрируя особенно высокую производительность на структурированных задачах. Модели сохраняют вычислительную эффективность, поддерживая длинные контексты до 8 192 токенов, что делает их пригодными для использования в реальном времени. Сравнительный анализ показывает, что, хотя современные LLM демонстрируют высокую полноту, они страдают от низкой точности из-за чрезмерной генерации галлюцинированного контента, что подчеркивает необходимость специализированных механизмов обнаружения. Публикуя наши модели и переведенный набор данных, эта работа устраняет критический пробел в многоязычной обработке естественного языка и закладывает основу для разработки более надежных и доверенных ИИ-приложений для турецкого и других языков.

MetaEmbed: Масштабирование мультимодального поиска во время тестирования с гибким поздним взаимодействием
MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

Sep 22

ByZilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan

Универсальные мультимодальные модели эмбеддингов достигли значительных успехов в захвате семантической релевантности между запросами и кандидатами. Однако современные методы либо сжимают запросы и кандидаты в единый вектор, что потенциально ограничивает выразительность для детализированной информации, либо создают слишком много векторов, что делает многомерный поиск непомерно дорогим. В данной работе мы представляем MetaEmbed — новый фреймворк для мультимодального поиска, который переосмысливает построение и взаимодействие с мультимодальными эмбеддингами в масштабе. Во время обучения к входной последовательности добавляется фиксированное количество обучаемых Meta Tokens. На этапе тестирования их контекстуализированные представления из последнего слоя служат компактными, но выразительными многомерными эмбеддингами. Благодаря предложенному обучению Matryoshka Multi-Vector Retrieval, MetaEmbed учится организовывать информацию по уровню детализации в нескольких векторах. В результате мы обеспечиваем масштабируемость на этапе тестирования в мультимодальном поиске, где пользователи могут балансировать между качеством поиска и требованиями к эффективности, выбирая количество токенов, используемых для индексации и взаимодействий при поиске. Обширные оценки на Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe) подтверждают, что MetaEmbed достигает передовых показателей в поиске, одновременно демонстрируя устойчивое масштабирование для моделей с 32 миллиардами параметров.

QWHA: Квантование с учетом адаптации Уолша-Адамара для эффективной тонкой настройки параметров в крупных языковых моделях
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

Sep 22

ByHyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim

Спрос на эффективное развертывание крупных языковых моделей (LLM) стимулировал интерес к квантованию, которое снижает затраты на вывод, и параметрически-эффективной тонкой настройке (PEFT), которая уменьшает накладные расходы на обучение. Это послужило толчком к разработке PEFT с учетом квантования для создания точных, но эффективных квантованных моделей. В этом контексте снижение ошибки квантования перед тонкой настройкой имеет решающее значение для достижения высокой точности модели. Однако существующие методы, основанные на адаптации с низким рангом, страдают от ограниченной репрезентативной способности. Недавно предложенные адаптеры на основе преобразований, связанных с преобразованием Фурье (FT), обладают большей репрезентативной мощностью, чем адаптеры с низким рангом, но их прямое внедрение в квантованные модели часто приводит к неэффективному снижению ошибок и увеличению вычислительных затрат. Чтобы преодолеть эти ограничения, мы предлагаем QWHA — метод, который интегрирует адаптеры на основе FT в квантованные модели, используя преобразование Уолша-Адамара (WHT) в качестве ядра преобразования, а также новую схему инициализации адаптеров, включающую адаптивный выбор параметров и уточнение значений. Мы демонстрируем, что QWHA эффективно снижает ошибки квантования, облегчая тонкую настройку, а его конструкция существенно снижает вычислительные затраты. Экспериментальные результаты показывают, что QWHA стабильно превосходит базовые методы по точности при низкобитном квантовании и достигает значительного ускорения обучения по сравнению с существующими адаптерами на основе FT. Код доступен по адресу https://github.com/vantaa89/qwha.

Синтетическая предварительная подготовка с использованием бутстрэппинга
Synthetic bootstrapped pretraining

Sep 17

ByZitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang

Мы представляем Synthetic Bootstrapped Pretraining (SBP) — процедуру предварительного обучения языковой модели (LM), которая сначала изучает модель отношений между документами из набора данных для предобучения, а затем использует её для синтеза нового обширного корпуса для совместного обучения. В то время как стандартное предобучение учит LM изучать причинно-следственные связи между токенами в пределах одного документа, оно не предназначено для эффективного моделирования богатых, обучаемых междокументных корреляций, которые потенциально могут привести к улучшению производительности. Мы проверяем SBP, разрабатывая вычислительно сопоставимую настройку предобучения и предобучаем модель с 3 миллиардами параметров на до 1 триллиона токенов с нуля. Мы обнаруживаем, что SBP последовательно улучшает результаты по сравнению с сильным базовым уровнем повторения и обеспечивает значительную долю улучшения производительности, достижимого с помощью верхней границы оракула, имеющего доступ к 20-кратно большему количеству уникальных данных. Качественный анализ показывает, что синтезированные документы выходят за рамки простого перефразирования — SBP сначала абстрагирует основную концепцию из исходного материала, а затем создаёт новое повествование на её основе. Помимо сильной эмпирической производительности, SBP допускает естественную байесовскую интерпретацию: синтезатор неявно учится абстрагировать скрытые концепции, общие для связанных документов.

ContextFlow: Редактирование объектов в видео без обучения через адаптивное обогащение контекста
ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

Sep 22

ByYiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma

Редактирование объектов в видео без обучения направлено на достижение точного манипулирования на уровне объектов, включая вставку, замену и удаление объектов. Однако оно сталкивается с существенными трудностями в сохранении точности и временной согласованности. Существующие методы, часто разработанные для архитектур U-Net, страдают от двух основных ограничений: неточной инверсии из-за решателей первого порядка и контекстных конфликтов, вызванных грубой "жесткой" заменой признаков. Эти проблемы становятся более сложными в Diffusion Transformers (DiTs), где неприменимость эвристик выбора слоев затрудняет эффективное управление. Для решения этих ограничений мы представляем ContextFlow, новый фреймворк для редактирования объектов в видео на основе DiT, не требующий обучения. В частности, мы сначала используем решатель высокого порядка Rectified Flow для создания надежной основы редактирования. Основой нашего фреймворка является Adaptive Context Enrichment (для определения того, что редактировать), механизм, который устраняет контекстные конфликты. Вместо замены признаков он обогащает контекст self-attention путем объединения пар Key-Value из параллельных путей реконструкции и редактирования, позволяя модели динамически объединять информацию. Кроме того, для определения того, где применять это обогащение (для указания того, где редактировать), мы предлагаем систематический, основанный на данных анализ для выявления важных слоев, специфичных для задачи. На основе новой метрики Guidance Responsiveness Metric наш метод определяет наиболее влияющие блоки DiT для различных задач (например, вставка, замена), обеспечивая целенаправленное и высокоэффективное управление. Многочисленные эксперименты показывают, что ContextFlow значительно превосходит существующие методы без обучения и даже опережает несколько современных подходов, требующих обучения, обеспечивая временно согласованные и высокоточные результаты.

Кросс-внимание составляет половину объяснения в моделях преобразования речи в текст.
Cross-Attention is Half Explanation in Speech-to-Text Models

Sep 22

BySara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli

Механизм кросс-внимания является ключевым элементом архитектур "кодировщик-декодировщик", широко используемых во многих областях, включая обработку речи в текст (S2T). Его оценки были адаптированы для различных приложений, таких как оценка временных меток и выравнивание аудио и текста, в предположении, что они отражают зависимости между представлением входной речи и сгенерированным текстом. Хотя объяснительная природа механизмов внимания широко обсуждается в литературе по NLP, это предположение остается в значительной степени неисследованным в области обработки речи. Чтобы восполнить этот пробел, мы оцениваем объяснительную силу кросс-внимания в моделях S2T, сравнивая его оценки с картами значимости входных данных, полученными на основе атрибуции признаков. Наш анализ охватывает одноязычные и многоязычные, одно- и многозадачные модели различных масштабов и показывает, что оценки внимания умеренно или сильно согласуются с объяснениями, основанными на значимости, особенно при агрегировании по головам и слоям. Однако он также показывает, что кросс-внимание охватывает лишь около 50% значимости входных данных и в лучшем случае лишь частично отражает то, как декодер учитывает представления кодировщика, объясняя только 52-75% значимости. Эти результаты выявляют фундаментальные ограничения в интерпретации кросс-внимания как объяснительного прокси, предполагая, что оно предлагает информативный, но неполный взгляд на факторы, влияющие на предсказания в моделях S2T.

Понимание масштабирования эмбеддингов в коллаборативной фильтрации
Understanding Embedding Scaling in Collaborative Filtering

Sep 19

ByZhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang

Масштабирование моделей рекомендаций в крупные рекомендательные системы стало одной из наиболее обсуждаемых тем. Последние исследования сосредоточены на компонентах, выходящих за рамки масштабирования размерности эмбеддингов, поскольку считается, что увеличение размерности эмбеддингов может привести к ухудшению производительности. Хотя уже были сделаны некоторые первоначальные наблюдения относительно эмбеддингов, основная причина их неспособности к масштабированию остается неясной. Более того, вопрос о том, происходит ли ухудшение производительности в различных типах моделей и наборах данных, остается малоизученным. Влияние размерности эмбеддингов на производительность мы исследуем в рамках масштабных экспериментов на 10 наборах данных с различными уровнями разреженности и масштабами, используя 4 классические архитектуры. Мы неожиданно обнаруживаем два новых явления: двойной пик и логарифмическую зависимость. В первом случае, по мере увеличения размерности эмбеддингов, производительность сначала улучшается, затем ухудшается, снова возрастает и в конечном итоге падает. Во втором случае наблюдается идеальная логарифмическая кривая. Наш вклад заключается в трех аспектах. Во-первых, мы обнаруживаем два новых явления при масштабировании моделей коллаборативной фильтрации. Во-вторых, мы получаем понимание причин возникновения явления двойного пика. В-третьих, мы теоретически анализируем устойчивость моделей коллаборативной фильтрации к шуму, и результаты совпадают с эмпирическими наблюдениями.

Reasoning Core: Масштабируемая среда для обучения с подкреплением, ориентированная на символьные рассуждения в языковых моделях
Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

Sep 22

ByValentin Lacombe, Valentin Quesnel, Damien Sileo

Мы представляем Reasoning Core — новую масштабируемую среду для обучения с подкреплением с верифицируемыми наградами (RLVR), разработанную для продвижения фундаментальных навыков символического рассуждения в крупных языковых моделях (LLM). В отличие от существующих тестов, которые сосредоточены на играх или изолированных головоломках, Reasoning Core процедурно генерирует задачи в ключевых формальных областях, включая планирование в PDDL, логику первого порядка, синтаксический анализ контекстно-свободных грамматик, причинно-следственные рассуждения и решение систем уравнений. Среда построена на ключевых принципах проектирования: распределения задач высокой общности, верификация с использованием внешних инструментов и непрерывный контроль сложности, что вместе обеспечивает практически бесконечный запас новых обучающих примеров. Первоначальные оценки с нулевым обучением на передовых LLM подтверждают сложность задач Reasoning Core, что делает её перспективным ресурсом для улучшения способностей к рассуждению у будущих моделей.

UniPixel: Унифицированное выделение и сегментация объектов для визуального анализа на уровне пикселей
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

Sep 22

ByYe Liu, Zongyang Ma, Junfu Pu, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen

Последние достижения в области крупных мультимодальных моделей (LMM) продемонстрировали их впечатляющий успех в качестве универсальных мультимодальных ассистентов, с особым акцентом на целостное понимание изображений, видео и текста. В то же время меньше внимания уделялось масштабированию возможностей для детального понимания на уровне пикселей, где от моделей ожидается достижение пиксельной согласованности между визуальными сигналами и языковой семантикой. Некоторые предыдущие исследования применяли LMM к связанным задачам, таким как создание описаний на уровне регионов и сегментация по референсным выражениям. Однако эти модели ограничены выполнением либо задач референции, либо сегментации по отдельности и не способны интегрировать эти детальные возможности восприятия в визуальное рассуждение. Чтобы устранить этот пробел, мы предлагаем UniPixel — крупную мультимодальную модель, способную гибко воспринимать визуальные подсказки и генерировать ответы, основанные на масках. Наша модель выделяется благодаря бесшовной интеграции пиксельного восприятия с общими возможностями визуального понимания. В частности, UniPixel обрабатывает визуальные подсказки и генерирует соответствующие маски по запросу, а затем выполняет рассуждения, основываясь на этих промежуточных указателях в процессе вывода, что позволяет осуществлять детальное рассуждение на уровне пикселей. Эффективность нашего подхода подтверждена на 10 бенчмарках, охватывающих разнообразные задачи, включая референцию/сегментацию на уровне пикселей и объектно-ориентированное понимание в изображениях/видео. Также разработана новая задача PixelQA, которая требует совместного выполнения референции, сегментации и ответов на вопросы, чтобы проверить гибкость нашего метода.

D-REX: Бенчмарк для выявления обманчивых рассуждений в больших языковых моделях
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

Sep 22

BySatyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas

Безопасность и согласованность крупных языковых моделей (LLM) имеют критическое значение для их ответственного внедрения. Современные методы оценки в основном сосредоточены на выявлении и предотвращении явно вредоносных выводов. Однако они часто не учитывают более коварный режим сбоя: модели, которые производят внешне безобидные выводы, но при этом используют вредоносные или обманчивые внутренние рассуждения. Эта уязвимость, часто вызванная сложными инъекциями системных промптов, позволяет моделям обходить традиционные фильтры безопасности, представляя собой значительный и недостаточно изученный риск. Для устранения этого пробела мы представляем набор данных Deceptive Reasoning Exposure Suite (D-REX), предназначенный для оценки расхождения между внутренним процессом рассуждения модели и её конечным выводом. D-REX был создан в ходе конкурсного упражнения по "красному командованию", где участники разрабатывали враждебные системные промпты для провоцирования подобных обманчивых поведений. Каждый образец в D-REX содержит враждебный системный промпт, тестовый запрос конечного пользователя, внешне безобидный ответ модели и, что наиболее важно, внутреннюю цепочку рассуждений модели, которая раскрывает скрытые вредоносные намерения. Наш бенчмарк способствует новой, важной задаче оценки: обнаружению обманчивой согласованности. Мы демонстрируем, что D-REX представляет собой значительный вызов для существующих моделей и механизмов безопасности, подчеркивая острую необходимость в новых методах, которые анализируют внутренние процессы LLM, а не только их конечные выводы.

AuditoryBench++: Могут ли языковые модели понимать слуховые знания, не слыша?
AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

Sep 22

ByHyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

Даже без непосредственного восприятия звуков люди могут легко рассуждать о слуховых свойствах, таких как высота тона, громкость или ассоциации с источниками звука, опираясь на слуховую интуицию. В отличие от этого, языковые модели часто лишены такой способности, что ограничивает их эффективность в мультимодальных взаимодействиях. В качестве первого шага для устранения этого пробела мы представляем AuditoryBench++, всеобъемлющий бенчмарк для оценки слуховых знаний и рассуждений в условиях работы только с текстом. Этот бенчмарк включает задачи, начиная от базовых слуховых сравнений до контекстуально обоснованных рассуждений, что позволяет проводить детальный анализ того, как модели обрабатывают и интегрируют слуховые концепции. Кроме того, мы представляем AIR-CoT, новый метод слухового воображения и рассуждения, который генерирует и интегрирует слуховую информацию в процессе вывода через обнаружение фрагментов с использованием специальных токенов и инъекции знаний. Масштабные эксперименты с последними языковыми моделями (LLM) и мультимодальными языковыми моделями (Multimodal LLM) демонстрируют, что AIR-CoT в целом превосходит как готовые модели, так и модели, дополненные слуховыми знаниями. Страница проекта доступна по адресу https://auditorybenchpp.github.io.

V2V-GoT: Кооперативное автономное вождение с использованием мультимодальных больших языковых моделей и графа мыслей для взаимодействия между транспортными средствами
V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

Sep 22

ByHsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Yu-Chiang Frank Wang, Min-Hung Chen, Stephen F. Smith

Современные автономные транспортные средства, находящиеся на переднем крае технологий, могут столкнуться с критическими для безопасности ситуациями, когда их локальные сенсоры оказываются заблокированными крупными объектами на дороге. Для решения этой проблемы было предложено взаимодействие между транспортными средствами (V2V) в рамках кооперативного автономного вождения. Один из недавно представленных подходов к кооперативному автономному вождению дополнительно включает использование мультимодальной крупной языковой модели (MLLM) для интеграции процессов кооперативного восприятия и планирования. Однако, несмотря на потенциальные преимущества применения рассуждений на основе графа мыслей (graph-of-thoughts) к MLLM, эта идея ранее не рассматривалась в исследованиях по кооперативному автономному вождению. В данной статье мы предлагаем новый фреймворк графа мыслей, специально разработанный для кооперативного автономного вождения на основе MLLM. Наш граф мыслей включает предложенные нами новые идеи восприятия с учетом заслонений и прогнозирования с учетом планирования. Мы создаем набор данных V2V-GoT-QA и разрабатываем модель V2V-GoT для обучения и тестирования графа мыслей в контексте кооперативного вождения. Результаты экспериментов показывают, что наш метод превосходит другие базовые подходы в задачах кооперативного восприятия, прогнозирования и планирования.

От Hugging Face до GitHub: отслеживание изменений лицензий в экосистеме открытого ИИ
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

Sep 11

ByJames Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan

Скрытые конфликты лицензий в экосистеме открытого ИИ представляют серьезные юридические и этические риски, подвергая организации потенциальным судебным разбирательствам, а пользователей — нераскрытым рискам. Однако в этой области отсутствует основанное на данных понимание того, насколько часто такие конфликты возникают, где они берут начало и какие сообщества страдают больше всего. Мы представляем первый сквозной аудит лицензий для наборов данных и моделей на платформе Hugging Face, а также их последующей интеграции в приложения с открытым исходным кодом, охватывающий 364 тысячи наборов данных, 1,6 миллиона моделей и 140 тысяч проектов на GitHub. Наш эмпирический анализ выявляет системное несоблюдение лицензий, при котором 35,5% переходов от моделей к приложениям устраняют ограничительные условия лицензий путем перелицензирования на более разрешительных условиях. Кроме того, мы разрабатываем прототип расширяемого механизма правил, который кодирует почти 200 условий SPDX и специфичных для моделей положений для выявления конфликтов лицензий, способный решить 86,4% таких конфликтов в программных приложениях. Для поддержки будущих исследований мы публикуем наш набор данных и прототип механизма. Наше исследование подчеркивает соблюдение лицензий как ключевую задачу управления в открытом ИИ и предоставляет как данные, так и инструменты, необходимые для автоматизированного, масштабируемого контроля соответствия с учетом особенностей ИИ.

От унифицированного к гетерогенному: адаптация оптимизации стратегии к природе каждого токена
From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

Sep 20

ByZheng Liu, Mengjie Liu, Siwei Wen, Mengzhang Cai, Bin Cui, Conghui He, Wentao Zhang

Обучение с подкреплением стало фундаментальной техникой для улучшения способности рассуждений в больших языковых моделях (LLMs). Однако существующие алгоритмы применяют унифицированную оптимизацию ко всем токенам, игнорируя их различные роли в процессе рассуждений. Чтобы устранить это ограничение, мы представляем Heterogeneous Adaptive Policy Optimization (HAPO) — комплексный алгоритм, учитывающий особенности токенов, который динамически адаптирует оптимизацию на основе энтропии токенов. Для сэмплирования в процессе rollout мы предлагаем Adaptive Temperature Sampling, который в реальном времени регулирует температуру сэмплирования, способствуя исследованию для токенов с высокой энтропией и сохраняя связность для токенов с низкой энтропией. Для расчета преимуществ мы вводим Token Level Group Average, который нормализует преимущества на уровне токенов, учитывая длину последовательности, как в loss-функции на основе среднего значения токенов, при этом сохраняя несмещенный подход. Затем мы разрабатываем Differential Advantage Redistribution, который использует энтропию и коэффициенты важности для модуляции обновлений, связанных с наградами, для токенов с четкими сигналами. Для clipping loss мы проектируем Asymmetric Adaptive Clipping, позволяя агрессивное снижение вероятности для шумных токенов с низкой энтропией, при этом обеспечивая исследование для токенов с высокой энтропией. Благодаря систематическому исследованию взаимосвязи между энтропией и динамикой обучения, мы внедрили обработку на уровне токенов на каждом этапе для достижения детализированного контроля. Многочисленные эксперименты демонстрируют, что HAPO стабильно превосходит DAPO на различных масштабах моделей. Наш код доступен по ссылке: https://github.com/starriver030515/HAPO.

StereoAdapter: Адаптация оценки глубины по стереоизображениям для подводных сцен
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

Sep 19

ByZhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang

Оценка глубины с использованием подводного стереозрения обеспечивает точную 3D-геометрию для задач робототехники, таких как навигация, инспекция и картографирование, предоставляя метрическую глубину с помощью недорогих пассивных камер, избегая при этом проблемы масштабной неопределённости, характерной для монокулярных методов. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективная адаптация крупных базовых кодировщиков компьютерного зрения к подводной среде без необходимости в обширных размеченных данных и (ii) тесное объединение глобально согласованных, но масштабно неопределённых монокулярных априорных данных с локально метрическими, но фотометрически уязвимыми стерео соответствиями. Для решения этих задач мы предлагаем StereoAdapter — параметрически эффективную самообучаемую архитектуру, которая интегрирует монокулярный базовый кодировщик, адаптированный с помощью LoRA, с рекуррентным модулем уточнения стерео. Мы также вводим динамическую адаптацию LoRA для эффективного выбора ранга и предварительного обучения на синтетическом наборе данных UW-StereoDepth-40K для повышения устойчивости в различных подводных условиях. Комплексные оценки на симулированных и реальных тестовых наборах показывают улучшения на 6,11% на TartanAir и 5,12% на SQUID по сравнению с современными методами, а реальное развёртывание на роботе BlueROV2 дополнительно демонстрирует стабильную устойчивость нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter. Сайт: https://aigeeksgroup.github.io/StereoAdapter.

DIWALI — Разнообразие и инклюзивность в культурно-специфичных элементах для Индии: набор данных и оценка языковых моделей для адаптации текста в индийском контексте
DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

Sep 22

ByPramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar

Крупные языковые модели (LLM) широко используются в различных задачах и приложениях. Однако, несмотря на их обширные возможности, они демонстрируют недостаток культурной адаптации [ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating] и порождают предвзятые результаты [naous-etal-2024-beer] из-за отсутствия культурных знаний и компетенции. Оценка LLM на предмет культурной осведомленности и адаптации особенно сложна из-за отсутствия подходящих метрик оценки и недостатка культурно-ориентированных наборов данных, отражающих сложность культур на региональном и субрегиональном уровнях. Существующие наборы данных для культурно-специфичных элементов (CSI) в основном сосредоточены на концепциях регионального уровня и могут содержать ложные срабатывания. Для решения этой проблемы мы представляем новый набор данных CSI для индийской культуры, охватывающий 17 культурных аспектов. Набор данных включает около 8000 культурных концепций из 36 субрегионов. Чтобы измерить культурную компетенцию LLM в задаче адаптации культурного текста, мы оцениваем адаптации с использованием созданных CSI, LLM в роли судьи и человеческих оценок из различных социодемографических регионов. Кроме того, мы проводим количественный анализ, демонстрирующий избирательное охват субрегионов и поверхностные адаптации во всех рассмотренных LLM. Наш набор данных доступен здесь: https://huggingface.co/datasets/nlip/DIWALI, страница проекта: https://nlip-lab.github.io/nlip/publications/diwali/, а наш код с выводами моделей можно найти здесь: https://github.com/pramitsahoo/culture-evaluation.

DEXOP: Устройство для роботизированного переноса ловких манипуляций человека
DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

Sep 4

ByHao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

Мы представляем perioperation — парадигму для сбора роботизированных данных, которая оснащает датчиками и записывает манипуляции человека, максимизируя переносимость данных на реальных роботов. Мы реализуем эту парадигму в DEXOP, пассивном экзоскелете для руки, разработанном для максимизации способности человека собирать богатые сенсорные данные (зрение + тактильные ощущения) для разнообразных задач ловкой манипуляции в естественных условиях. DEXOP механически соединяет пальцы человека с пальцами робота, предоставляя пользователям прямую обратную связь через контакт (посредством проприоцепции) и отражая позу человеческой руки на пассивной руке робота, чтобы максимизировать передачу демонстрируемых навыков роботу. Обратная связь по усилию и отражение позы делают демонстрацию задач более естественной для человека по сравнению с телеоперацией, повышая как скорость, так и точность. Мы оцениваем DEXOP на ряде задач, требующих ловкости и интенсивного контакта, демонстрируя его способность собирать высококачественные демонстрационные данные в больших масштабах. Политики, обученные на данных DEXOP, значительно улучшают производительность задач на единицу времени сбора данных по сравнению с телеоперацией, что делает DEXOP мощным инструментом для развития ловкости роботов. Наш проект доступен по адресу https://dex-op.github.io.

Точное и эффективное объединение моделей низкого ранга в основном пространстве
Accurate and Efficient Low-Rank Model Merging in Core Space

Sep 22

ByAniello Panariello, Daniel Marczak, Simone Magistri, Angelo Porrello, Bartłomiej Twardowski, Andrew D. Bagdanov, Simone Calderara, Joost van de Weijer

В данной статье мы рассматриваем проблемы, связанные с объединением низкоранговых адаптаций крупных нейронных сетей. С появлением методов параметрически эффективной адаптации, таких как Low-Rank Adaptation (LoRA), тонкая настройка моделей стала более доступной. Хотя тонкая настройка моделей с использованием LoRA является высокоэффективной, существующие методы объединения часто жертвуют этой эффективностью, объединяя полномасштабные матрицы весов. Мы предлагаем фреймворк Core Space для объединения, который позволяет объединять модели, адаптированные с помощью LoRA, в рамках общего базиса выравнивания, сохраняя при этом эффективность низкоранговой адаптации и значительно повышая точность на различных задачах. Мы также предоставляем формальное доказательство того, что проекция в Core Space гарантирует отсутствие потери информации, и проводим анализ сложности, демонстрирующий выигрыш в эффективности. Обширные эмпирические результаты показывают, что Core Space существенно улучшает существующие методы объединения и достигает современных результатов как в задачах обработки изображений, так и в языковых задачах, используя лишь часть вычислительных ресурсов. Кодовая база доступна по адресу https://github.com/apanariello4/core-space-merging.

Когда большие модели обучают маленькие: выравнивание моделей без меток для эффективного визуального ответа на вопросы с использованием компактных визуально-языковых моделей
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

Sep 20

ByAbhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra

Крупные модели для обработки зрения и языка (Large Vision-Language Models, L-VLMs) продемонстрировали выдающиеся результаты в различных задачах, связанных с обработкой изображений и текста, включая визуальное ответы на вопросы (Visual Question Answering, VQA). Однако их высокая вычислительная стоимость делает их непрактичными для сред с ограниченными ресурсами и приложений, требующих интенсивного вывода. В то же время, небольшие модели для обработки зрения и языка (Small Vision-Language Models, S-VLMs) предлагают эффективность, но значительно уступают по производительности своим более крупным аналогам. В данной работе мы представляем Model Parity Aligner (MPA) — новый фреймворк, предназначенный для систематического улучшения S-VLMs за счет использования немаркированных изображений и эффективного переноса знаний от L-VLMs. В отличие от традиционных методов дистилляции знаний, которые полагаются на маркированные обучающие данные, MPA применяет стратегический подход, основанный на выравнивании, который точно определяет различия в знаниях между S-VLMs и L-VLMs и оптимизирует обучение, фокусируясь только на этих различиях. Мы провели обширные эксперименты на четырех различных бенчмарках VQA, а именно TextVQA, ST-VQA, ChartQA и OKVQA, каждый из которых требует специализированных навыков рассуждения, таких как распознавание текста, интерпретация диаграмм, а также понимание здравого смысла и фактов. Наши результаты показывают, что MPA последовательно улучшает производительность S-VLMs на всех бенчмарках, сокращая разрыв в производительности при сохранении вычислительной эффективности. Мы делаем наш код общедоступным.

CodeFuse-CR-Bench: Комплексный бенчмарк для сквозной оценки ревью кода в проектах на Python с учетом полноты анализа
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

Sep 18

ByHanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai

Автоматизированный анализ кода (Code Review, CR) является ключевым применением больших языковых моделей (LLMs), однако прогресс в этой области сдерживается "разрывом с реальностью": существующие бенчмарки оценивают модели на изолированных подзадачах с использованием упрощенных данных, лишенных контекста. Это не отражает целостный и насыщенный контекстом характер реального CR. Чтобы преодолеть этот разрыв, мы представляем CodeFuse-CR-Bench — первый бенчмарк для оценки CR на уровне репозитория, учитывающий комплексность. CodeFuse-CR-Bench включает 601 высококачественный пример из 70 проектов на Python, охватывающих девять проблемных областей Pull-Request (PR), где каждый пример предоставляет богатый, многогранный контекст, включая связанную задачу, детали PR и состояние репозитория, что позволяет проводить сквозную оценку. Помимо поверхностных метрик, мы также предлагаем новую систему оценки, которая сочетает проверки на основе правил для определения местоположения и синтаксиса с суждениями на основе моделей о качестве анализа. Мы представляем первую масштабную оценку современных LLM на этой комплексной задаче CR. Наши результаты устанавливают важные базовые показатели и показывают, что (1) ни одна LLM не доминирует во всех аспектах CR; (2) Gemini 2.5 Pro демонстрирует наивысшую комплексную производительность; и (3) разные LLM проявляют различную устойчивость к избыточному контексту. Эти выводы подчеркивают необходимость целостной, многомерной оценки и предоставляют практические рекомендации для продвижения действительно интеллектуальных и практичных помощников для CR.

VaseVQA: Мультимодальный агент и эталонный набор данных для древнегреческой керамики
VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

Sep 21

ByJinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao

Анализ артефактов культурного наследия остается сложной задачей для мультимодальных языковых моделей (MLLM): общие модели не обладают экспертизой в предметной области, а тонкая настройка (SFT) часто приводит к переобучению поверхностным паттернам, что делает рассуждения хрупкими для задач аутентификации и исторической атрибуции. Это поднимает вопрос о том, как наделить MLLM устойчивым, экспертно-уровневым рассуждением для древнегреческой керамики. Мы представляем VaseVL, систему, основанную на SFT с последующим обучением с подкреплением (RL), которая превращает оценку в супервизию: мы создаем таксономию типов вопросов, исследуем SFT-модель для выявления пробелов в производительности, специфичных для каждого типа, и оптимизируем с помощью наград, ориентированных на композиционность и учитывающих тип, чтобы устранить эти пробелы. Мы также выпускаем VaseVQA, комплексный бенчмарк из 31 773 изображений, предназначенный для проверки глубокого понимания. Эксперименты демонстрируют передовые результаты в классификации стилей и исторической атрибуции с заметным улучшением композиционной устойчивости по сравнению с базовыми моделями, использующими только SFT, что подтверждает эффективность диагностически-ориентированного инжиниринга наград с учетом таксономии и предоставляет повторно используемый ресурс для будущих исследований. Код и набор данных будут доступны по адресу https://github.com/AIGeeksGroup/VaseVQA.

FocalCodec-Stream: Потоковое кодирование речи с низким битрейтом через каузальное дистилляцию
FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

Sep 19

ByLuca Della Libera, Cem Subakan, Mirco Ravanelli

Нейронные аудиокодеки являются фундаментальным компонентом современных генеративных аудио-конвейеров. Хотя последние кодеки достигают высококачественной реконструкции при низких битрейтах и предоставляют мощные представления для последующих задач, большинство из них не поддерживают потоковую передачу, что ограничивает их использование в приложениях реального времени. Мы представляем FocalCodec-Stream, гибридный кодек на основе фокальной модуляции, который сжимает речь в единый бинарный кодек с битрейтом 0,55–0,80 кбит/с и теоретической задержкой 80 мс. Наш подход сочетает многоступенчатую каузальную дистилляцию WavLM с целенаправленными архитектурными улучшениями, включая легковесный модуль уточнения, который повышает качество при ограничениях на задержку. Эксперименты показывают, что FocalCodec-Stream превосходит существующие потоковые кодеки при сопоставимых битрейтах, сохраняя как семантическую, так и акустическую информацию. В результате достигается благоприятный баланс между качеством реконструкции, производительностью на последующих задачах, задержкой и эффективностью. Код и контрольные точки будут опубликованы по адресу https://github.com/lucadellalib/focalcodec.

BeepBank-500: Синтетический мини-корпус звуковых сигналов для исследования звукового оформления интерфейсов и психоакустических исследований
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research

Sep 21

ByMandip Goswami

Мы представляем BeepBank-500 — компактный, полностью синтетический набор данных звуковых сигналов/оповещений (300–500 клипов), предназначенный для быстрого и юридически чистого экспериментирования в области взаимодействия человека с компьютером и машинного обучения для аудио. Каждый клип генерируется по параметрическому рецепту, который управляет семейством волновых форм (синусоида, прямоугольная, треугольная, FM), основной частотой, длительностью, огибающей амплитуды, амплитудной модуляцией (AM) и легкой реверберацией в стиле Шредера. Мы используем три настройки реверберации: сухая (dry) и два синтетических помещения, обозначенных как 'rir small' ('малое') и 'rir medium' ('среднее') в тексте статьи и метаданных. Мы публикуем монофонические аудиофайлы в формате WAV (48 кГц, 16 бит), подробную таблицу метаданных (сигнальные/спектральные характеристики) и минимальные воспроизводимые базовые модели для (i) классификации семейств волновых форм и (ii) регрессии основной частоты (f0) для одиночных тонов. Корпус ориентирован на задачи, такие как классификация звуковых сигналов, анализ тембра и обнаружение начала звука, с четко указанными лицензиями и ограничениями. Аудио передано в общественное достояние через лицензию CC0-1.0; код распространяется под лицензией MIT. DOI данных: https://doi.org/10.5281/zenodo.17172015. Код: https://github.com/mandip42/earcons-mini-500.

Адаптивное проектирование ядра для байесовской оптимизации становится простым как ПИРОГ с использованием языковых моделей.
Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

Sep 22

ByRichard Cornelius Suwandi, Feng Yin, Juntao Wang, Renjie Li, Tsung-Hui Chang, Sergios Theodoridis

Эффективность байесовской оптимизации (BO) в значительной степени зависит от выбора ядра гауссовского процесса (GP), которое играет ключевую роль в балансировке исследования и эксплуатации при ограниченном бюджете вычислений. Традиционные методы BO часто полагаются на фиксированные или эвристические стратегии выбора ядра, что может приводить к медленной сходимости или субоптимальным решениям, если выбранное ядро плохо подходит для целевой функции. Чтобы устранить это ограничение, мы предлагаем новый метод Context-Aware Kernel Evolution (CAKE), который улучшает BO с использованием больших языковых моделей (LLM). В частности, CAKE использует LLM в качестве операторов кроссовера и мутации для адаптивной генерации и уточнения ядер GP на основе наблюдаемых данных в процессе оптимизации. Для максимального использования возможностей CAKE мы также предлагаем метод BIC-Acquisition Kernel Ranking (BAKER), который выбирает наиболее эффективное ядро, балансируя качество модели, измеряемое байесовским информационным критерием (BIC), с ожидаемым улучшением на каждой итерации BO. Многочисленные эксперименты показывают, что наш новый метод BO на основе CAKE стабильно превосходит существующие базовые подходы в различных практических задачах, включая оптимизацию гиперпараметров, настройку контроллеров и проектирование фотонных чипов. Наш код доступен по адресу https://github.com/cake4bo/cake.

Диффузионные языковые модели с аудио-условиями для автоматического распознавания речи и обработки обдумывания
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Sep 20

ByMengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

Диффузионные большие языковые модели (DLLM) в последнее время привлекают растущий интерес как альтернатива авторегрессивным декодерам. В данной работе мы представляем эмпирическое исследование использования диффузионной большой языковой модели LLaDA для автоматического распознавания речи (ASR). Сначала мы исследуем её применение в качестве внешнего модуля обработки на основе обдумывания для транскриптов Whisper-LLaMA. Используя двунаправленное внимание и способность к удалению шума LLaDA, мы изучаем стратегии случайного маскирования, маскирования с низкой уверенностью и полуавторегрессивного декодирования, демонстрируя, что Whisper-LLaDA существенно снижает WER по сравнению с базовым уровнем. На наборе данных LibriSpeech лучшая каскадная система достигает WER 2,25%/4,94% на тестовых данных test-clean/test-other, что представляет собой относительное улучшение на 12,3% по сравнению с базовым уровнем Whisper-LLaMA на разделе test-other. В то же время, простая текстовая LLaDA без акустических признаков не улучшает точность, что подчеркивает важность аудио-обусловленных эмбеддингов. Мы также оцениваем Whisper-LLaDA в качестве автономного декодера для ASR с использованием диффузионного и полуавторегрессивного декодирования. Большинство экспериментальных конфигураций обеспечивают более быстрый вывод, чем базовый уровень Whisper-LLaMA, хотя точность распознавания немного ниже. Эти результаты предлагают эмпирический взгляд на использование диффузионных больших языковых моделей для ASR и указывают на перспективные направления для улучшений.

SCAN: Самоочищающаяся аннотация методом Монте-Карло для устойчивого обучения процессу вознаграждения
SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

Sep 20

ByYuyang Ding, Xinyu Shi, Juntao Li, Xiaobo Liang, Zhaopeng Tu, Min Zhang

Модели оценки процесса (PRMs) предоставляют детализированные, пошаговые оценки, которые способствуют более глубоким процессам рассуждения в больших языковых моделях (LLMs), демонстрируя эффективность в сложных задачах, таких как математические рассуждения. Однако разработка PRMs сопряжена с трудностями из-за высокой стоимости и ограниченной масштабируемости данных, аннотированных человеком. Синтетические данные, полученные с помощью метода Монте-Карло (MC), представляют собой перспективную альтернативу, но страдают от высокого уровня шума, что может привести к переобучению и затруднить масштабное обучение. В данной работе мы проводим предварительное исследование распределения шума в синтетических данных, полученных методом MC, и выявляем, что модели аннотирования склонны как недооценивать, так и переоценивать правильность шагов из-за ограничений в их способности к аннотированию. На основе этих наблюдений мы предлагаем Self-Denoising Monte Carlo Annotation (SCAN) — эффективную структуру для синтеза данных и обучения, устойчивого к шуму. Наши ключевые выводы заключаются в следующем: (1) Даже легковесные модели (например, с 1,5 млрд параметров) могут создавать высококачественные аннотации с помощью стратегии самоочистки, позволяя PRMs достигать превосходной производительности при затратах на вывод, составляющих всего 6% от затрат, требуемых стандартным методом MC. (2) С нашей устойчивой стратегией обучения PRMs могут эффективно обучаться на основе слабого контроля, демонстрируя улучшение на 39,2 балла F1 (с 19,9 до 59,1) в ProcessBench. Несмотря на использование только компактного синтетического набора данных, наши модели превосходят сильные базовые подходы, включая те, которые обучены на крупномасштабных наборах данных, аннотированных человеком, таких как PRM800K. Более того, производительность продолжает улучшаться по мере увеличения объема синтетических данных, что подчеркивает потенциал SCAN для масштабируемого, экономически эффективного и устойчивого обучения PRMs.