HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

40 papers found

Могут ли большие языковые модели навести порядок в ваших данных? Обзор методов подготовки данных к применению с использованием LLM
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Jan 22

ByWei Zhou, Jun Zhou, Haoyu Wang, Zhenghao Li, Qikang He, Shaokun Han, Guoliang Li, Xuanhe Zhou, Yeye He, Chunwei Liu, Zirui Tang, Bin Wang, Shen Tang, Kai Zuo, Yuyu Luo, Zhenzhe Zheng, Conghui He, Jingren Zhou, Fan Wu

184

Подготовка данных направлена на очистку исходных наборов данных от шума, выявление межнаборовых взаимосвязей и извлечение из них ценной информации, что крайне важно для широкого спектра данныхо-ориентированных приложений. Стимулируемая (i) растущим спросом на данные, готовые к использованию в приложениях (например, для аналитики, визуализации, принятия решений), (ii) все более мощными методами LLM и (iii) появлением инфраструктур, облегчающих гибкое построение агентов (например, с использованием Databricks Unity Catalog), методы, усиленные LLM, быстро становятся трансформационной и потенциально доминирующей парадигмой для подготовки данных. На основе анализа сотен недавних публикаций, данная статья представляет систематический обзор этой развивающейся области, фокусируясь на использовании методов LLM для подготовки данных к разнообразным последующим задачам. Во-первых, мы характеризуем фундаментальный сдвиг парадигмы — от основанных на правилах, специфичных для модели конвейеров к промпт-управляемым, контекстно-осведомленным и агентским рабочим процессам подготовки. Далее мы вводим задаче-ориентированную таксономию, которая организует область на три основные задачи: очистка данных (например, стандартизация, обработка ошибок, импутация), интеграция данных (например, сопоставление сущностей, сопоставление схем) и обогащение данных (например, аннотирование данных, профилирование). Для каждой задачи мы рассматриваем репрезентативные методы и выделяем их соответствующие преимущества (например, улучшенная обобщающая способность, семантическое понимание) и ограничения (например, запретительная стоимость масштабирования LLM, сохраняющиеся галлюцинации даже у продвинутых агентов, несоответствие между передовыми методами и слабой оценкой). Кроме того, мы анализируем широко используемые наборы данных и метрики оценки (эмпирическая часть). Наконец, мы обсуждаем открытые исследовательские проблемы и намечаем перспективную дорожную карту, подчеркивающую масштабируемые LLM-данные системы, принципиальные проекты для надежных агентских рабочих процессов и robustные протоколы оценки.

daVinci-Dev: Агентно-ориентированное промежуточное обучение для разработки программного обеспечения
daVinci-Dev: Agent-native Mid-training for Software Engineering

Jan 26

ByJi Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu

124

В последнее время фокус возможностей больших языковых моделей (LLM) сместился с однократной генерации кода на агентскую разработку программного обеспечения — парадигму, в рамках которой модели автономно навигируют, редактируют и тестируют сложные репозитории. Хотя посттренировочные методы стали де-факто стандартом для код-агентов, **агентская мид-тренировка** — мид-тренировка (MT) на масштабных данных, имитирующих реальные агентские workflow, — остаётся критически малоизученной из-за значительных ресурсных затрат, несмотря на то, что предлагает более масштабируемый путь к закладке фундаментальных агентских поведений по сравнению с опорой исключительно на дорогостоящее обучение с подкреплением. Ключевой проблемой для реализации эффективной агентской мид-тренировки является несоответствие распределений между статичными тренировочными данными и динамичной, богатой обратной связью средой реальной разработки. Чтобы решить эту проблему, мы представляем систематическое исследование агентской мид-тренировки, устанавливая как принципы синтеза данных, так и методологию обучения для эффективного развития агентов в масштабе. Центральным элементом нашего подхода являются **агент-нативные данные** — супервизия, состоящая из двух взаимодополняющих типов траекторий: **контекстуально-нативных траекторий**, которые сохраняют полный поток информации, воспринимаемый агентом, обеспечивая широкое покрытие и разнообразие; и **средово-нативных траекторий**, собранных из исполняемых репозиториев, где наблюдения проистекают из реальных вызовов инструментов и запусков тестов, что обеспечивает глубину и аутентичность взаимодействия. Мы проверяем агентские способности модели на `SWE-Bench Verified`. Мы демонстрируем наше превосходство над предыдущим открытым рецептом мид-тренировки для разработки ПО `Kimi-Dev` в двух посттренировочных конфигурациях с выровненной базовой моделью и агентским каркасом, при этом используя менее половины токенов мид-тренировки (73,1 млрд). Помимо относительного преимущества, наши лучшие модели на 32B и 72B параметров достигают показателей успешного разрешения задач в **56,1%** и **58,5%** соответственно, что является ...

Сценарий — это всё, что нужно: Агентный фреймворк для генерации кинематографического видео на основе длинных диалогов
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Jan 25

ByChenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus

Последние достижения в области генерации видео позволили создать модели, способные синтезировать впечатляющий визуальный контент по простым текстовым запросам. Однако эти модели испытывают трудности с созданием длинных, связных повествований на основе высокоуровневых концепций, таких как диалоги, что выявляет «семантический разрыв» между творческой идеей и её кинематографическим воплощением. Чтобы преодолеть этот разрыв, мы представляем новую сквозную агентскую систему для генерации видео по диалогам. Ключевым элементом нашей системы является ScripterAgent — модель, обученная преобразовывать общий диалог в детализированный, исполняемый кинематографический сценарий. Для этого мы создали ScriptBench, новый масштабный бенчмарк с богатым мультимодальным контекстом, размеченный с помощью экспертно-управляемого пайплайна. Сгенерированный сценарий затем направляет DirectorAgent, который оркестрирует передовые видео-модели, используя стратегию непрерывной генерации между сценами для обеспечения долгосрочной связности. Наше комплексное оценивание, включающее AI-агент CriticAgent и новую метрику визуально-сценарного соответствия (Visual-Script Alignment, VSA), показывает, что наша система значительно повышает верность сценарию и временную целостность для всех протестированных видео-моделей. Кроме того, наш анализ выявляет ключевой компромисс в современных передовых моделях между визуальной зрелищностью и строгим следованием сценарию, что даёт ценные инсайты для будущего автоматизированного кинопроизводства.

Научный синтез изображений: бенчмаркинг, методологии и прикладное применение
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Jan 17

ByHonglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu

Хотя синтетические данные доказали свою эффективность для улучшения научных рассуждений в текстовой сфере, мультимодальные рассуждения по-прежнему ограничены сложностью синтеза научно строгих изображений. Существующие модели преобразования текста в изображение (T2I) часто выдают визуально правдоподобные, но научно некорректные результаты, что приводит к устойчивому расхождению между визуальной составляющей и логикой, ограничивающему их ценность для последующих рассуждений. Мотивированные недавними достижениями в моделях T2I нового поколения, мы проводим систематическое исследование синтеза научных изображений, охватывающее парадигмы генерации, оценку и последующее использование. Мы анализируем как прямую генерацию на основе пикселей, так и программный синтез, и предлагаем ImgCoder — логически управляемую структуру, которая следует явному рабочему процессу «понять — спланировать — запрограммировать» для повышения структурной точности. Для строгой оценки научной корректности мы представляем SciGenBench, который оценивает сгенерированные изображения на основе информационной полезности и логической достоверности. Наша оценка выявляет систематические режимы сбоев в пиксельных моделях и подчеркивает фундаментальный компромисс между выразительностью и точностью. Наконец, мы показываем, что дообучение больших мультимодальных моделей (LMM) на тщательно проверенных синтетических научных изображениях приводит к устойчивому улучшению рассуждений, с потенциальными тенденциями масштабирования, аналогичными текстовой области, что подтверждает высокоточный научный синтез как жизнеспособный путь к раскрытию массовых мультимодальных способностей к рассуждению.

Обучение моделей самообучению: рассуждения на грани познаваемости
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

Jan 26

ByShobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe

Может ли модель научиться преодолевать собственное плато обучения? Методы обучения с подкреплением для тонкой настройки крупных моделей рассуждений заходят в тупик на наборах данных с низкими начальными показателями успеха и, следовательно, малым обучающим сигналом. Мы исследуем фундаментальный вопрос: Может ли предобученная большая языковая модель использовать скрытые знания для генерации автоматизированного учебного плана для задач, которые она не может решить? Чтобы изучить это, мы разработали SOAR: структуру для самосовершенствования, предназначенную для выявления этих педагогических сигналов с помощью мета-обучения с подкреплением. Учительская копия модели предлагает синтетические задачи для ученической копии и получает вознаграждение за ее улучшение на небольшом подмножестве сложных проблем. Ключевым моментом является то, что SOAR основывает учебный план на измеряемом прогрессе ученика, а не на внутренних косвенных вознаграждениях. Наше исследование на самых сложных подмножествах математических бенчмарков (успех 0/128) выявляет три основных результата. Во-первых, мы показываем, что возможно реализовать двухуровневое мета-обучение с подкреплением, которое открывает обучение при разреженных бинарных вознаграждениях, за счет обострения скрытой способности предобученных моделей генерировать полезные промежуточные шаги. Во-вторых, обоснованные вознаграждения превосходят схемы с внутренними вознаграждениями, использовавшиеся в предыдущих работах по самосовершенствованию LLM, надежно избегая нестабильности и коллапса разнообразия, которые для них типичны. В-третьих, анализ сгенерированных вопросов показывает, что структурное качество и корректность постановки задачи более критичны для прогресса в обучении, чем правильность решения. Наши результаты позволяют предположить, что способность генерировать полезные промежуточные шаги не требует изначальной возможности фактически решать сложные задачи, прокладывая принципиальный путь для преодоления плато в рассуждениях без привлечения дополнительных курируемых данных.

Эластичное внимание: адаптивные коэффициенты разреженности во время тестирования для эффективных трансформеров
Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

Jan 24

ByZecheng Tang, Quantong Qiu, Yi Yang, Zhiyi Hong, Haiya Xiang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang

Квадратичная сложность стандартных механизмов внимания создает серьезное ограничение масштабируемости для больших языковых моделей (LLM) в сценариях с длинным контекстом. Хотя гибридные стратегии внимания, сочетающие разреженное и полное внимание в рамках одной модели, предлагают жизнеспособное решение, они обычно используют статические коэффициенты вычислений (т.е. фиксированные пропорции разреженного и полного внимания) и не адаптируются к различной чувствительности к разреженности downstream-задач во время вывода. Для решения этой проблемы мы предлагаем Elastic Attention — метод, позволяющий модели динамически регулировать общую разреженность на основе входных данных. Это достигается за счет интеграции легковесного Маршрутизатора Внимания в предварительно обученную модель, который динамически назначает каждому голову внимания различные вычислительные режимы. Всего за 12 часов обучения на 8 GPU A800 наш метод позволяет моделям достигать как высокой производительности, так и эффективного вывода. Эксперименты на трех бенчмарках с длинным контекстом для широко используемых LLM демонстрируют превосходство нашего метода.

iFSQ: Улучшение FSQ для генерации изображений с помощью 1 строки кода
iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Jan 23

ByBin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan

Современная область генерации изображений разделена на авторегрессионные (AR) модели, работающие с дискретными токенами, и диффузионные модели, использующие непрерывные латентные переменные. Этот раскол, уходящий корнями в различие между VQ-VAE и VAE, препятствует унифицированному моделированию и объективному сравнительному анализу. Конечное скалярное квантование (FSQ) предлагает теоретический мост, однако классический FSQ страдает от критического недостатка: его равномерное квантование может вызывать коллапс активаций. Это несоответствие вынуждает идти на компромисс между точностью реконструкции и информационной эффективностью. В данной работе мы разрешаем эту дилемму, просто заменяя функцию активации в исходном FSQ на отображение, согласованное с распределением, для обеспечения равномерного априорного распределения. Названный iFSQ, этот простой стратегический шаг требует всего одной строки кода, но математически гарантирует как оптимальное использование интервалов квантования, так и точность восстановления. Используя iFSQ в качестве контролируемого эталона, мы выявили два ключевых insight'а: (1) Оптимальный баланс между дискретными и непрерывными представлениями достигается при примерно 4 битах на размерность. (2) При идентичных ограничениях на реконструкцию AR-модели демонстрируют быструю начальную сходимость, тогда как диффузионные модели достигают более высокого потолка производительности, что позволяет предположить, что строгая последовательная упорядоченность может ограничивать верхние границы качества генерации. Наконец, мы расширяем наш анализ, адаптируя Выравнивание Представлений (REPA) для AR-моделей, получая LlamaGen-REPA. Код доступен по адресу https://github.com/Tencent-Hunyuan/iFSQ

DeepPlanning: Тестирование долгосрочного агентного планирования с верифицируемыми ограничениями
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Jan 26

ByYinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin

Хотя оценка агентов сместилась в сторону задач с длительным горизонтом, большинство бенчмарков по-прежнему делают акцент на локальном, пошаговом рассуждении, а не на глобальной ограниченной оптимизации (например, временных и финансовых бюджетах), требующей подлинной способности к планированию. В то же время существующие бенчмарки для планирования с помощью БОП недостаточно отражают активный сбор информации и мелкогранулярные локальные ограничения, характерные для реальных условий. Для решения этой проблемы мы представляем DeepPlanning — сложный бенчмарк для практического долгосрочного планирования агентов. Он включает задачи планирования многодневных путешествий и многопродуктовых покупок, которые требуют проактивного получения информации, локального ограниченного рассуждения и глобальной ограниченной оптимизации. Оценки на DeepPlanning показывают, что даже передовые агентские БОП испытывают трудности с этими проблемами, что подчеркивает важность надежных явных моделей рассуждений и параллельного использования инструментов для достижения лучшего баланса между эффективностью и производительностью. Анализ ошибок также указывает на перспективные направления для улучшения агентских БОП в задачах длительного планирования. Мы открываем исходный код и данные для поддержки будущих исследований.

Самоусовершенствующийся метод видеосэмплирования
Self-Refining Video Sampling

Jan 26

BySangwon Jang, Taekyung Ki, Jaehyeong Jo, Saining Xie, Jaehong Yoon, Sung Ju Hwang

Современные генераторы видео по-прежнему испытывают трудности с моделированием сложной физической динамики, часто не достигая физического реализма. Существующие подходы решают эту проблему с помощью внешних верификаторов или дополнительного обучения на аугментированных данных, что требует больших вычислительных затрат и все же ограничено в передаче мелкодетализированного движения. В данной работе мы представляем самоуточняющую выборку видео — простой метод, который использует предварительно обученный генератор видео, обученный на крупномасштабных наборах данных, в качестве собственного уточнителя. Интерпретируя генератор как денизующий автоэнкодер, мы обеспечиваем итеративное уточнение во внутреннем цикле во время вывода без каких-либо внешних верификаторов или дополнительного обучения. Мы также вводим стратегию уточнения, учитывающую неопределенность, которая выборочно улучшает области на основе самосогласованности, что предотвращает артефакты, вызванные избыточным уточнением. Эксперименты на передовых генераторах видео демонстрируют значительное улучшение согласованности движения и соответствия физическим законам, достигая более 70% предпочтения человеком по сравнению со стандартным сэмплером и сэмплером на основе управления.

Маскированное моделирование глубины для пространственного восприятия
Masked Depth Modeling for Spatial Perception

Jan 25

ByBin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue

Пространственное визуальное восприятие является фундаментальным требованием для приложений в физическом мире, таких как автономное вождение и манипуляции роботов, что обусловлено необходимостью взаимодействия с трехмерными средами. Получение метрической глубины, выровненной по пикселям, с помощью камер RGB-D было бы наиболее целесообразным способом, однако этому обычно препятствуют ограничения аппаратного обеспечения и сложные условия съемки, особенно при наличии зеркальных или лишенных текстуры поверхностей. В данной работе мы утверждаем, что неточности датчиков глубины можно рассматривать как «маскированные» сигналы, которые по своей природе отражают лежащие в основе геометрические неопределенности. Основываясь на этой идее, мы представляем LingBot-Depth — модель завершения глубины, которая использует визуальный контекст для уточнения карт глубины посредством моделирования маскированной глубины и включает автоматизированный конвейер курирования данных для масштабируемого обучения. Обнадеживает, что наша модель превосходит камеры RGB-D высшего класса как по точности определения глубины, так и по охвату пикселей. Результаты экспериментов на ряде последующих задач также свидетельствуют о том, что LingBot-Depth обеспечивает согласованное латентное представление для модальностей RGB и глубины. Мы публикуем код, контрольные точки и 3 миллиона пар RGB-глубина (включая 2 миллиона реальных и 1 миллион синтезированных данных) для сообщества, занимающегося пространственным восприятием.

Технический отчет VIBEVOICE-ASR
VIBEVOICE-ASR Technical Report

Jan 26

ByZhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei

В данном отчете представлена система VibeVoice-ASR — универсальная система речевого понимания, построенная на основе VibeVoice и предназначенная для решения сохраняющихся проблем фрагментации контекста и многопользовательской сложности в длинных аудиозаписях (например, совещаниях, подкастах), которые остаются актуальными, несмотря на недавние достижения в области распознавания коротких речевых фрагментов. В отличие от традиционных конвейерных подходов, основанных на разбиении аудио на сегменты, VibeVoice-ASR поддерживает однопроходную обработку аудиоданных длительностью до 60 минут. Она объединяет автоматическое распознавание речи, диаризацию говорящих и временную разметку в единую задачу сквозной генерации. Кроме того, VibeVoice-ASR поддерживает более 50 языков, не требует явной установки языка и нативно обрабатывает код-свитчинг внутри и между высказываниями. Также мы представляем механизм инжекции контекста на основе промптов, который позволяет пользователям предоставлять специализированный контекст, что значительно повышает точность распознавания узкоспециализированной терминологии и разрешения неоднозначности полифонических символов.

Агентное понимание очень длинных видео
Agentic Very Long Video Understanding

Jan 26

ByAniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim

Появление постоянно активных персональных ИИ-ассистентов, работающих на базе носимых в течение всего дня устройств, таких как умные очки, требует нового уровня контекстного понимания, выходящего за рамки коротких изолированных событий и охватывающего непрерывный, продольный поток эгоцентричного видео. Реализация этой концепции требует прогресса в области долгосрочного понимания видео, где системы должны интерпретировать и запоминать визуальную и аудиоинформацию, охватывающую дни или даже недели. Существующие методы, включая большие языковые модели и генерацию с расширением поиска, ограничены узкими окнами контекста и неспособны выполнять композиционные, многошаговые рассуждения над очень длинными видеопотоками. В данной работе мы решаем эти проблемы с помощью EGAgent — усовершенствованной агентской архитектуры, основанной на графах сцен с сущностями, которые представляют людей, места, объекты и их взаимосвязи во времени. Наша система оснащает агента-планировщика инструментами для структурированного поиска и рассуждений по этим графам, а также гибридными возможностями визуального и аудиопоиска, обеспечивая детальные, кросс-модальные и временно согласованные рассуждения. Эксперименты на наборах данных EgoLifeQA и Video-MME (Long) показывают, что наш метод достигает наилучших результатов на EgoLifeQA (57,5%) и конкурентоспособных результатов на Video-MME (Long) (74,1%) для сложных задач понимания продольного видео.

AR-Omni: Унифицированная авторегрессионная модель для генерации по принципу «любой-к-любому»
AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Jan 25

ByDongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li

Восприятие и взаимодействие в реальном мире по своей природе мультимодальны и включают не только язык, но также зрение и речь, что стимулирует разработку «универсальных» (Omni) MLLM, поддерживающих как мультимодальные входы, так и мультимодальные выходы. Хотя появился ряд универсальных MLLM, большинство существующих систем по-прежнему полагаются на дополнительные экспертные компоненты для достижения мультимодального генерации, что ограничивает простоту унифицированного обучения и вывода. Авторегрессионное (AR) моделирование с единым потоком токенов, единой целью предсказания следующего токена и единым декодером является элегантной и масштабируемой основой в текстовой области. Руководствуясь этим, мы представляем AR-Omni — унифицированную модель типа «любой-к-любому» в авторегрессионной парадигме, не использующую каких-либо экспертных декодеров. AR-Omni поддерживает авторегрессионную генерацию текста и изображений, а также потоковую генерацию речи, используя единственный Transformer-декодер. Мы также решаем три практические проблемы унифицированного AR-моделирования: дисбаланс модальностей с помощью перевзвешивания потерь с учетом задачи, визуальную точность с помощью легковесной функции перцептивного выравнивания на уровне токенов для токенов изображения и компромисс между стабильностью и креативностью с помощью механизма декодирования с конечным состоянием. Экспериментально показано, что AR-Omni достигает высокого качества работы во всех трех модальностях, оставаясь при этом системой реального времени, с коэффициентом реального времени 0.88 для генерации речи.

CGPT: Кластерно-управляемые частичные таблицы с контролем, генерируемым LLM, для поиска таблиц
CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

Jan 22

ByTsung-Hsiang Chou, Chen-Jui Yu, Shui-Hsiang Hsu, Yao-Chung Fan

Универсальные модели эмбеддингов продемонстрировали высокую производительность при текстовом поиске, но остаются неоптимальными для поиска в таблицах, где сильно структурированное содержание приводит к семантическому сжатию и несоответствию между запросом и таблицей. Новейшие методы ретривельной аугментации на основе больших языковых моделей (LLM) смягчают эту проблему путем генерации синтетических запросов, однако они часто полагаются на эвристический выбор частей таблиц и редко используют эти синтетические запросы в качестве обучающих данных для улучшения модели эмбеддингов. Мы представляем CGPT — фреймворк для обучения, который улучшает поиск в таблицах за счет использования обучающих данных, сгенерированных LLM. CGPT строит семантически разнообразные частичные таблицы путем кластеризации табличных экземпляров с помощью K-средних и выборки из разных кластеров для расширения семантического охвата. Затем LLM генерирует синтетические запросы для этих частичных таблиц, которые используются в контрастном обучении с жесткими негативными примерами для доработки модели эмбеддингов. Эксперименты на четырех публичных бенчмарках (MimoTable, OTTQA, FetaQA и E2E-WTQ) показывают, что CGPT стабильно превосходит базовые методы поиска, включая QGpT, со средним улучшением R@1 на 16,54%. В условиях единого мультидоменного корпуса CGPT дополнительно демонстрирует сильную кросс-доменную обобщающую способность и остается эффективным даже при использовании меньших LLM для генерации синтетических запросов. Эти результаты указывают на то, что семантически направленное построение частичных таблиц в сочетании с контрастным обучением на данных от LLM обеспечивает эффективную и масштабируемую парадигму для поиска в крупномасштабных таблицах. Наш код доступен по адресу https://github.com/yumeow0122/CGPT.

Снижение налога на обобщение: исследование кросс-доменной генерализации при обучении с подкреплением для агентов на основе больших языковых моделей
Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Jan 26

ByZhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang

Универсальные LLM-агенты часто проходят пост-обучение на узком наборе сред, но развертываются в гораздо более широких, невиданных ранее доменах. В данной работе мы исследуем проблему пост-обучения агентов в условиях, когда итоговые тестовые домены неизвестны. В частности, мы анализируем, какие свойства сред обучения с подкреплением (RL) и варианты моделирования оказывают наибольшее влияние на производительность вне домена. Во-первых, мы выявляем две оси свойств среды, которые сильно коррелируют с кросс-доменной обобщающей способностью: (i) насыщенность состояния информацией, то есть объем информации, которую агенту необходимо обработать из состояния, и (ii) сложность планирования, оцениваемая через достижимость цели и длину траектории при базовой политике. Примечательно, что реалистичность домена и текстовое сходство не являются основными факторами; например, простой домен Sokoban в виде сетки приводит к еще более сильному обобщению в SciWorld, чем более реалистичный ALFWorld. Мотивированные этими выводами, мы далее показываем, что увеличение только насыщенности состояния информацией уже может эффективно повысить кросс-доменную устойчивость. Мы предлагаем метод рандомизации, который требует малых затрат и широко применим: добавление в состояние небольшого количества отвлекающих, не связанных с целью признаков, чтобы сделать его богаче без изменения задачи. Помимо свойств самой среды, мы также исследуем несколько вариантов моделирования: (a) предварительное обучение с учителем (SFT) или дообучение в середине процесса помогает предотвратить катастрофическое забывание во время RL, но подрывает обобщение на домены, не включенные в смесь данных для дообучения; и (b) включение пошагового мышления во время RL, хотя и не всегда улучшает производительность внутри домена, играет ключевую роль в сохранении способности к обобщению.

TSRBench: Комплексный многозадачный многомодальный бенчмарк для проверки способностей к рассуждению на временных рядах в моделях-универсалах
TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Jan 26

ByFangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou

Данные временных рядов повсеместно распространены в реальных сценариях и имеют критически важное значение для таких приложений, как управление энергопотреблением и контроль трафика. Следовательно, способность рассуждать о временных рядах является фундаментальным навыком для моделей-универсалов для решения практических задач. Однако это измерение заметно отсутствует в существующих бенчмарках для моделей-универсалов. Чтобы заполнить этот пробел, мы представляем TSRBench — комплексный мультимодальный бенчмарк, предназначенный для стресс-тестирования всего спектра способностей к рассуждению о временных рядах. TSRBench характеризуется: i) разнообразным набором из 4125 задач из 14 областей, классифицированных по 4 основным направлениям: Восприятие, Рассуждение, Прогнозирование и Принятие решений; ii) 15 заданиями из 4 направлений, оценивающими ключевые способности к рассуждению (например, числовое рассуждение). В ходе масштабных экспериментов мы оценили более 30 ведущих проприетарных и открытых больших языковых моделей (LLM), визуально-языковых моделей (VLM) и специализированных моделей для временных рядов (TSLLM) в рамках TSRBench. Наши результаты показывают, что: i) законы масштабирования работают для восприятия и рассуждения, но нарушаются для прогнозирования; ii) сильное рассуждение не гарантирует точного контекстно-зависимого прогнозирования, что указывает на разрыв между семантическим пониманием и численным предсказанием; iii) несмотря на комплементарный характер текстовых и визуальных представлений временных рядов в качестве входных данных, современные мультимодальные модели не способны эффективно объединять их для взаимного повышения производительности. TSRBench предоставляет стандартизированную платформу для оценки, которая не только выявляет существующие проблемы, но и предлагает ценные insights для развития моделей-универсалов. Наш код и набор данных доступны по адресу https://tsrbench.github.io/.

Механистический взгляд на генерацию видео как на модели мира: состояние и динамика
A Mechanistic View on Video Generation as World Models: State and Dynamics

Jan 22

ByLuozhou Wang, Zhifei Chen, Yihua Du, Dongyu Yan, Wenhang Ge, Guibao Shen, Xinli Xu, Leyi Wu, Man Chen, Tianshuo Xu, Peiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen

Крупномасштабные модели генерации видео продемонстрировали эмерджентную физическую согласованность, что позиционирует их в качестве потенциальных моделей мира. Однако сохраняется разрыв между современными «бессостоятельными» видеоархитектурами и классическими теориями моделей мира, ориентированными на состояние. Данная работа преодолевает этот разрыв, предлагая новую таксономию, основанную на двух столпах: Построение Состояния и Моделирование Динамики. Мы классифицируем построение состояния на имплицитные парадигмы (управление контекстом) и эксплицитные парадигмы (латентное сжатие), в то время как моделирование динамики анализируется через интеграцию знаний и архитектурную реформулировку. Кроме того, мы выступаем за переход в оценке моделей от визуального правдоподобия к функциональным бенчмаркам, тестирующим физическую устойчивость и каузальные рассуждения. В заключение мы определяем два ключевых направления: повышение устойчивости за счет данных и сжатого правдоподобия, а также развитие каузальности через развязывание латентных факторов и интеграцию априорных знаний для рассуждений. Решая эти задачи, область может эволюционировать от генерации визуально правдоподобных видео к созданию robustных универсальных симуляторов мира.

Технический отчет по SkyReels-V3
SkyReels-V3 Technique Report

Jan 24

ByDebang Li, Zhengcong Fei, Tuanhui Li, Yikun Dou, Zheng Chen, Jiangping Yang, Mingyuan Fan, Jingtao Xu, Jiahua Wang, Baoxuan Gu, Mingshan Chang, Yuqiang Xie, Binjie Mao, Youqiang Zhang, Nuo Pang, Hao Zhang, Yuzhe Jin, Zhiheng Xu, Dixuan Lin, Guibin Chen, Yahui Zhou

Генерация видео служит краеугольным камнем для построения мировых моделей, где мультимодальный контекстный вывод является определяющим тестом способностей. В этой связи мы представляем SkyReels-V3 — условную модель генерации видео, построенную на основе унифицированной мультимодальной структуры контекстного обучения с диффузионными трансформерами. Модель SkyReels-V3 поддерживает три основные генеративные парадигмы в единой архитектуре: синтез видео по референсным изображениям, расширение видео на основе видео и генерацию видео с аудио-гидом. (i) Модель генерации видео по референсным изображениям предназначена для создания высококачественных видео с сохранением идентичности объекта, временной согласованности и нарративной целостности. Для улучшения соответствия референсу и композиционной стабильности мы разработали комплексный конвейер обработки данных, использующий кросс-кадровое сопоставление, редактирование изображений и семантическое переписывание, что эффективно устраняет артефакты копирования. При обучении применяется гибридная стратегия работы с изображениями и видео в сочетании с совместной оптимизацией мульти-разрешения для повышения обобщающей способности и устойчивости в различных сценариях. (ii) Модель расширения видео интегрирует моделирование пространственно-временной согласованности с масштабным пониманием видео, обеспечивая как бесшовное продолжение одиночного кадра, так и интеллектуальное переключение между несколькими кадрами с профессиональными кинематографическими паттернами. (iii) Модель говорящего аватара поддерживает генерацию видео на уровне минут с аудио-условием за счёт обучения паттернов вставки первого и последнего кадров и реконструкции парадигм вывода ключевых кадров. На основе обеспечения визуального качества была оптимизирована синхронизация аудио и видео. Многочисленные оценки демонстрируют, что SkyReels-V3 достигает передовых или близких к передовым результатов по ключевым метрикам, включая визуальное качество, следование инструкциям и специфические аспектные метрики, приближаясь к ведущим закрытым системам. Github: https://github.com/SkyworkAI/SkyReels-V3.

STAR: Семантическое представление таблиц с учетом заголовков через кластеризацию и адаптивное взвешенное объединение
STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion

Jan 22

ByShui-Hsiang Hsu, Tsung-Hsiang Chou, Chen-Jui Yu, Yao-Chung Fan

Извлечение таблиц — это задача поиска наиболее релевантных таблиц из крупномасштабных корпусов по естественно-языковым запросам. Однако структурные и семантические расхождения между неструктурированным текстом и структурированными таблицами делают выравнивание эмбеддингов особенно сложным. Современные методы, такие как QGpT, пытаются обогатить семантику таблиц за счет генерации синтетических запросов, но они по-прежнему полагаются на грубую выборку частичных таблиц и простые стратегии слияния, что ограничивает семантическое разнообразие и препятствует эффективному выравниванию запросов и таблиц. Мы предлагаем STAR (Semantic Table Representation) — легковесный фреймворк, улучшающий семантическое представление таблиц за счет семантической кластеризации и взвешенного слияния. STAR сначала применяет K-means кластеризацию с учетом заголовков для группировки семантически схожих строк и выбирает репрезентативные центроидные экземпляры для построения разнообразной частичной таблицы. Затем генерируются кластер-специфичные синтетические запросы для комплексного охвата семантического пространства таблицы. Наконец, STAR использует взвешенные стратегии слияния для интеграции эмбеддингов таблиц и запросов, обеспечивая тонкое семантическое выравнивание. Данная конструкция позволяет STAR захватывать комплементарную информацию из структурированных и текстовых источников, повышая выразительность табличных представлений. Эксперименты на пяти бенчмарках показывают, что STAR стабильно достигает более высокого показателя Recall по сравнению с QGpT на всех наборах данных, демонстрируя эффективность семантической кластеризации и адаптивного взвешенного слияния для построения устойчивых табличных представлений. Наш код доступен по адресу https://github.com/adsl135789/STAR.

C-RADIOv4 (Технический отчет)
C-RADIOv4 (Tech Report)

Jan 24

ByMike Ranzinger, Greg Heinrich, Collin McCarthy, Jan Kautz, Andrew Tao, Bryan Catanzaro, Pavlo Molchanov

Благодаря использованию дистилляции от нескольких учителей, агломеративные визуальные архитектуры предоставляют единую студенческую модель, которая сохраняет и улучшает уникальные возможности нескольких учителей. В данном техническом отчете мы описываем последний выпуск семейства моделей C-RADIO — C-RADIOv4, который основан на AM-RADIO/RADIOv2.5 по дизайну и предлагает значительное улучшение ключевых downstream-задач при той же вычислительной сложности. Мы выпускаем варианты моделей -SO400M (412 млн параметров) и -H (631 млн), обученные с обновленным набором учителей: SigLIP2, DINOv3 и SAM3. Помимо улучшения ключевых метрик и новых возможностей, полученных за счет имитации SAM3, семейство моделей C-RADIOv4 дополнительно улучшает поддержку любого разрешения, возвращает опцию ViTDet для значительного повышения эффективности при высоком разрешении и сопровождается разрешительной лицензией.

SAGE: Управляемая агентная генерация данных для глубокого поиска с обратной связью по исполнению
SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

Jan 26

ByFangyuan Xu, Rujun Han, Yanfei Chen, Zifeng Wang, I-Hung Hsu, Jun Yan, Vishy Tirumalashetty, Eunsol Choi, Tomas Pfister, Chen-Yu Lee

Глубокие поисковые агенты, предназначенные для ответов на сложные вопросы, требующие рассуждений по множеству документов, могут значительно ускорить процесс поиска информации. Сбор человеческих аннотаций для этой задачи является чрезмерно дорогостоящим из-за длинных и сложных траекторий исследования. Мы предлагаем агентный конвейер, который автоматически генерирует высококачественные пары "вопрос-ответ" для глубокого поиска с контролируемой сложностью для заданного корпуса и целевого уровня трудности. Наш конвейер SAGE состоит из генератора данных, который предлагает пары "вопрос-ответ", и поискового агента, который пытается решить сгенерированный вопрос и предоставляет обратную связь по выполнению для генератора данных. Два компонента взаимодействуют в течение нескольких раундов, чтобы итеративно улучшать пары "вопрос-ответ" до достижения целевого уровня сложности. Наша внутренняя оценка показывает, что SAGE генерирует вопросы, требующие разнообразных стратегий рассуждений, при этом значительно повышая корректность и сложность генерируемых данных. Наша внешняя оценка демонстрирует до 23% относительного улучшения производительности на популярных бенчмарках глубокого поиска при обучении агентов на наших синтетических данных. Дополнительные эксперименты показывают, что агенты, обученные на наших данных, могут адаптироваться от поиска в фиксированном корпусе к поиску в Google во время вывода без дополнительного обучения.

Диффузия в диффузии: восстановление глобальной когерентности в полуавторегрессионных диффузионных моделях
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

Jan 20

ByLinrui Ma, Yufei Cui, Kai Han, Yunhe Wang

Одной из наиболее примечательных особенностей глобальных дискретных диффузионных языковых моделей является их глобальная двунаправленная контекстная способность. Однако существующие исследования блочной диффузии склонны вводить авторегрессионные априорные предположения, которые, хотя и предоставляют преимущества, могут приводить к потере моделями этой глобальной связности на макроуровне. Чтобы восстановить глобальное контекстное понимание, сохраняя преимущества полуавторегрессионной парадигмы, мы предлагаем метод Diffusion in Diffusion — фреймворк «черновик-затем-уточнение», предназначенный для преодоления проблем необратимости и близорукости, присущих блочным диффузионным моделям. Наш подход сначала использует блочную диффузию для быстрого создания черновиков с помощью небольших блоков, а затем уточняет эти черновики посредством глобальной двунаправленной диффузии с увеличенным двунаправленным рецептивным полем. Мы используем повторное маскирование на основе уверенности (snapshot confidence remasking) для идентификации наиболее критичных токенов, требующих модификации, и применяем обучение с混合 масштабов (mix-scale training) для расширения глобальных возможностей блочной диффузионной модели. Экспериментальные результаты демонстрируют, что наш подход устанавливает новый эталон для дискретных диффузионных моделей на наборе данных OpenWebText. Используя всего 26% бюджета тонкой настройки базовых моделей, мы снижаем перплексию генерации с 25.7 до 21.9, значительно сокращая разрыв в производительности с авторегрессионными моделями.

Один адаптируется ко всем: мета-моделирование вознаграждения для персонализированного согласования больших языковых моделей
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Jan 26

ByHongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li

Выравнивание больших языковых моделей (LLM) направлено на согласование их выходных данных с человеческими предпочтениями, а персонализированное выравнивание дополнительно адаптирует модели под индивидуальных пользователей. Это основано на персонализированных моделях вознаграждения, которые фиксируют специфичные для пользователя предпочтения и автоматически предоставляют индивидуализированную обратную связь. Однако разработка таких моделей сталкивается с двумя ключевыми проблемами: недостатком обратной связи от отдельных пользователей и необходимостью эффективной адаптации к новым, незнакомым пользователям. Мы полагаем, что для решения этих ограничений необходим парадигмальный сдвиг от подгонки под данные для изучения предпочтений пользователя к изучению самого процесса адаптации предпочтений. Чтобы реализовать это, мы предлагаем Мета-Моделирование Вознаграждения (Meta Reward Modeling, MRM), которое переформулирует задачу персонализированного моделирования вознаграждения как проблему мета-обучения. В частности, мы представляем модель вознаграждения каждого пользователя как взвешенную комбинацию базовых функций вознаграждения и оптимизируем инициализацию этих весов с помощью фреймворка в стиле MAML (Model-Agnostic Meta-Learning) для обеспечения быстрой адаптации при ограниченной обратной связи. Для обеспечения устойчивости мы вводим Целевую Функцию Робастной Персонализации (Robust Personalization Objective, RPO), которая уделяет больше внимания пользователям, чьи предпочтения сложнее изучить, в процессе мета-оптимизации. Многочисленные эксперименты на наборах данных персонализированных предпочтений подтверждают, что MRM улучшает персонализацию в условиях ограниченного количества данных, повышает устойчивость к особенностям пользователей и последовательно превосходит базовые методы.

Технический отчет Yunjue Agent: Полностью воспроизводимая система агентов с нулевым стартом для саморазвития в реальной среде при выполнении открытых задач
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks

Jan 26

ByHaotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua, Mingzhu Song, Xiaojian Yang, Chao Peng

Традиционные агентные системы часто оказываются неэффективными в открытых средах, где распределение задач непрерывно меняется, а внешний контроль ограничен. Их зависимость от статичных наборов инструментов или офлайн-обучения не успевает за этими динамическими изменениями, оставляя границы возможностей системы жесткими и неизвестными. Для решения этой проблемы мы предлагаем парадигму In-Situ Self-Evolving (эволюционирующей на месте). Этот подход рассматривает последовательные взаимодействия с задачами как непрерывный поток опыта, позволяя системе преобразовывать краткосрочную обратную связь по выполнению в долгосрочные, многократно используемые возможности без доступа к эталонным меткам. В рамках данной парадигмы мы определяем эволюцию инструментов как ключевой путь для расширения возможностей, поскольку она предоставляет проверяемые бинарные сигналы обратной связи. В рамках этого подхода мы разработали агент Yunjue — систему, которая итеративно синтезирует, оптимизирует и повторно использует инструменты для решения вновь возникающих задач. Для оптимизации эффективности эволюции мы дополнительно вводим стратегию Parallel Batch Evolution (параллельного пакетного развития). Эмпирические оценки на пяти разнородных бенчмарках в условиях нулевого старта демонстрируют значительное улучшение производительности по сравнению с проприетарными базовыми системами. Кроме того, дополнительные оценки с теплым стартом подтверждают, что накопленные общие знания могут быть бесшовно перенесены в новые области. Наконец, мы предлагаем новую метрику для мониторинга сходимости эволюции, которая служит аналогом функции потерь при обучении в традиционной оптимизации. Мы открываем исходный код нашей системы, трассировки её работы и evolved-инструменты для содействия будущим исследованиям в области устойчивого, саморазвивающегося интеллекта.

DRPG (Декомпозиция, Поиск, Планирование, Генерация): Агентный фреймворк для академического ребаттла
DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

Jan 26

ByPeixuan Han, Yingjie Yu, Jingjun Xu, Jiaxuan You

Несмотря на растущее внедрение больших языковых моделей (LLM) в научно-исследовательские процессы, автоматизированная поддержка академического ребаттла — ключевого этапа академической коммуникации и рецензирования — остаётся в значительной степени неисследованной. Существующие подходы обычно полагаются на стандартные LLM или простые конвейеры обработки, которые испытывают трудности с пониманием длинного контекста и часто не способны создавать целевые и убедительные ответы. В данной статье мы предлагаем DRPG, агентный фреймворк для автоматического генерации академического ребаттла, который работает в четыре этапа: декомпозиция рецензий на атомарные замечания, извлечение релевантных доказательств из статьи, планирование стратегий ребаттла и генерация ответов в соответствии с планом. Примечательно, что планировщик в DRPG достигает точности свыше 98% в определении наиболее feasible направления ребаттла. Эксперименты на данных из топовых конференций демонстрируют, что DRPG значительно превосходит существующие конвейеры для ребаттла и достигает производительности выше среднего человеческого уровня, используя модель размером всего 8B параметров. Наш анализ также показывает эффективность архитектуры планировщика и её ценность для предоставления многоперспективных и объяснимых рекомендаций. Мы также продемонстрировали, что DRPG хорошо работает в более сложной многотуровой постановке задачи. Эти результаты подчеркивают эффективность DRPG и его потенциал для предоставления высококачественного контента для ребаттла и поддержки масштабирования академических дискуссий. Код для данной работы доступен по адресу https://github.com/ulab-uiuc/DRPG-RebuttalAgent.

IVRA: Улучшение визуально-токенных отношений для политики действий робота с помощью не требующего обучения подсказочного управления
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

Jan 22

ByJongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo

Многие модели «Vision-Language-Action» (VLA) преобразуют фрагменты изображений в одномерную последовательность токенов, что ослабляет двумерные пространственные связи, необходимые для точного манипулирования. Мы представляем IVRA — легковесный метод, не требующий дообучения, который улучшает пространственное понимание за счет использования признаков сходства, уже доступных во встроенном визионном энкодере модели, без необходимости во внешнем энкодере или переобучении. IVRA выборочно внедряет эти сигналы сходства в слой языковой модели, где находятся признаки на уровне экземпляров. Такое вмешательство на этапе вывода перестраивает взаимодействия визуальных токенов и лучше сохраняет геометрическую структуру, оставляя все параметры модели неизменными. Мы демонстрируем универсальность IVRA, применяя ее к различным архитектурам VLA (LLaRA, OpenVLA и FLOWER) на симулированных бенчмарках, охватывающих как 2D, так и 3D манипулирование (VIMA и LIBERO), а также на различных задачах с реальными роботами. На 2D VIMA IVRA улучшает средний показатель успеха на +4,2% по сравнению с базовой LLaRA в условиях ограниченности данных. На 3D LIBERO метод обеспечивает стабильный прирост по сравнению с базовыми OpenVLA и FLOWER, включая улучшения, когда точность базовой модели близка к насыщению (с 96,3% до 97,1%). Весь код и модели будут опубликованы в открытом доступе. Визуализации доступны по адресу: jongwoopark7978.github.io/IVRA

Сквозная совместная система автоматического распознавания речи и диаризации ролей говорящих для детско-взрослых взаимодействий
End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

Jan 25

ByAnfeng Xu, Tiantian Feng, Somer Bishop, Catherine Lord, Shrikanth Narayanan

Точная расшифровка и диаризация говорящих в разговорах между детьми и взрослыми имеют решающее значение для исследований в области развития и клинической практики. Однако ручная разметка требует много времени и сложно масштабируется. Существующие автоматизированные системы обычно полагаются на каскадные конвейеры, включающие диаризацию говорящих и распознавание речи, что может приводить к распространению ошибок. В данной статье представлена единая end-to-end система, которая расширяет архитектуру кодера-декодера Whisper для совместного моделирования ASR и диаризации ролей говорящих (ребенок/взрослый). Предлагаемый подход интегрирует: (i) схему обучения с сериализованным выводом, которая генерирует метки говорящих и временные метки начала/окончания речи, (ii) легковесный модуль диаризации на уровне кадров, который улучшает дискриминативные представления говорящих в энкодере, (iii) подавление пауз, управляемое диаризацией, для повышения временной точности, и (iv) процедуру принудительного декодирования на основе конечного автомата, гарантирующую структурно корректные выходные данные. Комплексные оценки на двух наборах данных демонстрируют последовательное и существенное улучшение по сравнению с двумя каскадными базовыми методами, достигая более низкого уровня ошибок по словам в условиях перекрывающейся речи и показывая конкурентоспособную точность диаризации как для моделей Whisper-small, так и Whisper-large. Эти результаты подчеркивают эффективность и практическую полезность предложенной框架 совместного моделирования для создания надежных, атрибутированных по говорящим расшифровок детско-взрослых взаимодействий в масштабе. Код и веса моделей находятся в открытом доступе.

Наименее загруженный экспертный параллелизм: балансировка нагрузки несбалансированной смеси экспертов
Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts

Jan 23

ByXuan-Phi Nguyen, Shrey Pandit, Austin Xu, Caiming Xiong, Shafiq Joty

Модели со смесью экспертов (MoE) обычно предобучаются с явными ограничениями балансировки нагрузки, чтобы обеспечить статистически сбалансированное распределение данных между экспертами. Несмотря на это, мы наблюдаем, что даже хорошо обученные MoE-модели демонстрируют значительный дисбаланс в маршрутизации. Такое поведение, возможно, является естественным — и даже желательным, — поскольку несбалансированная маршрутизация позволяет моделям концентрировать предметные знания в подмножестве экспертов. Экспертный параллелизм (EP) предназначен для масштабирования MoE-моделей путем распределения экспертов по нескольким устройствам, но при этом он основывается на мало обсуждаемом предположении о сбалансированной маршрутизации. При экстремальном дисбалансе EP может направлять непропорционально большое количество токенов к небольшому числу экспертов, что приводит к вычислительным и память-ограниченным сбоям на перегруженных устройствах во время пост-обучения или вывода, когда явная балансировка нагрузки часто неприменима. Мы предлагаем Экспертный Параллелизм с Наименьшей Нагрузкой (LLEP) — новый алгоритм EP, который динамически перенаправляет избыточные токены и связанные с ними параметры экспертов с перегруженных устройств на недогруженные. Это гарантирует, что все устройства завершают свои задачи в рамках минимальной совокупной задержки с учетом ограничений памяти. На различных масштабах моделей LLEP обеспечивает до 5-кратного ускорения и 4-кратного снижения пикового использования памяти по сравнению со стандартным EP. Это позволяет ускорить пост-обучение и вывод с более высокой пропускной способностью, например, для модели gpt-oss-120b ускорение составляет примерно в 1,9 раза. Мы подкрепляем наш метод обширным теоретическим анализом и всесторонними эмпирическими оценками, включая абляционные исследования. Эти результаты выявляют ключевые компромиссы и позволяют создать принципиальную основу для аппаратно-специфической настройки гиперпараметров для достижения оптимальной производительности.

PingPong: Естественный Бенчмарк для Многоходовых Диалогов с Кодовым Переключением
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

Jan 24

ByMohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji

Кодовое переключение является широко распространенной практикой среди многоязычного большинства мирового населения, однако существующие бенчмарки недостаточно точно отражают его сложность в повседневной коммуникации. Мы представляем PingPong — бенчмарк для естественных многопользовательских диалогов с кодовым переключением, охватывающий пять вариантов языковых комбинаций, включая некоторые трехъязычные. Наш набор данных состоит из созданных человеком бесед между 2–4 участниками, демонстрирующих аутентичную многопоточную структуру, где реплики часто отсылают к более ранним точкам диалога. Мы показываем, что наши данные значительно более естественны и структурно разнообразны по сравнению с машинно-сгенерированными аналогами, предлагая больший разброс в длине сообщений, доминировании говорящих и дистанции между репликами. На основе этих диалогов мы определяем три практические задачи: вопросно-ответные системы, суммаризация диалогов и тематическая классификация. Оценка нескольких современных языковых моделей на PingPong показывает, что их производительность на смешанных языковых входных данных остается ограниченной, что подчеркивает настоятельную необходимость в создании более устойчивых NLP-систем, способных учитывать сложности реального многоязычного дискурса.

Fast KVzip: Эффективный и точный вывод LLM с управляемым вытеснением ключей и значений
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

Jan 25

ByJang-Hyun Kim, Dongyoon Han, Sangdoo Yun

Эффективное управление ключево-значимым (KV) кэшем имеет решающее значение для практического развертывания больших языковых моделей (LLM), однако существующие методы сжатия часто связаны с компромиссом между снижением производительности и вычислительными затратами. Мы предлагаем новый метод вытеснения KV-кэша на основе гейтинга для LLM с замороженными весами, который обеспечивает высокие коэффициенты сжатия при пренебрежимо малых вычислительных затратах. Наш подход вводит легковесные гейт-модули с механизмом sink-attention для идентификации и сохранения критически важных KV-пар и бесшовно интегрируется как на этапе предзаполнения (prefill), так и на этапе декодирования. Предложенный алгоритм обучения гейтов опирается на прямые проходы LLM, избегая дорогостоящего обратного распространения ошибки, и достигает сильной обобщающей способности на задачах за счет агендо-независимой реконструкционной цели. Масштабные эксперименты на семействах моделей Qwen2.5-1M, Qwen3 и Gemma3 показывают, что наш метод сохраняет практически безпотерьную производительность при вытеснении до 70% KV-кэша. Результаты согласованы для широкого спектра задач, включая понимание длинного контекста, понимание кода и математические рассуждения, что демонстрирует универсальность нашего подхода.

TensorLens: Сквозной анализ Transformer с использованием тензоров высокого порядка внимания
TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors

Jan 25

ByIdo Andrew Atad, Itamar Zimerman, Shahar Katz, Lior Wolf

Матрицы внимания являются фундаментальным элементом исследований транссформеров, поддерживая широкий спектр приложений, включая интерпретируемость, визуализацию, манипуляцию и дистилляцию. Однако большинство существующих анализов сосредоточены на отдельных головах или слоях внимания, не учитывая глобальное поведение модели. Хотя предыдущие работы расширяли формализации внимания на множество голов посредством усреднения и матричных умножений или включали такие компоненты, как нормализация и FFN-блоки, единое и полное представление, охватывающее все блоки трансформера, до сих пор отсутствует. Мы устраняем этот пробел, представляя TensorLens — новую формализацию, которая описывает весь трансформер как единый линейный оператор, зависящий от входных данных и выраженный через тензор внимания-взаимодействий высокого порядка. Этот тензор совместно кодирует внимание, FFN-блоки, функции активации, нормализацию и остаточные связи, предлагая теоретически согласованное и выразительное линейное представление вычислений модели. TensorLens имеет теоретическое обоснование, и наша эмпирическая проверка показывает, что он дает более богатые представления, чем предыдущие методы агрегации внимания. Наши эксперименты демонстрируют, что тензор внимания может служить мощной основой для разработки инструментов, направленных на интерпретируемость и понимание модели. Наш код прилагается в качестве дополнения.

MortalMATH: Оценка конфликта между целями логического вывода и контекстом чрезвычайных ситуаций
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

Jan 26

ByEtienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo

Крупные языковые модели всё чаще оптимизируются для глубоких рассуждений, ставя во главу угла корректное выполнение сложных задач, а не общие беседы. Мы исследуем, создаёт ли эта ориентация на вычисления "тоннельное зрение", игнорирующее безопасность в критических ситуациях. Мы представляем MortalMATH — набор из 150 сценариев, в которых пользователи запрашивают помощь с алгеброй, одновременно описывая всё более угрожающие жизни чрезвычайные ситуации (например, симптомы инсульта, свободное падение). Мы обнаружили резкий поведенческий раскол: модели общего назначения (такие как Llama-3.1) успешно отказываются решать математическую задачу, чтобы отреагировать на опасность. В отличие от них, специализированные модели для рассуждений (такие как Qwen-3-32b и GPT-5-nano) часто полностью игнорируют чрезвычайную ситуацию, сохраняя уровень выполнения задачи свыше 95%, в то время как пользователь описывает приближение смерти. Более того, вычислительное время, необходимое для рассуждений, вносит опасные задержки: до 15 секунд до того, как может быть предложена какая-либо помощь. Эти результаты позволяют предположить, что обучение моделей неуклонно стремиться к правильным ответам может ненамеренно привести к утрате "инстинктов выживания", необходимых для безопасного применения.

UI Remix: Поддержка проектирования пользовательских интерфейсов с помощью интерактивного поиска и ремикширования примеров
UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing

Jan 26

ByJunling Wang, Hongyi Lan, Xiaotian Su, Mustafa Doga Dogan, April Yi Wang

Проектирование пользовательских интерфейсов (UI) является критически важным этапом при запуске продуктов, создании портфолио или персонализации проектов, однако конечные пользователи без опыта в дизайне часто испытывают трудности с формулированием своих намерений и доверием к дизайнерским решениям. Существующие инструменты, основанные на примерах, либо способствуют широкому исследованию, что может привести к перегрузке и отклонению от первоначального замысла, либо требуют адаптации единичного примера, что грозит фиксацией на одном дизайне. Мы представляем UI Remix — интерактивную систему, поддерживающую дизайн мобильных интерфейсов через рабочий процесс, управляемый примерами. Благодаря многомодальной модели с расширением генерации за счет извлечения данных (MMRAG), UI Remix позволяет осуществлять итеративный поиск, выбор и адаптацию примеров как на глобальном (целый интерфейс), так и на локальном (компонент) уровне. Для укрепления доверия система предоставляет прозрачные указания на источники, такие как рейтинги, количество загрузок и информация о разработчике. В эмпирическом исследовании с участием 24 конечных пользователей UI Remix значительно улучшил способность участников достигать своих дизайнерских целей, способствовал эффективной итерации и поощрял исследование альтернативных решений. Участники также отметили, что прозрачность источников повысила их уверенность в адаптации примеров. Наши результаты указывают на новые направления для систем с ИИ-поддержкой, основанных на примерах, которые позволяют конечным пользователям проектировать с большим контролем, доверием и открытостью к исследованию.

Агентный поиск в реальных условиях: интенции и динамика траекторий на основе 14+ миллионов реальных поисковых запросов
Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

Jan 24

ByJingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong

Поисковые агенты на основе больших языковых моделей (LLM) все чаще используются для многошаговых задач поиска информации, однако в сообществе информационного поиска (IR) отсутствует эмпирическое понимание того, как разворачиваются агентские поисковые сессии и как используется полученная информация. В данной статье представлен крупномасштабный анализ логов агентского поиска, основанный на 14,44 млн поисковых запросов (3,97 млн сессий), собранных из DeepResearchGym — открытого API для поиска, доступного внешним агентским клиентам. Мы сегментируем логи, присваиваем сессиям интенты на уровне всей сессии и помечаем шаги реформулировки запросов с помощью LLM-аннотирования, а также предлагаем показатель CTAR (Context-driven Term Adoption Rate) для количественной оценки того, можно ли проследить происхождение новых терминов в запросе из ранее полученных доказательств. Наш анализ выявляет характерные поведенческие паттерны. Во-первых, более 90% многоходовых сессий содержат не более десяти шагов, а 89% интервалов между шагами составляют менее одной минуты. Во-вторых, поведение варьируется в зависимости от интента. Сессии с поиском фактов демонстрируют высокую повторяемость, которая со временем возрастает, в то время как сессии, требующие рассуждений, поддерживают более широкое исследование. В-третьих, агенты повторно используют доказательства на разных шагах. В среднем 54% вновь вводимых терминов запроса появляются в накопленном контексте доказательств, причем вклад вносят и более ранние шаги, а не только самое последнее получение данных. Результаты позволяют предположить, что агентский поиск может выиграть от ранней остановки с учетом повторений, адаптивных под интент бюджетов на получение данных и явного отслеживания контекста между шагами. Мы планируем опубликовать анонимизированные логи для поддержки будущих исследований.

Сравнительный анализ методов обучения с подкреплением для управления крупномасштабными течениями по принципу «plug-and-play»
Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control

Jan 21

ByJannis Becktepe, Aleksandra Franz, Nils Thuerey, Sebastian Peitz

Подкрепляющее обучение (ПО) продемонстрировало многообещающие результаты в задачах активного управления течениями (АУТ), однако прогресс в этой области остается сложно оцениваемым, поскольку существующие исследования опираются на разнородные схемы наблюдения и управления, численные установки и протоколы оценки. Современные бенчмарки АУТ пытаются решить эти проблемы, но сильно зависят от внешних решателей вычислительной гидродинамики (CFD), не являются полностью дифференцируемыми и предоставляют ограниченную поддержку 3D и многоагентных систем. Для преодоления этих ограничений мы представляем FluidGym — первый автономный, полностью дифференцируемый набор бенчмарков для ПО в АУТ. Построенный полностью на PyTorch поверх GPU-ускоренного решателя PICT, FluidGym работает в едином стеке Python, не требует внешнего CFD-программного обеспечения и предоставляет стандартизированные протоколы оценки. Мы представляем базовые результаты с алгоритмами PPO и SAC и публикуем все среды, наборы данных и обученные модели в качестве общедоступных ресурсов. FluidGym позволяет проводить систематическое сравнение методов управления, создает масштабируемую основу для будущих исследований в области управления течениями на основе обучения и доступен по адресу https://github.com/safe-autonomous-systems/fluidgym.

Побочные эффекты интеллекта: риски безопасности при работе MLLM с множеством изображений
The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Jan 20

ByRenmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang

По мере того как мультимодальные большие языковые модели (MLLM) приобретают более мощные способности к рассуждению для обработки сложных инструкций с несколькими изображениями, этот прогресс может создавать новые риски безопасности. Мы исследуем эту проблему, представляя MIR-SafetyBench — первый бенчмарк, ориентированный на безопасность многомодальных рассуждений, который состоит из 2676 примеров, охватывающих таксономию из 9 типов отношений между изображениями. Наши масштабные оценки 19 MLLM выявляют тревожную тенденцию: модели с более продвинутыми способностями к работе с несколькими изображениями могут быть более уязвимы в рамках MIR-SafetyBench. Помимо показателей успешности атак, мы обнаруживаем, что многие ответы, помеченные как безопасные, являются поверхностными, часто обусловленными непониманием или уклончивыми, неопределенными ответами. Мы также наблюдаем, что небезопасные генерации в среднем демонстрируют более низкую энтропию внимания по сравнению с безопасными. Эта внутренняя характеристика указывает на возможный риск того, что модели могут чрезмерно фокусироваться на решении задачи, пренебрегая ограничениями безопасности. Наш код и данные доступны по адресу https://github.com/thu-coai/MIR-SafetyBench.

Меньше значит больше — пока не сломается: уязвимости безопасности при сжатии визуальных токенов в больших визуально-языковых моделях
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

Jan 17

ByXiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan

Визуальное сжатие токенов широко применяется для повышения эффективности логического вывода больших визуально-языковых моделей (LVLM), что позволяет их развертывание в сценариях с критичными к задержкам и ограниченными ресурсами. Однако существующие работы в основном сосредоточены на эффективности и производительности, в то время как вопросы безопасности визуального сжатия токенов остаются в значительной степени неисследованными. В данной работе мы впервые показываем, что визуальное сжатие токенов существенно снижает устойчивость LVLM: модели, демонстрирующие надежность при несжатом выводе, становятся крайне уязвимыми после включения сжатия. Эти уязвимости являются специфичными для состояния: режимы сбоев возникают только в условиях сжатия и полностью исчезают при его отключении, что делает их особенно скрытыми и трудными для диагностики. Анализируя ключевые этапы процесса сжатия, мы идентифицируем нестабильность ранжирования важности токенов как основную причину этого снижения устойчивости. Незначительные и незаметные возмущения могут существенно изменить ранжирование токенов, в результате чего механизм сжатия ошибочно отбрасывает критически важную для задачи информацию и в конечном итоге приводит к сбою модели. Руководствуясь этим наблюдением, мы предлагаем атаку, осведомленную о сжатии (Compression-Aware Attack, CAA), для систематического изучения и эксплуатации данной уязвимости. CAA напрямую нацелена на механизм выбора токенов и вызывает сбои исключительно при сжатом выводе. Мы также расширяем этот подход до более реалистичных условий черного ящика и представляем Transfer CAA, где ни целевая модель, ни конфигурация сжатия не доступны. Мы дополнительно оцениваем потенциальные методы защиты и обнаруживаем, что они обеспечивают лишь ограниченную защиту. Многочисленные эксперименты на различных моделях, наборах данных и методах сжатия показывают, что визуальное сжатие токенов значительно подрывает устойчивость, выявляя ранее упускавшийся из виду компромисс между эффективностью и безопасностью.

RouteMoA: Динамическая маршрутизация без предварительного вывода повышает эффективность смеси агентов
RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

Jan 26

ByJize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao

RouteMoA — это эффективная фреймворк смеси агентов (Mixture-of-Agents, MoA) с динамической маршрутизацией. Она использует легковесный скорер для первоначального отбора кандидатов путем прогнозирования их производительности на основе запроса, что позволяет сузить круг кандидатов до перспективного подмножества без выполнения полноценного вывода. Затем смесь судей уточняет эти оценки с помощью легковесной само- и перекрестной оценки на основе уже имеющихся выходных данных моделей, обеспечивая апостериорную коррекцию без дополнительных вычислений. Наконец, механизм ранжирования моделей производит окончательный отбор, балансируя между производительностью, стоимостью и задержкой. RouteMoA превосходит стандартный MoA в различных задачах и при разных размерах пула моделей, сокращая затраты на 89,8% и задержку на 63,6% в крупномасштабном пуле моделей.

HalluGuard: Разоблачение порождений, обусловленных данными и логическими выводами, в больших языковых моделях
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

Jan 26

ByXinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou

Надежность больших языковых моделей (LLM) в высокорисковых областях, таких как здравоохранение, право и научные открытия, часто подвергается риску из-за галлюцинаций. Эти сбои обычно происходят из двух источников: галлюцинации, обусловленные данными, и галлюцинации, обусловленные рассуждениями. Однако существующие методы обнаружения обычно решают лишь одну проблему и опираются на специфические для задачи эвристики, что ограничивает их обобщаемость для сложных сценариев. Чтобы преодолеть эти ограничения, мы представляем Границу Риска Галлюцинаций — унифицированную теоретическую основу, которая формально разлагает риск галлюцинаций на компоненты, обусловленные данными и рассуждениями, связанные соответственно с несоответствиями на этапе обучения и нестабильностями на этапе вывода. Это обеспечивает принципиальную основу для анализа того, как возникают и развиваются галлюцинации. Основываясь на этом, мы представляем HalluGuard, оценку на основе NTK, которая использует индуцированную геометрию и захваченные представления NTK для совместного выявления галлюцинаций, обусловленных данными и рассуждениями. Мы оцениваем HalluGuard на 10 разнообразных бенчмарках, 11 конкурентоспособных базовых методах и 9 популярных архитектурах LLM, стабильно достигая передовых результатов в обнаружении разнообразных форм галлюцинаций LLM.

Interp3D: Интерполяция с учетом соответствий для генеративного текстурированного 3D-морфинга
Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing

Jan 20

ByXiaolu Liu, Yicong Li, Qiyuan He, Jiayin Zhu, Wei Ji, Angela Yao, Jianke Zhu

Текстурный 3D-морфинг направлен на создание плавных и правдоподобных переходов между двумя 3D-объектами с сохранением как структурной целостности, так и детализированного внешнего вида. Эта способность важна не только для развития исследований в области 3D-генерации, но и для практического применения в анимации, редактировании и создании цифрового контента. Существующие подходы либо работают непосредственно с геометрией, что ограничивает их морфингом только формы без учёта текстур, либо переносят стратегии 2D-интерполяции в 3D, что часто приводит к семантической неоднозначности, структурному несоответствию и размытию текстур. Эти проблемы подчеркивают необходимость совместного сохранения геометрической согласованности, выравнивания текстур и устойчивости на протяжении всего процесса перехода. Для решения этой задачи мы предлагаем Interp3D — новую беспараметрическую архитектуру для текстурного 3D-морфинга. Она использует генеративные априорные знания и применяет принцип прогрессивного выравнивания для обеспечения как геометрической точности, так и текстурной согласованности. Начиная с семантически выровненной интерполяции в пространстве условий, Interp3D обеспечивает структурную согласованность через интерполяцию структуры с направлением SLAT (Structured Latent) и завершает процесс передачей деталей внешнего вида посредством мелкозернистого текстурирования. Для всесторонней оценки мы создали специализированный набор данных Interp3DData с градацией уровней сложности и провели оценку результатов генерации по критериям точности, плавности переходов и правдоподобия. Как количественные метрики, так и экспертные оценки демонстрируют значительные преимущества нашего подхода по сравнению с предыдущими методами. Исходный код доступен по адресу https://github.com/xiaolul2/Interp3D.