HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

22 papers found

Рекурсивные многоагентные системы
Recursive Multi-Agent Systems

Apr 28

ByXiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He, James Zou

123

В последнее время рекурсивные или циклические языковые модели появились как новое направление масштабирования, позволяя итеративно уточнять одно и то же модельное вычисление над латентными состояниями для углубления рассуждений. Мы расширяем этот принцип масштабирования от одиночной модели до мульти-агентных систем и задаемся вопросом: можно ли масштабировать саму коллаборацию агентов через рекурсию? С этой целью мы представляем RecursiveMAS — рекурсивную мульти-агентную структуру, которая представляет всю систему как единое рекурсивное вычисление в латентном пространстве. RecursiveMAS соединяет гетерогенных агентов в коллаборационный цикл через легковесный модуль RecursiveLink, обеспечивая генерацию латентных мыслей in-distribution и передачу латентных состояний между агентами. Для оптимизации нашей структуры мы разрабатываем алгоритм обучения с внутренним-внешним циклом для итеративной совместной оптимизации всей системы через разделяемое градиентное распределение заслуг между раундами рекурсии. Теоретический анализ вычислительной сложности и динамики обучения показывает, что RecursiveMAS эффективнее стандартных текстовых мульти-агентных систем и сохраняет стабильные градиенты при рекурсивном обучении. Экспериментально мы реализуем RecursiveMAS в рамках 4 репрезентативных паттернов коллаборации агентов и оцениваем на 9 тестах, охватывающих математику, естественные науки, медицину, поиск и генерацию кода. По сравнению с передовыми одиночными/мульти-агентными и рекурсивными базовыми методами, RecursiveMAS стабильно демонстрирует среднее улучшение точности на 8.3%, вместе с ускорением end-to-end вывода в 1.2–2.4 раза и сокращением использования токенов на 34.6%–75.6%. Код и данные доступны по адресу https://recursivemas.github.io.

Программирование с данными: Разработка инженерных решений для данных на основе тестирования для самообучающихся больших языковых моделей на основе необработанных корпусов
Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Apr 27

ByChenkai Pan, Xinglong Xu, Yuhang Xu, Yujun Wu, Siyuan Li, Jintao Chen, Conghui He, Jingxuan Wei, Cheng Tan

Надежная передача специализированных человеческих знаний из текста в большие языковые модели остается фундаментальной проблемой искусственного интеллекта. Дообучение на корпусах предметной области позволило достичь значительного прогресса в возможностях моделей, но этот процесс происходит без обратной связи: когда модель не справляется с задачей в предметной области, не существует метода диагностики недостатков в обучающих данных, и единственным решением является безразборное добавление большего объема данных. В данной работе мы показываем, что когда структурированное представление знаний, извлеченное из исходного корпуса, служит общей основой как для обучающих данных, так и для оценки, полный жизненный цикл работы с данными точно и оперативно отображается на жизненный цикл разработки программного обеспечения: обучающие данные становятся исходным кодом, определяющим, что должна изучить модель, обучение модели — компиляцией, тестирование — модульным тестированием, а исправление данных на основе ошибок — отладкой. В рамках этой аналогии сбои модели декомпозируются на пробелы на уровне концепций и разрывы в цепочках рассуждений, которые можно отследить до конкретных недостатков в данных и исправить с помощью целевых патчей. Каждый цикл исправления приводит к последовательному улучшению результатов across масштабам и архитектурам моделей без ухудшения общих способностей. Мы формализуем этот принцип как «Программирование с данными» и реализуем его на примере шестнадцати дисциплин, охватывающих естественные науки, инженерию, биомедицину и социальные науки, выпуская в качестве открытых ресурсов структурированную базу знаний, набор тестов и обучающий корпус. Продемонстрировав, что связь между обучающими данными и поведением модели является структурно отслеживаемой и систематически исправимой, данная работа закладывает принципиальную основу для надежного внедрения человеческого опыта в языковые модели.

DV-World: Оценка агентов визуализации данных в реальных сценариях
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Apr 28

ByJinxiang Meng, Shaoping Huang, Fangyu Lei, Jingyu Guo, Haoxiang Liu, Jiahao Su, Sihan Wang, Yao Wang, Enrui Wang, Ye Yang, Hongze Chai, Jinming Lv, Anbang Yu, Huangjing Zhang, Yitong Zhang, Yiming Huang, Zeyao Ma, Shizhu He, Jun Zhao, Kang Liu

Визуализация данных (VD) в реальных условиях требует естественного погружения в среду, кросс-платформенной эволюции и проактивного согласования намерений. Однако существующие бенчмарки часто страдают от ограничений песочницы кода, задач только на создание на одном языке и предположения о совершенстве намерений. Чтобы устранить эти пробелы, мы представляем DV-World — бенчмарк из 260 задач, предназначенный для оценки агентов VD в рамках реальных профессиональных жизненных циклов. DV-World охватывает три области: DV-Sheet для нативной работы с электронными таблицами, включая создание диаграмм и дашбордов, а также диагностику и исправление ошибок; DV-Evolution для адаптации и реструктуризации референсных визуальных артефактов под новые данные в различных парадигмах программирования; и DV-Interact для проактивного согласования намерений с симулятором пользователя, имитирующим реальные неоднозначные требования. Наша гибридная система оценки интегрирует Table-value Alignment для проверки числовой точности и MLLM-as-a-Judge с рубриками для семантико-визуальной оценки. Эксперименты показывают, что современные модели демонстрируют общую производительность менее 50%, выявляя критические пробелы в решении сложных задач реальной визуализации данных. DV-World предоставляет реалистичный полигон для направления разработки в сторону универсальной экспертизы, требуемой в корпоративных процессах. Наши данные и код доступны по адресу https://github.com/DA-Open/DV-World{страница проекта}.

AutoResearchBench: Тестирование ИИ-агентов на задачах сложного поиска научной литературы
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Apr 28

ByLei Xiong, Kun Luo, Ziyi Xia, Wenbo Zhang, Jin-Ge Yao, Zheng Liu, Jingying Shao, Jianlyu Chen, Hongjin Qian, Xi Yang, Qian Yu, Hao Li, Chen Yue, Xiaan Du, Yuyang Wang, Yesheng Liu, Haiyu Xu, Zhicheng Dou

Автономные научные исследования значительно продвинулись благодаря развитию ИИ-агентов. Ключевым этапом этого процесса является поиск релевантной научной литературы — как для изучения существующих знаний по исследовательской проблеме, так и для сбора доказательств при проверке гипотез и обосновании утверждений. Чтобы оценить способность ИИ-агентов управлять этим процессом, мы представляем AutoResearchBench — специализированный бенчмарк для автономного обнаружения научной литературы. AutoResearchBench включает два взаимодополняющих типа задач: (1) Глубинное исследование, требующее поиска конкретной целевой статьи через прогрессивный многоэтапный процесс анализа, и (2) Широкое исследование, предполагающее комплексный сбор набора статей, удовлетворяющих заданным условиям. В отличие от существующих бенчмарков агентского веб-серфинга, AutoResearchBench отличается тремя особенностями: он ориентирован на исследования, требуя глубокого понимания научных концепций; сфокусирован на литературе, предполагая детализированное использование информации; и имеет открытый характер, поскольку число релевантных старей заранее неизвестно, что требует продуманного анализа и поиска. Эти свойства делают AutoResearchBench уникально подходящим для оценки автономных исследовательских способностей и исключительно сложным. Даже самые мощные большие языковые модели, успешно справляющиеся с общими бенчмарками агентского веб-серфинга (например, BrowseComp), демонстрируют точность лишь 9.39% на задачах Глубинного исследования и 9.31% IoU на задачах Широкого исследования, тогда как многие другие сильные базовые модели показывают результат ниже 5%. Мы публикуем датасет, инструменты оценки и код по адресу https://github.com/CherYou/AutoResearchBench для содействия будущим исследованиям в этом направлении.

Meta-CoT: Повышение детализации и обобщающей способности при редактировании изображений
Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Apr 27

ByShiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang

Унифицированные мультимодальные понимающие/генеративные модели продемонстрировали улучшенную производительность редактирования изображений за счет включения детального понимания в свой процесс цепочки рассуждений (Chain-of-Thought, CoT). Однако ключевой вопрос остается недостаточно изученным: какие формы CoT и стратегии обучения могут совместно улучшить как детализацию понимания, так и способность к обобщению? Для решения этой проблемы мы предлагаем Meta-CoT — парадигму, которая выполняет двухуровневое разложение любой операции редактирования одиночного изображения с двумя ключевыми свойствами: (1) **Разлагаемость**. Мы наблюдаем, что любое намерение редактирования может быть представлено в виде триплета — (задача, цель, требуемая способность понимания). Вдохновленные этим, Meta-CoT декомпозирует как задачу редактирования, так и цель, генерируя специфичные для задачи цепочки рассуждений и осуществляя операции редактирования для всех целей. Это разложение усиливает детализацию понимания моделью операций редактирования и направляет ее на изучение каждого элемента триплета в процессе обучения, существенно улучшая способность к редактированию. (2) **Обобщаемость**. На втором уровне декомпозиции мы дополнительно разбиваем задачи редактирования на пять фундаментальных метазадач. Мы обнаружили, что обучение на этих пяти метазадачах вместе с двумя другими элементами триплета достаточно для достижения сильного обобщения на разнообразные, ранее не встречавшиеся задачи редактирования. Для дальнейшего согласования поведения модели при редактировании с ее рассуждениями CoT мы вводим **Вознаграждение за согласованность CoT и редактирования**, которое поощряет более точное и эффективное использование информации CoT во время редактирования. Эксперименты показывают, что наш метод достигает общего улучшения на 15.8% по 21 задаче редактирования и эффективно обобщается на незнакомые задачи редактирования при обучении лишь на небольшом наборе метазадач. Наш код, эталонные тесты и модель доступны по адресу https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.

Уточнение через регенерацию: расширение пространства модификаций улучшает уточнение изображений в унифицированных мультимодальных моделях
Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Apr 28

ByJiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang

Унифицированные мультимодальные модели (UMM) интегрируют визуальное понимание и генерацию в единую архитектуру. Для задач генерации изображений по текстовому описанию (T2I) эта унифицированная способность позволяет UMM уточнять выходные данные после их первоначального создания, потенциально повышая верхнюю границу производительности. Современные методы уточнения на основе UMM в основном следуют парадигме уточнения через редактирование (RvE), где модели генерируют инструкции для модификации misaligned-областей при сохранении aligned-контента. Однако инструкции редактирования часто лишь грубо описывают рассогласование между промптом и изображением, что приводит к неполному уточнению. Более того, пиксельное сохранение контента, хотя и необходимое для редактирования, избыточно ограничивает пространство эффективной модификации при уточнении. Для преодоления этих ограничений мы предлагаем уточнение через регенерацию (RvR) — новую архитектуру, которая переформулирует уточнение как условную регенерацию изображения вместо редактирования. Вместо reliance на инструкции редактирования и принудительного строгого сохранения контента, RvR регенерирует изображения на основе целевого промпта и семантических токенов исходного изображения, обеспечивая более полную семантическую aligned с бóльшим пространством модификаций. Экстенсивные эксперименты демонстрируют эффективность RvR: улучшение Geneval с 0.78 до 0.91, DPGBench с 84.02 до 87.21 и UniGenBench++ с 61.53 до 77.41.

Взаимное Принуждение: Двухрежимная Самоэволюция для Быстрой Авторегрессивной Генерации Аудиовизуальных Персонажей
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Apr 28

ByYupeng Zhou, Lianghua Huang, Zhifan Wu, Jiabao Wang, Yupeng Shi, Biao Jiang, Daquan Zhou, Yu Liu, Ming-Ming Cheng, Qibin Hou

В данной работе мы предлагаем Mutual Forcing — фреймворк для быстрого авторегрессионного аудиовизуального синтеза с долгосрочной синхронизацией аудио и видео. Наш подход решает две ключевые задачи: совместное моделирование аудио и видео и быстрое авторегрессионное генерирование. Для упрощения совместной аудиовизуальной оптимизации мы применяем двухэтапную стратегию обучения: сначала обучаем унимодальные генераторы, а затем объединяем их в единую аудиовизуальную модель для совместного обучения на парных данных. Для потокового генерирования мы исследуем, можно ли напрямую обучить нативно быструю каузальную аудиовизуальную модель, вместо следования существующим конвейерам потоковой дистилляции, которые обычно сначала обучают двунаправленную модель, а затем преобразуют её в каузальный генератор через несколько этапов дистилляции. Нашим решением является Mutual Forcing, который напрямую строится на нативной авторегрессионной модели и интегрирует малошаговый и многошаговый режимы генерации в рамках единой модели с общими весами, обеспечивая самодистилляцию и улучшенную согласованность обучения и вывода. Многошаговый режим улучшает малошаговый через самодистилляцию, в то время как малошаговый режим генерирует исторический контекст во время обучения для повышения согласованности обучения и вывода; поскольку оба режима используют общие параметры, эти эффекты взаимно усиливаются в рамках одной модели. По сравнению с предыдущими подходами, такими как Self-Forcing, Mutual Forcing устраняет необходимость в дополнительной двунаправленной модели-учителе, поддерживает более гибкие длины обучающих последовательностей, снижает вычислительные затраты на обучение и позволяет модели улучшаться напрямую на реальных парных данных, а не на фиксированном учителе. Эксперименты показывают, что Mutual Forcing достигает или превосходит результаты сильных базовых методов, требующих около 50 шагов семплирования, используя всего 4–8 шагов, что демонстрирует существенные преимущества как в эффективности, так и в качестве. Страница проекта доступна по адресу https://mutualforcing.github.io.

Технический отчет Step-Audio-R1.5
Step-Audio-R1.5 Technical Report

Apr 28

ByYuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang

Последние достижения в области больших аудио-языковых моделей расширили применение цепочек рассуждений (Chain-of-Thought, CoT) на слуховую сферу, позволив моделям решать всё более сложные акустические и речевые задачи. Для стимулирования и поддержания этих расширенных цепочек рассуждений преобладающая парадигма — обусловленная успехом текстовых моделей рассуждений — в подавляющем большинстве опирается на обучение с подкреплением на основе проверяемых вознаграждений (Reinforcement Learning with Verified Rewards, RLVR). Однако, поскольку модели строго оптимизируются для преобразования богатых, непрерывных слуховых контекстов в изолированные, проверяемые текстовые метки, возникает фундаментальный вопрос: развиваем ли мы подлинный аудио-интеллект или же просто сводим непрерывную сенсорную среду к дискретной головоломке? Мы определяем это как «ловушку проверяемого вознаграждения». Хотя RLVR демонстрирует впечатляющие результаты на стандартизированных объективных тестах, он систематически ухудшает естественность реального диалога с аудиомоделями. Делая приоритетом изолированную правильность в ущерб акустическим нюансам, RLVR сводит динамичные взаимодействия к работе механических «отвечающих машин», серьёзно ограничивая просодическую естественность, эмоциональную связность и погружение пользователя, особенно в продолжительных диалогах. Чтобы преодолеть разрыв между механической объективной проверкой и подлинной сенсорной эмпатией, мы представляем Step-Audio-R1.5, знаменующий смену парадигмы в сторону обучения с подкреплением на основе человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF) в аудио-рассуждениях. Комплексные оценки демонстрируют, что Step-Audio-R1.5 не только сохраняет устойчивое аналитическое мышление, но и кардинально преобразует интерактивный опыт, переопределяя границы глубоко погружающего продолжительного речевого диалога.

Сопродюсер: Агентное генеративное видеоповествование
Co-Director: Agentic Generative Video Storytelling

Apr 27

ByYale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister

Хотя диффузионные модели генерируют видеоклипы высокой четкости, их преобразование в связные механизмы повествования остается сложной задачей. Современные агентные пайплайны автоматизируют этот процесс с помощью цепочек модулей, но страдают от семантического дрейфа и каскадных сбоев из-за независимого ручного промптинга. Мы представляем Co-Director — иерархическую мульти-агентную структуру, формализующую видеоповествование как задачу глобальной оптимизации. Для обеспечения семантической связности мы вводим иерархическую параметризацию: мульти-рукий бандит глобально идентифицирует перспективные творческие направления, а локальный мультимодальный цикл саморефлексии смягчает дрейф идентичности и гарантирует согласованность на уровне последовательностей. Это уравновешивает исследование новых нарративных стратегий с использованием эффективных творческих конфигураций. Для оценки мы представляем GenAD-Bench — набор данных из 400 сценариев вымышленных продуктов для персонализированной рекламы. Эксперименты показывают, что Co-Director значительно превосходит современные базовые методы, предлагая принципиальный подход, который легко обобщается на более широкие кинематографические нарративы. Страница проекта: https://co-director-agent.github.io/

ЗАПРЕЩЕНО: Синтетическое обучение пользовательских защитных механизмов политики с помощью асимметричных дебатов
BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Apr 28

ByArnon Mazza, Elad Levi

Развертывание защитных механизмов для пользовательских политик остается сложной задачей, поскольку универсальные модели безопасности не способны учитывать специфические требования задачи, в то время как использование промптов для больших языковых моделей (LLM) страдает от нестабильной работы на граничных случаях и высоких вычислительных затрат на вывод. Обучение пользовательских классификаторов обеспечивает и точность, и эффективность, но требует значительного объема размеченных данных, получение которых обходится дорого. Мы представляем BARRED (Boundary Alignment Refinement through REflection and Debate) — фреймворк для генерации достоверных и разнообразных синтетических обучающих данных, используя лишь описание задачи и небольшой набор немаркированных примеров. Наш подход декомпозирует предметную область на измерения для обеспечения всестороннего охвата и применяет многоагентные дебаты для проверки корректности меток, создавая высококачественный обучающий корпус. Эксперименты с различными пользовательскими политиками показывают, что небольшие языковые модели, дообученные на наших синтетических данных, стабильно превосходят передовые проприетарные LLM (включая модели с цепочкой рассуждений) и специализированные модели защитных механизмов. Абляционные исследования подтверждают, что как декомпозиция на измерения, так и верификация на основе дебатов критически важны для обеспечения разнообразия и достоверности меток, необходимых для эффективного тонкого обучения. Фреймворк BARRED устраняет зависимость от масштабной человеческой разметки, предлагая масштабируемое решение для создания точных пользовательских защитных механизмов.

TCOD: Исследование временного учебного плана при дистилляции в рамках политики для многозадачных автономных агентов
TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Apr 27

ByJiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

Он-политическая дистилляция (OPD) продемонстрировала значительный потенциал для передачи способности к рассуждениям от передовых или узкоспециализированных моделей к меньшим студенческим моделям. Хотя метод эффективен в статических одношаговых задачах, его поведение в многошаговых агентских сценариях остается малоизученным. В данной работе мы выявляем ключевое ограничение классической OPD в таких условиях, которое мы называем Нестабильностью KL-дивергенции на Уровне Траектории. В частности, мы наблюдаем, что KL-дивергенция возрастает вместе со снижением показателя успешности, и даже после сходимости KL остается высокой, что приводит к нестабильности обучения. Эта нестабильность возникает из-за кумулятивного накопления ошибок между шагами: по мере накопления ошибок студент выходит за пределы эффективной области поддержки учителя, что делает контрольный сигнал ненадежным. Для решения этой проблемы мы предлагаем TCOD (Временная Учебная Программа для Он-политической Дистилляции) — простую, но эффективную структуру, которая контролирует глубину траектории, предоставляемую студенту, и постепенно расширяет ее от короткой к длинной в соответствии с учебным планом. Экспериментальные результаты для четырех пар учитель-студент на трех многошаговых агентских бенчмарках (ALFWorld, WebShop, ScienceWorld) показывают, что TCOD смягчает эскалацию KL-дивергенции и повышает ее стабильность на протяжении всего обучения, улучшая производительность агента до 18 пунктов по сравнению с классической OPD. Дальнейшие оценки показывают, что TCOD может даже превзойти производительность учителя и обобщаться на задачи, с которыми учитель не справляется.

К созданию масштабируемого синтеза терминальных задач с помощью графов навыков
Toward Scalable Terminal Task Synthesis via Skill Graphs

Apr 28

ByZhiyuan Fan, Tinghao Yu, Yuanjun Cai, Jiangtao Guan, Yun Yang, Dingxin Hu, Jiang Zhou, Xing Wu, Zhuo Han, Feng Zhang, Lilin Wang

Терминальные агенты продемонстрировали значительный потенциал для автономного выполнения командной строки, однако их обучение по-прежнему ограничено нехваткой качественных и разнообразных траекторий выполнения. Существующие подходы смягчают это узкое место за счет синтеза крупномасштабных экземпляров терминальных задач для сэмплирования траекторий. Однако в основном они сосредоточены на масштабировании количества задач, обеспечивая при этом ограниченный контроль над разнообразием траекторий выполнения, с которыми агенты фактически сталкиваются во время обучения. В данной статье мы представляем SkillSynth — автоматизированную платформу для синтеза терминальных задач, построенную на основе сценарий-опосредованного графа навыков. SkillSynth сначала строит крупномасштабный граф навыков, где сценарии служат промежуточными узлами перехода, соединяющими разнообразные навыки командной строки. Затем он семплирует пути из этого графа как абстракции реальных рабочих процессов и использует многoагентную систему для их инстанцирования в исполняемые экземпляры задач. Основывая синтез задач на путях рабочих процессов, семплированных из графа, SkillSynth явно контролирует разнообразие минимальных траекторий выполнения, необходимых для решения синтезированных задач. Эксперименты на Terminal-Bench демонстрируют эффективность SkillSynth. Более того, экземпляры задач, синтезированные SkillSynth, были использованы для обучения Hy3 Preview, что способствовало расширению его агентских возможностей в терминальных средах.

MAIC-UI: Создание интерактивных учебных материалов с помощью генеративного пользовательского интерфейса
MAIC-UI: Making Interactive Courseware with Generative UI

Apr 28

ByShangqing Tu, Yanjia Li, Keyu Chen, Sichen Zhang, Jifan Yu, Daniel Zhang-Li, Lei Hou, Juanzi Li, Yu Zhang, Huiqin Liu

Традиционно создание интерактивных учебных материалов по STEM требует знаний HTML/CSS/JavaScript, что создаёт барьеры для преподавателей. Хотя генеративный ИИ может генерировать HTML-код, существующие инструменты создают статические презентации вместо интерактивных симуляций, плохо справляются с длинными документами и не имеют механизмов обеспечения педагогической точности. Кроме того, полная перегенерация при внесении изменений занимает 200–600 секунд, нарушая творческий процесс. Мы представляем MAIC-UI — систему авторинга без кода, которая позволяет преподавателям создавать и быстро редактировать интерактивные учебные материалы из учебников, PPT- и PDF-файлов. MAIC-UI использует: (1) структурированный анализ знаний с мультимодальным пониманием для обеспечения педагогической строгости; (2) двухэтапный конвейер "генерация-верификация-оптимизация", разделяющий выравнивание содержания и визуальное улучшение; и (3) редактирование "Click-to-Locate" с инкрементной генерацией на основе Unified Diff, обеспечивающее циклы итераций менее 10 секунд. Контролируемое лабораторное исследование с 40 участниками показывает, что MAIC-UI сокращает количество editing-итераций (4,9 против 7,0) и значительно улучшает обучаемость и управляемость по сравнению с прямой генерацией Text-to-HTML. Трёхмесячное внедрение в классе с 53 старшеклассниками демонстрирует, что MAIC-UI развивает учебную автономию и сокращает разрыв в результатах — пилотный класс показал прирост в 9,21 балла по предметам STEM против снижения на 2,32 балла в контрольных классах. Наш код доступен по адресу https://github.com/THU-MAIC/MAIC-UI.

V-GRPO: Обучение с подкреплением в реальном времени для шумоподавления генеративных моделей проще, чем кажется
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Apr 25

ByBingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy

Согласование денойзинговых генеративных моделей с человеческими предпочтениями или верифицируемыми функциями вознаграждения остается ключевой проблемой. Хотя обучение с подкреплением (RL) на основе политик градиента предлагает принципиальную схему дообучения, его прямое применение затруднено из-за невычислимой функции правдоподобия таких моделей. Предыдущие работы либо оптимизируют индуцированный марковский процесс принятия решений (MDP) на траекториях сэмплирования, что стабильно, но неэффективно, либо используют суррогаты правдоподобия на основе нижней оценки доказательства (ELBO) для диффузии, которые до сих пор показывали низкие результаты в визуальной генерации. Наше ключевое наблюдение заключается в том, что подход на основе ELBO, фактически, можно сделать как стабильным, так и эффективным. Показывается, что за счет снижения дисперсии суррогата и контроля шагов градиента этот подход может превзойти методы на основе MDP. С этой целью мы представляем Variational GRPO (V-GRPO) — метод, интегрирующий суррогаты на основе ELBO с алгоритмом Group Relative Policy Optimization (GRPO) вместе с набором простых, но важных приемов. Наш метод прост в реализации, согласован с целями предварительного обучения и избегает ограничений методов на основе MDP. V-GRPO демонстрирует наилучшие результаты в синтезе изображений по тексту, обеспечивая при этом двукратное ускорение по сравнению с MixGRPO и трехкратное — по сравнению с DiffusionNFT.

Систематическая посттренировочная структура для генерации видео
A Systematic Post-Train Framework for Video Generation

Apr 28

ByZeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo

Хотя крупномасштабные диффузионные модели для видео продемонстрировали впечатляющие возможности в генерации высококачественного и семантически насыщенного контента, сохраняется значительный разрыв между их производительностью после предварительного обучения и требованиями реального развертывания из-за таких критических проблем, как чувствительность к промптам, временная несогласованность и запретительно высокие вычислительные затраты на вывод. Для преодоления этого разрыва мы предлагаем комплексную систему пост-обучения, которая систематически выравнивает предобученные модели в соответствии с пользовательскими намерениями через четыре синергетических этапа: сначала мы применяем контролируемое тонкое настройка (SFT) для преобразования базовой модели в стабильную политику, следующую инструкциям; затем этап обучения с подкреплением на основе человеческих оценок (RLHF) с использованием нового метода Group Relative Policy Optimization (GRPO), адаптированного для видео-диффузии, для улучшения перцептивного качества и временной согласованности; далее мы интегрируем улучшение промптов с помощью специализированной языковой модели для уточнения пользовательских входных данных и, наконец, решаем проблему эффективности системы путем оптимизации вывода. Вместе эти компоненты обеспечивают систематический подход к улучшению визуального качества, временной согласованности и следования инструкциям, сохраняя при этом управляемость, усвоенную на этапе предварительного обучения. Результатом является практическая схема для построения масштабируемых конвейеров пост-обучения, которые являются стабильными, адаптивными и эффективными при развертывании в реальных условиях. Многочисленные эксперименты демонстрируют, что данный унифицированный конвейер эффективно устраняет типичные артефакты и значительно улучшает управляемость и визуальную эстетику при соблюдении строгих ограничений на стоимость сэмплирования.

Предпочтения нации, ориентированной на голос: крупномасштабное парное оценивание и анализ предпочтений для синтеза речи на индийских языках
Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Apr 23

BySrija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S V, Shobhit Banga, Mitesh M Khapra

Краудсорсинговая парная оценка стала масштабируемым методом для оценки базовых моделей. Однако её применение к системам преобразования текста в речь (TTS) сопряжено с высокой дисперсией из-за лингвистического разнообразия и многомерной природы восприятия речи. Мы представляем контролируемую многомерную систему парного оценивания для многоязычного TTS, которая сочетает лингвистический контроль с перцептивно обоснованной аннотацией. Используя более 5 тысяч предложений на родных языках и с код-свитчингом на 10 индийских языках, мы оценили 7 современных TTS-систем и собрали свыше 120 тысяч парных сравнений от более чем 1900 носителей языков. Помимо общего предпочтения, оценщики предоставляли суждения по шести перцептивным измерениям: разборчивость, выразительность, качество голоса, естественность, уровень шума и наличие артефактов (галлюцинаций). С помощью модели Брэдли-Терри мы построили многоязычный рейтинг, интерпретировали человеческие предпочтения с помощью SHAP-анализа и оценили надежность рейтинга вместе с сильными сторонами моделей и компромиссами между перцептивными измерениями.

Видя — не значит веря: выявление слепых зон в оценочных моделях «зрение-язык»
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Apr 23

ByMohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra

Крупные визуально-языковые модели (VLM) все чаще используются для оценки выходных данных других моделей в таких задачах, как преобразование изображения в текст (например, визуальные вопросы и ответы) и генерация текста по изображению. Несмотря на растущую зависимость от них, надежность этих моделей-оценщиков остается недостаточно изученной. В данной работе мы систематически оцениваем надежность моделей-оценщиков VLM как для задач I2T, так и для задач T2I. Мы вводим целенаправленные возмущения, которые ухудшают качество выходных данных по ключевым параметрам ошибок, включая галлюцинации объектов, пространственные рассуждения, фактическую обоснованность и визуальную достоверность. Эти возмущения проверяют, способны ли модели-оценщики VLM достоверно учитывать эти ухудшающие качество ошибки в своих оценках. Используя комплексный бенчмарк из более чем 4000 возмущенных примеров, охватывающих 40 параметров возмущений, мы оцениваем 4 известные VLM, используя парадигмы оценки по единственному ответу, попарного сравнения и оценки с опорой на эталон. Наши результаты показывают, что современные VLM-оценщики демонстрируют существенные «слепые зоны»: они часто не обнаруживают возмущенные выходные данные (в некоторых случаях более чем в 50% случаев), особенно плохо справляются с композиционными и пространственными ошибками тонкого уровня и часто нечувствительны к галлюцинированному содержанию, которое противоречит входному изображению. Попарное сравнение оказывается более надежным, хотя процент ошибок сохраняется. Эти результаты подчеркивают ненадежный характер современных VLM-оценщиков и призывают к осторожности при их использовании для бенчмаркинга и принятия решений о разработке. Код и данные находятся в открытом доступе.

IAM: Совместная генерация движения и формы человека с учетом идентичности
IAM: Identity-Aware Human Motion and Shape Joint Generation

Apr 28

ByWenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An

Последние достижения в области генерации движений человека на основе текста позволяют моделям синтезировать реалистичные последовательности движений из естественных языковых описаний. Однако большинство существующих подходов предполагают нейтральность движений к идентичности и генерируют движения, используя каноническое представление тела, игнорируя сильное влияние морфологии тела на динамику движений. На практике такие атрибуты, как пропорции тела, распределение массы и возраст, существенно влияют на то, как выполняются действия, и пренебрежение этой связью часто приводит к физически несоответствующим движениям. Мы предлагаем фреймворк для генерации движений с учетом идентичности, который явно моделирует взаимосвязь между морфологией тела и динамикой движений. Вместо использования явных геометрических измерений идентичность представляется с помощью мультимодальных сигналов, включая естественные языковые описания и визуальные подсказки. Мы также вводим парадигму совместной генерации движений и формы, которая одновременно синтезирует последовательности движений и параметры формы тела, позволяя сигналам идентичности напрямую модулировать динамику движений. Многочисленные эксперименты на наборах данных motion capture и крупномасштабных видеозаписях из реального мира демонстрируют повышенный реализм движений и согласованность движений с идентичностью при сохранении высокого качества движений. Страница проекта: https://vjwq.github.io/IAM

Последняя упряжь, которую ты когда-либо соберёшь.
The Last Harness You'll Ever Build

Apr 22

ByHaebin Seong, Li Yin, Haoran Zhang

Искусственные интеллектуальные агенты все чаще развертываются для выполнения сложных, предметно-ориентированных рабочих процессов: навигации по корпоративным веб-приложениям, требующим десятков кликов и заполнения форм, оркестрации многоэтапных исследовательских конвейеров, охватывающих поиск, извлечение и синтез, автоматизации проверки кода в незнакомых репозиториях и обработки эскалаций клиентов, требующих тонких предметных знаний. Каждая новая предметная область требует кропотливого, экспертного проектирования управляющей оболочки: разработки промптов, инструментов, логики оркестрации и критериев оценки, которые делают базовую модель эффективной. Мы представляем двухуровневый фреймворк, автоматизирующий этот процесс. На первом уровне Цикл Эволюции Оболочки оптимизирует оболочку H рабочего агента для отдельной задачи: Рабочий Агент W_{H} выполняет задачу, Агент-Оценщик V адверсариально диагностирует сбои и оценивает производительность, а Агент Эволюции E модифицирует оболочку на основе полной истории предыдущих попыток. На втором уровне Мета-Эволюционный Цикл оптимизирует сам протокол эволюции Λ = (W_{H}, H^{(0)}, V, E) на множестве разнообразных задач, обучая протокол Λ^{(text{best)}}, который обеспечивает быструю сходимость оболочки на любой новой задаче, так что адаптация агента к новой предметной области не требует вообще никакого ручного проектирования оболочки. Мы формализуем соответствие с мета-обучением и представляем оба алгоритма. Фреймворк преобразует ручное проектирование оболочки в автоматизированное и делает шаг дальше — автоматизируя проектирование самой автоматизации.

AutoGUI-v2: Комплексный бенчмарк для анализа функциональности графического интерфейса с поддержкой мультимодальности
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Apr 27

ByHongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

Автономные агенты, способные ориентироваться в графических пользовательских интерфейсах (GUI), обладают потенциалом для революционного повышения цифровой производительности. Однако достижение подлинной цифровой автономии выходит за рамки реактивного сопоставления элементов; оно требует наличия прогнозирующей ментальной модели динамики интерфейса и способности предвидеть «состояние цифрового мира», возникающее в результате взаимодействий. Несмотря на перцепционные возможности современных Vision-Language Models (VLM), существующие бенчмарки остаются раздробленными (фокусируясь либо на выполнении задач в условиях «черного ящика», либо на статичном, поверхностном заземлении), тем самым не оценивая, действительно ли агенты понимают неявную функциональность и логику переходов в GUI. Чтобы заполнить этот пробел, мы представляем AutoGUI-v2 — комплексный бенчмарк, разработанный для оценки глубокого понимания функциональности GUI и прогнозирования результатов взаимодействия. Мы создали бенчмарк с помощью нового конвейера совместной работы VLM и человека, который рекурсивно преобразует скриншоты с нескольких платформ в иерархические функциональные области для генерации разнообразных задач оценки. Предоставляя 2 753 задачи для шести операционных систем, AutoGUI-v2 строго тестирует агенты на семантику, заземление и прогнозирование динамического состояния на уровне регионов и элементов. Наша оценка выявляет разительный дуализм в VLM: в то время как модели с открытым исходным кодом, дообученные на данных агентов (например, Qwen3-VL), преуспевают в функциональном заземлении, коммерческие модели (например, Gemini-2.5-Pro-Thinking) доминируют в описании функциональности. Что особенно важно, все модели испытывают трудности со сложной логикой взаимодействия для редких действий, что подчеркивает, что глубокое функциональное понимание остается значительным препятствием. Систематически измеряя эти фундаментальные способности, AutoGUI-v2 предлагает новый подход для продвижения следующего поколения GUI-агентов.

GoClick: Облегченная модель привязки элементов для автономного взаимодействия с графическим интерфейсом
GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

Apr 27

ByHongxin Li, Yuntao Chen, Zhaoxiang Zhang

Грунтовка элементов графического интерфейса пользователя (GUI) (точное определение местоположения элементов на скриншотах на основе инструкций на естественном языке) является фундаментальной задачей для агентов, взаимодействующих с GUI. Развертывание этой возможности непосредственно на устройствах с ограниченными ресурсами, таких как мобильные телефоны, становится все более критически важным для GUI-агентов, требующих низкой задержки. Однако достижение этой цели сталкивается со значительной проблемой, поскольку современные методы визуального grounding обычно используют большие визуально-языковые модели (VLM) (более 2.5 млрд параметров), что делает их непрактичными для выполнения на устройстве из-за ограничений памяти и вычислительных ресурсов. Для решения этой проблемы в данной статье представлена GoClick — облегченная VLM для грунтовки элементов GUI с всего 230 млн параметров, которая достигает превосходной точности визуального grounding, не уступая значительно более крупным моделям. Простое уменьшение размеров существующих VLM, использующих только декодер, является простым способом создания облегченной модели, но наши эксперименты показывают, что этот подход дает неоптимальные результаты. Вместо этого мы выбираем архитектуру кодировщик-декодер, которая превосходит альтернативы только с декодером при малых масштабах параметров для задач GUI grounding. Кроме того, ограниченная емкость малых VLM побуждает нас разработать конвейер прогрессивного очистки данных, который использует фильтрацию по типам задач и регулировку соотношения данных для извлечения высококачественного ядерного набора из 3.8 млн примеров из исходного набора данных объемом 10.8 млн примеров. Обучение GoClick с использованием этого ядерного набора приносит значительное повышение точности grounding. Наши эксперименты показывают, что GoClick превосходит другие модели на нескольких бенчмарках GUI element grounding, сохраняя при этом малый размер и высокую скорость вывода. GoClick также улучшает производительность GUI-агентов при интеграции в framework коллаборации устройство-облако, где GoClick помогает облачным планировщикам задач выполнять точную локализацию элементов и достигать более высоких показателей успешности. Мы надеемся, что наш метод послужит значимым исследованием в сообществе GUI-агентов.

Офлайн-метрики оценки справедливости в рекомендательных системах
Offline Evaluation Measures of Fairness in Recommender Systems

Apr 27

ByTheresia Veronika Rampisela

Оценка справедливости систем рекомендаций приобретает все большее значение, особенно в свете недавнего законодательства, акцентирующего развитие справедливого и ответственного искусственного интеллекта. Это привело к появлению различных метрик оценки справедливости, которые количественно определяют справедливость на основе разных определений. Однако многие из таких метрик просто предлагаются и используются без дальнейшего анализа их устойчивости. В результате существует недостаточное понимание и осведомленность об ограничениях этих метрик. Среди прочих проблем неизвестно, какие виды выходных данных модели дают наиболее (не)справедливые оценки, как распределяются значения метрик на практике и существуют ли случаи, когда метрики невозможно вычислить (например, из-за деления на ноль). Эти проблемы затрудняют интерпретацию результатов метрик и вызывают неясность в выборе подходящей метрики для конкретного случая. В данной диссертации представлена серия статей, в которых оцениваются и преодолеваются различные теоретические, эмпирические и концептуальные ограничения существующих метрик оценки справедливости рекомендательных систем. Мы исследуем широкий спектр оффлайн-метрик для различных концепций справедливости, классифицированных по объектам оценки (пользователи и элементы) и по уровням детализации оценки (группы субъектов и отдельные субъекты). Во-первых, мы проводим теоретический и эмпирический анализ метрик, выявляя недостатки, которые ограничивают их интерпретируемость, выразительность или применимость. Во-вторых, мы предлагаем новые подходы и метрики оценки, которые преодолевают эти ограничения. Наконец, с учетом ограничений метрик мы предлагаем рекомендации по их корректному использованию, что позволяет осуществлять более точный выбор метрик оценки справедливости в практических сценариях. В целом, данная диссертация вносит вклад в развитие передовых методов оффлайн-оценки справедливости в рекомендательных системах.