Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последнее время рекурсивные или циклические языковые модели появились как новое направление масштабирования, позволяя итеративно уточнять одно и то же модельное вычисление над латентными состояниями для углубления рассуждений. Мы расширяем этот принцип масштабирования от одиночной модели до мульти-агентных систем и задаемся вопросом: можно ли масштабировать саму коллаборацию агентов через рекурсию? С этой целью мы представляем RecursiveMAS — рекурсивную мульти-агентную структуру, которая представляет всю систему как единое рекурсивное вычисление в латентном пространстве. RecursiveMAS соединяет гетерогенных агентов в коллаборационный цикл через легковесный модуль RecursiveLink, обеспечивая генерацию латентных мыслей in-distribution и передачу латентных состояний между агентами. Для оптимизации нашей структуры мы разрабатываем алгоритм обучения с внутренним-внешним циклом для итеративной совместной оптимизации всей системы через разделяемое градиентное распределение заслуг между раундами рекурсии. Теоретический анализ вычислительной сложности и динамики обучения показывает, что RecursiveMAS эффективнее стандартных текстовых мульти-агентных систем и сохраняет стабильные градиенты при рекурсивном обучении. Экспериментально мы реализуем RecursiveMAS в рамках 4 репрезентативных паттернов коллаборации агентов и оцениваем на 9 тестах, охватывающих математику, естественные науки, медицину, поиск и генерацию кода. По сравнению с передовыми одиночными/мульти-агентными и рекурсивными базовыми методами, RecursiveMAS стабильно демонстрирует среднее улучшение точности на 8.3%, вместе с ускорением end-to-end вывода в 1.2–2.4 раза и сокращением использования токенов на 34.6%–75.6%. Код и данные доступны по адресу https://recursivemas.github.io.
Надежная передача специализированных человеческих знаний из текста в большие языковые модели остается фундаментальной проблемой искусственного интеллекта. Дообучение на корпусах предметной области позволило достичь значительного прогресса в возможностях моделей, но этот процесс происходит без обратной связи: когда модель не справляется с задачей в предметной области, не существует метода диагностики недостатков в обучающих данных, и единственным решением является безразборное добавление большего объема данных. В данной работе мы показываем, что когда структурированное представление знаний, извлеченное из исходного корпуса, служит общей основой как для обучающих данных, так и для оценки, полный жизненный цикл работы с данными точно и оперативно отображается на жизненный цикл разработки программного обеспечения: обучающие данные становятся исходным кодом, определяющим, что должна изучить модель, обучение модели — компиляцией, тестирование — модульным тестированием, а исправление данных на основе ошибок — отладкой. В рамках этой аналогии сбои модели декомпозируются на пробелы на уровне концепций и разрывы в цепочках рассуждений, которые можно отследить до конкретных недостатков в данных и исправить с помощью целевых патчей. Каждый цикл исправления приводит к последовательному улучшению результатов across масштабам и архитектурам моделей без ухудшения общих способностей. Мы формализуем этот принцип как «Программирование с данными» и реализуем его на примере шестнадцати дисциплин, охватывающих естественные науки, инженерию, биомедицину и социальные науки, выпуская в качестве открытых ресурсов структурированную базу знаний, набор тестов и обучающий корпус. Продемонстрировав, что связь между обучающими данными и поведением модели является структурно отслеживаемой и систематически исправимой, данная работа закладывает принципиальную основу для надежного внедрения человеческого опыта в языковые модели.
Визуализация данных (VD) в реальных условиях требует естественного погружения в среду, кросс-платформенной эволюции и проактивного согласования намерений. Однако существующие бенчмарки часто страдают от ограничений песочницы кода, задач только на создание на одном языке и предположения о совершенстве намерений. Чтобы устранить эти пробелы, мы представляем DV-World — бенчмарк из 260 задач, предназначенный для оценки агентов VD в рамках реальных профессиональных жизненных циклов. DV-World охватывает три области: DV-Sheet для нативной работы с электронными таблицами, включая создание диаграмм и дашбордов, а также диагностику и исправление ошибок; DV-Evolution для адаптации и реструктуризации референсных визуальных артефактов под новые данные в различных парадигмах программирования; и DV-Interact для проактивного согласования намерений с симулятором пользователя, имитирующим реальные неоднозначные требования. Наша гибридная система оценки интегрирует Table-value Alignment для проверки числовой точности и MLLM-as-a-Judge с рубриками для семантико-визуальной оценки. Эксперименты показывают, что современные модели демонстрируют общую производительность менее 50%, выявляя критические пробелы в решении сложных задач реальной визуализации данных. DV-World предоставляет реалистичный полигон для направления разработки в сторону универсальной экспертизы, требуемой в корпоративных процессах. Наши данные и код доступны по адресу https://github.com/DA-Open/DV-World{страница проекта}.
Автономные научные исследования значительно продвинулись благодаря развитию ИИ-агентов. Ключевым этапом этого процесса является поиск релевантной научной литературы — как для изучения существующих знаний по исследовательской проблеме, так и для сбора доказательств при проверке гипотез и обосновании утверждений. Чтобы оценить способность ИИ-агентов управлять этим процессом, мы представляем AutoResearchBench — специализированный бенчмарк для автономного обнаружения научной литературы. AutoResearchBench включает два взаимодополняющих типа задач: (1) Глубинное исследование, требующее поиска конкретной целевой статьи через прогрессивный многоэтапный процесс анализа, и (2) Широкое исследование, предполагающее комплексный сбор набора статей, удовлетворяющих заданным условиям. В отличие от существующих бенчмарков агентского веб-серфинга, AutoResearchBench отличается тремя особенностями: он ориентирован на исследования, требуя глубокого понимания научных концепций; сфокусирован на литературе, предполагая детализированное использование информации; и имеет открытый характер, поскольку число релевантных старей заранее неизвестно, что требует продуманного анализа и поиска. Эти свойства делают AutoResearchBench уникально подходящим для оценки автономных исследовательских способностей и исключительно сложным. Даже самые мощные большие языковые модели, успешно справляющиеся с общими бенчмарками агентского веб-серфинга (например, BrowseComp), демонстрируют точность лишь 9.39% на задачах Глубинного исследования и 9.31% IoU на задачах Широкого исследования, тогда как многие другие сильные базовые модели показывают результат ниже 5%. Мы публикуем датасет, инструменты оценки и код по адресу https://github.com/CherYou/AutoResearchBench для содействия будущим исследованиям в этом направлении.
Унифицированные мультимодальные понимающие/генеративные модели продемонстрировали улучшенную производительность редактирования изображений за счет включения детального понимания в свой процесс цепочки рассуждений (Chain-of-Thought, CoT). Однако ключевой вопрос остается недостаточно изученным: какие формы CoT и стратегии обучения могут совместно улучшить как детализацию понимания, так и способность к обобщению? Для решения этой проблемы мы предлагаем Meta-CoT — парадигму, которая выполняет двухуровневое разложение любой операции редактирования одиночного изображения с двумя ключевыми свойствами: (1) **Разлагаемость**. Мы наблюдаем, что любое намерение редактирования может быть представлено в виде триплета — (задача, цель, требуемая способность понимания). Вдохновленные этим, Meta-CoT декомпозирует как задачу редактирования, так и цель, генерируя специфичные для задачи цепочки рассуждений и осуществляя операции редактирования для всех целей. Это разложение усиливает детализацию понимания моделью операций редактирования и направляет ее на изучение каждого элемента триплета в процессе обучения, существенно улучшая способность к редактированию. (2) **Обобщаемость**. На втором уровне декомпозиции мы дополнительно разбиваем задачи редактирования на пять фундаментальных метазадач. Мы обнаружили, что обучение на этих пяти метазадачах вместе с двумя другими элементами триплета достаточно для достижения сильного обобщения на разнообразные, ранее не встречавшиеся задачи редактирования. Для дальнейшего согласования поведения модели при редактировании с ее рассуждениями CoT мы вводим **Вознаграждение за согласованность CoT и редактирования**, которое поощряет более точное и эффективное использование информации CoT во время редактирования. Эксперименты показывают, что наш метод достигает общего улучшения на 15.8% по 21 задаче редактирования и эффективно обобщается на незнакомые задачи редактирования при обучении лишь на небольшом наборе метазадач. Наш код, эталонные тесты и модель доступны по адресу https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.
Унифицированные мультимодальные модели (UMM) интегрируют визуальное понимание и генерацию в единую архитектуру. Для задач генерации изображений по текстовому описанию (T2I) эта унифицированная способность позволяет UMM уточнять выходные данные после их первоначального создания, потенциально повышая верхнюю границу производительности. Современные методы уточнения на основе UMM в основном следуют парадигме уточнения через редактирование (RvE), где модели генерируют инструкции для модификации misaligned-областей при сохранении aligned-контента. Однако инструкции редактирования часто лишь грубо описывают рассогласование между промптом и изображением, что приводит к неполному уточнению. Более того, пиксельное сохранение контента, хотя и необходимое для редактирования, избыточно ограничивает пространство эффективной модификации при уточнении. Для преодоления этих ограничений мы предлагаем уточнение через регенерацию (RvR) — новую архитектуру, которая переформулирует уточнение как условную регенерацию изображения вместо редактирования. Вместо reliance на инструкции редактирования и принудительного строгого сохранения контента, RvR регенерирует изображения на основе целевого промпта и семантических токенов исходного изображения, обеспечивая более полную семантическую aligned с бóльшим пространством модификаций. Экстенсивные эксперименты демонстрируют эффективность RvR: улучшение Geneval с 0.78 до 0.91, DPGBench с 84.02 до 87.21 и UniGenBench++ с 61.53 до 77.41.
В данной работе мы предлагаем Mutual Forcing — фреймворк для быстрого авторегрессионного аудиовизуального синтеза с долгосрочной синхронизацией аудио и видео. Наш подход решает две ключевые задачи: совместное моделирование аудио и видео и быстрое авторегрессионное генерирование. Для упрощения совместной аудиовизуальной оптимизации мы применяем двухэтапную стратегию обучения: сначала обучаем унимодальные генераторы, а затем объединяем их в единую аудиовизуальную модель для совместного обучения на парных данных. Для потокового генерирования мы исследуем, можно ли напрямую обучить нативно быструю каузальную аудиовизуальную модель, вместо следования существующим конвейерам потоковой дистилляции, которые обычно сначала обучают двунаправленную модель, а затем преобразуют её в каузальный генератор через несколько этапов дистилляции. Нашим решением является Mutual Forcing, который напрямую строится на нативной авторегрессионной модели и интегрирует малошаговый и многошаговый режимы генерации в рамках единой модели с общими весами, обеспечивая самодистилляцию и улучшенную согласованность обучения и вывода. Многошаговый режим улучшает малошаговый через самодистилляцию, в то время как малошаговый режим генерирует исторический контекст во время обучения для повышения согласованности обучения и вывода; поскольку оба режима используют общие параметры, эти эффекты взаимно усиливаются в рамках одной модели. По сравнению с предыдущими подходами, такими как Self-Forcing, Mutual Forcing устраняет необходимость в дополнительной двунаправленной модели-учителе, поддерживает более гибкие длины обучающих последовательностей, снижает вычислительные затраты на обучение и позволяет модели улучшаться напрямую на реальных парных данных, а не на фиксированном учителе. Эксперименты показывают, что Mutual Forcing достигает или превосходит результаты сильных базовых методов, требующих около 50 шагов семплирования, используя всего 4–8 шагов, что демонстрирует существенные преимущества как в эффективности, так и в качестве. Страница проекта доступна по адресу https://mutualforcing.github.io.
Последние достижения в области больших аудио-языковых моделей расширили применение цепочек рассуждений (Chain-of-Thought, CoT) на слуховую сферу, позволив моделям решать всё более сложные акустические и речевые задачи. Для стимулирования и поддержания этих расширенных цепочек рассуждений преобладающая парадигма — обусловленная успехом текстовых моделей рассуждений — в подавляющем большинстве опирается на обучение с подкреплением на основе проверяемых вознаграждений (Reinforcement Learning with Verified Rewards, RLVR). Однако, поскольку модели строго оптимизируются для преобразования богатых, непрерывных слуховых контекстов в изолированные, проверяемые текстовые метки, возникает фундаментальный вопрос: развиваем ли мы подлинный аудио-интеллект или же просто сводим непрерывную сенсорную среду к дискретной головоломке? Мы определяем это как «ловушку проверяемого вознаграждения». Хотя RLVR демонстрирует впечатляющие результаты на стандартизированных объективных тестах, он систематически ухудшает естественность реального диалога с аудиомоделями. Делая приоритетом изолированную правильность в ущерб акустическим нюансам, RLVR сводит динамичные взаимодействия к работе механических «отвечающих машин», серьёзно ограничивая просодическую естественность, эмоциональную связность и погружение пользователя, особенно в продолжительных диалогах. Чтобы преодолеть разрыв между механической объективной проверкой и подлинной сенсорной эмпатией, мы представляем Step-Audio-R1.5, знаменующий смену парадигмы в сторону обучения с подкреплением на основе человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF) в аудио-рассуждениях. Комплексные оценки демонстрируют, что Step-Audio-R1.5 не только сохраняет устойчивое аналитическое мышление, но и кардинально преобразует интерактивный опыт, переопределяя границы глубоко погружающего продолжительного речевого диалога.
Хотя диффузионные модели генерируют видеоклипы высокой четкости, их преобразование в связные механизмы повествования остается сложной задачей. Современные агентные пайплайны автоматизируют этот процесс с помощью цепочек модулей, но страдают от семантического дрейфа и каскадных сбоев из-за независимого ручного промптинга. Мы представляем Co-Director — иерархическую мульти-агентную структуру, формализующую видеоповествование как задачу глобальной оптимизации. Для обеспечения семантической связности мы вводим иерархическую параметризацию: мульти-рукий бандит глобально идентифицирует перспективные творческие направления, а локальный мультимодальный цикл саморефлексии смягчает дрейф идентичности и гарантирует согласованность на уровне последовательностей. Это уравновешивает исследование новых нарративных стратегий с использованием эффективных творческих конфигураций. Для оценки мы представляем GenAD-Bench — набор данных из 400 сценариев вымышленных продуктов для персонализированной рекламы. Эксперименты показывают, что Co-Director значительно превосходит современные базовые методы, предлагая принципиальный подход, который легко обобщается на более широкие кинематографические нарративы. Страница проекта: https://co-director-agent.github.io/
Развертывание защитных механизмов для пользовательских политик остается сложной задачей, поскольку универсальные модели безопасности не способны учитывать специфические требования задачи, в то время как использование промптов для больших языковых моделей (LLM) страдает от нестабильной работы на граничных случаях и высоких вычислительных затрат на вывод. Обучение пользовательских классификаторов обеспечивает и точность, и эффективность, но требует значительного объема размеченных данных, получение которых обходится дорого. Мы представляем BARRED (Boundary Alignment Refinement through REflection and Debate) — фреймворк для генерации достоверных и разнообразных синтетических обучающих данных, используя лишь описание задачи и небольшой набор немаркированных примеров. Наш подход декомпозирует предметную область на измерения для обеспечения всестороннего охвата и применяет многоагентные дебаты для проверки корректности меток, создавая высококачественный обучающий корпус. Эксперименты с различными пользовательскими политиками показывают, что небольшие языковые модели, дообученные на наших синтетических данных, стабильно превосходят передовые проприетарные LLM (включая модели с цепочкой рассуждений) и специализированные модели защитных механизмов. Абляционные исследования подтверждают, что как декомпозиция на измерения, так и верификация на основе дебатов критически важны для обеспечения разнообразия и достоверности меток, необходимых для эффективного тонкого обучения. Фреймворк BARRED устраняет зависимость от масштабной человеческой разметки, предлагая масштабируемое решение для создания точных пользовательских защитных механизмов.
Он-политическая дистилляция (OPD) продемонстрировала значительный потенциал для передачи способности к рассуждениям от передовых или узкоспециализированных моделей к меньшим студенческим моделям. Хотя метод эффективен в статических одношаговых задачах, его поведение в многошаговых агентских сценариях остается малоизученным. В данной работе мы выявляем ключевое ограничение классической OPD в таких условиях, которое мы называем Нестабильностью KL-дивергенции на Уровне Траектории. В частности, мы наблюдаем, что KL-дивергенция возрастает вместе со снижением показателя успешности, и даже после сходимости KL остается высокой, что приводит к нестабильности обучения. Эта нестабильность возникает из-за кумулятивного накопления ошибок между шагами: по мере накопления ошибок студент выходит за пределы эффективной области поддержки учителя, что делает контрольный сигнал ненадежным. Для решения этой проблемы мы предлагаем TCOD (Временная Учебная Программа для Он-политической Дистилляции) — простую, но эффективную структуру, которая контролирует глубину траектории, предоставляемую студенту, и постепенно расширяет ее от короткой к длинной в соответствии с учебным планом. Экспериментальные результаты для четырех пар учитель-студент на трех многошаговых агентских бенчмарках (ALFWorld, WebShop, ScienceWorld) показывают, что TCOD смягчает эскалацию KL-дивергенции и повышает ее стабильность на протяжении всего обучения, улучшая производительность агента до 18 пунктов по сравнению с классической OPD. Дальнейшие оценки показывают, что TCOD может даже превзойти производительность учителя и обобщаться на задачи, с которыми учитель не справляется.
Терминальные агенты продемонстрировали значительный потенциал для автономного выполнения командной строки, однако их обучение по-прежнему ограничено нехваткой качественных и разнообразных траекторий выполнения. Существующие подходы смягчают это узкое место за счет синтеза крупномасштабных экземпляров терминальных задач для сэмплирования траекторий. Однако в основном они сосредоточены на масштабировании количества задач, обеспечивая при этом ограниченный контроль над разнообразием траекторий выполнения, с которыми агенты фактически сталкиваются во время обучения. В данной статье мы представляем SkillSynth — автоматизированную платформу для синтеза терминальных задач, построенную на основе сценарий-опосредованного графа навыков. SkillSynth сначала строит крупномасштабный граф навыков, где сценарии служат промежуточными узлами перехода, соединяющими разнообразные навыки командной строки. Затем он семплирует пути из этого графа как абстракции реальных рабочих процессов и использует многoагентную систему для их инстанцирования в исполняемые экземпляры задач. Основывая синтез задач на путях рабочих процессов, семплированных из графа, SkillSynth явно контролирует разнообразие минимальных траекторий выполнения, необходимых для решения синтезированных задач. Эксперименты на Terminal-Bench демонстрируют эффективность SkillSynth. Более того, экземпляры задач, синтезированные SkillSynth, были использованы для обучения Hy3 Preview, что способствовало расширению его агентских возможностей в терминальных средах.
Традиционно создание интерактивных учебных материалов по STEM требует знаний HTML/CSS/JavaScript, что создаёт барьеры для преподавателей. Хотя генеративный ИИ может генерировать HTML-код, существующие инструменты создают статические презентации вместо интерактивных симуляций, плохо справляются с длинными документами и не имеют механизмов обеспечения педагогической точности. Кроме того, полная перегенерация при внесении изменений занимает 200–600 секунд, нарушая творческий процесс. Мы представляем MAIC-UI — систему авторинга без кода, которая позволяет преподавателям создавать и быстро редактировать интерактивные учебные материалы из учебников, PPT- и PDF-файлов. MAIC-UI использует: (1) структурированный анализ знаний с мультимодальным пониманием для обеспечения педагогической строгости; (2) двухэтапный конвейер "генерация-верификация-оптимизация", разделяющий выравнивание содержания и визуальное улучшение; и (3) редактирование "Click-to-Locate" с инкрементной генерацией на основе Unified Diff, обеспечивающее циклы итераций менее 10 секунд. Контролируемое лабораторное исследование с 40 участниками показывает, что MAIC-UI сокращает количество editing-итераций (4,9 против 7,0) и значительно улучшает обучаемость и управляемость по сравнению с прямой генерацией Text-to-HTML. Трёхмесячное внедрение в классе с 53 старшеклассниками демонстрирует, что MAIC-UI развивает учебную автономию и сокращает разрыв в результатах — пилотный класс показал прирост в 9,21 балла по предметам STEM против снижения на 2,32 балла в контрольных классах. Наш код доступен по адресу https://github.com/THU-MAIC/MAIC-UI.
Согласование денойзинговых генеративных моделей с человеческими предпочтениями или верифицируемыми функциями вознаграждения остается ключевой проблемой. Хотя обучение с подкреплением (RL) на основе политик градиента предлагает принципиальную схему дообучения, его прямое применение затруднено из-за невычислимой функции правдоподобия таких моделей. Предыдущие работы либо оптимизируют индуцированный марковский процесс принятия решений (MDP) на траекториях сэмплирования, что стабильно, но неэффективно, либо используют суррогаты правдоподобия на основе нижней оценки доказательства (ELBO) для диффузии, которые до сих пор показывали низкие результаты в визуальной генерации. Наше ключевое наблюдение заключается в том, что подход на основе ELBO, фактически, можно сделать как стабильным, так и эффективным. Показывается, что за счет снижения дисперсии суррогата и контроля шагов градиента этот подход может превзойти методы на основе MDP. С этой целью мы представляем Variational GRPO (V-GRPO) — метод, интегрирующий суррогаты на основе ELBO с алгоритмом Group Relative Policy Optimization (GRPO) вместе с набором простых, но важных приемов. Наш метод прост в реализации, согласован с целями предварительного обучения и избегает ограничений методов на основе MDP. V-GRPO демонстрирует наилучшие результаты в синтезе изображений по тексту, обеспечивая при этом двукратное ускорение по сравнению с MixGRPO и трехкратное — по сравнению с DiffusionNFT.
Хотя крупномасштабные диффузионные модели для видео продемонстрировали впечатляющие возможности в генерации высококачественного и семантически насыщенного контента, сохраняется значительный разрыв между их производительностью после предварительного обучения и требованиями реального развертывания из-за таких критических проблем, как чувствительность к промптам, временная несогласованность и запретительно высокие вычислительные затраты на вывод. Для преодоления этого разрыва мы предлагаем комплексную систему пост-обучения, которая систематически выравнивает предобученные модели в соответствии с пользовательскими намерениями через четыре синергетических этапа: сначала мы применяем контролируемое тонкое настройка (SFT) для преобразования базовой модели в стабильную политику, следующую инструкциям; затем этап обучения с подкреплением на основе человеческих оценок (RLHF) с использованием нового метода Group Relative Policy Optimization (GRPO), адаптированного для видео-диффузии, для улучшения перцептивного качества и временной согласованности; далее мы интегрируем улучшение промптов с помощью специализированной языковой модели для уточнения пользовательских входных данных и, наконец, решаем проблему эффективности системы путем оптимизации вывода. Вместе эти компоненты обеспечивают систематический подход к улучшению визуального качества, временной согласованности и следования инструкциям, сохраняя при этом управляемость, усвоенную на этапе предварительного обучения. Результатом является практическая схема для построения масштабируемых конвейеров пост-обучения, которые являются стабильными, адаптивными и эффективными при развертывании в реальных условиях. Многочисленные эксперименты демонстрируют, что данный унифицированный конвейер эффективно устраняет типичные артефакты и значительно улучшает управляемость и визуальную эстетику при соблюдении строгих ограничений на стоимость сэмплирования.
Краудсорсинговая парная оценка стала масштабируемым методом для оценки базовых моделей. Однако её применение к системам преобразования текста в речь (TTS) сопряжено с высокой дисперсией из-за лингвистического разнообразия и многомерной природы восприятия речи. Мы представляем контролируемую многомерную систему парного оценивания для многоязычного TTS, которая сочетает лингвистический контроль с перцептивно обоснованной аннотацией. Используя более 5 тысяч предложений на родных языках и с код-свитчингом на 10 индийских языках, мы оценили 7 современных TTS-систем и собрали свыше 120 тысяч парных сравнений от более чем 1900 носителей языков. Помимо общего предпочтения, оценщики предоставляли суждения по шести перцептивным измерениям: разборчивость, выразительность, качество голоса, естественность, уровень шума и наличие артефактов (галлюцинаций). С помощью модели Брэдли-Терри мы построили многоязычный рейтинг, интерпретировали человеческие предпочтения с помощью SHAP-анализа и оценили надежность рейтинга вместе с сильными сторонами моделей и компромиссами между перцептивными измерениями.
Крупные визуально-языковые модели (VLM) все чаще используются для оценки выходных данных других моделей в таких задачах, как преобразование изображения в текст (например, визуальные вопросы и ответы) и генерация текста по изображению. Несмотря на растущую зависимость от них, надежность этих моделей-оценщиков остается недостаточно изученной. В данной работе мы систематически оцениваем надежность моделей-оценщиков VLM как для задач I2T, так и для задач T2I. Мы вводим целенаправленные возмущения, которые ухудшают качество выходных данных по ключевым параметрам ошибок, включая галлюцинации объектов, пространственные рассуждения, фактическую обоснованность и визуальную достоверность. Эти возмущения проверяют, способны ли модели-оценщики VLM достоверно учитывать эти ухудшающие качество ошибки в своих оценках. Используя комплексный бенчмарк из более чем 4000 возмущенных примеров, охватывающих 40 параметров возмущений, мы оцениваем 4 известные VLM, используя парадигмы оценки по единственному ответу, попарного сравнения и оценки с опорой на эталон. Наши результаты показывают, что современные VLM-оценщики демонстрируют существенные «слепые зоны»: они часто не обнаруживают возмущенные выходные данные (в некоторых случаях более чем в 50% случаев), особенно плохо справляются с композиционными и пространственными ошибками тонкого уровня и часто нечувствительны к галлюцинированному содержанию, которое противоречит входному изображению. Попарное сравнение оказывается более надежным, хотя процент ошибок сохраняется. Эти результаты подчеркивают ненадежный характер современных VLM-оценщиков и призывают к осторожности при их использовании для бенчмаркинга и принятия решений о разработке. Код и данные находятся в открытом доступе.
Последние достижения в области генерации движений человека на основе текста позволяют моделям синтезировать реалистичные последовательности движений из естественных языковых описаний. Однако большинство существующих подходов предполагают нейтральность движений к идентичности и генерируют движения, используя каноническое представление тела, игнорируя сильное влияние морфологии тела на динамику движений. На практике такие атрибуты, как пропорции тела, распределение массы и возраст, существенно влияют на то, как выполняются действия, и пренебрежение этой связью часто приводит к физически несоответствующим движениям. Мы предлагаем фреймворк для генерации движений с учетом идентичности, который явно моделирует взаимосвязь между морфологией тела и динамикой движений. Вместо использования явных геометрических измерений идентичность представляется с помощью мультимодальных сигналов, включая естественные языковые описания и визуальные подсказки. Мы также вводим парадигму совместной генерации движений и формы, которая одновременно синтезирует последовательности движений и параметры формы тела, позволяя сигналам идентичности напрямую модулировать динамику движений. Многочисленные эксперименты на наборах данных motion capture и крупномасштабных видеозаписях из реального мира демонстрируют повышенный реализм движений и согласованность движений с идентичностью при сохранении высокого качества движений. Страница проекта: https://vjwq.github.io/IAM
Искусственные интеллектуальные агенты все чаще развертываются для выполнения сложных, предметно-ориентированных рабочих процессов: навигации по корпоративным веб-приложениям, требующим десятков кликов и заполнения форм, оркестрации многоэтапных исследовательских конвейеров, охватывающих поиск, извлечение и синтез, автоматизации проверки кода в незнакомых репозиториях и обработки эскалаций клиентов, требующих тонких предметных знаний. Каждая новая предметная область требует кропотливого, экспертного проектирования управляющей оболочки: разработки промптов, инструментов, логики оркестрации и критериев оценки, которые делают базовую модель эффективной. Мы представляем двухуровневый фреймворк, автоматизирующий этот процесс. На первом уровне Цикл Эволюции Оболочки оптимизирует оболочку H рабочего агента для отдельной задачи: Рабочий Агент W_{H} выполняет задачу, Агент-Оценщик V адверсариально диагностирует сбои и оценивает производительность, а Агент Эволюции E модифицирует оболочку на основе полной истории предыдущих попыток. На втором уровне Мета-Эволюционный Цикл оптимизирует сам протокол эволюции Λ = (W_{H}, H^{(0)}, V, E) на множестве разнообразных задач, обучая протокол Λ^{(text{best)}}, который обеспечивает быструю сходимость оболочки на любой новой задаче, так что адаптация агента к новой предметной области не требует вообще никакого ручного проектирования оболочки. Мы формализуем соответствие с мета-обучением и представляем оба алгоритма. Фреймворк преобразует ручное проектирование оболочки в автоматизированное и делает шаг дальше — автоматизируя проектирование самой автоматизации.
Автономные агенты, способные ориентироваться в графических пользовательских интерфейсах (GUI), обладают потенциалом для революционного повышения цифровой производительности. Однако достижение подлинной цифровой автономии выходит за рамки реактивного сопоставления элементов; оно требует наличия прогнозирующей ментальной модели динамики интерфейса и способности предвидеть «состояние цифрового мира», возникающее в результате взаимодействий. Несмотря на перцепционные возможности современных Vision-Language Models (VLM), существующие бенчмарки остаются раздробленными (фокусируясь либо на выполнении задач в условиях «черного ящика», либо на статичном, поверхностном заземлении), тем самым не оценивая, действительно ли агенты понимают неявную функциональность и логику переходов в GUI. Чтобы заполнить этот пробел, мы представляем AutoGUI-v2 — комплексный бенчмарк, разработанный для оценки глубокого понимания функциональности GUI и прогнозирования результатов взаимодействия. Мы создали бенчмарк с помощью нового конвейера совместной работы VLM и человека, который рекурсивно преобразует скриншоты с нескольких платформ в иерархические функциональные области для генерации разнообразных задач оценки. Предоставляя 2 753 задачи для шести операционных систем, AutoGUI-v2 строго тестирует агенты на семантику, заземление и прогнозирование динамического состояния на уровне регионов и элементов. Наша оценка выявляет разительный дуализм в VLM: в то время как модели с открытым исходным кодом, дообученные на данных агентов (например, Qwen3-VL), преуспевают в функциональном заземлении, коммерческие модели (например, Gemini-2.5-Pro-Thinking) доминируют в описании функциональности. Что особенно важно, все модели испытывают трудности со сложной логикой взаимодействия для редких действий, что подчеркивает, что глубокое функциональное понимание остается значительным препятствием. Систематически измеряя эти фундаментальные способности, AutoGUI-v2 предлагает новый подход для продвижения следующего поколения GUI-агентов.
Грунтовка элементов графического интерфейса пользователя (GUI) (точное определение местоположения элементов на скриншотах на основе инструкций на естественном языке) является фундаментальной задачей для агентов, взаимодействующих с GUI. Развертывание этой возможности непосредственно на устройствах с ограниченными ресурсами, таких как мобильные телефоны, становится все более критически важным для GUI-агентов, требующих низкой задержки. Однако достижение этой цели сталкивается со значительной проблемой, поскольку современные методы визуального grounding обычно используют большие визуально-языковые модели (VLM) (более 2.5 млрд параметров), что делает их непрактичными для выполнения на устройстве из-за ограничений памяти и вычислительных ресурсов. Для решения этой проблемы в данной статье представлена GoClick — облегченная VLM для грунтовки элементов GUI с всего 230 млн параметров, которая достигает превосходной точности визуального grounding, не уступая значительно более крупным моделям. Простое уменьшение размеров существующих VLM, использующих только декодер, является простым способом создания облегченной модели, но наши эксперименты показывают, что этот подход дает неоптимальные результаты. Вместо этого мы выбираем архитектуру кодировщик-декодер, которая превосходит альтернативы только с декодером при малых масштабах параметров для задач GUI grounding. Кроме того, ограниченная емкость малых VLM побуждает нас разработать конвейер прогрессивного очистки данных, который использует фильтрацию по типам задач и регулировку соотношения данных для извлечения высококачественного ядерного набора из 3.8 млн примеров из исходного набора данных объемом 10.8 млн примеров. Обучение GoClick с использованием этого ядерного набора приносит значительное повышение точности grounding. Наши эксперименты показывают, что GoClick превосходит другие модели на нескольких бенчмарках GUI element grounding, сохраняя при этом малый размер и высокую скорость вывода. GoClick также улучшает производительность GUI-агентов при интеграции в framework коллаборации устройство-облако, где GoClick помогает облачным планировщикам задач выполнять точную локализацию элементов и достигать более высоких показателей успешности. Мы надеемся, что наш метод послужит значимым исследованием в сообществе GUI-агентов.
Оценка справедливости систем рекомендаций приобретает все большее значение, особенно в свете недавнего законодательства, акцентирующего развитие справедливого и ответственного искусственного интеллекта. Это привело к появлению различных метрик оценки справедливости, которые количественно определяют справедливость на основе разных определений. Однако многие из таких метрик просто предлагаются и используются без дальнейшего анализа их устойчивости. В результате существует недостаточное понимание и осведомленность об ограничениях этих метрик. Среди прочих проблем неизвестно, какие виды выходных данных модели дают наиболее (не)справедливые оценки, как распределяются значения метрик на практике и существуют ли случаи, когда метрики невозможно вычислить (например, из-за деления на ноль). Эти проблемы затрудняют интерпретацию результатов метрик и вызывают неясность в выборе подходящей метрики для конкретного случая. В данной диссертации представлена серия статей, в которых оцениваются и преодолеваются различные теоретические, эмпирические и концептуальные ограничения существующих метрик оценки справедливости рекомендательных систем. Мы исследуем широкий спектр оффлайн-метрик для различных концепций справедливости, классифицированных по объектам оценки (пользователи и элементы) и по уровням детализации оценки (группы субъектов и отдельные субъекты). Во-первых, мы проводим теоретический и эмпирический анализ метрик, выявляя недостатки, которые ограничивают их интерпретируемость, выразительность или применимость. Во-вторых, мы предлагаем новые подходы и метрики оценки, которые преодолевают эти ограничения. Наконец, с учетом ограничений метрик мы предлагаем рекомендации по их корректному использованию, что позволяет осуществлять более точный выбор метрик оценки справедливости в практических сценариях. В целом, данная диссертация вносит вклад в развитие передовых методов оффлайн-оценки справедливости в рекомендательных системах.