HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

27 papers found

EvoCUA: Эволюция агентов компьютерного использования через обучение на масштабируемом синтетическом опыте
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Jan 22

ByTaofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu

Разработка нативных компьютерных агентов (CUA) представляет собой значительный скачок в развитии мультимодального ИИ. Однако их потенциал в настоящее время ограничен узким местом, связанным с масштабированием статических данных. Существующие парадигмы, опирающиеся в основном на пассивное подражание статическим наборам данных, не способны уловить сложные причинно-следственные динамики, присущие долгосрочным компьютерным задачам. В данной работе мы представляем EvoCUA, нативную агентскую модель для работы с компьютером. В отличие от статического подражания, EvoCUA интегрирует генерацию данных и оптимизацию политики в самоподдерживающийся эволюционный цикл. Для преодоления нехватки данных мы разработали верифицируемый синтезатор, который автономно генерирует разнообразные задачи вместе с исполняемыми валидаторами. Для обеспечения масштабируемого приобретения опыта мы создали инфраструктуру, координирующую десятки тысяч асинхронных прогонов в песочницах. На основе этих масштабных траекторий мы предлагаем итеративную эволюционную стратегию обучения для эффективного усвоения этого опыта. Этот механизм динамически регулирует обновления политики, выявляя границы возможностей — закрепляя успешные сценарии и преобразуя траектории неудач в богатый supervisory сигнал посредством анализа ошибок и самокоррекции. Эмпирические оценки на бенчмарке OSWorld показывают, что EvoCUA достигает показателя успешности 56.7%, устанавливая новый рекорд для открытых моделей. Примечательно, что EvoCUA значительно превосходит предыдущую лучшую открытую модель OpenCUA-72B (45.0%) и опережает ведущие модели с закрытыми весами, такие как UI-TARS-2 (53.1%). Ключевым является то, что наши результаты подчеркивают обобщаемость подхода: эволюционная парадигма, движимая обучением на опыте, обеспечивает стабильное улучшение производительности для базовых моделей различного масштаба, прокладывая надежный и масштабируемый путь для развития возможностей нативных агентов.

Ловушка гибкости: почему произвольное ограничение порядка снижает потенциал логического вывода в диффузионных языковых моделях
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Jan 21

ByZanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang

Диффузионные большие языковые модели (dLLM) преодолевают жесткое ограничение слева направо, присущее традиционным LLM, позволяя генерировать токены в произвольном порядке. Интуитивно эта гибкость подразумевает пространство решений, которое строго включает в себя фиксированную авторегрессионную траекторию, теоретически раскрывая превосходный потенциал для рассуждений в таких общих задачах, как математика и программирование. В результате многие работы используют обучение с подкреплением (RL), чтобы выявить способность dLLM к рассуждениям. В данной статье мы раскрываем контр-интуитивную реальность: генерация в произвольном порядке в своей текущей форме не расширяет, а сужает границы рассуждений dLLM. Мы обнаруживаем, что dLLM склонны использовать эту гибкость порядка, чтобы обходить токены с высокой неопределенностью, которые crucial для исследования, что приводит к преждевременному коллапсу пространства решений. Это наблюдение ставит под сомнение предпосылку существующих подходов RL для dLLM, где значительные сложности, такие как обработка комбинаторных траекторий и невычислимых правдоподобий, часто направлены на сохранение данной гибкости. Мы демонстрируем, что эффективное рассуждение лучше стимулируется путем сознательного отказа от произвольного порядка и применения стандартной оптимизации групповой относительной политики (GRPO). Наш подход, JustGRPO, минималистичен, но удивительно эффективен (например, точность 89.1% на GSM8K), при этом полностью сохраняя способность dLLM к параллельному декодированию. Страница проекта: https://nzl-thu.github.io/the-flexibility-trap

HERMES: Кэш ключей-значений как иерархическая память для эффективного понимания потокового видео
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Jan 21

ByHaowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu

Последние достижения в области мультимодальных больших языковых моделей (MLLM) продемонстрировали значительный прогресс в задачах анализа видео в офлайн-режиме. Однако расширение этих возможностей на потоковое видео остается сложной задачей, поскольку существующие модели не способны одновременно обеспечивать стабильное качество понимания, реакции в реальном времени и низкие затраты памяти GPU. Для решения этой проблемы мы предлагаем HERMES — новую архитектуру для точного анализа видеопотоков в реальном времени, не требующую дообучения. На основе механистического исследования механизма внимания мы концептуализируем KV-кэш как иерархическую систему памяти, которая инкапсулирует видеоинформацию на нескольких уровнях детализации. Во время вывода HERMES повторно использует компактный KV-кэш, что позволяет эффективно анализировать потоковое видео в условиях ограниченных ресурсов. Примечательно, что HERMES не требует дополнительных вычислений при поступлении пользовательских запросов, гарантируя мгновенные ответы при взаимодействии с непрерывным видеопотоком, что обеспечивает 10-кратное ускорение времени до первого токена (TTFT) по сравнению с предыдущими state-of-the-art решениями. Даже при сокращении количества видео-токенов до 68% по сравнению с равномерной выборкой HERMES демонстрирует превосходную или сопоставимую точность на всех тестовых наборах, с улучшением до 11.4% на стриминговых данных.

BayesianVLA: Байесовское разложение моделей «зрение-язык-действие» через латентные запросы действий
BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Jan 21

ByShijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen

Модели «Vision-Language-Action» (VLA) демонстрируют перспективность в задачах манипулирования роботами, но часто испытывают трудности с обобщением на новые инструкции или сложные сценарии с множеством задач. Мы выявляем ключевую проблему современных парадигм обучения, связанную с предвзятостью набора данных, возникающей при сборе данных, ориентированном на цель. В таких наборах данных языковые инструкции становятся высоко предсказуемыми уже на основе одних только визуальных наблюдений, что приводит к исчезновению условной взаимной информации между инструкциями и действиями — явление, которое мы называем **Информационным Коллапсом**. Как следствие, модели вырождаются в чисто визуальные политики, которые игнорируют языковые ограничения и терпят неудачу в условиях работы с данными вне распределения (Out-of-Distribution, OOD). Для решения этой проблемы мы предлагаем **BayesianVLA** — новую архитектуру, которая обеспечивает следование инструкциям за счет байесовской декомпозиции. Путем введения обучаемых **Скрытых Запросов Действий** мы строим двухветвевую архитектуру для оценки как априорного распределения, основанного только на зрении p(a|v), так и языково-обусловленного апостериорного распределения π(a|v, l). Затем мы оптимизируем политику для максимизации условной точечной взаимной информации между действиями и инструкциями. Этот подход эффективно штрафует использование «визуального ярлыка» и поощряет действия, которые явно объясняются языковой командой. Без необходимости в новых данных BayesianVLA значительно улучшает способность к обобщению. Многочисленные эксперименты на симуляторах SimplerEnv и RoboCasa демонстрируют существенный прогресс, включая улучшение на 11.3% на сложном OOD-бенчмарке SimplerEnv, что подтверждает способность нашего подхода к надежному заземлению языка в действиях.

LLM-in-Sandbox вызывает общий агентный интеллект
LLM-in-Sandbox Elicits General Agentic Intelligence

Jan 22

ByDaixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei

Мы представляем метод LLM-in-Sandbox, который позволяет большим языковым моделям (LLM) исследовать среду внутри песочницы для кода (т.е. виртуального компьютера) для проявления общего интеллекта в предметных областях, не связанных с программированием. Сначала мы демонстрируем, что мощные LLM, без дополнительного обучения, проявляют способности к обобщению, используя код-песочницу для решения задач, не связанных с кодом. Например, LLM спонтанно обращаются к внешним ресурсам для получения новых знаний, используют файловую систему для работы с длинными контекстами и выполняют скрипты для соблюдения требований к форматированию. Мы также показываем, что эти агентские способности можно усилить с помощью обучения с подкреплением в песочнице (LLM-in-Sandbox-RL), которое использует только не-агентские данные для обучения моделей исследованию песочницы. Эксперименты демонстрируют, что LLM-in-Sandbox, как в настройках без обучения, так и после дообучения, достигает устойчивого обобщения в таких областях, как математика, физика, химия, биомедицина, понимание длинных контекстов и следование инструкциям. Наконец, мы анализируем эффективность LLM-in-Sandbox с вычислительной и системной точек зрения и публикуем его в виде пакета Python с открытым исходным кодом для облегчения практического внедрения.

Масштабирование диффузионных трансформеров для преобразования текста в изображение с помощью репрезентационных автоэнкодеров
Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Jan 22

ByShengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie

Автокодировщики представлений (RAE) продемонстрировали явные преимущества в диффузионном моделировании на ImageNet за счет обучения в высокоразмерных семантических латентных пространствах. В данной работе мы исследуем, может ли эта методология масштабироваться до задач крупномасштабной генерации изображений по свободному текстовому описанию (T2I). Сначала мы масштабируем декодеры RAE на основе замороженного кодировщика представлений (SigLIP-2) за пределы ImageNet, обучая их на веб-данных, синтетических данных и данных с рендерингом текста, и обнаруживаем, что хотя масштабирование улучшает общую точность, целевой состав данных критически важен для специфических доменов, таких как текст. Затем мы тщательно тестируем в стресс-условиях архитектурные решения RAE, изначально предложенные для ImageNet. Наш анализ показывает, что масштабирование упрощает фреймворк: хотя зависимое от размерности планирование шума остается критически важным, архитектурные усложнения, такие как широкие диффузионные головы и декодирование с добавлением шума, дают незначительный выигрыш при масштабировании. На основе этого упрощенного фреймворка мы проводим контролируемое сравнение RAE с передовым FLUX VAE в диапазоне масштабов диффузионных трансформеров от 0.5 до 9.8 миллиардов параметров. RAE стабильно превосходят VAE на этапе предварительного обучения на всех масштабах моделей. Более того, при дообучении на высококачественных наборах данных модели на основе VAE катастрофически переобучаются после 64 эпох, в то время как модели RAE остаются стабильными в течение 256 эпох и демонстрируют стабильно лучшие результаты. Во всех экспериментах диффузионные модели на основе RAE показывают более быструю сходимость и лучшее качество генерации, что утверждает RAE как более простую и мощную основу по сравнению с VAE для крупномасштабной T2I-генерации. Дополнительно, поскольку как визуальное понимание, так и генерация могут работать в общем пространстве представлений, мультимодальная модель может напрямую выполнять логический вывод на сгенерированных латентных переменных, открывая новые возможности для унифицированных моделей.

Stable-DiffCoder: На переднем рубеже диффузионных больших языковых моделей для генерации кода
Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Jan 22

ByChenghao Fan, Wen Heng, Bo Li, Sichen Liu, Yuxuan Song, Jing Su, Xiaoye Qu, Kai Shen, Wei Wei

Диффузионные языковые модели (DLLM) обеспечивают не последовательное, а блочное генерирование и более интенсивное повторное использование данных по сравнению с авторегрессионными (AR) моделями, однако существующие кодовые DLLM по-прежнему отстают от сильных AR-аналогов при сопоставимых вычислительных бюджетах. Мы возвращаемся к этой проблеме в рамках контролируемого исследования и представляем Stable-DiffCoder — блочную диффузионную модель для генерации кода, которая повторяет архитектуру Seed-Coder, использует те же данные и конвейер обучения. Для обеспечения эффективного усвоения знаний и стабильного обучения мы внедряем этап непрерывного предварительного обучения (CPT) на основе блочной диффузии, усиленный специально подобранным прогревом и блочным ограниченным шумовым расписанием. При одинаковых данных и архитектуре Stable-DiffCoder в целом превосходит свой AR-аналог по широкому набору бенчмарков для оценки генерации кода. Более того, используя только этапы CPT и контролируемой тонкой настройки, Stable-DiffCoder демонстрирует более высокую производительность, чем широкий спектр AR- и DLLM-моделей размером около 8B параметров, что подтверждает, что обучение на основе диффузии может улучшить качество моделирования кода по сравнению с исключительно AR-обучением. Кроме того, диффузионное моделирование в произвольном порядке улучшает структурированное моделирование кода для задач редактирования и логического вывода, а благодаря дополнению данных приносит пользу для маломощных языков программирования.

SAMTok: Представление любой маски двумя словами
SAMTok: Representing Any Mask with Two Words

Jan 22

ByYikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li

Поксельные возможности крайне важны для создания интерактивных интеллектуальных систем. Однако масштабирование поксельных мультимодальных больших языковых моделей (MLLM) остается сложной задачей из-за сложных региональных энкодеров, специализированных декодеров сегментации и несовместимых обучающих целей. Для решения этих проблем мы представляем SAMTok — дискретный токенизатор масок, который преобразует любую региональную маску в два специальных токена и с высокой точностью восстанавливает маску с их помощью. Рассматривая маски как новые языковые токены, SAMTok позволяет базовым MLLM (таким как серия QwenVL) осваивать поксельные возможности с помощью стандартного предсказания следующего токена и простого обучения с подкреплением, без модификации архитектуры и специализированного дизайна функции потерь. SAMTok построен на основе SAM2 и обучен на 209 миллионах разнообразных масок с использованием энкодера масок и остаточного векторного квантизатора для генерации дискретных, компактных и информационно насыщенных токенов. На 5 миллионах примеров данных для понимания и генерации масок в формате SAMTok, модель QwenVL-SAMTok демонстрирует наилучшие или сопоставимые результаты в задачах описания регионов, визуального вопроса-ответа по регионам, обоснованного диалога, референционной сегментации, парсинга сценовых графов и многораундовой интерактивной сегментации. Мы также вводим текстовую награду за соответствие ответа, которая позволяет эффективно применять обучение с подкреплением для генерации масок, что приводит к значительному улучшению на бенчмарках GRES и GCG. Наши результаты демонстрируют масштабируемую и простую парадигму для оснащения MLLM мощными поксельными возможностями. Наш код и модели доступны.

Обучение открытию во время тестирования
Learning to Discover at Test Time

Jan 22

ByMert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun

Как можно использовать искусственный интеллект для достижения нового уровня состояния искусства в решении научной задачи? Предыдущие работы по масштабированию во время тестирования, такие как AlphaEvolve, выполняют поиск с помощью промптинг-запросов к замороженной большой языковой модели (LLM). Мы применяем обучение с подкреплением во время тестирования, что позволяет LLM продолжать обучение, но уже на основе опыта, специфичного для конкретной тестовой задачи. Эта форма непрерывного обучения весьма специфична, поскольку её цель — создать одно выдающееся решение, а не множество хороших в среднем, и решить именно данную задачу, а не обобщать на другие проблемы. Следовательно, наша цель обучения и процедура поиска разработаны так, чтобы отдавать приоритет наиболее перспективным решениям. Мы называем этот метод «Обучением во время тестирования для открытия» (Test-Time Training to Discover, TTT-Discover). В соответствии с предыдущими работами мы сосредотачиваемся на задачах с непрерывными вознаграждениями. Мы сообщаем результаты для каждой проблемы, которую мы attempted, в области математики, проектирования GPU-ядров, разработки алгоритмов и биологии. TTT-Discover устанавливает новое состояние искусства почти во всех из них: (i) задача Эрдёша о минимальном перекрытии и неравенство автокорреляции; (ii) соревнование по оптимизации ядер в GPUMode (до 2 раз быстрее предыдущих лучших результатов); (iii) прошлые соревнования по алгоритмам AtCoder; и (iv) задача шумоподавления в анализе одноклеточных данных. Наши решения проверяются экспертами или организаторами. Все наши результаты достигнуты с использованием открытой модели OpenAI gpt-oss-120b и могут быть воспроизведены с помощью нашего публично доступного кода, в отличие от предыдущих лучших результатов, которые требовали закрытых frontier-моделей. Наши запуски обучения во время тестирования выполняются с использованием Tinker, API от Thinking Machines, стоимостью всего в несколько сотен долларов за задачу.

Технический отчет по Qwen3-TTS
Qwen3-TTS Technical Report

Jan 22

ByHangrui Hu, Xinfa Zhu, Ting He, Dake Guo, Bin Zhang, Xiong Wang, Zhifang Guo, Ziyue Jiang, Hongkun Hao, Zishan Guo, Xinyu Zhang, Pei Zhang, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin

В данном отчете представлена серия Qwen3-TTS — семейство передовых многозадачных, управляемых, надежных и потоковых моделей преобразования текста в речь. Qwen3-TTS поддерживает передовое клонирование голоса за 3 секунды и управление на основе описания, позволяя как создавать совершенно новые голоса, так и осуществлять детальный контроль над выходной речью. Обученная на более чем 5 миллионах часов речевых данных на 10 языках, Qwen3-TTS использует архитектуру языковой модели с двойной траекторией для синтеза в реальном времени в сочетании с двумя токенизаторами речи: 1) Qwen-TTS-Tokenizer-25Hz — это кодек с одной кодбукой, акцентирующий семантическое содержание, который обеспечивает бесшовную интеграцию с Qwen-Audio и позволяет осуществлять потоковую реконструкцию волновой формы с помощью блочного DiT. 2) Qwen-TTS-Tokenizer-12Hz достигает экстремального снижения битрейта и сверхмалой задержки при потоковой передаче, обеспечивая немедленную отправку первого пакета (97 мс) благодаря своей 16-слойной мультикодбуке с частотой 12.5 Гц и легковесному каузальному ConvNet. Многочисленные эксперименты демонстрируют передовую производительность в различных объективных и субъективных тестах (например, многозадачный тестовый набор TTS, InstructTTSEval и наш тестовый набор длинной речи). Для содействия исследованиям и разработкам в сообществе мы выпускаем оба токенизатора и модели под лицензией Apache 2.0.

Terminal-Bench: Оценка производительности агентов на сложных реалистичных задачах в интерфейсах командной строки
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Jan 17

ByMike A. Merrill, Alexander G. Shaw, Nicholas Carlini, Boxuan Li, Harsh Raj, Ivan Bercovich, Lin Shi, Jeong Yeon Shin, Thomas Walshe, E. Kelly Buchanan, Junhong Shen, Guanghao Ye, Haowei Lin, Jason Poulos, Maoyu Wang, Marianna Nezhurina, Jenia Jitsev, Di Lu, Orfeas Menis Mastromichalakis, Zhiwei Xu, Zizhao Chen, Yue Liu, Robert Zhang, Leon Liangyu Chen, Anurag Kashyap, Jan-Lucas Uslu, Jeffrey Li, Jianbo Wu, Minghao Yan, Song Bian, Vedang Sharma, Ke Sun, Steven Dillmann, Akshay Anand, Andrew Lanpouthakoun, Bardia Koopah, Changran Hu, Etash Guha, Gabriel H. S. Dreiman, Jiacheng Zhu, Karl Krauth, Li Zhong, Niklas Muennighoff, Robert Amanfu, Shangyin Tan, Shreyas Pimpalgaonkar, Tushar Aggarwal, Xiangning Lin, Xin Lan, Xuandong Zhao, Yiqing Liang, Yuanli Wang, Zilong Wang, Changzhi Zhou, David Heineman, Hange Liu, Harsh Trivedi, John Yang, Junhong Lin, Manish Shetty, Michael Yang, Nabil Omi, Negin Raoof, Shanda Li, Terry Yue Zhuo, Wuwei Lin, Yiwei Dai, Yuxin Wang, Wenhao Chai, Shang Zhou, Dariush Wahdany, Ziyu She, Jiaming Hu, Zhikang Dong, Yuxuan Zhu, Sasha Cui, Ahson Saiyed, Arinbjörn Kolbeinsson, Jesse Hu, Christopher Michael Rytting, Ryan Marten, Yixin Wang, Alex Dimakis, Andy Konwinski, Ludwig Schmidt

Искусственные интеллектуальные агенты в ближайшем будущем могут стать способными к автономному выполнению ценных долгосрочных задач в различных областях. Существующие бенчмарки либо не измеряют реальные практические задачи, либо недостаточно сложны для содержательной оценки передовых моделей. Для решения этой проблемы мы представляем Terminal-Bench 2.0: тщательно отобранный сложный бенчмарк, состоящий из 89 задач в средах компьютерных терминалов, созданных на основе проблем из реальных рабочих процессов. Каждая задача характеризуется уникальной средой, человеко-читаемым решением и комплексными тестами для верификации. Мы демонстрируем, что передовые модели и агенты набирают менее 65% по данному бенчмарку, и проводим анализ ошибок для выявления направлений улучшения моделей и агентов. Мы публикуем набор данных и среду оценки для помощи разработчикам и исследователям в будущих работах по адресу https://www.tbench.ai/.

OpenVision 3: Семейство унифицированных визуальных энкодеров для анализа и генерации
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

Jan 21

ByLetian Zhang, Sucheng Ren, Yanqing Liu, Xianhang Li, Zeyu Wang, Yuyin Zhou, Huaxiu Yao, Zeyu Zheng, Weili Nie, Guilin Liu, Zhiding Yu, Cihang Xie

В данной статье представлено семейство продвинутых визуальных кодировщиков OpenVision 3, которые изучают единое унифицированное визуальное представление, способное служить как для понимания изображений, так и для их генерации. Наша базовая архитектура проста: мы подаем латентные представления изображений, сжатые с помощью VAE, в кодировщик ViT и обучаем его выходные данные для поддержки двух взаимодополняющих ролей. Во-первых, выход кодировщика передается в декодер ViT-VAE для реконструкции исходного изображения, что побуждает представление захватывать генеративную структуру. Во-вторых, то же самое представление оптимизируется с помощью контрастивного обучения и задач создания подписей к изображениям, усиливая семантические признаки. Совместно оптимизируя сигналы, управляемые реконструкцией и семантикой, в общем латентном пространстве, кодировщик изучает представления, которые хорошо синергируют и обобщаются в обоих режимах. Мы проверяем эту унифицированную конструкцию с помощью обширных последующих оценок при замороженном кодировщике. Для мультимодального понимания мы подключаем кодировщик к框架 LLaVA-1.5: он работает сопоставимо со стандартным визуальным кодировщиком CLIP (например, 62.4 против 62.2 на SeedBench и 83.7 против 82.9 на POPE). Для генерации мы тестируем его в框架 RAE: наша модель существенно превосходит стандартный кодировщик на основе CLIP (например, gFID: 1.89 против 2.54 на ImageNet). Мы надеемся, что эта работа сможет стимулировать будущие исследования в области унифицированного моделирования.

Переосмысление оценки композитного поиска изображений: детализированный бенчмарк на основе редактирования изображений
Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

Jan 22

ByTingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu

Поиск по составным изображениям (CIR) является ключевой и сложной задачей в области мультимодального понимания. Существующие бенчмарки CIR обычно отличаются ограниченным набором категорий запросов и не отражают разнообразные требования реальных сценариев. Чтобы устранить этот пробел в оценке, мы используем редактирование изображений для точного контроля типов и содержания модификаций, создав конвейер синтеза запросов для широкого спектра категорий. С помощью этого конвейера мы создали EDIR — новый детализированный бенчмарк для CIR. EDIR включает 5000 высококачественных запросов, структурированных по пяти основным категориям и пятнадцати подкатегориям. Наше всестороннее тестирование 13 моделей мультимодальных эмбеддингов выявило значительный разрыв в возможностях: даже передовые модели (например, RzenEmbed и GME) демонстрируют нестабильные результаты across всем подкатегориям, что подчеркивает строгость нашего бенчмарка. Сравнительный анализ дополнительно выявляет inherentные ограничения существующих бенчмарков, такие как модальные смещения и недостаточный охват категорий. Кроме того, эксперимент по in-domain обучению подтверждает практическую применимость нашего бенчмарка. Этот эксперимент проясняет сложность задачи, разделяя категории, решаемые с помощью целевых данных, и те, которые выявляют фундаментальные ограничения современных архитектур моделей.

К автоматизированной генерации ядра в эпоху больших языковых моделей
Towards Automated Kernel Generation in the Era of LLMs

Jan 22

ByYang Yu, Peiyu Zang, Chi Hsu Tsai, Haiming Wu, Yixin Shen, Jialing Zhang, Haoyu Wang, Zhiyou Xiao, Jingze Shi, Yuyu Luo, Wentao Zhang, Chunlei Men, Guang Liu, Yonghua Lin

Производительность современных систем искусственного интеллекта фундаментально ограничена качеством их базовых вычислительных ядер, которые транслируют высокоуровневую алгоритмическую семантику в низкоуровневые аппаратные операции. Достижение почти оптимальных ядер требует экспертного понимания аппаратных архитектур и моделей программирования, что делает разработку ядер критически важным, но печально известным своей трудоемкостью и плохой масштабируемостью процессом. Недавние достижения в области больших языковых моделей (LLM) и агентов на их основе открыли новые возможности для автоматизации генерации и оптимизации ядер. LLM хорошо подходят для сжатия экспертных знаний о ядрах, которые сложно формализовать, в то время как агентские системы дополнительно обеспечивают масштабируемую оптимизацию, превращая разработку ядер в итерационный цикл, управляемый обратной связью. В этой области был достигнут быстрый прогресс. Однако область остается фрагментированной, ей не хватает систематической перспективы для LLM-управляемой генерации ядер. Данный обзор заполняет этот пробел, предоставляя структурированный обзор существующих подходов, охватывающих методы на основе LLM и агентские workflows оптимизации, а также систематизируя наборы данных и бенчмарки, лежащие в основе обучения и оценки в этой области. Кроме того, очерчены ключевые открытые проблемы и будущие направления исследований, с целью создания всеобъемлющего ориентира для следующего поколения автоматической оптимизации ядер. Для отслеживания прогресса в этой области мы поддерживаем репозиторий с открытым исходным кодом на GitHub по адресу https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.

PROGRESSLM: К моделированию прогресса в визуально-языковых моделях
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Jan 21

ByJianshu Zhang, Chengxuan Qian, Haosen Sun, Haoran Lu, Dingcheng Wang, Letian Xue, Han Liu

Оценка прогресса выполнения задачи требует анализа долгосрочной динамики, а не просто распознавания статического визуального содержания. Хотя современные визуально-языковые модели (VLM) превосходно описывают видимое содержимое, остается неясным, способны ли они определить, насколько далеко продвинулось выполнение задачи, на основе частичных наблюдений. Для решения этой задачи мы представляем Progress-Bench — эталонный набор для систематической оценки способности VLM к анализу прогресса. Помимо тестирования, мы также исследуем вдохновленную человеком двухэтапную парадигму анализа прогресса с помощью как беспараметрического промптинга, так и параметрического подхода на основе специально созданного набора данных ProgressLM-45K. Эксперименты с 14 VLM показывают, что большинство моделей еще не готовы к оценке прогресса задач, демонстрируя чувствительность к модальности демонстраций и изменениям точки зрения, а также слабую обработку случаев, не подлежащих ответу. В то время как беспараметрический промптинг, обеспечивающий структурированный анализ прогресса, дает ограниченный и зависимый от модели прирост, параметрическая модель ProgressLM-3B демонстрирует стабильное улучшение даже при небольшом масштабе модели, несмотря на обучение на наборе задач, полностью не пересекающемся с оценочными задачами. Дальнейший анализ выявляет характерные паттерны ошибок и проясняет, когда и почему анализ прогресса оказывается успешным или терпит неудачу.

VideoMaMa: Маскированное видеоматирование с помощью генеративных аэприоров
VideoMaMa: Mask-Guided Video Matting via Generative Prior

Jan 20

BySangbeom Lim, Seoung Wug Oh, Jiahui Huang, Heeji Yoon, Seungryong Kim, Joon-Young Lee

Обобщение моделей видеоматирования на реальные видео остается серьезной проблемой из-за нехватки размеченных данных. Для решения этой задачи мы представляем Video Mask-to-Matte Model (VideoMaMa), которая преобразует грубые маски сегментации в пиксельно-точные альфа-маты, используя предобученные модели диффузии для видео. VideoMaMa демонстрирует сильную способность к нулевому обобщению на реальные видеозаписи, несмотря на то, что обучалась исключительно на синтетических данных. Опираясь на эту возможность, мы разрабатываем масштабируемый конвейер псевдоразметки для крупномасштабного видеоматирования и создаем набор данных Matting Anything in Video (MA-V), который содержит высококачественные аннотации матирования для более чем 50 тыс. реальных видео, охватывающих разнообразные сцены и движения. Для проверки эффективности этого набора данных мы дообучаем модель SAM2 на MA-V, получая SAM2-Matte, которая превосходит ту же модель, обученную на существующих наборах данных для матирования, по устойчивости на видеороликах в естественных условиях. Эти результаты подчеркивают важность крупномасштабного псевдоразмеченного видеоматирования и показывают, как генеративные априорные знания и доступные подсказки сегментации могут способствовать масштабируемому прогрессу в исследованиях видеоматирования.

Политика Cosmos: Тонкая настройка видеомоделей для визомоторного управления и планирования
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

Jan 22

ByMoo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu

Современные модели генерации видео демонстрируют впечатляющую способность улавливать сложные физические взаимодействия и эволюцию сцены во времени. Чтобы использовать их пространственно-временные априорные знания, в робототехнике видео-модели адаптируют для обучения политик, однако это вносит сложность, требуя многоэтапного дообучения и новых архитектурных компонентов для генерации действий. В данной работе мы представляем Cosmos Policy — простой подход для адаптации крупной предобученной видео-модели (Cosmos-Predict2) в эффективную политику робота посредством одноэтапного дообучения на данных демонстраций, собранных на целевом роботизированном платформе, без каких-либо модификаций архитектуры. Cosmos Policy обучается напрямую генерировать действия робота, закодированные в виде латентных кадров в рамках процесса латентной диффузии видео-модели, используя её предобученные априорные знания и базовый алгоритм обучения для захвата сложных распределений действий. Дополнительно Cosmos Policy генерирует изображения будущих состояний и значения (ожидаемые кумулятивные награды), которые аналогично кодируются как латентные кадры, что позволяет планировать траектории действий во время тестирования с более высокой вероятностью успеха. В наших экспериментах Cosmos Policy достигает наилучших результатов на бенчмарках LIBERO и RoboCasa в симуляции (98.5% и 67.1% среднего успеха, соответственно) и наивысшего среднего балла в сложных задачах биманипуляции в реальном мире, превосходя сильные диффузионные политики, обученные с нуля, политики на основе видео-моделей и передовые модели "визуальный язык-действие", дообученные на тех же демонстрациях. Более того, используя данные о выполнении политики, Cosmos Policy может обучаться на опыте, уточняя свою модель мира и функцию ценности, и использовать планирование на основе модели для достижения ещё более высоких показателей успеха в сложных задачах. Мы публикуем код, модели и данные для обучения по адресу: https://research.nvidia.com/labs/dir/cosmos-policy/

360Anything: Преобразование изображений и видео в 360° без использования геометрии
360Anything: Geometry-Free Lifting of Images and Videos to 360°

Jan 22

ByZiyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena

Преобразование перспективных изображений и видео в 360° панорамы позволяет создавать иммерсивные 3D-миры. Существующие подходы часто полагаются на явное геометрическое выравнивание между перспективной проекцией и пространством равнопромежуточной проекции (ERP). Однако это требует известных метаданных камеры, что ограничивает применение к данным из реального мира, где такая калибровка обычно отсутствует или зашумлена. Мы предлагаем 360Anything, геометрически-независимый фреймворк, построенный на предварительно обученных диффузионных трансформерах. Рассматривая перспективный вход и панорамную цель просто как последовательности токенов, 360Anything изучает отображение "перспектива-в-равнопромежуточную" чисто на основе данных, устраняя необходимость в информации о камере. Наш подход достигает передовой производительности как в генерации изображений, так и видео из перспективы в 360°, превосходя предыдущие работы, использующие точную информацию о камере. Мы также выявляем коренную причину артефактов швов на границах ERP — дополнение нулями в энкодере VAE — и представляем Круговое латентное кодирование для обеспечения бесшовной генерации. Наконец, мы демонстрируем конкурентоспособные результаты в бенчмарках zero-shot оценки угла обзора и ориентации камеры, показывая глубокое геометрическое понимание 360Anything и его более широкую полезность в задачах компьютерного зрения. Дополнительные результаты доступны по адресу https://360anything.github.io/.

ActionMesh: Генерация анимированных 3D-мешей с помощью временной 3D-диффузии
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Jan 22

ByRemy Sabathier, David Novotny, Niloy J. Mitra, Tom Monnier

Создание анимированных 3D-объектов является ключевой задачей для многих приложений, однако большинство передовых разработок зачастую сложно применить на практике из-за ограниченных условий работы, длительного времени выполнения или недостаточного качества. Мы представляем ActionMesh — генеративную модель, которая предсказывает готовые к использованию 3D-сетки «в действии» прямым проходом. Черпая вдохновение в ранних видео-моделях, наше ключевое наблюдение заключается в модификации существующих 3D-диффузионных моделей для включения временной оси, что приводит к框架, которую мы назвали «временной 3D-диффузией». Конкретно, мы сначала адаптируем стадию 3D-диффузии для генерации последовательности синхронизированных латентных представлений, соответствующих изменяющимся во времени и независимым 3D-формам. Во-вторых, мы разрабатываем временной 3D-автоэнкодер, который преобразует последовательность независимых форм в соответствующие деформации предопределенной эталонной формы, позволяя нам строить анимацию. Объединяя эти два компонента, ActionMesh генерирует анимированные 3D-сетки из различных входных данных, таких как моноскопическое видео, текстовое описание или даже 3D-сетка с текстовым промтом, описывающим её анимацию. Кроме того, по сравнению с предыдущими подходами, наш метод работает быстро и производит результаты, не требующие риггинга и обладающие согласованной топологией, что обеспечивает быструю итерацию и беспрепятственное применение таких методов, как текстурирование и перепривязка. Мы оцениваем нашу модель на стандартных бенчмарках для видео-к-4D (Consistent4D, Objaverse) и сообщаем о состоянии дел в производительности как по геометрической точности, так и по временной согласованности, демонстрируя, что наша модель может предоставлять анимированные 3D-сетки с беспрецедентной скоростью и качеством.

VIOLA: К обучению на контекстных видеопримерах с минимальной разметкой
VIOLA: Towards Video In-Context Learning with Minimal Annotations

Jan 22

ByRyo Fujii, Hideo Saito, Ryo Hachiuma

Обобщение мультимодальных больших языковых моделей (MLLM) на новые видеодомены является ключевым для практического применения, но остается сложной задачей из-за нехватки размеченных данных. Хотя обучение в контексте (In-Context Learning, ICL) предлагает путь адаптации без дообучения, стандартные методы полагаются на большие размеченные наборы данных, что зачастую непрактично в специализированных средах, таких как промышленные или хирургические условия, поскольку требует аннотаций экспертов. Чтобы устранить этот разрыв, мы представляем VIOLA (Video In-cOntext Learning with minimal Annotation) — эффективный по меткам фреймворк, который сочетает минимальный контроль эксперта с обилием немаркированных данных. Во-первых, для максимизации эффективности строго ограниченного бюджета на разметку мы предлагаем выборку, взвешенную по плотности и неопределенности. В отличие от стандартных стратегий, основанных на разнообразии или неопределенности, которые рискуют отбирать визуальные выбросы, наш метод использует оценку плотности для идентификации примеров, которые одновременно разнообразны, репрезентативны и информативны. Во-вторых, чтобы использовать оставшиеся немаркированные данные без распространения шума, мы создаем гибридный пул и вводим уверенно-чувствительное извлечение и уверенно-чувствительное промптирование. Эти механизмы явно моделируют надежность меток, извлекая демонстрации на основе композитной оценки схожести и уверенности, одновременно позволяя MLLM адаптивно различать проверенные истинные метки и зашумленные псевдометки. Многочисленные эксперименты на девяти различных бенчмарках с использованием четырех MLLM демонстрируют, что наш фреймворк значительно превосходит различные базовые методы в условиях с малым объемом данных, достигая надежной адаптации при минимальных затратах на разметку.

MirrorBench: Расширяемая платформа для оценки пользовательских прокси-агентов на соответствие человеческому поведению
MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness

Jan 13

ByAshutosh Hathidara, Julien Yu, Vaishali Senthil, Sebastian Schreiber, Anil Babu Ankisettipalli

Крупные языковые модели (LLMs) все чаще используются в качестве симуляторов человека как для оценки диалоговых систем, так и для генерации данных для дообучения. Однако наивные промпты в стиле «действуй как пользователь» часто приводят к многословным и неестественным высказываниям, что подчеркивает необходимость принципиальной оценки так называемых прокси-агентов пользователя. Мы представляем MIRRORBENCH — воспроизводимый и расширяемый фреймворк для бенчмаркинга, который оценивает прокси-агенты исключительно по их способности генерировать правдоподобные пользовательские высказывания в различных диалоговых задачах, явно отделяя эту способность от успешности решения последующих задач. MIRRORBENCH включает модульный механизм выполнения с типизированными интерфейсами, регистры на основе метаданных, поддержку нескольких бэкендов, кэширование и надежную наблюдаемость. Система поддерживает подключаемые прокси-агенты, наборы данных, задачи и метрики, позволяя исследователям оценивать произвольные симуляторы в единой, учитывающей дисперсию среде. Мы включили три метрики лексического разнообразия (MATTR, K Юла и HD-D) и три метрики на основе LLM-оценки (GTEval, попарная неразличимость и оценка по рубрикам с обоснованием). На четырех открытых наборах данных MIRRORBENCH демонстрирует результаты с учетом дисперсии и выявляет систематические различия между прокси-агентами и реальными пользователями. Фреймворк имеет открытый исходный код и включает простой интерфейс командной строки для проведения экспериментов, управления конфигурациями и кэширования, а также генерации отчетов. Фреймворк доступен по адресу https://github.com/SAP/mirrorbench.

Ускоренная с помощью Numba двумерная диффузионно-ограниченная агрегация: реализация и фрактальная характеристика
Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization

Jan 21

BySandy H. S. Herho, Faiz R. Fajary, Iwan P. Anwar, Faruq Khadami, Nurjanna J. Trilaksono, Rusmawan Suwarman, Dasapta E. Irawan

Мы представляем dla-ideal-solver — высокопроизводительный фреймворк для моделирования двумерной агрегации, ограниченной диффузией (DLA), с использованием Python с ускорением на Numba. Благодаря применению компиляции "на лету" (JIT) мы достигаем вычислительной производительности, сопоставимой с классическими статическими реализациями, сохраняя при этом гибкость высокоуровневого языка. Мы исследуем лапласову неустойчивость роста для различных геометрий инжекции и концентраций случайных блужданий. Наш анализ подтверждает устойчивость стандартной фрактальной размерности D_f ≈ 1.71 для разреженных режимов, что согласуется с универсальностью класса Виттена-Сандера. Однако мы наблюдаем четкий переход к компактному эденовскому росту (D_f ≈ 1.87) в условиях высокой плотности, что объясняется насыщением длины экранирования. Помимо стандартного масштабирования масса-радиус, мы используем обобщенные размерности Реньи и метрики лакунарности для количественной оценки монофрактального характера и пространственной неоднородности агрегатов. Данная работа создает воспроизводимую открытую платформу для исследования фазовых переходов в неравновесной статистической механике.

Оценка промптов для больших языковых моделей в образовательных приложениях
LLM Prompt Evaluation for Educational Applications

Jan 22

ByLangdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris

По мере того как большие языковые модели (БЯМ) становятся все более распространенными в образовательных приложениях, возникает растущая потребность в научно обоснованных методах проектирования и оценки промптов БЯМ, которые генерируют персонализированные и педагогически выверенные результаты. Данное исследование представляет обобщаемый систематический подход к оценке промптов, продемонстрированный на примере анализа сгенерированных БЯМ уточняющих вопросов в рамках структурированной диалоговой активности. Было разработано и протестировано шесть шаблонов промптов. Шаблоны включали устоявшиеся паттерны инженерии промптов, причем каждый промпт делал акцент на различных педагогических стратегиях. Шаблоны промптов сравнивались в рамках турнирной системы оценки, которая может быть адаптирована для других образовательных приложений. В турнире использовалась рейтинговая система Glicko2, при этом восемь судей оценивали пары вопросов по трем параметрам: формат, поддержка диалога и уместность для учащихся. Данные были получены из 120 реальных пользовательских взаимодействий в трех различных образовательных средах. Результаты показали, что один промпт, связанный со стратегическим чтением, превзошел другие шаблоны с вероятностью выигрыша от 81% до 100% в парных сравнениях. Этот промпт сочетал паттерны "персона" и "менеджер контекста" и был разработан для поддержки метакогнитивных стратегий обучения, таких как самонаправляемое обучение. Представленная методология демонстрирует, как исследователи в области образовательных технологий могут систематически оценивать и улучшать дизайн промптов, переходя от ad-hoc инженерии промптов к их научно обоснованной разработке для образовательных приложений.

От пассивной метрики к активному сигналу: эволюция роли количественной оценки неопределенности в больших языковых моделях
From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

Jan 22

ByJiaxin Zhang, Wendi Cui, Zhuohang Li, Lifu Huang, Bradley Malin, Caiming Xiong, Chien-Sheng Wu

Хотя большие языковые модели (LLM) демонстрируют впечатляющие возможности, их ненадежность остается серьезным препятствием для развертывания в областях с высокими ставками. В данном обзоре прослеживается функциональная эволюция в решении этой проблемы: эволюция неопределенности от пассивного диагностического показателя к активному управляющему сигналу, направляющему поведение модели в реальном времени. Мы показываем, как неопределенность используется в качестве активного управляющего сигнала на трех направлениях: в рамках расширенного логического вывода для оптимизации вычислений и запуска самокоррекции; в автономных агентах для управления метакогнитивными решениями об использовании инструментов и поиске информации; а также в обучении с подкреплением для смягчения проблемы взлома функции вознаграждения и обеспечения самоусовершенствования за счет внутренних вознаграждений. Обосновывая эти достижения в emerging теоретических рамках, таких как байесовские методы и конформное прогнозирование, мы предлагаем единую перспективу этого преобразующего тренда. Настоящий обзор предоставляет всесторонний обзор, критический анализ и практические шаблоны проектирования, утверждая, что овладение новой тенденцией работы с неопределенностью необходимо для создания следующего поколения масштабируемого, надежного и заслуживающего доверия искусственного интеллекта.

Калибровка уверенности агента
Agentic Confidence Calibration

Jan 22

ByJiaxin Zhang, Caiming Xiong, Chien-Sheng Wu

Искусственные интеллектуальные агенты стремительно эволюционируют от пассивных языковых моделей к автономным системам, выполняющим сложные многошаговые задачи. Однако их излишняя уверенность в случае неудачи остается фундаментальным барьером для развертывания в высокорисковых сценариях. Существующие методы калибровки, созданные для статичных одношаговых выводов, не способны решить уникальные проблемы агентских систем, такие как накопление ошибок вдоль траекторий, неопределенность от внешних инструментов и непрозрачные режимы сбоев. Для решения этих проблем мы впервые вводим задачу Агентской Калибровки Уверенности и предлагаем Холистическую Калибровку Траекторий (HTC) — новый диагностический фреймворк, который извлекает богатые процессуальные признаки, от макродинамики до микростабильности, по всей траектории агента. Благодаря простой интерпретируемой модели HTC последовательно превосходит сильные базовые методы как в калибровке, так и в дискриминации на восьми бенчмарках, с использованием различных больших языковых моделей и в разнообразных агентских фреймворках. Помимо производительности, HTC предлагает три ключевых преимущества: она обеспечивает интерпретируемость, выявляя сигналы, стоящие за сбоями; позволяет достичь переносимости, применяясь в различных доменах без переобучения; и демонстрирует обобщающую способность через Общий Агентский Калибратор (GAC), который достигает наилучшей калибровки (наименьшей ECE) на непредсказанном бенчмарке GAIA. В совокупности эти результаты устанавливают новую процессо-ориентированную парадигму для калибровки уверенности, предлагая фреймворк для диагностики и повышения надежности ИИ-агентов.

Агентное оценивание неопределенности
Agentic Uncertainty Quantification

Jan 22

ByJiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu

Хотя ИИ-агенты продемонстрировали впечатляющие способности в решении задач, требующих долгосрочного планирования, их надежность серьезно ограничена феноменом «спирали галлюцинаций», когда первоначальные эпистемические ошибки необратимо усугубляются. Существующие методы сталкиваются с дилеммой: методы количественной оценки неопределенности (UQ) обычно выступают как пассивные сенсоры, лишь диагностируя риски, но не устраняя их, в то время как механизмы саморефлексии страдают от непрерывных или бесцельных корректировок. Для преодоления этого разрыва мы предлагаем унифицированную агентскую систему двупроцессной оценки неопределенности (AUQ), преобразующую вербализованную неопределенность в активные двунаправленные управляющие сигналы. Наша архитектура включает два взаимодополняющих механизма: Систему 1 (Память, осведомленная о неопределенности, UAM), которая неявно распространяет вербализованную уверенность и семантические объяснения для предотвращения слепого принятия решений; и Систему 2 (Рефлексия, осведомленная о неопределенности, UAR), которая использует эти объяснения в качестве рациональных сигналов для целенаправленного разрешения неопределенности во время вывода только при необходимости. Это позволяет агенту динамически балансировать между эффективным выполнением и глубоким обдумыванием. Многочисленные эксперименты на замкнутых бенчмарках и открытых исследовательских задачах демонстрируют, что наш подход, не требующий обучения, обеспечивает превосходную производительность и калибровку на уровне траекторий. Мы считаем, что данная принципиальная框架 AUQ представляет собой значительный шаг к созданию надежных агентов.

Друг Вигнера в виде квантовой схемы: бенчмарки свидетелей межветвевой коммуникации на сверхпроводящем квантовом оборудовании
Wigner's Friend as a Circuit: Inter-Branch Communication Witness Benchmarks on Superconducting Quantum Hardware

Jan 22

ByChristopher Altman

Мы реализуем и тестируем на квантовом оборудовании IBM семейство схем, предложенное Виоларрисом для оценки операционных свидетелей межветвевой коммуникации, определяемых как корреляции в классических записях измерений, порождаемых скомпилированными схемами в стиле парадокса Вигнера. Мы реализуем пятикубитовый экземпляр протокола в виде паттерна передачи сообщений между регистрами в рамках единой схемы, а не физической сигнализации, и оцениваем его поведение в условиях реального шума устройства и ограничений компиляции. Схема кодирует эволюцию подсистемы наблюдателя, зависящую от условия ветвления, динамика которой определяется управляющим кубитом, с последующей управляемой операцией передачи, которая исследует корреляции между условными контекстами измерений. При выполнении на бэкенде ibm_fez с 20 000 снимков мы наблюдаем популяционную видимость 0.877, свидетелей когерентности 0.840 и -0.811 вдоль ортогональных осей и фазочувствительную величину приблизительно 1.17. В то время как метрика видимости нечувствительна к некоторым классам дефазирования, свидетели когерентности обеспечивают комплементарную чувствительность к внедиагональному шуму. Данная работа не проверяет и не проводит различий между интерпретациями квантовой механики. Вместо этого она предоставляет воспроизводимый конвейер операционных ограничений для оценки обнаруживаемости неидеальных каналов относительно калиброванного шума устройства.