ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

За пределами "Эврики!": К систематическому согласованию метаспособностей в крупных моделях рассуждений
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

May 15, 2025
Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li
1193

Крупные модели рассуждений (LRMs) уже обладают скрытой способностью к длинным цепочкам логических рассуждений. Предыдущие исследования показали, что обучение с подкреплением (RL), основанное на результатах, может случайным образом вызывать сложные поведенческие паттерны рассуждений, такие как самокоррекция, возврат к предыдущим шагам и процессы проверки, часто называемые "моментом озарения" модели. Однако время возникновения и согласованность этих эмерджентных поведений остаются непредсказуемыми и неуправляемыми, что ограничивает масштабируемость и надежность способностей LRM к рассуждениям. Чтобы устранить эти ограничения, мы выходим за рамки зависимости от подсказок и случайных "моментов озарения". Вместо этого мы явно выравниваем модели по трем метаспособностям: дедукции, индукции и абдукции, используя автоматически генерируемые, самопроверяемые задачи. Наш трехэтапный процесс — индивидуальное выравнивание, объединение в пространстве параметров и предметно-ориентированное обучение с подкреплением — повышает производительность более чем на 10% по сравнению с базовыми моделями, настроенными на инструкции. Более того, предметно-ориентированное RL, начиная с выровненной контрольной точки, дает дополнительный средний прирост в 2% на верхней границе производительности в тестах по математике, программированию и естественным наукам, демонстрируя, что явное выравнивание метаспособностей предлагает масштабируемую и надежную основу для рассуждений. Код доступен по адресу: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.

Закон масштабирования для языковых моделей при параллельных вычислениях
Parallel Scaling Law for Language Models

May 15, 2025
Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu
813

Широко распространено мнение, что масштабирование языковых моделей должно сопровождаться значительными затратами на память или время, будь то за счет увеличения количества параметров (масштабирование параметров) или выходных токенов (масштабирование на этапе вывода). Мы представляем третий и более эффективный с точки зрения вывода подход к масштабированию: увеличение параллельных вычислений модели как на этапе обучения, так и на этапе вывода. Мы применяем P различных и обучаемых преобразований к входным данным, выполняем прямые проходы модели параллельно и динамически агрегируем P выходов. Этот метод, называемый параллельным масштабированием (ParScale), масштабирует параллельные вычисления за счет повторного использования существующих параметров и может быть применен к любой структуре модели, процедуре оптимизации, данным или задаче. Мы теоретически предлагаем новый закон масштабирования и подтверждаем его с помощью крупномасштабного предварительного обучения, которое показывает, что модель с P параллельными потоками эквивалентна масштабированию параметров на O(log P), демонстрируя при этом превосходную эффективность вывода. Например, ParScale может использовать до 22 раз меньше увеличения памяти и 6 раз меньше увеличения задержки по сравнению с масштабированием параметров, обеспечивающим такое же улучшение производительности. Он также может преобразовать готовую предварительно обученную модель в параллельно масштабированную путем дообучения на небольшом количестве токенов, что дополнительно сокращает бюджет на обучение. Обнаруженный нами новый закон масштабирования потенциально облегчает развертывание более мощных моделей в условиях ограниченных ресурсов и предлагает альтернативный взгляд на роль вычислений в машинном обучении.

Оптимизация системных промптов с использованием метаобучения
System Prompt Optimization with Meta-Learning

May 14, 2025
Yumin Choi, Jinheon Baek, Sung Ju Hwang
703

Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности, при этом оптимизация их входных запросов играет ключевую роль в максимизации их производительности. Однако, хотя запросы LLM состоят как из системных запросов, не зависящих от задачи, так и из пользовательских запросов, специфичных для задачи, существующие работы по оптимизации запросов сосредоточены на пользовательских запросах, связанных с отдельными запросами или задачами, и в значительной степени игнорируют системный запрос, который, будучи оптимизированным, применим к различным задачам и доменам. Вдохновленные этим, мы вводим новую задачу двухуровневой оптимизации системного запроса, целью которой является разработка системных запросов, устойчивых к разнообразным пользовательским запросам и переносимым на неизвестные задачи. Для решения этой проблемы мы предлагаем мета-обучающий фреймворк, который мета-обучает системный запрос, оптимизируя его для различных пользовательских запросов на множестве наборов данных, одновременно обновляя пользовательские запросы итеративным образом для обеспечения синергии между ними. Мы проводим эксперименты на 14 неизвестных наборах данных, охватывающих 5 различных доменов, на которых показываем, что наш подход создает системные запросы, эффективно обобщающиеся на разнообразные пользовательские запросы. Кроме того, наши результаты показывают, что оптимизированный системный запрос позволяет быстро адаптироваться даже к неизвестным задачам, требуя меньше шагов оптимизации для пользовательских запросов во время тестирования, при этом достигая улучшенной производительности.

OpenThinkIMG: Обучение мышлению с помощью изображений через визуальный инструмент с использованием обучения с подкреплением
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
423

Хотя люди могут гибко использовать интерактивное визуальное познание для решения сложных задач, обучение крупных моделей, работающих с визуальными и языковыми данными (LVLMs), аналогичным адаптивным поведением с использованием визуальных инструментов остается сложной задачей. Значительным препятствием является отсутствие стандартизированной инфраструктуры, что затрудняет интеграцию разнообразных инструментов, генерацию богатых данных взаимодействия и эффективное обучение устойчивых агентов. Для устранения этих пробелов мы представляем OpenThinkIMG — первую открытую, комплексную сквозную платформу для LVLMs, усиленных инструментами. Она включает стандартизированные интерфейсы для визуальных инструментов, масштабируемую генерацию траекторий для инициализации политик и гибкую среду обучения. Кроме того, учитывая, что контролируемая тонкая настройка (SFT) на статических демонстрациях ограничивает обобщение политик для динамического вызова инструментов, мы предлагаем новую платформу обучения с подкреплением (RL) V-ToolRL для обучения LVLMs адаптивным политикам вызова внешних визуальных инструментов. V-ToolRL позволяет LVLMs автономно находить оптимальные стратегии использования инструментов, напрямую оптимизируя успешность выполнения задач на основе обратной связи от взаимодействия с инструментами. Мы эмпирически подтверждаем эффективность V-ToolRL на сложных задачах анализа графиков. Наш агент, обученный с использованием RL на основе модели Qwen2-VL-2B, значительно превосходит своего аналога, инициализированного с помощью SFT (+28,83 балла), и опережает установленные контролируемые базовые подходы для обучения с инструментами, такие как Taco и CogCom, в среднем на +12,7 балла. Примечательно, что он также превосходит известные закрытые модели, такие как GPT-4.1, на +8,68 балла точности. Мы надеемся, что OpenThinkIMG станет основополагающей платформой для продвижения динамического визуального рассуждения с использованием инструментов, помогая сообществу разрабатывать ИИ-агентов, которые действительно могут "мыслить изображениями".

WorldPM: Масштабирование моделирования человеческих предпочтений
WorldPM: Scaling Human Preference Modeling

May 15, 2025
Binghai Wang, Runji Lin, Keming Lu, Le Yu, Zhenru Zhang, Fei Huang, Chujie Zheng, Kai Dang, Yang Fan, Xingzhang Ren, An Yang, Binyuan Hui, Dayiheng Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Bowen Yu, Jingren Zhou, Junyang Lin
332

Вдохновленные законами масштабирования в языковом моделировании, которые демонстрируют, как тестовая ошибка изменяется по степенному закону в зависимости от размеров модели и набора данных, мы обнаружили, что аналогичные законы существуют и в моделировании предпочтений. Мы предлагаем подход World Preference Modeling (WorldPM), чтобы подчеркнуть этот потенциал масштабирования, где World Preference представляет собой унифицированное представление человеческих предпочтений. В данной работе мы собираем данные о предпочтениях из публичных форумов, охватывающих различные пользовательские сообщества, и проводим масштабное обучение на данных объемом 15 миллионов примеров для моделей с количеством параметров от 1,5 миллиарда до 72 миллиардов. Мы наблюдаем различные закономерности в зависимости от используемых метрик оценки: (1) Адверсариальные метрики (способность выявлять обманчивые признаки) последовательно улучшаются с увеличением объема обучающих данных и размера базовой модели; (2) Объективные метрики (объективные знания с четко определенными ответами) демонстрируют эмерджентное поведение в более крупных языковых моделях, подчеркивая потенциал масштабируемости WorldPM; (3) Субъективные метрики (субъективные предпочтения, основанные на ограниченном числе людей или ИИ) не показывают тенденций к масштабированию. Дополнительные эксперименты подтверждают эффективность WorldPM в качестве основы для тонкой настройки предпочтений. В ходе оценки на 7 бенчмарках с 20 подзадачами мы обнаружили, что WorldPM значительно улучшает обобщающую производительность на наборах данных о человеческих предпочтениях различного размера (7 тысяч, 100 тысяч и 800 тысяч примеров), с приростом производительности более чем на 5% по многим ключевым подзадачам. Интеграция WorldPM в наш внутренний конвейер RLHF привела к значительным улучшениям как на внутренних, так и на публичных наборах для оценки, с заметным приростом от 4% до 8% в наших внутренних тестах.

Энциклопедия CoT: анализ, прогнозирование и управление процессом мышления модели рассуждений
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

May 15, 2025
Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo
252

Длинные цепочки рассуждений (CoT) являются важным элементом эффективного использования современных крупных языковых моделей, однако наше понимание стратегий рассуждений, лежащих в основе этих возможностей, остается ограниченным. Хотя некоторые предыдущие работы пытались классифицировать CoT с использованием заранее определенных типов стратегий, такие подходы ограничены человеческой интуицией и не способны охватить всё разнообразие поведения моделей. В данной работе мы представляем "Энциклопедию CoT" — фреймворк для анализа и управления рассуждениями моделей, построенный снизу вверх. Наш метод автоматически извлекает разнообразные критерии рассуждений из CoT, сгенерированных моделями, встраивает их в семантическое пространство, группирует в репрезентативные категории и выводит контрастные критерии для интерпретации поведения рассуждений. Человеческие оценки показывают, что этот фреймворк обеспечивает более интерпретируемый и всесторонний анализ по сравнению с существующими методами. Более того, мы демонстрируем, что такое понимание позволяет добиться улучшения производительности: мы можем предсказать, какую стратегию модель, вероятно, будет использовать, и направить её к более эффективным альтернативам. Наконец, мы предоставляем практические инсайты, например, что формат обучающих данных (например, свободный текст vs. множественный выбор) оказывает гораздо большее влияние на поведение рассуждений, чем предметная область данных, что подчеркивает важность проектирования моделей с учетом формата данных.

J1: Стимулирование мышления в LLM-как-судье с помощью обучения с подкреплением
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
222

Прогресс в области ИИ ограничен качеством оценки, и мощные модели LLM-as-a-Judge доказали свою эффективность как ключевое решение. Улучшенная способность к суждению достигается за счет более сильного цепочечного рассуждения, что подчеркивает необходимость поиска оптимальных подходов к обучению таких моделей мышлению. В данной работе мы представляем J1 — подход к обучению таких моделей с использованием обучения с подкреплением. Наш метод преобразует как проверяемые, так и непроверяемые запросы в задачи суждения с проверяемыми вознаграждениями, которые стимулируют мышление и снижают предвзятость суждений. В частности, наш подход превосходит все существующие модели размером 8B или 70B, включая модели, дистиллированные из DeepSeek-R1. J1 также превосходит o1-mini и даже R1 на некоторых тестах, несмотря на обучение модели меньшего размера. Мы проводим анализ и сравнение моделей Pairwise-J1 и Pointwise-J1, рецептов обучения в офлайн и онлайн режимах, стратегий вознаграждения, начальных запросов, а также вариаций длины и содержания рассуждений. Мы обнаруживаем, что наши модели принимают более качественные решения, обучаясь формулировать критерии оценки, сравнивать с самостоятельно сгенерированными эталонными ответами и переоценивать корректность ответов модели.

EnerVerse-AC: Визуализация воплощённых сред с условиями действий
EnerVerse-AC: Envisioning Embodied Environments with Action Condition

May 14, 2025
Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
222

Роботизированное обучение с подражанием продвинулось от решения статических задач к обработке динамических сценариев взаимодействия, однако тестирование и оценка остаются дорогостоящими и сложными из-за необходимости взаимодействия в реальном времени с динамическими средами. Мы предлагаем EnerVerse-AC (EVAC) — условную модель мира, которая генерирует будущие визуальные наблюдения на основе предсказанных действий агента, обеспечивая реалистичный и управляемый вывод для роботов. Развивая предыдущие архитектуры, EVAC вводит многоуровневый механизм условного действия и кодирование лучевых карт для генерации динамических изображений с нескольких ракурсов, одновременно расширяя обучающие данные с помощью разнообразных траекторий сбоев для улучшения обобщения. Выступая как в роли генератора данных, так и в роли оценщика, EVAC дополняет траектории, собранные человеком, в разнообразные наборы данных и создает реалистичные видеонаблюдения, зависящие от действий, для тестирования политик, устраняя необходимость в физических роботах или сложных симуляциях. Этот подход значительно снижает затраты, сохраняя при этом высокую точность в оценке манипуляций роботов. Многочисленные эксперименты подтверждают эффективность нашего метода. Код, контрольные точки и наборы данных доступны по адресу <https://annaj2178.github.io/EnerverseAC.github.io>.

Тонкая настройка сквозного токенизатора для компьютерного зрения
End-to-End Vision Tokenizer Tuning

May 15, 2025
Wenxuan Wang, Fan Zhang, Yufeng Cui, Haiwen Diao, Zhuoyan Luo, Huchuan Lu, Jing Liu, Xinlong Wang
213

Существующие подходы к токенизации изображений изолируют оптимизацию визуальных токенизаторов от последующего обучения, неявно предполагая, что визуальные токены могут хорошо обобщаться для различных задач, таких как генерация изображений и визуальное ответы на вопросы. Токенизатор, оптимизированный для низкоуровневой реконструкции, не учитывает специфику задач, требующих различных представлений и семантики. Такой разобщённый подход приводит к критическому несоответствию: потери при токенизации могут стать узким местом для представления в целевых задачах. Например, ошибки в токенизации текста на изображении приводят к плохим результатам при его распознавании или генерации. Чтобы решить эту проблему, мы предлагаем ETT — подход к настройке визуального токенизатора, который позволяет совместно оптимизировать токенизацию изображений и целевые авторегрессионные задачи. В отличие от предыдущих авторегрессионных моделей, использующих только дискретные индексы из замороженного токенизатора, ETT использует визуальные эмбеддинги из кодовой книги токенизатора и оптимизирует токенизаторы изображений сквозным образом, учитывая как цели реконструкции, так и генерации подписей. ETT может быть легко интегрирован в существующие конвейеры обучения с минимальными изменениями архитектуры. Наш подход прост в реализации и интеграции, не требуя изменения исходных кодовых книг или архитектур используемых больших языковых моделей. Многочисленные эксперименты демонстрируют, что предложенная сквозная настройка визуального токенизатора обеспечивает значительный прирост производительности, например, на 2-6% для задач мультимодального понимания и визуальной генерации по сравнению с базовыми подходами с замороженным токенизатором, при этом сохраняя исходную способность к реконструкции. Мы надеемся, что этот простой и эффективный метод сможет расширить возможности мультимодальных базовых моделей за пределы генерации и понимания изображений.

EWMBench: Оценка качества сцены, движения и семантики в воплощённых моделях мира
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models

May 14, 2025
Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren
182

Последние достижения в области креативного ИИ позволили синтезировать высококачественные изображения и видео на основе языковых инструкций. Развивая эти технологии, модели диффузии для преобразования текста в видео эволюционировали в воплощённые мировые модели (Embodied World Models, EWMs), способные генерировать физически правдоподобные сцены из языковых команд, эффективно связывая зрение и действие в приложениях воплощённого ИИ. Данная работа решает важную задачу оценки EWMs за пределами общих перцептивных метрик, чтобы обеспечить генерацию физически обоснованных и согласованных с действиями поведений. Мы предлагаем Embodied World Model Benchmark (EWMBench) — специализированную структуру, предназначенную для оценки EWMs по трём ключевым аспектам: согласованность визуальной сцены, корректность движения и семантическое соответствие. Наш подход использует тщательно отобранный набор данных, охватывающий разнообразные сцены и паттерны движения, а также комплексный многомерный инструментарий оценки для анализа и сравнения моделей. Предложенный бенчмарк не только выявляет ограничения существующих моделей генерации видео в удовлетворении уникальных требований воплощённых задач, но и предоставляет ценные инсайты для направления будущих разработок в этой области. Набор данных и инструменты оценки доступны публично по адресу https://github.com/AgibotTech/EWMBench.

MLE-Dojo: Интерактивные среды для расширения возможностей агентов на основе больших языковых моделей в области инженерии машинного обучения
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
172

Мы представляем MLE-Dojo, фреймворк в стиле Gym для систематического обучения с подкреплением, оценки и улучшения автономных агентов на основе больших языковых моделей (LLM) в итеративных процессах машинного обучения (MLE). В отличие от существующих бенчмарков, которые в основном полагаются на статические наборы данных или одноразовые оценки, MLE-Dojo предоставляет интерактивную среду, позволяющую агентам итеративно экспериментировать, отлаживать и совершенствовать решения через структурированные циклы обратной связи. Построенный на основе более 200 реальных задач Kaggle, MLE-Dojo охватывает разнообразные, открытые задачи MLE, тщательно отобранные для отражения реалистичных инженерных сценариев, таких как обработка данных, поиск архитектур, настройка гиперпараметров и отладка кода. Его полностью исполняемая среда поддерживает всестороннее обучение агентов как через тонкую настройку с учителем, так и через обучение с подкреплением, способствуя итеративному экспериментированию, реалистичному выбору данных и проверке результатов в реальном времени. Обширные оценки восьми передовых LLM показывают, что, хотя текущие модели достигают значимых итеративных улучшений, они всё ещё демонстрируют существенные ограничения в автономной генерации долгосрочных решений и эффективном устранении сложных ошибок. Кроме того, гибкая и расширяемая архитектура MLE-Dojo бесшовно интегрирует разнообразные источники данных, инструменты и протоколы оценки, уникально обеспечивая настройку агентов на основе моделей и способствуя взаимодействию, масштабируемости и воспроизводимости. Мы открываем исходный код нашего фреймворка и бенчмарков для стимулирования инноваций, направленных на создание агентов MLE следующего поколения.

Unilogit: Робастное машинное «забывание» для крупных языковых моделей с использованием само-дистилляции с равномерной целью
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

May 9, 2025
Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
172

В данной статье представлен Unilogit — новый метод самообучения для машинного «забывания» в крупных языковых моделях. Unilogit решает задачу избирательного удаления конкретной информации при сохранении общей полезности модели, что является критически важным для соблюдения нормативов защиты данных, таких как GDPR. В отличие от предыдущих методов, которые полагаются на статические гиперпараметры или начальные выходные данные модели, Unilogit динамически корректирует целевые логиты для достижения равномерной вероятности целевого токена, используя текущие выходные данные модели для более точных целей самообучения. Этот подход не только устраняет необходимость в дополнительных гиперпараметрах, но и улучшает способность модели приближаться к идеальным целям. Многочисленные эксперименты на публичных бенчмарках и внутреннем наборе данных электронной коммерции демонстрируют превосходство Unilogit в балансировании задач забывания и сохранения, превосходя современные методы, такие как NPO и UnDIAL. Наш анализ также выявляет устойчивость Unilogit в различных сценариях, подчеркивая его практическую применимость и эффективность в достижении результативного машинного «забывания».

Настройка стиля в генерации текста в вектор с использованием априорных знаний о диффузии изображений
Style Customization of Text-to-Vector Generation with Image Diffusion Priors

May 15, 2025
Peiying Zhang, Nanxuan Zhao, Jing Liao
153

Масштабируемая векторная графика (SVG) пользуется большой популярностью среди дизайнеров благодаря своей независимости от разрешения и хорошо организованной структуре слоев. Хотя существующие методы генерации текста в вектор (T2V) позволяют создавать SVG на основе текстовых запросов, они часто упускают важную потребность в практических приложениях: настройку стиля, которая крайне важна для создания коллекции векторной графики с единообразным визуальным видом и согласованной эстетикой. Расширение существующих методов T2V для настройки стиля сопряжено с определенными трудностями. Оптимизационные модели T2V могут использовать априорные данные моделей текста в изображение (T2I) для настройки, но сталкиваются с проблемами в поддержании структурной регулярности. С другой стороны, прямые (feed-forward) модели T2V способны обеспечить структурную регулярность, однако испытывают сложности в разделении содержания и стиля из-за ограниченного объема данных для обучения SVG. Для решения этих задач мы предлагаем новый двухэтапный конвейер настройки стиля для генерации SVG, объединяющий преимущества как прямых моделей T2V, так и априорных данных T2I. На первом этапе мы обучаем диффузионную модель T2V с представлением на уровне путей, чтобы обеспечить структурную регулярность SVG, сохраняя при этом разнообразие выразительных возможностей. На втором этапе мы настраиваем диффузионную модель T2V на различные стили путем дистилляции настроенных моделей T2I. Интегрируя эти методы, наш конвейер позволяет генерировать высококачественные и разнообразные SVG в пользовательских стилях на основе текстовых запросов в эффективном прямом режиме. Эффективность нашего метода подтверждена обширными экспериментами. Страница проекта доступна по адресу: https://customsvg.github.io.

Глубина Anything с любым априорным знанием
Depth Anything with Any Prior

May 15, 2025
Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
112

В данной работе представлен Prior Depth Anything – фреймворк, который объединяет неполную, но точную метрическую информацию в измерениях глубины с относительными, но полными геометрическими структурами в предсказании глубины, генерируя точные, плотные и детализированные метрические карты глубины для любой сцены. Для этого мы разработали поэтапный подход от грубого к точному, чтобы постепенно интегрировать два комплементарных источника данных о глубине. Во-первых, мы вводим пиксельную метрическую выравнивание и взвешивание с учетом расстояния для предварительного заполнения разнообразных метрических приоритетов, явно используя предсказание глубины. Это эффективно сокращает разрыв между доменами приоритетных паттернов, улучшая обобщение для различных сценариев. Во-вторых, мы разработали условную модель монохромного оценивания глубины (MDE) для уточнения внутреннего шума приоритетов глубины. Условившись на нормализованных предварительно заполненных приоритетах и предсказаниях, модель дополнительно неявно объединяет два комплементарных источника данных о глубине. Наша модель демонстрирует впечатляющее обобщение с нулевым обучением (zero-shot) в задачах завершения глубины, супер-разрешения и восстановления на 7 реальных наборах данных, соответствуя или даже превосходя предыдущие методы, специализированные для конкретных задач. Более того, она хорошо справляется с сложными, ранее не встречавшимися смешанными приоритетами и позволяет улучшать результаты во время тестирования путем переключения моделей предсказания, обеспечивая гибкий компромисс между точностью и эффективностью, одновременно развиваясь с прогрессом в моделях MDE.

PointArena: Исследование мультимодальной привязки через указание, управляемое языком
PointArena: Probing Multimodal Grounding Through Language-Guided Pointing

May 15, 2025
Long Cheng, Jiafei Duan, Yi Ru Wang, Haoquan Fang, Boyang Li, Yushan Huang, Elvis Wang, Ainaz Eftekhar, Jason Lee, Wentao Yuan, Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox, Ranjay Krishna
112

Указание служит фундаментальным и интуитивно понятным механизмом для привязки языка к визуальным контекстам, с приложениями в робототехнике, вспомогательных технологиях и интерактивных системах с искусственным интеллектом. Хотя современные мультимодальные модели начали поддерживать возможности указания, существующие бенчмарки обычно сосредоточены только на задачах локализации референтных объектов. Мы представляем PointArena — комплексную платформу для оценки мультимодального указания в разнообразных сценариях рассуждений. PointArena состоит из трех компонентов: (1) Point-Bench, тщательно отобранный набор данных, содержащий около 1000 задач на указание в пяти категориях рассуждений; (2) Point-Battle, интерактивная веб-арена, облегчающая слепые попарные сравнения моделей, которая уже собрала более 4500 анонимных голосов; и (3) Point-Act, система манипуляции в реальном мире, позволяющая пользователям напрямую оценивать возможности мультимодальных моделей в практических условиях. Мы провели обширные оценки как передовых открытых, так и проприетарных мультимодальных моделей. Результаты показывают, что Molmo-72B стабильно превосходит другие модели, хотя проприетарные модели все чаще демонстрируют сопоставимую производительность. Кроме того, мы обнаружили, что обучение с учителем, специально нацеленное на задачи указания, значительно улучшает производительность моделей. На всех этапах нашей многоуровневой системы оценки мы также наблюдаем сильные корреляции, подчеркивая критическую роль точных возможностей указания в том, чтобы мультимодальные модели могли эффективно связывать абстрактные рассуждения с конкретными действиями в реальном мире. Страница проекта: https://pointarena.github.io/

ИИ-агенты и агентный ИИ: концептуальная таксономия, приложения и вызовы
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenge

May 15, 2025
Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee
92

В данном исследовании проводится критическое разграничение между ИИ-агентами и агентным ИИ, предлагается структурированная концептуальная таксономия, карта применения и анализ проблем для уточнения их различных философий проектирования и возможностей. Мы начинаем с описания стратегии поиска и базовых определений, характеризуя ИИ-агентов как модульные системы, управляемые крупными языковыми моделями (LLM) и крупными моделями изображений (LIM) для узкоспециализированной автоматизации задач. Генеративный ИИ рассматривается как предшественник, а ИИ-агенты развиваются за счет интеграции инструментов, инженерии промптов и улучшений в области рассуждений. В отличие от этого, системы агентного ИИ представляют собой парадигмальный сдвиг, характеризующийся многоагентным взаимодействием, динамической декомпозицией задач, устойчивой памятью и оркестрированной автономией. Последовательно оценивая эволюцию архитектуры, операционные механизмы, стили взаимодействия и уровни автономии, мы представляем сравнительный анализ обеих парадигм. Области применения, такие как поддержка клиентов, планирование и обобщение данных, противопоставляются внедрению агентного ИИ в автоматизацию исследований, координацию роботов и поддержку медицинских решений. Мы также исследуем уникальные проблемы каждой парадигмы, включая галлюцинации, хрупкость, возникающее поведение и сбои в координации, и предлагаем целевые решения, такие как ReAct-циклы, RAG, слои оркестрации и причинное моделирование. Эта работа направлена на создание четкого плана разработки устойчивых, масштабируемых и объяснимых систем на основе ИИ-агентов и агентного ИИ. >ИИ-агенты, агентно-ориентированный, модели "визуальный язык", системы поддержки решений на основе агентного ИИ, приложения агентного ИИ.

Исследование глубокого слияния крупных языковых моделей и диффузионных трансформаторов для синтеза изображений по тексту
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

May 15, 2025
Bingda Tang, Boyang Zheng, Xichen Pan, Sayak Paul, Saining Xie
92

В данной статье не представлен новый метод; вместо этого она предлагает глубокое исследование важного, но недостаточно изученного пространства проектирования, связанного с последними достижениями в области синтеза изображений на основе текста — а именно, глубокого объединения больших языковых моделей (LLM) и диффузионных трансформеров (DiT) для мультимодальной генерации. Предыдущие исследования в основном сосредотачивались на общей производительности системы, а не на детальных сравнениях с альтернативными методами, при этом ключевые аспекты проектирования и рецепты обучения часто оставались нераскрытыми. Эти пробелы создают неопределенность в отношении реального потенциала данного подхода. Чтобы восполнить эти пробелы, мы проводим эмпирическое исследование генерации изображений на основе текста, выполняя контролируемые сравнения с установленными базовыми методами, анализируя важные проектные решения и предоставляя четкий, воспроизводимый рецепт для масштабного обучения. Мы надеемся, что эта работа предложит значимые данные и практические рекомендации для будущих исследований в области мультимодальной генерации.

Достижение гибкости токенизатора в языковых моделях посредством эвристической адаптации и обучения супертокенов
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

May 14, 2025
Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
92

Предобученные языковые модели (LLM) часто ограничены своими фиксированными схемами токенизации, что приводит к неэффективности и ограничениям в производительности, особенно для многоязычных или специализированных приложений. Эта "зависимость от токенизатора" создает значительные трудности. Стандартные методы для преодоления этого часто требуют непомерных вычислительных ресурсов. Хотя замена токенизатора с эвристической инициализацией направлена на снижение этой нагрузки, существующие методы часто требуют исчерпывающей остаточной тонкой настройки и все же могут не полностью сохранять семантические нюансы или адекватно устранять лежащие в основе неэффективности сжатия. Наш фреймворк представляет два нововведения: во-первых, TokenAdapt, метод трансплантации токенизатора, не зависящий от модели, и, во-вторых, новое предварительное обучение токенизации для многословных Супертокенов, чтобы улучшить сжатие и уменьшить фрагментацию. TokenAdapt инициализирует новые уникальные токеновые эмбеддинги с помощью гибридной эвристики, которая сочетает два метода: локальную оценку, основанную на декомпозиции подслов с использованием старого токенизатора, и глобальную оценку, использующую топ-k семантически схожих токенов из исходного словаря. Эта методология направлена на сохранение семантики при значительном минимизации требований к повторному обучению. Эмпирические исследования подтверждают оба вклада: эвристика трансплантации успешно инициализирует уникальные токены, значительно превосходя традиционные базовые методы и сложные подходы, включая TransTokenizer и ReTok, в то время как наши Супертокены достигают заметных улучшений в сжатии. Наши результаты по нулевому перплексу демонстрируют, что гибридная инициализация TokenAdapt последовательно обеспечивает более низкие коэффициенты перплекса по сравнению с базовыми методами ReTok и TransTokenizer для различных базовых моделей и новых целевых токенизаторов. TokenAdapt обычно значительно снижал общий коэффициент перплекса по сравнению с ReTok, обеспечивая как минимум двукратное улучшение в этих совокупных показателях.

ReSurgSAM2: Сегментация объектов в хирургическом видео с использованием достоверного долгосрочного отслеживания
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
92

Сегментация хирургической сцены является критически важной задачей в компьютерно-ассистированной хирургии и играет ключевую роль в повышении качества операций и улучшении результатов лечения пациентов. В последнее время набирает популярность сегментация с использованием текстовых указаний, благодаря своей способности предоставлять хирургам интерактивный опыт для выделения целевого объекта. Однако существующие методы ограничены низкой эффективностью и краткосрочным отслеживанием, что затрудняет их применение в сложных реальных хирургических сценариях. В данной работе мы представляем ReSurgSAM2 — двухэтапную структуру для сегментации с текстовыми указаниями, которая использует модель Segment Anything Model 2 для обнаружения цели на основе текстового запроса с последующим отслеживанием, основанным на надежной идентификации начального кадра и долгосрочной памяти, управляемой разнообразием. На этапе обнаружения мы предлагаем кросс-модальную пространственно-временную Mamba для генерации точных результатов обнаружения и сегментации. На основе этих результатов наша стратегия выбора надежного начального кадра определяет подходящий кадр для последующего отслеживания. После выбора начального кадра наш метод переходит к этапу отслеживания, где используется механизм памяти, управляемый разнообразием, который поддерживает надежный и разнообразный банк памяти, обеспечивая стабильное долгосрочное отслеживание. Многочисленные эксперименты демонстрируют, что ReSurgSAM2 достигает значительного улучшения точности и эффективности по сравнению с существующими методами, работая в реальном времени со скоростью 61,2 кадра в секунду. Наш код и наборы данных будут доступны по адресу https://github.com/jinlab-imvr/ReSurgSAM2.

3D-Fixup: Усовершенствование редактирования фотографий с использованием 3D-приоритетов
3D-Fixup: Advancing Photo Editing with 3D Priors

May 15, 2025
Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
72

Несмотря на значительные успехи в моделировании априорных знаний об изображениях с помощью диффузионных моделей, редактирование изображений с учетом 3D-аспектов остается сложной задачей, отчасти потому, что объект задается только одним изображением. Для решения этой проблемы мы предлагаем 3D-Fixup — новый фреймворк для редактирования 2D-изображений с использованием обученных 3D-априорных знаний. Этот фреймворк поддерживает сложные сценарии редактирования, такие как перемещение объекта и 3D-вращение. Для достижения этого мы используем подход, основанный на обучении, который задействует генеративные возможности диффузионных моделей. Поскольку видеоданные естественным образом кодируют физическую динамику реального мира, мы обращаемся к видеоданным для создания обучающих пар, то есть исходного и целевого кадров. Вместо того чтобы полагаться исключительно на одну обученную модель для вывода преобразований между исходным и целевым кадрами, мы включаем 3D-ориентиры из модели Image-to-3D, которая решает эту сложную задачу, явно проецируя 2D-информацию в 3D-пространство. Мы разрабатываем конвейер генерации данных, чтобы обеспечить высококачественные 3D-ориентиры на протяжении всего обучения. Результаты показывают, что, интегрируя эти 3D-априорные знания, 3D-Fixup эффективно поддерживает сложные, согласованные с идентичностью 3D-редактирования, достигая высококачественных результатов и продвигая применение диффузионных моделей в реалистичной манипуляции изображениями. Код доступен по адресу https://3dfixup.github.io/.

QuXAI: Интерпретаторы для гибридных моделей квантового машинного обучения
QuXAI: Explainers for Hybrid Quantum Machine Learning Models

May 15, 2025
Saikat Barua, Mostafizur Rahman, Shehenaz Khaled, Md Jafor Sadek, Rafiul Islam, Shahnewaz Siddique
73

Появление гибридных квантово-классических моделей машинного обучения (HQML) открывает новые горизонты вычислительного интеллекта, однако их фундаментальная сложность часто приводит к поведению "черного ящика", что подрывает прозрачность и надежность их применения. Хотя объяснимый искусственный интеллект (XAI) для квантовых систем находится в зачаточном состоянии, очевиден значительный пробел в исследованиях, связанных с разработкой надежных глобальных и локальных подходов к объяснимости, предназначенных для архитектур HQML, которые используют квантованное кодирование признаков с последующим классическим обучением. Этот пробел является фокусом данной работы, которая представляет QuXAI — фреймворк, основанный на Q-MEDLEY, инструменте для объяснения важности признаков в таких гибридных системах. Наша модель включает создание HQML-моделей с использованием квантовых карт признаков, применение Q-MEDLEY, который объединяет выводы на основе признаков, сохраняет этап квантового преобразования и визуализирует полученные атрибуции. Наши результаты показывают, что Q-MEDLEY выделяет влиятельные классические аспекты в HQML-моделях, а также отделяет их шум и успешно конкурирует с устоявшимися методами XAI в классических условиях валидации. Исследования с использованием метода абляции более явно демонстрируют преимущества композитной структуры, используемой в Q-MEDLEY. Значение этой работы крайне важно, так как она предоставляет путь к улучшению интерпретируемости и надежности HQML-моделей, способствуя повышению уверенности и возможности более безопасного и ответственного использования квантово-усиленных технологий искусственного интеллекта.

AdaptCLIP: Адаптация CLIP для универсального обнаружения визуальных аномалий
AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
64

Универсальное обнаружение визуальных аномалий направлено на выявление аномалий в новых или неизвестных визуальных доменах без дополнительной тонкой настройки, что критически важно в открытых сценариях. Недавние исследования показали, что предварительно обученные модели, такие как CLIP, демонстрируют сильную обобщающую способность даже при наличии нулевого или небольшого количества нормальных изображений. Однако существующие методы сталкиваются с трудностями при проектировании шаблонов запросов, сложных взаимодействий токенов или требуют дополнительной тонкой настройки, что ограничивает их гибкость. В данной работе мы представляем простой, но эффективный метод под названием AdaptCLIP, основанный на двух ключевых идеях. Во-первых, адаптивные визуальные и текстовые представления должны изучаться поочередно, а не совместно. Во-вторых, сравнительное обучение между запросом и подсказкой нормального изображения должно учитывать как контекстные, так и выровненные остаточные признаки, а не полагаться исключительно на остаточные признаки. AdaptCLIP рассматривает модели CLIP как базовый сервис, добавляя только три простых адаптера — визуальный адаптер, текстовый адаптер и адаптер запроса-подсказки — на входных или выходных концах. AdaptCLIP поддерживает обобщение в условиях нулевого/малочисленного обучения в различных доменах и обладает способностью работать без дополнительного обучения на целевых доменах после обучения на базовом наборе данных. AdaptCLIP достигает наилучших результатов на 12 эталонных тестах по обнаружению аномалий в промышленных и медицинских доменах, значительно превосходя существующие конкурентоспособные методы. Мы сделаем код и модель AdaptCLIP доступными по адресу https://github.com/gaobb/AdaptCLIP.

Real2Render2Real: Масштабирование данных для роботов без использования симуляции динамики или роботизированного оборудования
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

May 14, 2025
Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
52

Масштабирование обучения роботов требует обширных и разнообразных наборов данных. Однако преобладающий подход к сбору данных — телеоперация человеком — остается дорогостоящим и ограниченным ручным трудом и доступом к физическим роботам. Мы представляем Real2Render2Real (R2R2R), новый подход для генерации данных для обучения роботов, который не полагается на симуляцию динамики объектов или телеоперацию роботизированного оборудования. Входными данными являются сканирование одного или нескольких объектов, выполненное с помощью смартфона, и одно видео с демонстрацией человека. R2R2R создает тысячи высококачественных, независимых от робота демонстраций, восстанавливая детальную 3D-геометрию и внешний вид объектов, а также отслеживая 6-степенную свободу движения объектов. R2R2R использует 3D Gaussian Splatting (3DGS) для гибкой генерации ресурсов и синтеза траекторий как для жестких, так и для шарнирных объектов, преобразуя эти представления в сетки для обеспечения совместимости с масштабируемыми движками рендеринга, такими как IsaacLab, но с отключенным моделированием столкновений. Данные демонстраций роботов, сгенерированные R2R2R, напрямую интегрируются с моделями, которые работают с проприоцептивными состояниями роботов и визуальными наблюдениями, такими как модели "визуальный язык-действие" (VLA) и политики обучения с подражанием. Физические эксперименты показывают, что модели, обученные на данных R2R2R, полученных из одной демонстрации человека, могут соответствовать производительности моделей, обученных на 150 демонстрациях с телеоперацией человеком. Страница проекта: https://real2render2real.com

Обучение обнаружению многоклассовых аномалий с использованием всего одного нормального изображения
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14, 2025
Bin-Bin Gao
52

Нейронные сети для неконтролируемого восстановления, использующие трансформеры с механизмом самовнимания, достигли наилучших результатов в задачах многоклассового (унифицированного) обнаружения аномалий с использованием одной модели. Однако эти модели восстановления с самовниманием в основном работают с целевыми признаками, что может приводить к идеальному восстановлению как нормальных, так и аномальных признаков из-за высокой согласованности с контекстом, что, в свою очередь, затрудняет обнаружение аномалий. Кроме того, такие модели часто дают неточную сегментацию аномалий из-за выполнения восстановления в пространстве скрытых признаков с низким пространственным разрешением. Чтобы повысить эффективность моделей восстановления и улучшить их обобщающую способность для унифицированного обнаружения аномалий, мы предлагаем простой, но эффективный метод, который восстанавливает нормальные признаки и восстанавливает аномальные признаки с использованием всего одного нормального изображения в качестве подсказки (One Normal Image Prompt, OneNIP). В отличие от предыдущих работ, OneNIP впервые позволяет восстанавливать или исправлять аномалии с использованием всего одного нормального изображения, что значительно повышает производительность унифицированного обнаружения аномалий. Кроме того, мы предлагаем контролируемый уточняющий модуль, который регрессирует ошибки восстановления, используя как реальные нормальные, так и синтезированные аномальные изображения, что существенно улучшает сегментацию аномалий на уровне пикселей. OneNIP превосходит предыдущие методы на трех промышленных бенчмарках для обнаружения аномалий: MVTec, BTAD и VisA. Код и предобученные модели доступны по адресу https://github.com/gaobb/OneNIP.

MetaUAS: Универсальная сегментация аномалий с метаобучением на основе одного промпта
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

May 14, 2025
Bin-Bin Gao
42

Сегментация визуальных аномалий в условиях нулевого и малого числа примеров опирается на мощные модели, объединяющие зрение и язык, которые обнаруживают неизвестные аномалии с помощью вручную разработанных текстовых запросов. Однако визуальные представления по своей природе независимы от языка. В данной работе мы исследуем потенциал чисто визуальной базовой модели в качестве альтернативы широко используемым моделям, объединяющим зрение и язык, для универсальной сегментации визуальных аномалий. Мы представляем новую парадигму, которая объединяет сегментацию аномалий в сегментацию изменений. Эта парадигма позволяет нам использовать крупномасштабные синтетические пары изображений, содержащие изменения на уровне объектов и локальных областей, полученные из существующих наборов данных изображений, которые независимы от целевых наборов данных аномалий. Мы предлагаем фреймворк метаобучения с одним запросом для универсальной сегментации аномалий (MetaUAS), который обучается на этом синтетическом наборе данных и затем успешно обобщается для сегментации любых новых или неизвестных визуальных аномалий в реальном мире. Для обработки геометрических вариаций между изображениями запроса и подсказки мы предлагаем модуль мягкого выравнивания признаков, который связывает восприятие изменений на парных изображениях и семантическую сегментацию на одиночных изображениях. Это первая работа, которая достигает универсальной сегментации аномалий с использованием чисто визуальной модели без опоры на специальные наборы данных для обнаружения аномалий и предварительно обученные модели, объединяющие зрение и язык. Наш метод эффективно и результативно сегментирует любые аномалии с использованием всего одного изображения-подсказки нормального состояния и не требует обучения без руководства со стороны языка. Наш MetaUAS значительно превосходит предыдущие методы сегментации аномалий с нулевым, малым и даже полным числом примеров. Код и предварительно обученные модели доступны по адресу https://github.com/gaobb/MetaUAS.

Генерация на основе аномалий с использованием малого числа примеров для классификации и сегментации аномалий
Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation

May 14, 2025
Guan Gui, Bin-Bin Gao, Jun Liu, Chengjie Wang, Yunsheng Wu
42

Обнаружение аномалий является практичной, но сложной задачей из-за редкости аномальных образцов в промышленной инспекции. Некоторые существующие методы обнаружения аномалий решают эту проблему путем синтеза аномалий с использованием шума или внешних данных. Однако между синтетическими и реальными аномалиями всегда существует значительный семантический разрыв, что приводит к слабой производительности в обнаружении аномалий. Для решения этой проблемы мы предлагаем метод генерации, управляемой аномалиями (AnoGen), который использует всего несколько реальных аномалий для генерации реалистичных и разнообразных аномалий с помощью диффузионной модели, что способствует обучению моделей обнаружения аномалий. Наша работа разделена на три этапа. На первом этапе мы изучаем распределение аномалий на основе нескольких предоставленных реальных аномалий и внедряем полученные знания в эмбеддинг. На втором этапе мы используем этот эмбеддинг и заданные ограничивающие рамки для управления диффузионной моделью с целью генерации реалистичных и разнообразных аномалий на конкретных объектах (или текстурах). На заключительном этапе мы предлагаем слабо контролируемый метод обнаружения аномалий для обучения более мощной модели с использованием сгенерированных аномалий. Наш метод основан на моделях DRAEM и DesTSeg и проводит эксперименты на широко используемом наборе данных для промышленного обнаружения аномалий, MVTec. Эксперименты показывают, что сгенерированные аномалии эффективно улучшают производительность модели как в задачах классификации, так и в задачах сегментации аномалий. Например, DRAEM и DesTSeg достигли улучшения на 5,8% и 1,5% соответственно по метрике AU-PR в задаче сегментации. Код и сгенерированные аномальные данные доступны по адресу https://github.com/gaobb/AnoGen.

X-Sim: Межматериальное обучение через подход "реальное-к-симуляции-к-реальному"
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
42

Видеозаписи действий человека предоставляют масштабируемый способ обучения политик манипуляции роботов, однако в них отсутствуют метки действий, необходимые для стандартных алгоритмов обучения с подражанием. Существующие подходы, основанные на кросс-эмбодименте, пытаются сопоставить движения человека с действиями робота, но часто терпят неудачу, когда эмбодименты значительно различаются. Мы предлагаем X-Sim — фреймворк "реальность-симуляция-реальность", который использует движение объектов как плотный и переносимый сигнал для обучения политик роботов. X-Sim начинается с реконструкции фотореалистичной симуляции из RGBD-видео человека и отслеживания траекторий объектов для определения объектно-ориентированных вознаграждений. Эти вознаграждения используются для обучения политики с подкреплением (RL) в симуляции. Затем обученная политика преобразуется в диффузионную политику, зависящую от изображений, с использованием синтетических прогонов, отрендеренных с различных точек зрения и освещения. Для переноса в реальный мир X-Sim вводит технику онлайн-адаптации домена, которая выравнивает реальные и симулированные наблюдения во время выполнения задач. Важно отметить, что X-Sim не требует данных телеоперации роботов. Мы оцениваем его на 5 задачах манипуляции в 2 средах и показываем, что он: (1) улучшает прогресс выполнения задач в среднем на 30% по сравнению с базовыми методами отслеживания рук и "симуляция-реальность", (2) соответствует обучению с подражанием при 10-кратном сокращении времени сбора данных и (3) обобщается на новые точки зрения камеры и изменения во время тестирования. Код и видео доступны по адресу https://portal-cornell.github.io/X-Sim/.

May 15
May 16
May 19