Ежедневно отобранные исследовательские статьи по ИИ с переводами
Каноническое отображение поверхности обобщает обнаружение ключевых точек, назначая каждому пикселю объекта соответствующую точку в 3D шаблоне. Популяризированное с помощью DensePose для анализа людей, авторы впоследствии пытались применить концепцию к более широкому спектру категорий, однако с ограниченным успехом из-за высокой стоимости ручного наблюдения. В данной работе мы представляем SHIC, метод для обучения канонических карт без ручного наблюдения, который достигает лучших результатов, чем методы с учителем для большинства категорий. Наша идея заключается в использовании базовых моделей компьютерного зрения, таких как DINO и Stable Diffusion, которые являются открытыми и обладают отличными априорными знаниями о естественных категориях. SHIC сводит задачу оценки соответствий изображение-шаблон к предсказанию соответствий изображение-изображение с использованием признаков из базовых моделей. Сводка работает путем сопоставления изображений объекта с непофотографическими рендерами шаблона, что имитирует процесс сбора ручных аннотаций для этой задачи. Эти соответствия затем используются для наблюдения за высококачественными каноническими картами для любого интересующего объекта. Мы также показываем, что генераторы изображений могут дополнительно улучшить реализм видов шаблона, что предоставляет дополнительный источник наблюдения для модели.
Автономные агенты, которые занимаются повседневными цифровыми задачами (например, заказ продуктов для домашнего хозяйства), должны не только работать с несколькими приложениями (например, заметки, обмен сообщениями, приложение для покупок) через API, но и генерировать сложный код с комплексным управлением в итеративном режиме на основе их взаимодействия с окружающей средой. Однако существующие бенчмарки для использования инструментов недостаточны, поскольку они охватывают только задачи, требующие простой последовательности вызовов API. Для устранения этого пробела мы создали AppWorld Engine - высококачественную среду выполнения (60 тыс. строк кода) из 9 повседневных приложений, управляемых через 457 API и заполненных реалистичными цифровыми активностями, имитирующими жизнь ~100 вымышленных пользователей. Затем мы создали AppWorld Benchmark (40 тыс. строк кода) - набор из 750 естественных, разнообразных и сложных задач для автономных агентов, требующих генерации богатого и интерактивного кода. Он поддерживает надежное программное оценивание с использованием модульных тестов на основе состояния, позволяя различные способы выполнения задачи, а также проверку на неожиданные изменения, т.е. побочный ущерб. Современная модель LLM, GPT-4o, решает только ~49% наших 'обычных' задач и ~30% 'сложных' задач, в то время как другие модели решают как минимум на 16% меньше. Это подчеркивает сложность бенчмарка и потенциал AppWorld для продвижения границ интерактивных кодирующих агентов. Веб-сайт проекта доступен по адресу https://appworld.dev/.
Мы предлагаем Wolf, Фреймворк суммаризации WOrLd для точной подписи видео. Wolf - это автоматизированный фреймворк подписи, который принимает подход смешанных экспертов, используя дополняющие друг друга преимущества моделей Визуального Языка (VLMs). Используя как модели изображений, так и видео, наш фреймворк захватывает разные уровни информации и эффективно их суммирует. Наш подход может быть применен для улучшения понимания видео, авто-разметки и подписывания. Для оценки качества подписей мы представляем CapScore, метрику на основе LLM для оценки сходства и качества сгенерированных подписей по сравнению с подписями истинного значения. Мы также создаем четыре набора данных с аннотациями людей в трех областях: автономное вождение, общие сцены и робототехника, чтобы облегчить всесторонние сравнения. Мы показываем, что Wolf достигает превосходной производительности подписывания по сравнению с передовыми подходами из исследовательского сообщества (VILA1.5, CogAgent) и коммерческими решениями (Gemini-Pro-1.5, GPT-4V). Например, в сравнении с GPT-4V, Wolf улучшает CapScore как по качеству на 55.6%, так и по сходству на 77.4% на сложных видео с вождением. Наконец, мы устанавливаем стандарт для подписывания видео и представляем таблицу лидеров, с целью ускорить прогресс в понимании видео, подписывании и выравнивании данных. Таблица лидеров: https://wolfv0.github.io/leaderboard.html.
Мы представляем систематические усилия по созданию модели представления многоязычного текста с длинным контекстом (TRM) и переранжировщика с нуля для поиска текста. Сначала мы представляем текстовый кодировщик (базового размера), улучшенный с помощью RoPE и разбиения на блоки, предварительно обученный в нативном контексте из 8192 токенов (длиннее, чем 512 у предыдущих многоязычных кодировщиков). Затем мы создаем гибридный TRM и переранжировщик на основе кросс-кодировщика с помощью контрастного обучения. Оценки показывают, что наш текстовый кодировщик превосходит кодировщик XLM-R предыдущего размера, который считался передовым. В то же время, наш TRM и переранжировщик соответствуют производительности моделей BGE-M3 передового крупного размера и достигают лучших результатов на бенчмарках поиска текста с длинным контекстом. Дальнейший анализ показывает, что наши предложенные модели обладают более высокой эффективностью как во время обучения, так и вывода. Мы считаем, что их эффективность и эффективность могут быть полезны для различных исследований и промышленных приложений.
Манипулирование предметами вроде ручек - важное умение в повседневной жизни, так как многие инструменты, например, молотки и отвертки, имеют схожую форму. Однако существующие методы на основе обучения испытывают трудности с этой задачей из-за отсутствия качественных демонстраций и значительного разрыва между симуляцией и реальным миром. В данной работе мы расширяем границы систем манипуляции в руке на основе обучения, продемонстрировав способность вращать предметы вроде ручек. Сначала мы используем обучение с подкреплением для обучения оракульной политики с привилегированной информацией и создаем набор данных траекторий высокой точности в симуляции. Это служит двум целям: 1) предварительное обучение сенсорно-двигательной политики в симуляции; 2) воспроизведение траекторий в открытом цикле в реальном мире. Затем мы донастраиваем сенсорно-двигательную политику, используя эти траектории в реальном мире, чтобы адаптировать ее к динамике реального мира. С менее чем 50 траекториями наша политика учится вращать более десяти предметов вроде ручек с различными физическими свойствами на несколько оборотов. Мы представляем всесторонний анализ наших выборов дизайна и делимся уроками, извлеченными в процессе разработки.
Трансформеры зрения значительно продвинули область компьютерного зрения, предлагая надежные возможности моделирования и глобальное рецептивное поле. Однако их высокие вычислительные требования ограничивают их применимость при обработке длинных последовательностей. Для решения этой проблемы в задачах зрения стали популярны модели пространства состояний (SSM), поскольку они обладают линейной вычислительной сложностью. Недавно в Mamba2 была представлена модель Пространства Дуальности Состояний (SSD), улучшенная версия SSM, которая способствует повышению производительности и эффективности модели. Однако внутренняя причинная природа SSD/SSM ограничивает их применение в непричинных задачах зрения. Для преодоления этого ограничения мы представляем модель Визуальной Дуальности Пространства Состояний (VSSD), которая имеет непричинный формат SSD. Конкретно, мы предлагаем отбросить величину взаимодействий между скрытым состоянием и токенами, сохраняя при этом их относительные веса, что уменьшает зависимость вклада токена от предыдущих токенов. Совместно с использованием стратегий многократного сканирования мы показываем, что результаты сканирования могут быть интегрированы для достижения непричинности, что не только улучшает производительность SSD в задачах зрения, но и повышает его эффективность. Мы проводим обширные эксперименты на различных бенчмарках, включая классификацию изображений, детекцию и сегментацию, где VSSD превосходит существующие передовые модели на основе SSM. Код и веса доступны по ссылке https://github.com/YuHengsss/VSSD.
Недавние достижения в восстановлении трехмерных объектов из одиночных изображений в основном сосредоточены на улучшении точности форм объектов. Тем не менее, эти техники часто не могут точно захватить взаимосвязь между объектом, поверхностью и камерой. В результате восстановленные объекты часто кажутся парящими или наклоненными при размещении на плоских поверхностях. Это ограничение существенно влияет на приложения по редактированию изображений с учетом трехмерного пространства, такие как генерация теней и манипулирование позой объекта. Для решения этой проблемы мы представляем ORG (Object Reconstruction with Ground) - новую задачу, направленную на восстановление геометрии трехмерных объектов в сочетании с поверхностью земли. Наш метод использует два компактных представления на уровне пикселей для описания взаимосвязи между камерой, объектом и поверхностью земли. Эксперименты показывают, что предложенная модель ORG может эффективно восстанавливать геометрию объекта и поверхности земли на невидимых данных, значительно улучшая качество генерации теней и манипулирования позой по сравнению с традиционными техниками восстановления трехмерных объектов из одиночных изображений.