Ежедневно отобранные исследовательские статьи по ИИ с переводами
Трансформеры для обработки изображений на основе механизма самовнимания (ViTs) стали высококонкурентной архитектурой в области компьютерного зрения. В отличие от сверточных нейронных сетей (CNNs), ViTs способны к глобальному обмену информацией. С развитием различных структур ViTs, они становятся всё более предпочтительными для многих задач обработки изображений. Однако квадратичная сложность механизма самовнимания делает ViTs вычислительно затратными, а отсутствие индуктивных предпосылок локальности и трансляционной эквивариантности требует больших размеров моделей по сравнению с CNNs для эффективного обучения визуальным признакам. В данной статье мы предлагаем легковесную и эффективную модель трансформера для обработки изображений под названием DualToken-ViT, которая объединяет преимущества CNNs и ViTs. DualToken-ViT эффективно объединяет токен с локальной информацией, полученной с помощью сверточной структуры, и токен с глобальной информацией, полученной с помощью структуры на основе самовнимания, чтобы достичь эффективной структуры внимания. Кроме того, мы используем позиционно-осведомленные глобальные токены на всех этапах для обогащения глобальной информации, что дополнительно усиливает эффективность DualToken-ViT. Позиционно-осведомленные глобальные токены также содержат информацию о положении изображения, что делает нашу модель более подходящей для задач обработки изображений. Мы провели обширные эксперименты на задачах классификации изображений, обнаружения объектов и семантической сегментации, чтобы продемонстрировать эффективность DualToken-ViT. На наборе данных ImageNet-1K наши модели различных масштабов достигают точности 75,4% и 79,4% при всего 0,5G и 1,0G FLOPs соответственно, а наша модель с 1,0G FLOPs превосходит LightViT-T, использующую глобальные токены, на 0,7%.
Мы представляем MosaicFusion — простой, но эффективный подход к увеличению данных на основе диффузии для задач сегментации экземпляров с большим словарём. Наш метод не требует обучения и не зависит от каких-либо меток. Два ключевых решения позволяют нам использовать готовую модель текста в изображение на основе диффузии в качестве полезного генератора наборов данных для экземпляров объектов и аннотаций масок. Во-первых, мы разделяем холст изображения на несколько областей и выполняем один раунд процесса диффузии для одновременного создания нескольких экземпляров, основываясь на различных текстовых запросах. Во-вторых, мы получаем соответствующие маски экземпляров, агрегируя карты кросс-внимания, связанные с запросами объектов, по слоям и шагам диффузии, с последующей простой пороговой обработкой и уточнением с учётом границ. Без излишеств наш MosaicFusion способен генерировать значительное количество синтетических размеченных данных как для редких, так и для новых категорий. Результаты экспериментов на сложных бенчмарках LVIS с длинным хвостом и открытым словарём демонстрируют, что MosaicFusion может значительно улучшить производительность существующих моделей сегментации экземпляров, особенно для редких и новых категорий. Код будет доступен по адресу https://github.com/Jiahao000/MosaicFusion.
Обрезка нейронных сетей предлагает эффективный метод сжатия многоязычной модели автоматического распознавания речи (ASR) с минимальной потерей производительности. Однако этот процесс требует нескольких циклов обрезки и повторного обучения для каждого языка. В данной работе мы предлагаем использование адаптивного подхода с маскированием в двух сценариях для эффективной обрезки многоязычной модели ASR, что приводит либо к разреженным одноязычным моделям, либо к разреженной многоязычной модели (названной Dynamic ASR Pathways). Наш подход динамически адаптирует подсеть, избегая преждевременных решений о фиксированной структуре подсети. Мы показываем, что наш подход превосходит существующие методы обрезки при создании разреженных одноязычных моделей. Кроме того, мы демонстрируем, что Dynamic ASR Pathways совместно обнаруживает и обучает более качественные подсети (пути) единой многоязычной модели, адаптируясь из различных начальных состояний подсетей, тем самым снижая необходимость в языково-специфичной обрезке.
Предварительное обучение на интернет-данных доказало свою важность для достижения широкой обобщающей способности во многих современных системах машинного обучения. Что необходимо для реализации таких возможностей в роботизированном обучении с подкреплением (RL)? Методы оффлайн RL, которые обучаются на наборах данных из опыта роботов, предлагают один из способов использования предварительных данных в процессе обучения роботов. Однако эти методы имеют "типовое несоответствие" с видеоданными (такими как Ego4D), крупнейшими доступными наборами данных для робототехники, поскольку видео предоставляет только наблюдательный опыт без аннотаций действий или наград, необходимых для методов RL. В данной статье мы разрабатываем систему для использования крупномасштабных наборов видеоданных человека в роботизированном оффлайн RL, основанную исключительно на обучении функций ценности через временные различия. Мы показываем, что обучение функций ценности на видеоданных создает представления, которые более способствуют последующему роботизированному оффлайн RL, чем другие подходы к обучению на видеоданных. Наша система, называемая V-PTR, сочетает преимущества предварительного обучения на видеоданных с подходами роботизированного оффлайн RL, которые обучаются на разнообразных данных роботов, что приводит к функциям ценности и политикам для задач манипуляции, которые работают лучше, действуют устойчиво и обобщают широко. На нескольких задачах манипуляции на реальном роботе WidowX наш фреймворк создает политики, которые значительно превосходят предыдущие методы. Наше видео и дополнительные детали можно найти по адресу https://dibyaghosh.com/vptr/.