ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

MoAI: Смесь Всех Интеллектов для Больших Языковых и Визионных Моделей
MoAI: Mixture of All Intelligence for Large Language and Vision Models

Mar 12
ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro
77
7

Возникновение больших языковых моделей (LLM) и настройка инструкций привели к текущему тренду инструкционно настроенных крупных языковых и видеомоделей (LLVM). Этот тренд включает либо тщательное составление множества наборов данных для настройки инструкций, адаптированных к конкретным целям, либо увеличение размеров LLVM для обработки огромных объемов данных видеоязыка (VL). Однако текущие LLVM игнорируют детальное и всестороннее понимание реального мира, доступное из специализированных моделей компьютерного зрения (CV) в задачах визуального восприятия, таких как сегментация, детекция, генерация графа сцены (SGG) и оптическое распознавание символов (OCR). Вместо этого существующие LLVM в основном полагаются на большую емкость и возможности их LLM основы. Поэтому мы представляем новый LLVM, Mixture of All Intelligence (MoAI), который использует вспомогательную визуальную информацию, полученную из выводов внешних моделей сегментации, детекции, SGG и OCR. MoAI работает через два вновь введенных модуля: MoAI-Compressor и MoAI-Mixer. После вербализации выводов внешних CV моделей MoAI-Compressor выравнивает и сжимает их для эффективного использования соответствующей вспомогательной визуальной информации для задач VL. Затем MoAI-Mixer смешивает три типа интеллекта (1) визуальные признаки, (2) вспомогательные признаки из внешних CV моделей и (3) языковые признаки, используя концепцию Mixture of Experts. Через эту интеграцию MoAI значительно превосходит как открытые, так и закрытые LLVM во многих нулевых задачах VL, особенно связанных с пониманием реального мира, таких как наличие объектов, их позиции, отношения и OCR, без увеличения размера модели или составления дополнительных наборов данных для настройки инструкций визуального восприятия.

2

Хронос: Изучение языка временных рядов
Chronos: Learning the Language of Time Series

Mar 12
ByAbdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, Xiyuan Zhang, Pedro Mercado, Huibin Shen, Oleksandr Shchur, Syama Sundar Rangapuram, Sebastian Pineda Arango, Shubham Kapoor, Jasper Zschiegner, Danielle C. Maddix, Michael W. Mahoney, Kari Torkkola, Andrew Gordon Wilson, Michael Bohlke-Schneider, Yuyang Wang
46
5

Мы представляем Chronos - простую, но эффективную структуру для предварительно обученных вероятностных моделей временных рядов. Chronos токенизирует значения временных рядов с использованием масштабирования и квантования в фиксированный словарь, обучает существующие архитектуры моделей на основе трансформера на этих токенизированных временных рядах с использованием потерь кросс-энтропии. Мы предварительно обучили модели Chronos на основе семейства T5 (от 20 млн до 710 млн параметров) на большой коллекции общедоступных наборов данных, дополненных синтетическим набором данных, созданным с использованием гауссовских процессов для улучшения обобщения. В рамках обширного тестирования, включающего 42 набора данных и охватывающего как классические локальные модели, так и методы глубокого обучения, мы показываем, что модели Chronos: (a) значительно превосходят другие методы на наборах данных, входящих в обучающий корпус; и (b) обладают сравнимой и иногда превосходящей производительностью на новых наборах данных при нулевой настройке, по сравнению с методами, которые были обучены специально на них. Наши результаты демонстрируют, что модели Chronos могут использовать данные временных рядов из различных областей для улучшения точности при нулевой настройке на невидимые задачи прогнозирования, позиционируя предварительно обученные модели как эффективный инструмент для значительного упрощения процессов прогнозирования.

3

Branch-Train-MiX: Смешивание экспертов LLM в смесь экспертов LLM
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Mar 12
BySainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria Lin, Baptiste Rozière, Jacob Kahn, Daniel Li, Wen-tau Yih, Jason Weston, Xian Li
44
3

Мы исследуем эффективные методы обучения больших языковых моделей (LLM) для приобретения способностей в нескольких специализированных областях, таких как программирование, математическое рассуждение и мировые знания. Наш метод, названный Branch-Train-MiX (BTX), начинается с исходной модели, которая разветвляется для обучения экспертов параллельно с высокой производительностью и сниженной стоимостью коммуникации. После асинхронного обучения отдельных экспертов, BTX объединяет их параметры прямого распространения как экспертов в слоях Mixture-of-Expert (MoE) и усредняет оставшиеся параметры, за которыми следует этап донастройки MoE для изучения маршрутизации на уровне токенов. BTX обобщает два особых случая: метод Branch-Train-Merge, который не имеет этапа донастройки MoE для изучения маршрутизации, и разреженное повышение, которое исключает этап асинхронного обучения экспертов. По сравнению с альтернативными подходами, BTX достигает лучшего компромисса между точностью и эффективностью.

4

Synth^2: Усиление моделей визуального языка с синтетическими подписями и вложениями изображений
Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

Mar 12
BySahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
24
1

Создание высококачественных наборов данных изображений с подписями, размеченных людьми, является значительным узким местом в разработке моделей визуально-языкового взаимодействия (VLM). Мы предлагаем новый подход, который использует преимущества больших языковых моделей (LLM) и моделей генерации изображений для создания синтетических пар изображений и текста для эффективного обучения VLM. Наш метод предполагает предварительное обучение модели текста к изображению для синтеза векторных представлений изображений на основе подписей, сгенерированных LLM. Эти синтетические пары затем используются для обучения VLM. Обширные эксперименты показывают, что VLM, обученный на синтетических данных, демонстрирует сопоставимую производительность в подписывании изображений, требуя при этом лишь долю данных, используемых моделями, обученными исключительно на аннотированных людьми данных. В частности, мы превосходим базовый уровень на 17% благодаря дополнению с синтетическим набором данных. Кроме того, мы показываем, что синтез в пространстве векторных представлений изображений происходит на 25% быстрее, чем в пространстве пикселей. Это исследование представляет собой многообещающий метод для создания масштабных, настраиваемых наборов данных изображений, что приводит к улучшению производительности VLM и расширению области применения в различных областях, все это с улучшенной эффективностью данных и использованием ресурсов.

5

Движение Mamba: эффективная и долгосрочная генерация последовательности движений с иерархическим и двунаправленным селективным SSM.
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

Mar 12
ByZeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
17
4

Генерация человеческого движения является значительным направлением в области генеративного компьютерного зрения, при этом достижение генерации длинных последовательностей и эффективного движения остается сложной задачей. Недавние достижения в моделях пространства состояний (SSM), в частности в Mamba, продемонстрировали значительный потенциал в моделировании длинных последовательностей с эффективным аппаратно-ориентированным дизайном, который кажется многообещающим направлением для построения модели генерации движения. Тем не менее, адаптация SSM для генерации движения сталкивается с препятствиями из-за отсутствия специализированной архитектуры проектирования для моделирования последовательности движения. Для решения этих проблем мы предлагаем Motion Mamba, простой и эффективный подход, представляющий первоначальную модель генерации движения, использующую SSM. Конкретно, мы разрабатываем блок иерархической временной Mamba (HTM) для обработки временных данных путем ансамблирования различного количества изолированных модулей SSM в симметричной архитектуре U-Net с целью сохранения согласованности движения между кадрами. Мы также разрабатываем блок двунаправленной пространственной Mamba (BSM) для двунаправленной обработки скрытых поз, чтобы улучшить точность генерации движения в пределах временного кадра. Наш метод достигает улучшения FID до 50% и ускорения до 4 раз на наборах данных HumanML3D и KIT-ML по сравнению с предыдущим лучшим методом на основе диффузии, что демонстрирует сильные возможности моделирования высококачественной длинной последовательности движения и генерации человеческого движения в реальном времени. См. веб-сайт проекта https://steve-zeyu-zhang.github.io/MotionMamba/

6

DragAnything: Управление движением для любого объекта с использованием представления сущности
DragAnything: Motion Control for Anything using Entity Representation

Mar 12
ByWejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
15
1

Мы представляем DragAnything, который использует представление сущности для достижения управления движением любого объекта в контролируемой генерации видео. По сравнению с существующими методами управления движением, DragAnything предлагает несколько преимуществ. Во-первых, на основе траектории более удобно для взаимодействия, поскольку получение других сигналов управления (например, масок, карт глубины) требует больших трудозатрат. Пользователям нужно только нарисовать линию (траекторию) во время взаимодействия. Во-вторых, наше представление сущности служит встраиванием в открытой области, способным представлять любой объект, обеспечивая управление движением для различных сущностей, включая фон. Наконец, наше представление сущности позволяет одновременное и отдельное управление движением для нескольких объектов. Обширные эксперименты показывают, что наш DragAnything достигает передового уровня производительности по метрикам FVD, FID и пользовательскому исследованию, особенно в части управления движением объектов, где наш метод превосходит предыдущие методы (например, DragNUWA) на 26% по результатам голосования людей.

7

FAX: Масштабируемые и дифференцируемые федеративные примитивы в JAX
FAX: Scalable and Differentiable Federated Primitives in JAX

Mar 11
ByKeith Rush, Zachary Charles, Zachary Garrett
13
2

Мы представляем FAX, библиотеку на основе JAX, разработанную для поддержки крупномасштабных распределенных и федеративных вычислений как в центрах обработки данных, так и в приложениях, работающих на нескольких устройствах. FAX использует механизмы фрагментации JAX для нативной поддержки TPU и передовых времен выполнения JAX, включая Pathways. FAX встраивает строительные блоки для федеративных вычислений как примитивы в JAX. Это обеспечивает три ключевых преимущества. Во-первых, вычисления FAX могут быть преобразованы в XLA HLO. Во-вторых, FAX предоставляет полную реализацию федеративного автоматического дифференцирования, что значительно упрощает выражение федеративных вычислений. Наконец, вычисления FAX могут быть интерпретированы в существующие производственные системы федеративных вычислений на нескольких устройствах. Мы показываем, что FAX предоставляет легко программируемую, производительную и масштабируемую среду для федеративных вычислений в центрах обработки данных. FAX доступен по адресу https://github.com/google-research/google-research/tree/master/fax.

8

Обучение обобщаемых признаковых полей для мобильного манипулирования
Learning Generalizable Feature Fields for Mobile Manipulation

Mar 12
ByRi-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
8
1

Одной из открытых проблем в области мобильной манипуляции является вопрос о том, как представлять объекты и сцены единообразно, чтобы роботы могли использовать это как для навигации в окружающей среде, так и для манипулирования объектами. Последнее требует улавливания сложной геометрии при понимании тонких семантических оттенков, в то время как первое включает в себя улавливание сложности, присущей обширному физическому масштабу. В данной работе мы представляем GeFF (Generalizable Feature Fields) - сценовое обобщенное нейронное поле признаков, которое выступает в качестве единой репрезентации как для навигации, так и для манипуляции, работающей в реальном времени. Для этого мы рассматриваем генеративный синтез нового вида как задачу предварительного обучения, а затем выравниваем полученные богатые сценовые априори с естественным языком с помощью дистилляции признаков CLIP. Мы демонстрируем эффективность этого подхода, применяя GeFF на четырехногом роботе с манипулятором. Мы оцениваем способность GeFF к обобщению на объекты из открытого набора, а также время выполнения при выполнении мобильной манипуляции с открытым словарем в динамичных сценах.

Mar 12
Mar 13
Mar 14