Ежедневно отобранные исследовательские статьи по ИИ с переводами
Возникновение больших языковых моделей (LLM) и настройка инструкций привели к текущему тренду инструкционно настроенных крупных языковых и видеомоделей (LLVM). Этот тренд включает либо тщательное составление множества наборов данных для настройки инструкций, адаптированных к конкретным целям, либо увеличение размеров LLVM для обработки огромных объемов данных видеоязыка (VL). Однако текущие LLVM игнорируют детальное и всестороннее понимание реального мира, доступное из специализированных моделей компьютерного зрения (CV) в задачах визуального восприятия, таких как сегментация, детекция, генерация графа сцены (SGG) и оптическое распознавание символов (OCR). Вместо этого существующие LLVM в основном полагаются на большую емкость и возможности их LLM основы. Поэтому мы представляем новый LLVM, Mixture of All Intelligence (MoAI), который использует вспомогательную визуальную информацию, полученную из выводов внешних моделей сегментации, детекции, SGG и OCR. MoAI работает через два вновь введенных модуля: MoAI-Compressor и MoAI-Mixer. После вербализации выводов внешних CV моделей MoAI-Compressor выравнивает и сжимает их для эффективного использования соответствующей вспомогательной визуальной информации для задач VL. Затем MoAI-Mixer смешивает три типа интеллекта (1) визуальные признаки, (2) вспомогательные признаки из внешних CV моделей и (3) языковые признаки, используя концепцию Mixture of Experts. Через эту интеграцию MoAI значительно превосходит как открытые, так и закрытые LLVM во многих нулевых задачах VL, особенно связанных с пониманием реального мира, таких как наличие объектов, их позиции, отношения и OCR, без увеличения размера модели или составления дополнительных наборов данных для настройки инструкций визуального восприятия.
Мы представляем Chronos - простую, но эффективную структуру для предварительно обученных вероятностных моделей временных рядов. Chronos токенизирует значения временных рядов с использованием масштабирования и квантования в фиксированный словарь, обучает существующие архитектуры моделей на основе трансформера на этих токенизированных временных рядах с использованием потерь кросс-энтропии. Мы предварительно обучили модели Chronos на основе семейства T5 (от 20 млн до 710 млн параметров) на большой коллекции общедоступных наборов данных, дополненных синтетическим набором данных, созданным с использованием гауссовских процессов для улучшения обобщения. В рамках обширного тестирования, включающего 42 набора данных и охватывающего как классические локальные модели, так и методы глубокого обучения, мы показываем, что модели Chronos: (a) значительно превосходят другие методы на наборах данных, входящих в обучающий корпус; и (b) обладают сравнимой и иногда превосходящей производительностью на новых наборах данных при нулевой настройке, по сравнению с методами, которые были обучены специально на них. Наши результаты демонстрируют, что модели Chronos могут использовать данные временных рядов из различных областей для улучшения точности при нулевой настройке на невидимые задачи прогнозирования, позиционируя предварительно обученные модели как эффективный инструмент для значительного упрощения процессов прогнозирования.
Мы исследуем эффективные методы обучения больших языковых моделей (LLM) для приобретения способностей в нескольких специализированных областях, таких как программирование, математическое рассуждение и мировые знания. Наш метод, названный Branch-Train-MiX (BTX), начинается с исходной модели, которая разветвляется для обучения экспертов параллельно с высокой производительностью и сниженной стоимостью коммуникации. После асинхронного обучения отдельных экспертов, BTX объединяет их параметры прямого распространения как экспертов в слоях Mixture-of-Expert (MoE) и усредняет оставшиеся параметры, за которыми следует этап донастройки MoE для изучения маршрутизации на уровне токенов. BTX обобщает два особых случая: метод Branch-Train-Merge, который не имеет этапа донастройки MoE для изучения маршрутизации, и разреженное повышение, которое исключает этап асинхронного обучения экспертов. По сравнению с альтернативными подходами, BTX достигает лучшего компромисса между точностью и эффективностью.
Создание высококачественных наборов данных изображений с подписями, размеченных людьми, является значительным узким местом в разработке моделей визуально-языкового взаимодействия (VLM). Мы предлагаем новый подход, который использует преимущества больших языковых моделей (LLM) и моделей генерации изображений для создания синтетических пар изображений и текста для эффективного обучения VLM. Наш метод предполагает предварительное обучение модели текста к изображению для синтеза векторных представлений изображений на основе подписей, сгенерированных LLM. Эти синтетические пары затем используются для обучения VLM. Обширные эксперименты показывают, что VLM, обученный на синтетических данных, демонстрирует сопоставимую производительность в подписывании изображений, требуя при этом лишь долю данных, используемых моделями, обученными исключительно на аннотированных людьми данных. В частности, мы превосходим базовый уровень на 17% благодаря дополнению с синтетическим набором данных. Кроме того, мы показываем, что синтез в пространстве векторных представлений изображений происходит на 25% быстрее, чем в пространстве пикселей. Это исследование представляет собой многообещающий метод для создания масштабных, настраиваемых наборов данных изображений, что приводит к улучшению производительности VLM и расширению области применения в различных областях, все это с улучшенной эффективностью данных и использованием ресурсов.
Генерация человеческого движения является значительным направлением в области генеративного компьютерного зрения, при этом достижение генерации длинных последовательностей и эффективного движения остается сложной задачей. Недавние достижения в моделях пространства состояний (SSM), в частности в Mamba, продемонстрировали значительный потенциал в моделировании длинных последовательностей с эффективным аппаратно-ориентированным дизайном, который кажется многообещающим направлением для построения модели генерации движения. Тем не менее, адаптация SSM для генерации движения сталкивается с препятствиями из-за отсутствия специализированной архитектуры проектирования для моделирования последовательности движения. Для решения этих проблем мы предлагаем Motion Mamba, простой и эффективный подход, представляющий первоначальную модель генерации движения, использующую SSM. Конкретно, мы разрабатываем блок иерархической временной Mamba (HTM) для обработки временных данных путем ансамблирования различного количества изолированных модулей SSM в симметричной архитектуре U-Net с целью сохранения согласованности движения между кадрами. Мы также разрабатываем блок двунаправленной пространственной Mamba (BSM) для двунаправленной обработки скрытых поз, чтобы улучшить точность генерации движения в пределах временного кадра. Наш метод достигает улучшения FID до 50% и ускорения до 4 раз на наборах данных HumanML3D и KIT-ML по сравнению с предыдущим лучшим методом на основе диффузии, что демонстрирует сильные возможности моделирования высококачественной длинной последовательности движения и генерации человеческого движения в реальном времени. См. веб-сайт проекта https://steve-zeyu-zhang.github.io/MotionMamba/
Мы представляем DragAnything, который использует представление сущности для достижения управления движением любого объекта в контролируемой генерации видео. По сравнению с существующими методами управления движением, DragAnything предлагает несколько преимуществ. Во-первых, на основе траектории более удобно для взаимодействия, поскольку получение других сигналов управления (например, масок, карт глубины) требует больших трудозатрат. Пользователям нужно только нарисовать линию (траекторию) во время взаимодействия. Во-вторых, наше представление сущности служит встраиванием в открытой области, способным представлять любой объект, обеспечивая управление движением для различных сущностей, включая фон. Наконец, наше представление сущности позволяет одновременное и отдельное управление движением для нескольких объектов. Обширные эксперименты показывают, что наш DragAnything достигает передового уровня производительности по метрикам FVD, FID и пользовательскому исследованию, особенно в части управления движением объектов, где наш метод превосходит предыдущие методы (например, DragNUWA) на 26% по результатам голосования людей.
Мы представляем FAX, библиотеку на основе JAX, разработанную для поддержки крупномасштабных распределенных и федеративных вычислений как в центрах обработки данных, так и в приложениях, работающих на нескольких устройствах. FAX использует механизмы фрагментации JAX для нативной поддержки TPU и передовых времен выполнения JAX, включая Pathways. FAX встраивает строительные блоки для федеративных вычислений как примитивы в JAX. Это обеспечивает три ключевых преимущества. Во-первых, вычисления FAX могут быть преобразованы в XLA HLO. Во-вторых, FAX предоставляет полную реализацию федеративного автоматического дифференцирования, что значительно упрощает выражение федеративных вычислений. Наконец, вычисления FAX могут быть интерпретированы в существующие производственные системы федеративных вычислений на нескольких устройствах. Мы показываем, что FAX предоставляет легко программируемую, производительную и масштабируемую среду для федеративных вычислений в центрах обработки данных. FAX доступен по адресу https://github.com/google-research/google-research/tree/master/fax.
Одной из открытых проблем в области мобильной манипуляции является вопрос о том, как представлять объекты и сцены единообразно, чтобы роботы могли использовать это как для навигации в окружающей среде, так и для манипулирования объектами. Последнее требует улавливания сложной геометрии при понимании тонких семантических оттенков, в то время как первое включает в себя улавливание сложности, присущей обширному физическому масштабу. В данной работе мы представляем GeFF (Generalizable Feature Fields) - сценовое обобщенное нейронное поле признаков, которое выступает в качестве единой репрезентации как для навигации, так и для манипуляции, работающей в реальном времени. Для этого мы рассматриваем генеративный синтез нового вида как задачу предварительного обучения, а затем выравниваем полученные богатые сценовые априори с естественным языком с помощью дистилляции признаков CLIP. Мы демонстрируем эффективность этого подхода, применяя GeFF на четырехногом роботе с манипулятором. Мы оцениваем способность GeFF к обобщению на объекты из открытого набора, а также время выполнения при выполнении мобильной манипуляции с открытым словарем в динамичных сценах.