HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

6 papers found

LCM-LoRA: Универсальный модуль ускорения для Stable Diffusion
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Nov 9

BySimian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolinário Passos, Longbo Huang, Jian Li, Hang Zhao

Модели латентной согласованности (LCM) продемонстрировали впечатляющие результаты в ускорении задач генерации изображений из текста, создавая высококачественные изображения с минимальным количеством шагов вывода. LCM обучаются на основе предварительно обученных моделей латентной диффузии (LDM), требуя всего около 32 часов обучения на GPU A100. В данном отчете потенциал LCM расширяется в двух направлениях: во-первых, путем применения дистилляции LoRA к моделям Stable-Diffusion, включая SD-V1.5, SSD-1B и SDXL, мы расширили область применения LCM на более крупные модели с существенно меньшим потреблением памяти, достигая превосходного качества генерации изображений. Во-вторых, мы определили параметры LoRA, полученные в процессе дистилляции LCM, как универсальный модуль ускорения для Stable-Diffusion, названный LCM-LoRA. LCM-LoRA может быть напрямую подключен к различным тонко настроенным моделям Stable-Diffusion или LoRA без дополнительного обучения, что делает его универсальным ускорителем для разнообразных задач генерации изображений. По сравнению с предыдущими численными решателями PF-ODE, такими как DDIM и DPM-Solver, LCM-LoRA можно рассматривать как подключаемый нейронный решатель PF-ODE, обладающий мощными способностями к обобщению. Страница проекта: https://github.com/luosiallen/latent-consistency-model.

LLaVA-Plus: Обучение использованию инструментов для создания мультимодальных агентов
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Nov 9

ByShilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li

LLaVA-Plus — это универсальный мультимодальный ассистент, расширяющий возможности крупных мультимодальных моделей. Он поддерживает репозиторий предобученных моделей для обработки изображений и работы с визуально-текстовыми данными, а также может активировать соответствующие инструменты на основе пользовательских запросов для выполнения задач в реальном мире. LLaVA-Plus обучается на мультимодальных данных, ориентированных на выполнение инструкций, что позволяет ему осваивать навыки использования инструментов, включая визуальное понимание, генерацию, извлечение внешних знаний и их комбинирование. Экспериментальные результаты показывают, что LLaVA-Plus превосходит LLaVA в существующих возможностях и демонстрирует новые. Его уникальность заключается в том, что запросы, связанные с изображениями, напрямую заземляются и активно используются на протяжении всего сеанса взаимодействия человека и ИИ, что значительно улучшает производительность использования инструментов и открывает новые сценарии применения.

Prompt Cache: Модульное повторное использование внимания для низкозатратного вывода
Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Nov 7

ByIn Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong

Мы представляем Prompt Cache — подход для ускорения вывода в больших языковых моделях (LLM) за счет повторного использования состояний внимания между различными запросами к LLM. Многие входные запросы содержат перекрывающиеся текстовые сегменты, такие как системные сообщения, шаблоны запросов и документы, предоставляемые для контекста. Наше ключевое наблюдение заключается в том, что предварительное вычисление и сохранение состояний внимания для этих часто встречающихся текстовых сегментов на сервере вывода позволяет эффективно повторно использовать их, когда эти сегменты появляются в пользовательских запросах. Prompt Cache использует схему для явного определения таких повторно используемых текстовых сегментов, называемых модулями запросов. Схема обеспечивает позиционную точность при повторном использовании состояний внимания и предоставляет пользователям интерфейс для доступа к кэшированным состояниям в их запросах. Используя прототипную реализацию, мы оцениваем Prompt Cache на нескольких LLM. Мы показываем, что Prompt Cache значительно сокращает задержку до первого токена, особенно для длинных запросов, таких как ответы на вопросы на основе документов и рекомендации. Улучшения варьируются от 8x для вывода на GPU до 60x для вывода на CPU, при этом сохраняется точность вывода и не требуется модификация параметров модели.

GPT4All: Экосистема открытых сжатых языковых моделей
GPT4All: An Ecosystem of Open Source Compressed Language Models

Nov 6

ByYuvanesh Anand, Zach Nussbaum, Adam Treat, Aaron Miller, Richard Guo, Ben Schmidt, GPT4All Community, Brandon Duderstadt, Andriy Mulyar

Крупные языковые модели (LLM) недавно достигли уровня, сопоставимого с человеческим, в ряде профессиональных и академических тестов. Однако доступность этих моделей отстает от их производительности. Современные LLM требуют дорогостоящей инфраструктуры; доступны только через ограниченные по частоте запросов, геоблокированные и подвергнутые цензуре веб-интерфейсы; а также не имеют публично доступного кода и технической документации. В данной статье мы рассказываем историю GPT4All — популярного репозитория с открытым исходным кодом, цель которого — демократизировать доступ к LLM. Мы описываем технические детали оригинального семейства моделей GPT4All, а также эволюцию проекта GPT4All от отдельной модели до полноценной экосистемы с открытым исходным кодом. Мы надеемся, что эта статья послужит как техническим обзором оригинальных моделей GPT4All, так и кейс-стадией о последующем развитии экосистемы GPT4All с открытым исходным кодом.

u-LLaVA: Унификация многомодальных задач с помощью крупной языковой модели
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

Nov 9

ByJinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li

Недавние достижения, такие как LLaVA и Mini-GPT4, успешно интегрировали визуальную информацию в большие языковые модели (LLM), что привело к вдохновляющим результатам и появлению нового поколения мультимодальных LLM, или MLLM. Тем не менее, эти методы сталкиваются с проблемами галлюцинаций и взаимного влияния между задачами. Для решения этих проблем мы предлагаем эффективный и точный подход адаптации к последующим задачам, используя LLM в качестве моста для соединения нескольких экспертных моделей, а именно u-LLaVA. Во-первых, мы интегрируем модуль выравнивания модальностей и многозадачные модули в LLM. Затем мы реорганизуем или перестраиваем многозадачные публичные наборы данных для обеспечения эффективного выравнивания модальностей и следования инструкциям. Наконец, информация, специфичная для задачи, извлекается из обученной LLM и предоставляется различным модулям для решения последующих задач. Общая структура проста, эффективна и демонстрирует передовые результаты на множестве бенчмарков. Мы также публикуем нашу модель, сгенерированные данные и код в открытом доступе.

В пути с GPT-4V(ision): Первые исследования визуально-языковой модели в автономном вождении
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Nov 9

ByLicheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi

Разработка технологий автономного вождения основывается на сложной интеграции систем восприятия, принятия решений и управления. Традиционные подходы, как основанные на данных, так и на правилах, сталкиваются с трудностями в понимании нюансов сложных дорожных ситуаций и намерений других участников дорожного движения. Это стало значительным препятствием, особенно в развитии здравого смысла и тонкого понимания сцены, необходимых для безопасного и надежного автономного вождения. Появление визуально-языковых моделей (VLM) открывает новые горизонты для реализации полностью автономного вождения. В данном отчете представлено всестороннее исследование последней передовой модели VLM, \modelnamefull, и ее применения в сценариях автономного вождения. Мы исследуем способности модели понимать и анализировать дорожные ситуации, принимать решения и действовать в роли водителя. Наши тесты охватывают как базовое распознавание сцен, так и сложное причинно-следственное рассуждение и принятие решений в реальном времени в различных условиях. Результаты показывают, что \modelname демонстрирует превосходную производительность в понимании сцен и причинно-следственном анализе по сравнению с существующими автономными системами. Модель демонстрирует потенциал для обработки сценариев, выходящих за пределы обучающих данных, распознавания намерений и принятия обоснованных решений в реальных дорожных условиях. Однако остаются вызовы, особенно в задачах определения направления, распознавания светофоров, визуального закрепления и пространственного рассуждения. Эти ограничения подчеркивают необходимость дальнейших исследований и разработок. Проект теперь доступен на GitHub для всех заинтересованных сторон: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.

В пути с GPT-4V(ision): Первые исследования визуально-языковой модели в автономном вождении
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Nov 9