Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели латентной согласованности (LCM) продемонстрировали впечатляющие результаты в ускорении задач генерации изображений из текста, создавая высококачественные изображения с минимальным количеством шагов вывода. LCM обучаются на основе предварительно обученных моделей латентной диффузии (LDM), требуя всего около 32 часов обучения на GPU A100. В данном отчете потенциал LCM расширяется в двух направлениях: во-первых, путем применения дистилляции LoRA к моделям Stable-Diffusion, включая SD-V1.5, SSD-1B и SDXL, мы расширили область применения LCM на более крупные модели с существенно меньшим потреблением памяти, достигая превосходного качества генерации изображений. Во-вторых, мы определили параметры LoRA, полученные в процессе дистилляции LCM, как универсальный модуль ускорения для Stable-Diffusion, названный LCM-LoRA. LCM-LoRA может быть напрямую подключен к различным тонко настроенным моделям Stable-Diffusion или LoRA без дополнительного обучения, что делает его универсальным ускорителем для разнообразных задач генерации изображений. По сравнению с предыдущими численными решателями PF-ODE, такими как DDIM и DPM-Solver, LCM-LoRA можно рассматривать как подключаемый нейронный решатель PF-ODE, обладающий мощными способностями к обобщению. Страница проекта: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus — это универсальный мультимодальный ассистент, расширяющий возможности крупных мультимодальных моделей. Он поддерживает репозиторий предобученных моделей для обработки изображений и работы с визуально-текстовыми данными, а также может активировать соответствующие инструменты на основе пользовательских запросов для выполнения задач в реальном мире. LLaVA-Plus обучается на мультимодальных данных, ориентированных на выполнение инструкций, что позволяет ему осваивать навыки использования инструментов, включая визуальное понимание, генерацию, извлечение внешних знаний и их комбинирование. Экспериментальные результаты показывают, что LLaVA-Plus превосходит LLaVA в существующих возможностях и демонстрирует новые. Его уникальность заключается в том, что запросы, связанные с изображениями, напрямую заземляются и активно используются на протяжении всего сеанса взаимодействия человека и ИИ, что значительно улучшает производительность использования инструментов и открывает новые сценарии применения.
Мы представляем Prompt Cache — подход для ускорения вывода в больших языковых моделях (LLM) за счет повторного использования состояний внимания между различными запросами к LLM. Многие входные запросы содержат перекрывающиеся текстовые сегменты, такие как системные сообщения, шаблоны запросов и документы, предоставляемые для контекста. Наше ключевое наблюдение заключается в том, что предварительное вычисление и сохранение состояний внимания для этих часто встречающихся текстовых сегментов на сервере вывода позволяет эффективно повторно использовать их, когда эти сегменты появляются в пользовательских запросах. Prompt Cache использует схему для явного определения таких повторно используемых текстовых сегментов, называемых модулями запросов. Схема обеспечивает позиционную точность при повторном использовании состояний внимания и предоставляет пользователям интерфейс для доступа к кэшированным состояниям в их запросах. Используя прототипную реализацию, мы оцениваем Prompt Cache на нескольких LLM. Мы показываем, что Prompt Cache значительно сокращает задержку до первого токена, особенно для длинных запросов, таких как ответы на вопросы на основе документов и рекомендации. Улучшения варьируются от 8x для вывода на GPU до 60x для вывода на CPU, при этом сохраняется точность вывода и не требуется модификация параметров модели.
Крупные языковые модели (LLM) недавно достигли уровня, сопоставимого с человеческим, в ряде профессиональных и академических тестов. Однако доступность этих моделей отстает от их производительности. Современные LLM требуют дорогостоящей инфраструктуры; доступны только через ограниченные по частоте запросов, геоблокированные и подвергнутые цензуре веб-интерфейсы; а также не имеют публично доступного кода и технической документации. В данной статье мы рассказываем историю GPT4All — популярного репозитория с открытым исходным кодом, цель которого — демократизировать доступ к LLM. Мы описываем технические детали оригинального семейства моделей GPT4All, а также эволюцию проекта GPT4All от отдельной модели до полноценной экосистемы с открытым исходным кодом. Мы надеемся, что эта статья послужит как техническим обзором оригинальных моделей GPT4All, так и кейс-стадией о последующем развитии экосистемы GPT4All с открытым исходным кодом.
Недавние достижения, такие как LLaVA и Mini-GPT4, успешно интегрировали визуальную информацию в большие языковые модели (LLM), что привело к вдохновляющим результатам и появлению нового поколения мультимодальных LLM, или MLLM. Тем не менее, эти методы сталкиваются с проблемами галлюцинаций и взаимного влияния между задачами. Для решения этих проблем мы предлагаем эффективный и точный подход адаптации к последующим задачам, используя LLM в качестве моста для соединения нескольких экспертных моделей, а именно u-LLaVA. Во-первых, мы интегрируем модуль выравнивания модальностей и многозадачные модули в LLM. Затем мы реорганизуем или перестраиваем многозадачные публичные наборы данных для обеспечения эффективного выравнивания модальностей и следования инструкциям. Наконец, информация, специфичная для задачи, извлекается из обученной LLM и предоставляется различным модулям для решения последующих задач. Общая структура проста, эффективна и демонстрирует передовые результаты на множестве бенчмарков. Мы также публикуем нашу модель, сгенерированные данные и код в открытом доступе.
Разработка технологий автономного вождения основывается на сложной интеграции систем восприятия, принятия решений и управления. Традиционные подходы, как основанные на данных, так и на правилах, сталкиваются с трудностями в понимании нюансов сложных дорожных ситуаций и намерений других участников дорожного движения. Это стало значительным препятствием, особенно в развитии здравого смысла и тонкого понимания сцены, необходимых для безопасного и надежного автономного вождения. Появление визуально-языковых моделей (VLM) открывает новые горизонты для реализации полностью автономного вождения. В данном отчете представлено всестороннее исследование последней передовой модели VLM, \modelnamefull, и ее применения в сценариях автономного вождения. Мы исследуем способности модели понимать и анализировать дорожные ситуации, принимать решения и действовать в роли водителя. Наши тесты охватывают как базовое распознавание сцен, так и сложное причинно-следственное рассуждение и принятие решений в реальном времени в различных условиях. Результаты показывают, что \modelname демонстрирует превосходную производительность в понимании сцен и причинно-следственном анализе по сравнению с существующими автономными системами. Модель демонстрирует потенциал для обработки сценариев, выходящих за пределы обучающих данных, распознавания намерений и принятия обоснованных решений в реальных дорожных условиях. Однако остаются вызовы, особенно в задачах определения направления, распознавания светофоров, визуального закрепления и пространственного рассуждения. Эти ограничения подчеркивают необходимость дальнейших исследований и разработок. Проект теперь доступен на GitHub для всех заинтересованных сторон: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.