Ежедневно отобранные исследовательские статьи по ИИ с переводами
Количество крупных языковых моделей (LLM), к которым пользователи могут обращаться за плату, стремительно растет. Мы анализируем стоимость запросов к популярным API LLM, таким как GPT-4, ChatGPT, J1-Jumbo, и обнаруживаем, что эти модели имеют неоднородные структуры ценообразования, причем стоимость может отличаться на два порядка величины. В частности, использование LLM для обработки больших объемов запросов и текстов может быть дорогостоящим. В связи с этим мы описываем и обсуждаем три типа стратегий, которые пользователи могут применять для снижения затрат на использование LLM: 1) адаптация запросов, 2) аппроксимация LLM и 3) каскад LLM. В качестве примера мы предлагаем FrugalGPT — простое, но гибкое воплощение каскада LLM, которое обучается выбирать комбинации LLM для различных запросов с целью снижения затрат и повышения точности. Наши эксперименты показывают, что FrugalGPT может соответствовать производительности лучшей отдельной LLM (например, GPT-4) с сокращением затрат до 98% или улучшить точность по сравнению с GPT-4 на 4% при тех же затратах. Представленные здесь идеи и результаты закладывают основу для устойчивого и эффективного использования LLM.
Хотя «инструктивно настроенные» генеративные большие языковые модели (LLM) продемонстрировали впечатляющую способность обобщать новые задачи, этапы их обучения в значительной степени зависят от больших объемов разнообразных и качественных данных с инструкциями (например, ChatGPT и GPT-4). К сожалению, получение высококачественных данных, особенно созданных людьми, может представлять значительные трудности с точки зрения затрат и доступности. Более того, проблемы, связанные с конфиденциальностью, могут дополнительно ограничивать доступ к таким данным, делая процесс их получения сложным и многоаспектным. В результате это ограничивает универсальность настроенных моделей и может снижать их эффективность в определенных контекстах. Для решения этой проблемы наше исследование предлагает новый подход под названием Федеративная Настройка по Инструкциям (Federated Instruction Tuning, FedIT), который использует федеративное обучение (Federated Learning, FL) в качестве обучающей структуры для настройки LLM по инструкциям. Это первое исследование, посвященное инструктивной настройке LLM на основе FL. Это особенно важно, поскольку текстовые данные в основном генерируются конечными пользователями. Следовательно, необходимо разрабатывать и адаптировать подходы FL для эффективного использования разнообразных инструкций, хранящихся на локальных устройствах пользователей, при этом сохраняя конфиденциальность и обеспечивая безопасность данных. В данной статье, используя широко применяемую автоматическую оценку GPT-4, мы демонстрируем, что за счет использования гетерогенных и разнообразных наборов инструкций на стороне клиента с предложенной структурой FedIT, мы улучшили производительность LLM по сравнению с централизованным обучением, использующим только ограниченные локальные инструкции. Кроме того, в этой статье мы разработали репозиторий на GitHub под названием Shepherd. Этот репозиторий предоставляет базовую структуру для исследования федеративной тонкой настройки LLM с использованием гетерогенных инструкций в различных категориях.
Мы представляем интерактивную визуальную платформу под названием InternChat, или сокращенно iChat. Эта платформа интегрирует чат-боты с возможностями планирования и логического рассуждения, такие как ChatGPT, с невербальными инструкциями, такими как указывающие движения, которые позволяют пользователям напрямую управлять изображениями или видео на экране. Указывающие движения (включая жесты, курсоры и т.д.) обеспечивают большую гибкость и точность при выполнении задач, ориентированных на визуальное восприятие, которые требуют детального управления, редактирования и создания визуального контента. Название InternChat расшифровывается как взаимодействие (interaction), невербальные инструкции (nonverbal) и чат-боты (chatbots). В отличие от существующих интерактивных систем, которые полагаются исключительно на язык, включение указывающих инструкций в iChat значительно повышает эффективность коммуникации между пользователями и чат-ботами, а также точность выполнения чат-ботами задач, связанных с визуальным восприятием, особенно в сложных визуальных сценариях, где количество объектов превышает два. Кроме того, в iChat используется вспомогательный механизм управления для улучшения управляемости крупных языковых моделей (LLM), а также дорабатывается крупная визуально-языковая модель под названием Husky для высококачественного мультимодального диалога (превосходя ChatGPT-3.5-turbo с качеством 93.89% от GPT-4). Мы надеемся, что эта работа вдохновит на новые идеи и направления для будущих интерактивных визуальных систем. Приглашаем ознакомиться с кодом по адресу https://github.com/OpenGVLab/InternChat.
Крупные языковые модели (LLMs) недавно продемонстрировали впечатляющие результаты в различных задачах обработки естественного языка (NLP). Для решения задач, требующих многошагового рассуждения, метод few-shot chain-of-thought (CoT) включает несколько вручную созданных пошаговых демонстраций рассуждений, которые позволяют LLMs явно генерировать шаги рассуждений и повышать точность выполнения таких задач. Чтобы исключить ручной труд, Zero-shot-CoT объединяет формулировку целевой задачи с фразой "Давайте подумаем шаг за шагом" в качестве входного запроса для LLMs. Несмотря на успех Zero-shot-CoT, этот метод всё ещё страдает от трёх недостатков: ошибок в вычислениях, пропущенных шагов и семантических ошибок понимания. Для устранения пропущенных шагов мы предлагаем метод Plan-and-Solve (PS) Prompting. Он состоит из двух компонентов: сначала разработки плана, который делит всю задачу на более мелкие подзадачи, а затем выполнения этих подзадач в соответствии с планом. Для устранения ошибок в вычислениях и повышения качества генерируемых шагов рассуждений мы расширяем PS prompting более детальными инструкциями и получаем PS+ prompting. Мы оцениваем предложенную стратегию на десяти наборах данных, охватывающих три типа задач на рассуждение. Экспериментальные результаты на GPT-3 показывают, что наш метод zero-shot prompting значительно превосходит Zero-shot-CoT на всех наборах данных, сопоставим или превосходит Zero-shot-Program-of-Thought Prompting и демонстрирует сравнимую производительность с 8-shot CoT prompting в задачах на математическое рассуждение. Код доступен по адресу https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
Диффузионные модели, которые стали популярными моделями генерации изображений по тексту, способны создавать высококачественные и содержательные изображения на основе текстовых запросов. Однако существующие модели имеют ограничения в семантическом понимании и здравом смысле, когда входные запросы представляют собой краткие повествования, что приводит к генерации изображений низкого качества. Для улучшения способностей работы с повествовательными запросами мы предлагаем простой, но эффективный метод параметрически-эффективной тонкой настройки под названием адаптер семантического понимания и рассуждения (SUR-адаптер) для предобученных диффузионных моделей. Для достижения этой цели мы сначала собираем и аннотируем новый набор данных SURD, который состоит из более чем 57 000 семантически корректированных мультимодальных образцов. Каждый образец содержит простое повествовательное описание, сложный запрос на основе ключевых слов и высококачественное изображение. Затем мы выравниваем семантическое представление повествовательных запросов к сложным запросам и передаем знания крупных языковых моделей (LLM) в наш SUR-адаптер через дистилляцию знаний, чтобы он мог приобрести мощные способности семантического понимания и рассуждения для построения высококачественного текстового семантического представления для генерации изображений по тексту. Мы проводим эксперименты, интегрируя несколько LLM и популярные предобученные диффузионные модели, чтобы показать эффективность нашего подхода в обеспечении понимания и рассуждения диффузионными моделями краткого естественного языка без ухудшения качества изображений. Наш подход делает диффузионные модели генерации изображений по тексту более удобными в использовании с улучшенным пользовательским опытом, что демонстрирует потенциал нашего подхода для дальнейшего продвижения разработки удобных моделей генерации изображений по тексту, устраняя семантический разрыв между простыми повествовательными запросами и сложными запросами на основе ключевых слов.
Тюнинг промптов является одним из успешных подходов для параметрически эффективной настройки предобученных языковых моделей. Несмотря на то, что он, возможно, является наиболее параметрически эффективным (настраиваемые мягкие промпты составляют <0,1% от общего числа параметров), он, как правило, показывает худшие результаты по сравнению с другими эффективными методами настройки и довольно чувствителен к гиперпараметрам. В данной работе мы представляем Residual Prompt Tuning — простой и эффективный метод, который значительно улучшает производительность и стабильность тюнинга промптов. Мы предлагаем перепараметризовать вложения мягких промптов с использованием неглубокой сети с остаточным соединением. Наши эксперименты показывают, что Residual Prompt Tuning значительно превосходит тюнинг промптов на бенчмарке SuperGLUE. В частности, наш метод демонстрирует улучшение на +7 баллов по сравнению с тюнингом промптов на модели T5-Base и позволяет сократить длину промпта в 10 раз без ущерба для производительности. Кроме того, мы показываем, что наш подход устойчив к выбору скорости обучения и инициализации промптов, а также эффективен в условиях обучения с малым количеством примеров.
Мы представляем модель для обработки зрения и языка под названием MultiModal-GPT, способную вести многораундовый диалог с людьми. MultiModal-GPT может выполнять различные инструкции от пользователей, такие как генерация подробного описания, подсчет количества интересующих объектов и ответы на общие вопросы. Модель эффективно дообучена на основе OpenFlamingo с добавлением Low-rank Adapter (LoRA) как в части кросс-внимания, так и в части самовнимания языковой модели. Сначала мы создаем шаблоны инструкций с использованием данных по зрению и языку для настройки модели на выполнение мультимодальных инструкций, чтобы она могла понимать и следовать указаниям человека. Мы обнаружили, что качество обучающих данных критически важно для производительности диалога, так как небольшое количество данных с короткими ответами может привести к тому, что модель будет кратко отвечать на любые инструкции. Для дальнейшего улучшения способности MultiModal-GPT к общению с людьми мы используем данные, содержащие только языковые инструкции, для совместного обучения модели. Совместное обучение на данных с языковыми и визуально-языковыми инструкциями с использованием одного и того же шаблона инструкций эффективно повышает качество диалога. Различные демонстрации показывают способность MultiModal-GPT к непрерывному диалогу с людьми. Код и демо доступны по адресу https://github.com/open-mmlab/Multimodal-GPT.
Мы представляем AvatarReX — новый метод для обучения полнотелых аватаров на основе NeRF (Neural Radiance Fields) с использованием видеоданных. Обученный аватар не только обеспечивает выразительное управление телом, руками и лицом одновременно, но также поддерживает анимацию и рендеринг в реальном времени. Для достижения этого мы предлагаем композиционное представление аватара, в котором тело, руки и лицо моделируются отдельно таким образом, что структурные априорные данные из параметрических шаблонов сеток эффективно используются без ущерба для гибкости представления. Кроме того, мы разделяем геометрию и внешний вид для каждой части. Благодаря этим техническим решениям мы предлагаем специализированный конвейер отложенного рендеринга, который может выполняться с частотой кадров в реальном времени для синтеза высококачественных изображений с произвольного ракурса. Разделение геометрии и внешнего вида также позволяет нам разработать двухэтапную стратегию обучения, которая сочетает объемный и поверхностный рендеринг для тренировки сети. Таким образом, можно применять пошаговый контроль на уровне патчей, чтобы заставить сеть изучать четкие детали внешнего вида на основе оценки геометрии. В целом, наш метод позволяет автоматически создавать выразительные полнотелые аватары с возможностью рендеринга в реальном времени и генерировать фотореалистичные изображения с динамическими деталями для новых движений тела и мимики.
Крупные языковые модели (LLM) могут демонстрировать высокую производительность в решении множества задач, генерируя пошаговые рассуждения перед выдачей окончательного ответа, что часто называют цепочкой рассуждений (chain-of-thought reasoning, CoT). Возникает соблазн интерпретировать эти CoT-объяснения как процесс, используемый моделью для решения задачи. Однако мы обнаруживаем, что CoT-объяснения могут систематически искажать истинные причины предсказаний модели. Мы показываем, что CoT-объяснения могут быть значительно изменены путем добавления смещающих признаков к входным данным модели — например, путем переупорядочивания вариантов ответов в few-shot промпте так, чтобы правильный ответ всегда был "(A)", — что модели систематически не упоминают в своих объяснениях. Когда мы смещаем модели в сторону неверных ответов, они часто генерируют CoT-объяснения, поддерживающие эти ответы. Это приводит к снижению точности на 36% в наборе из 13 задач из BIG-Bench Hard при тестировании с использованием GPT-3.5 от OpenAI и Claude 1.0 от Anthropic. В задаче на социальные предубеждения объяснения моделей оправдывают ответы, соответствующие стереотипам, не упоминая влияние этих социальных предубеждений. Наши результаты указывают на то, что CoT-объяснения могут быть правдоподобными, но вводящими в заблуждение, что повышает риск излишнего доверия к LLM без гарантии их безопасности. CoT перспективен для объяснимости, но наши результаты подчеркивают необходимость целенаправленных усилий для оценки и улучшения достоверности объяснений.
Существующие методы Neural Radiance Fields (NeRF) сталкиваются с проблемами при наличии отражающих объектов, что часто приводит к размытым или искажённым результатам рендеринга. Вместо вычисления единого поля излучения мы предлагаем мультипространственное нейронное поле излучения (MS-NeRF), которое представляет сцену с использованием группы полей признаков в параллельных подпространствах. Это позволяет нейронной сети лучше учитывать наличие отражающих и преломляющих объектов. Наша мультипространственная схема служит улучшением существующих методов NeRF, требуя лишь небольших дополнительных вычислительных затрат для обучения и вывода результатов в дополнительных пространствах. Мы демонстрируем превосходство и совместимость нашего подхода на трёх представительных моделях, основанных на NeRF: NeRF, Mip-NeRF и Mip-NeRF 360. Сравнения проводятся на новом наборе данных, состоящем из 25 синтетических сцен и 7 реально снятых сцен с сложными отражениями и преломлениями, все из которых имеют 360-градусные обзоры. Многочисленные эксперименты показывают, что наш подход значительно превосходит существующие методы NeRF с единым пространством при рендеринге высококачественных сцен, связанных со сложными световыми путями через зеркальные объекты. Наш код и набор данных будут доступны по адресу https://zx-yin.github.io/msnerf.
Трансформерные модели являются основополагающими для обработки естественного языка (NLP) и компьютерного зрения. Несмотря на множество недавних работ, посвященных снижению квадратичной сложности таких моделей (как функции длины последовательности n), эффективная обработка сверхдлинных последовательностей (например, с более чем 16K токенов) остается сложной задачей. Приложения, такие как ответы на вопросы на основе целой книги или суммаризация научной статьи, работают неэффективно или вовсе невозможны. В данной статье мы предлагаем значительно снизить зависимость сложности трансформерной модели от n путем сжатия входных данных в представление, размер которого r не зависит от n на каждом слое. В частности, используя тот факт, что во многих задачах лишь небольшое подмножество специальных токенов (которые мы называем VIP-токенами) наиболее важно для итогового предсказания, мы предлагаем схему сжатия, ориентированную на VIP-токены (Vcc), которая выборочно сжимает входную последовательность на основе их влияния на аппроксимацию представления этих VIP-токенов. По сравнению с конкурентоспособными базовыми методами, предложенный алгоритм не только эффективен (обеспечивая более чем 3-кратное улучшение эффективности на длинах 4K и 16K), но также демонстрирует сопоставимую или лучшую производительность на большом количестве задач. Более того, мы показываем, что наш алгоритм может масштабироваться до 128K токенов (или более), при этом стабильно улучшая точность.
Фреймворк предварительного обучения ELECTRA, основанный на архитектуре генератор-дискриминатор, продемонстрировал впечатляющие способности в построении семантики для различных задач. Несмотря на убедительные результаты, ELECTRA сталкивается с проблемами монотонного обучения и недостаточного взаимодействия. Генератор, использующий только моделирование маскированного языка (MLM), приводит к смещённому обучению и дисбалансу меток для дискриминатора, снижая эффективность обучения; отсутствие явной обратной связи от дискриминатора к генератору создаёт разрыв между этими компонентами, недоиспользуя поэтапное обучение. В данном исследовании предлагается метод многоперспективного поэтапного обучения (MCL), который обеспечивает множество степеней и углов зрения для эффективного предварительного обучения и полностью использует взаимосвязь между генератором и дискриминатором. Конкретно, три курса самоконтроля разработаны для устранения врождённых недостатков MLM и балансировки меток многоперспективным способом. Кроме того, предлагаются два курса самокоррекции, чтобы устранить разрыв между двумя кодировщиками путём создания "тетради коррекции" для вторичного контроля. Более того, проводится эксперимент с "супом курсов" для решения проблемы динамики "перетягивания каната" в MCL, что способствует эволюции более сильной предварительно обученной модели. Экспериментальные результаты показывают, что наш метод значительно улучшает среднюю производительность ELECTRA на 2,8% и 3,2% абсолютных пунктов соответственно на бенчмарках GLUE и SQuAD 2.0, превосходя недавние передовые модели в стиле ELECTRA при тех же настройках. Предварительно обученная модель MCL доступна по адресу https://huggingface.co/McmanusChen/MCL-base.