Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

FrugalGPT: Как использовать большие языковые модели, снижая затраты и повышая производительность
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

May 9, 2023

Lingjiao Chen, Matei Zaharia, James Zou

Количество крупных языковых моделей (LLM), к которым пользователи могут обращаться за плату, стремительно растет. Мы анализируем стоимость запросов к популярным API LLM, таким как GPT-4, ChatGPT, J1-Jumbo, и обнаруживаем, что эти модели имеют неоднородные структуры ценообразования, причем стоимость может отличаться на два порядка величины. В частности, использование LLM для обработки больших объемов запросов и текстов может быть дорогостоящим. В связи с этим мы описываем и обсуждаем три типа стратегий, которые пользователи могут применять для снижения затрат на использование LLM: 1) адаптация запросов, 2) аппроксимация LLM и 3) каскад LLM. В качестве примера мы предлагаем FrugalGPT — простое, но гибкое воплощение каскада LLM, которое обучается выбирать комбинации LLM для различных запросов с целью снижения затрат и повышения точности. Наши эксперименты показывают, что FrugalGPT может соответствовать производительности лучшей отдельной LLM (например, GPT-4) с сокращением затрат до 98% или улучшить точность по сравнению с GPT-4 на 4% при тех же затратах. Представленные здесь идеи и результаты закладывают основу для устойчивого и эффективного использования LLM.

К созданию федеративного GPT: федеративная настройка по инструкциям
Towards Building the Federated GPT: Federated Instruction Tuning

May 9, 2023

Jianyi Zhang, Saeed Vahidian, Martin Kuo, Chunyuan Li, Ruiyi Zhang, Guoyin Wang, Yiran Chen

Хотя «инструктивно настроенные» генеративные большие языковые модели (LLM) продемонстрировали впечатляющую способность обобщать новые задачи, этапы их обучения в значительной степени зависят от больших объемов разнообразных и качественных данных с инструкциями (например, ChatGPT и GPT-4). К сожалению, получение высококачественных данных, особенно созданных людьми, может представлять значительные трудности с точки зрения затрат и доступности. Более того, проблемы, связанные с конфиденциальностью, могут дополнительно ограничивать доступ к таким данным, делая процесс их получения сложным и многоаспектным. В результате это ограничивает универсальность настроенных моделей и может снижать их эффективность в определенных контекстах. Для решения этой проблемы наше исследование предлагает новый подход под названием Федеративная Настройка по Инструкциям (Federated Instruction Tuning, FedIT), который использует федеративное обучение (Federated Learning, FL) в качестве обучающей структуры для настройки LLM по инструкциям. Это первое исследование, посвященное инструктивной настройке LLM на основе FL. Это особенно важно, поскольку текстовые данные в основном генерируются конечными пользователями. Следовательно, необходимо разрабатывать и адаптировать подходы FL для эффективного использования разнообразных инструкций, хранящихся на локальных устройствах пользователей, при этом сохраняя конфиденциальность и обеспечивая безопасность данных. В данной статье, используя широко применяемую автоматическую оценку GPT-4, мы демонстрируем, что за счет использования гетерогенных и разнообразных наборов инструкций на стороне клиента с предложенной структурой FedIT, мы улучшили производительность LLM по сравнению с централизованным обучением, использующим только ограниченные локальные инструкции. Кроме того, в этой статье мы разработали репозиторий на GitHub под названием Shepherd. Этот репозиторий предоставляет базовую структуру для исследования федеративной тонкой настройки LLM с использованием гетерогенных инструкций в различных категориях.

InternChat: Решение задач, ориентированных на зрение, через взаимодействие с чат-ботами за пределами языка
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

May 9, 2023

Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao

Мы представляем интерактивную визуальную платформу под названием InternChat, или сокращенно iChat. Эта платформа интегрирует чат-боты с возможностями планирования и логического рассуждения, такие как ChatGPT, с невербальными инструкциями, такими как указывающие движения, которые позволяют пользователям напрямую управлять изображениями или видео на экране. Указывающие движения (включая жесты, курсоры и т.д.) обеспечивают большую гибкость и точность при выполнении задач, ориентированных на визуальное восприятие, которые требуют детального управления, редактирования и создания визуального контента. Название InternChat расшифровывается как взаимодействие (interaction), невербальные инструкции (nonverbal) и чат-боты (chatbots). В отличие от существующих интерактивных систем, которые полагаются исключительно на язык, включение указывающих инструкций в iChat значительно повышает эффективность коммуникации между пользователями и чат-ботами, а также точность выполнения чат-ботами задач, связанных с визуальным восприятием, особенно в сложных визуальных сценариях, где количество объектов превышает два. Кроме того, в iChat используется вспомогательный механизм управления для улучшения управляемости крупных языковых моделей (LLM), а также дорабатывается крупная визуально-языковая модель под названием Husky для высококачественного мультимодального диалога (превосходя ChatGPT-3.5-turbo с качеством 93.89% от GPT-4). Мы надеемся, что эта работа вдохновит на новые идеи и направления для будущих интерактивных визуальных систем. Приглашаем ознакомиться с кодом по адресу https://github.com/OpenGVLab/InternChat.

Метод "Планирование и решение": Улучшение нулевого обучения с цепочкой рассуждений в крупных языковых моделях
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

May 6, 2023

Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim

Крупные языковые модели (LLMs) недавно продемонстрировали впечатляющие результаты в различных задачах обработки естественного языка (NLP). Для решения задач, требующих многошагового рассуждения, метод few-shot chain-of-thought (CoT) включает несколько вручную созданных пошаговых демонстраций рассуждений, которые позволяют LLMs явно генерировать шаги рассуждений и повышать точность выполнения таких задач. Чтобы исключить ручной труд, Zero-shot-CoT объединяет формулировку целевой задачи с фразой "Давайте подумаем шаг за шагом" в качестве входного запроса для LLMs. Несмотря на успех Zero-shot-CoT, этот метод всё ещё страдает от трёх недостатков: ошибок в вычислениях, пропущенных шагов и семантических ошибок понимания. Для устранения пропущенных шагов мы предлагаем метод Plan-and-Solve (PS) Prompting. Он состоит из двух компонентов: сначала разработки плана, который делит всю задачу на более мелкие подзадачи, а затем выполнения этих подзадач в соответствии с планом. Для устранения ошибок в вычислениях и повышения качества генерируемых шагов рассуждений мы расширяем PS prompting более детальными инструкциями и получаем PS+ prompting. Мы оцениваем предложенную стратегию на десяти наборах данных, охватывающих три типа задач на рассуждение. Экспериментальные результаты на GPT-3 показывают, что наш метод zero-shot prompting значительно превосходит Zero-shot-CoT на всех наборах данных, сопоставим или превосходит Zero-shot-Program-of-Thought Prompting и демонстрирует сравнимую производительность с 8-shot CoT prompting в задачах на математическое рассуждение. Код доступен по адресу https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.

SUR-адаптер: Улучшение предобученных диффузионных моделей для генерации изображений из текста с использованием крупных языковых моделей
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

May 9, 2023

Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin

Диффузионные модели, которые стали популярными моделями генерации изображений по тексту, способны создавать высококачественные и содержательные изображения на основе текстовых запросов. Однако существующие модели имеют ограничения в семантическом понимании и здравом смысле, когда входные запросы представляют собой краткие повествования, что приводит к генерации изображений низкого качества. Для улучшения способностей работы с повествовательными запросами мы предлагаем простой, но эффективный метод параметрически-эффективной тонкой настройки под названием адаптер семантического понимания и рассуждения (SUR-адаптер) для предобученных диффузионных моделей. Для достижения этой цели мы сначала собираем и аннотируем новый набор данных SURD, который состоит из более чем 57 000 семантически корректированных мультимодальных образцов. Каждый образец содержит простое повествовательное описание, сложный запрос на основе ключевых слов и высококачественное изображение. Затем мы выравниваем семантическое представление повествовательных запросов к сложным запросам и передаем знания крупных языковых моделей (LLM) в наш SUR-адаптер через дистилляцию знаний, чтобы он мог приобрести мощные способности семантического понимания и рассуждения для построения высококачественного текстового семантического представления для генерации изображений по тексту. Мы проводим эксперименты, интегрируя несколько LLM и популярные предобученные диффузионные модели, чтобы показать эффективность нашего подхода в обеспечении понимания и рассуждения диффузионными моделями краткого естественного языка без ухудшения качества изображений. Наш подход делает диффузионные модели генерации изображений по тексту более удобными в использовании с улучшенным пользовательским опытом, что демонстрирует потенциал нашего подхода для дальнейшего продвижения разработки удобных моделей генерации изображений по тексту, устраняя семантический разрыв между простыми повествовательными запросами и сложными запросами на основе ключевых слов.

Остаточная настройка промптов: Улучшение настройки промптов с помощью остаточной репараметризации
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization

May 6, 2023

Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi

Тюнинг промптов является одним из успешных подходов для параметрически эффективной настройки предобученных языковых моделей. Несмотря на то, что он, возможно, является наиболее параметрически эффективным (настраиваемые мягкие промпты составляют <0,1% от общего числа параметров), он, как правило, показывает худшие результаты по сравнению с другими эффективными методами настройки и довольно чувствителен к гиперпараметрам. В данной работе мы представляем Residual Prompt Tuning — простой и эффективный метод, который значительно улучшает производительность и стабильность тюнинга промптов. Мы предлагаем перепараметризовать вложения мягких промптов с использованием неглубокой сети с остаточным соединением. Наши эксперименты показывают, что Residual Prompt Tuning значительно превосходит тюнинг промптов на бенчмарке SuperGLUE. В частности, наш метод демонстрирует улучшение на +7 баллов по сравнению с тюнингом промптов на модели T5-Base и позволяет сократить длину промпта в 10 раз без ущерба для производительности. Кроме того, мы показываем, что наш подход устойчив к выбору скорости обучения и инициализации промптов, а также эффективен в условиях обучения с малым количеством примеров.

MultiModal-GPT: Модель для обработки визуальной и текстовой информации в диалогах с людьми
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

May 8, 2023

Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen

Мы представляем модель для обработки зрения и языка под названием MultiModal-GPT, способную вести многораундовый диалог с людьми. MultiModal-GPT может выполнять различные инструкции от пользователей, такие как генерация подробного описания, подсчет количества интересующих объектов и ответы на общие вопросы. Модель эффективно дообучена на основе OpenFlamingo с добавлением Low-rank Adapter (LoRA) как в части кросс-внимания, так и в части самовнимания языковой модели. Сначала мы создаем шаблоны инструкций с использованием данных по зрению и языку для настройки модели на выполнение мультимодальных инструкций, чтобы она могла понимать и следовать указаниям человека. Мы обнаружили, что качество обучающих данных критически важно для производительности диалога, так как небольшое количество данных с короткими ответами может привести к тому, что модель будет кратко отвечать на любые инструкции. Для дальнейшего улучшения способности MultiModal-GPT к общению с людьми мы используем данные, содержащие только языковые инструкции, для совместного обучения модели. Совместное обучение на данных с языковыми и визуально-языковыми инструкциями с использованием одного и того же шаблона инструкций эффективно повышает качество диалога. Различные демонстрации показывают способность MultiModal-GPT к непрерывному диалогу с людьми. Код и демо доступны по адресу https://github.com/open-mmlab/Multimodal-GPT.

AvatarReX: Выразительные аватары всего тела в реальном времени
AvatarReX: Real-time Expressive Full-body Avatars

May 8, 2023

Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu

Мы представляем AvatarReX — новый метод для обучения полнотелых аватаров на основе NeRF (Neural Radiance Fields) с использованием видеоданных. Обученный аватар не только обеспечивает выразительное управление телом, руками и лицом одновременно, но также поддерживает анимацию и рендеринг в реальном времени. Для достижения этого мы предлагаем композиционное представление аватара, в котором тело, руки и лицо моделируются отдельно таким образом, что структурные априорные данные из параметрических шаблонов сеток эффективно используются без ущерба для гибкости представления. Кроме того, мы разделяем геометрию и внешний вид для каждой части. Благодаря этим техническим решениям мы предлагаем специализированный конвейер отложенного рендеринга, который может выполняться с частотой кадров в реальном времени для синтеза высококачественных изображений с произвольного ракурса. Разделение геометрии и внешнего вида также позволяет нам разработать двухэтапную стратегию обучения, которая сочетает объемный и поверхностный рендеринг для тренировки сети. Таким образом, можно применять пошаговый контроль на уровне патчей, чтобы заставить сеть изучать четкие детали внешнего вида на основе оценки геометрии. В целом, наш метод позволяет автоматически создавать выразительные полнотелые аватары с возможностью рендеринга в реальном времени и генерировать фотореалистичные изображения с динамическими деталями для новых движений тела и мимики.

Языковые модели не всегда говорят то, что думают: недостоверные объяснения в методе цепочки рассуждений (Chain-of-Thought Prompting).
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

May 7, 2023

Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman

Крупные языковые модели (LLM) могут демонстрировать высокую производительность в решении множества задач, генерируя пошаговые рассуждения перед выдачей окончательного ответа, что часто называют цепочкой рассуждений (chain-of-thought reasoning, CoT). Возникает соблазн интерпретировать эти CoT-объяснения как процесс, используемый моделью для решения задачи. Однако мы обнаруживаем, что CoT-объяснения могут систематически искажать истинные причины предсказаний модели. Мы показываем, что CoT-объяснения могут быть значительно изменены путем добавления смещающих признаков к входным данным модели — например, путем переупорядочивания вариантов ответов в few-shot промпте так, чтобы правильный ответ всегда был "(A)", — что модели систематически не упоминают в своих объяснениях. Когда мы смещаем модели в сторону неверных ответов, они часто генерируют CoT-объяснения, поддерживающие эти ответы. Это приводит к снижению точности на 36% в наборе из 13 задач из BIG-Bench Hard при тестировании с использованием GPT-3.5 от OpenAI и Claude 1.0 от Anthropic. В задаче на социальные предубеждения объяснения моделей оправдывают ответы, соответствующие стереотипам, не упоминая влияние этих социальных предубеждений. Наши результаты указывают на то, что CoT-объяснения могут быть правдоподобными, но вводящими в заблуждение, что повышает риск излишнего доверия к LLM без гарантии их безопасности. CoT перспективен для объяснимости, но наши результаты подчеркивают необходимость целенаправленных усилий для оценки и улучшения достоверности объяснений.

Многопространственные нейронные поля излучения
Multi-Space Neural Radiance Fields

May 7, 2023

Ze-Xin Yin, Jiaxiong Qiu, Ming-Ming Cheng, Bo Ren

Существующие методы Neural Radiance Fields (NeRF) сталкиваются с проблемами при наличии отражающих объектов, что часто приводит к размытым или искажённым результатам рендеринга. Вместо вычисления единого поля излучения мы предлагаем мультипространственное нейронное поле излучения (MS-NeRF), которое представляет сцену с использованием группы полей признаков в параллельных подпространствах. Это позволяет нейронной сети лучше учитывать наличие отражающих и преломляющих объектов. Наша мультипространственная схема служит улучшением существующих методов NeRF, требуя лишь небольших дополнительных вычислительных затрат для обучения и вывода результатов в дополнительных пространствах. Мы демонстрируем превосходство и совместимость нашего подхода на трёх представительных моделях, основанных на NeRF: NeRF, Mip-NeRF и Mip-NeRF 360. Сравнения проводятся на новом наборе данных, состоящем из 25 синтетических сцен и 7 реально снятых сцен с сложными отражениями и преломлениями, все из которых имеют 360-градусные обзоры. Многочисленные эксперименты показывают, что наш подход значительно превосходит существующие методы NeRF с единым пространством при рендеринге высококачественных сцен, связанных со сложными световыми путями через зеркальные объекты. Наш код и набор данных будут доступны по адресу https://zx-yin.github.io/msnerf.

Vcc: Масштабирование трансформаторов до 128 тысяч токенов и более за счёт приоритизации важных токенов
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

May 7, 2023

Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng

Трансформерные модели являются основополагающими для обработки естественного языка (NLP) и компьютерного зрения. Несмотря на множество недавних работ, посвященных снижению квадратичной сложности таких моделей (как функции длины последовательности n), эффективная обработка сверхдлинных последовательностей (например, с более чем 16K токенов) остается сложной задачей. Приложения, такие как ответы на вопросы на основе целой книги или суммаризация научной статьи, работают неэффективно или вовсе невозможны. В данной статье мы предлагаем значительно снизить зависимость сложности трансформерной модели от n путем сжатия входных данных в представление, размер которого r не зависит от n на каждом слое. В частности, используя тот факт, что во многих задачах лишь небольшое подмножество специальных токенов (которые мы называем VIP-токенами) наиболее важно для итогового предсказания, мы предлагаем схему сжатия, ориентированную на VIP-токены (Vcc), которая выборочно сжимает входную последовательность на основе их влияния на аппроксимацию представления этих VIP-токенов. По сравнению с конкурентоспособными базовыми методами, предложенный алгоритм не только эффективен (обеспечивая более чем 3-кратное улучшение эффективности на длинах 4K и 16K), но также демонстрирует сопоставимую или лучшую производительность на большом количестве задач. Более того, мы показываем, что наш алгоритм может масштабироваться до 128K токенов (или более), при этом стабильно улучшая точность.

Предварительное обучение языковой модели как многоперспективного обучающегося курса
Pre-training Language Model as a Multi-perspective Course Learner

May 6, 2023

Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen Huang, Furu Wei, Weiwei Deng, Qi Zhang

Фреймворк предварительного обучения ELECTRA, основанный на архитектуре генератор-дискриминатор, продемонстрировал впечатляющие способности в построении семантики для различных задач. Несмотря на убедительные результаты, ELECTRA сталкивается с проблемами монотонного обучения и недостаточного взаимодействия. Генератор, использующий только моделирование маскированного языка (MLM), приводит к смещённому обучению и дисбалансу меток для дискриминатора, снижая эффективность обучения; отсутствие явной обратной связи от дискриминатора к генератору создаёт разрыв между этими компонентами, недоиспользуя поэтапное обучение. В данном исследовании предлагается метод многоперспективного поэтапного обучения (MCL), который обеспечивает множество степеней и углов зрения для эффективного предварительного обучения и полностью использует взаимосвязь между генератором и дискриминатором. Конкретно, три курса самоконтроля разработаны для устранения врождённых недостатков MLM и балансировки меток многоперспективным способом. Кроме того, предлагаются два курса самокоррекции, чтобы устранить разрыв между двумя кодировщиками путём создания "тетради коррекции" для вторичного контроля. Более того, проводится эксперимент с "супом курсов" для решения проблемы динамики "перетягивания каната" в MCL, что способствует эволюции более сильной предварительно обученной модели. Экспериментальные результаты показывают, что наш метод значительно улучшает среднюю производительность ELECTRA на 2,8% и 3,2% абсолютных пунктов соответственно на бенчмарках GLUE и SQuAD 2.0, превосходя недавние передовые модели в стиле ELECTRA при тех же настройках. Предварительно обученная модель MCL доступна по адресу https://huggingface.co/McmanusChen/MCL-base.

SUR-адаптер: Улучшение предобученных диффузионных моделей для генерации изображений из текста с использованием крупных языковых моделей
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

May 9, 2023

Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin

Ежедневные статьи

FrugalGPT: Как использовать большие языковые модели, снижая затраты и повышая производительность
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

К созданию федеративного GPT: федеративная настройка по инструкциям
Towards Building the Federated GPT: Federated Instruction Tuning

InternChat: Решение задач, ориентированных на зрение, через взаимодействие с чат-ботами за пределами языка
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

Метод "Планирование и решение": Улучшение нулевого обучения с цепочкой рассуждений в крупных языковых моделях
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

Остаточная настройка промптов: Улучшение настройки промптов с помощью остаточной репараметризации
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization

MultiModal-GPT: Модель для обработки визуальной и текстовой информации в диалогах с людьми
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

AvatarReX: Выразительные аватары всего тела в реальном времени
AvatarReX: Real-time Expressive Full-body Avatars

Многопространственные нейронные поля излучения
Multi-Space Neural Radiance Fields

Vcc: Масштабирование трансформаторов до 128 тысяч токенов и более за счёт приоритизации важных токенов
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

Предварительное обучение языковой модели как многоперспективного обучающегося курса
Pre-training Language Model as a Multi-perspective Course Learner

Support

Support

Ежедневные статьи

FrugalGPT: Как использовать большие языковые модели, снижая затраты и повышая производительность
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

К созданию федеративного GPT: федеративная настройка по инструкциям
Towards Building the Federated GPT: Federated Instruction Tuning

InternChat: Решение задач, ориентированных на зрение, через взаимодействие с чат-ботами за пределами языка
InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

Метод "Планирование и решение": Улучшение нулевого обучения с цепочкой рассуждений в крупных языковых моделях
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

Остаточная настройка промптов: Улучшение настройки промптов с помощью остаточной репараметризации
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization

MultiModal-GPT: Модель для обработки визуальной и текстовой информации в диалогах с людьми
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans

AvatarReX: Выразительные аватары всего тела в реальном времени
AvatarReX: Real-time Expressive Full-body Avatars

Многопространственные нейронные поля излучения
Multi-Space Neural Radiance Fields

Vcc: Масштабирование трансформаторов до 128 тысяч токенов и более за счёт приоритизации важных токенов
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

Предварительное обучение языковой модели как многоперспективного обучающегося курса
Pre-training Language Model as a Multi-perspective Course Learner