Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковым моделям действительно требуется использовать лишь экспоненциально малую долю своих нейронов для отдельных выводов. В качестве доказательства мы представляем FastBERT — вариант модели BERT, который использует 0,3% своих нейронов во время вывода, при этом демонстрируя производительность на уровне аналогичных моделей BERT. FastBERT избирательно задействует всего 12 из 4095 нейронов для каждого вывода на уровне. Это достигается за счет замены полносвязных сетей на быстрые полносвязные сети (FFFs). Хотя в настоящее время не существует действительно эффективной реализации, способной раскрыть весь потенциал ускорения условного выполнения нейронных сетей, мы предоставляем высокоуровневый код для CPU, достигающий 78-кратного ускорения по сравнению с оптимизированной базовой реализацией полносвязных сетей, а также реализацию на PyTorch, обеспечивающую 40-кратное ускорение по сравнению с эквивалентным пакетным выводом полносвязных сетей. Мы публикуем наш код для обучения, настройку бенчмаркинга и веса модели.
Orca 1 обучается на основе богатых сигналов, таких как трассировки объяснений, что позволяет ей превосходить традиционные модели, настроенные на инструкции, на тестах вроде BigBench Hard и AGIEval. В Orca 2 мы продолжаем исследовать, как улучшенные обучающие сигналы могут повысить способности к рассуждению у меньших языковых моделей (LM). Исследования в области обучения небольших LM часто полагались на имитационное обучение для воспроизведения выходных данных более мощных моделей. Мы утверждаем, что чрезмерный акцент на имитацию может ограничить потенциал меньших моделей. Мы стремимся научить небольшие LM использовать различные стратегии решения для разных задач, которые могут отличаться от тех, что применяются более крупными моделями. Например, хотя более крупные модели могут давать прямой ответ на сложную задачу, меньшие модели могут не обладать такой же способностью. В Orca 2 мы обучаем модель различным техникам рассуждения (пошагово, вспомнить и сгенерировать, вспомнить-рассудить-сгенерировать, прямой ответ и т.д.). Что еще важнее, мы стремимся помочь модели научиться определять наиболее эффективную стратегию решения для каждой задачи. Мы оцениваем Orca 2 с использованием комплексного набора из 15 разнообразных тестов (соответствующих примерно 100 задачам и более 36 000 уникальных запросов). Orca 2 значительно превосходит модели аналогичного размера и достигает уровней производительности, схожих или лучших, чем у моделей в 5-10 раз крупнее, что подтверждается на сложных задачах, тестирующих продвинутые способности к рассуждению в условиях zero-shot. Мы открываем исходный код Orca 2, чтобы стимулировать дальнейшие исследования в области разработки, оценки и согласования меньших LM.
Создание видео с высокой динамикой, таких как насыщенные действиями сцены и сложные визуальные эффекты, представляет собой значительную задачу в области искусственного интеллекта. К сожалению, современные методы генерации видео, в основном сосредоточенные на преобразовании текста в видео, как правило, создают видеоклипы с минимальным движением, несмотря на сохранение высокой точности. Мы утверждаем, что полагаться исключительно на текстовые инструкции недостаточно и неоптимально для генерации видео. В данной статье мы представляем PixelDance, новый подход, основанный на диффузионных моделях, который включает в себя инструкции в виде изображений для первого и последнего кадров в сочетании с текстовыми инструкциями для генерации видео. Результаты комплексных экспериментов демонстрируют, что PixelDance, обученный на общедоступных данных, значительно лучше справляется с синтезом видео со сложными сценами и замысловатыми движениями, устанавливая новый стандарт в области генерации видео.
Мягкое внимание в трансформаторных моделях больших языковых моделей (LLM) склонно включать нерелевантную информацию из контекста в свои латентные представления, что негативно влияет на генерацию следующих токенов. Для устранения этих проблем мы представляем подход System 2 Attention (S2A), который использует способность LLM к рассуждению на естественном языке и следованию инструкциям для определения того, на что следует обращать внимание. S2A пересоздает входной контекст, оставляя только релевантные части, а затем применяет внимание к пересозданному контексту для получения финального ответа. В экспериментах S2A превосходит стандартные модели с вниманием на трех задачах, содержащих мнения или нерелевантную информацию: вопросы и ответы, математические текстовые задачи и длинная генерация, где S2A повышает фактическую точность и объективность, а также снижает склонность к угодливости.
LoRA демонстрирует выдающуюся эффективность использования ресурсов и сопоставимую производительность при адаптации больших языковых моделей (LLM) для конкретных задач. С тех пор как ChatGPT показал превосходную производительность в различных задачах, возникло растущее желание адаптировать одну модель для всех задач. Однако явная низкая ранговая структура LoRA ограничивает производительность адаптации в сложных сценариях с множеством задач. LoRA в значительной степени определяется небольшим количеством ведущих сингулярных векторов, в то время как тонкая настройка разлагается на набор менее значимых унитарных преобразований. В данной статье мы предлагаем MultiLoRA для улучшения адаптации к множеству задач, уменьшая доминирование ведущих сингулярных векторов, наблюдаемое в LoRA. MultiLoRA масштабирует модули LoRA горизонтально и изменяет инициализацию параметров адаптационных матриц для снижения зависимости параметров, что приводит к более сбалансированным унитарным подпространствам. Мы впервые создаем специализированные обучающие данные, смешивая наборы данных для выполнения инструкций, понимания естественного языка и знаний о мире, чтобы охватить семантически и синтаксически различные образцы. Всего с 2,5% дополнительных параметров MultiLoRA превосходит одиночные аналоги LoRA и тонкую настройку на нескольких тестовых наборах и масштабах моделей. Дальнейшее исследование матриц обновления весов MultiLoRA показывает снижение зависимости от ведущих сингулярных векторов и более равномерный вклад унитарных преобразований.
Мы представляем GPQA — сложный набор данных, состоящий из 448 вопросов с множественным выбором, составленных экспертами в области биологии, физики и химии. Мы обеспечили высокое качество и исключительную сложность вопросов: эксперты, имеющие или получающие степень PhD в соответствующих областях, достигают точности 65% (74% при исключении явных ошибок, которые эксперты выявили впоследствии), тогда как высококвалифицированные неэксперты-валидаторы достигают лишь 34% точности, несмотря на то, что в среднем тратят более 30 минут с неограниченным доступом к интернету (то есть вопросы являются "устойчивыми к поиску в Google"). Вопросы также сложны для современных систем искусственного интеллекта: наша наиболее сильная базовая модель на основе GPT-4 достигает точности 39%. Если мы хотим использовать будущие системы ИИ для ответов на очень сложные вопросы, например, при разработке новых научных знаний, нам необходимо разработать масштабируемые методы контроля, которые позволят людям надзирать за их выводами, что может быть сложным даже для опытных и знающих специалистов. Сложность GPQA как для квалифицированных неэкспертов, так и для передовых систем ИИ должна позволить проводить реалистичные эксперименты по масштабируемому контролю, что, как мы надеемся, поможет разработать способы, с помощью которых эксперты смогут надежно получать достоверную информацию от систем ИИ, превосходящих человеческие возможности.
Мы представляем Adapters — библиотеку с открытым исходным кодом, которая объединяет параметрически эффективное и модульное трансферное обучение в больших языковых моделях. Интегрируя 10 различных методов адаптеров в единый интерфейс, Adapters обеспечивает простоту использования и гибкую настройку. Наша библиотека позволяет исследователям и практикам использовать модульность адаптеров через композиционные блоки, что упрощает проектирование сложных конфигураций адаптеров. Мы демонстрируем эффективность библиотеки, оценивая её производительность в сравнении с полным тонкой настройкой на различных задачах обработки естественного языка. Adapters предоставляет мощный инструмент для решения проблем традиционных подходов к тонкой настройке и способствует более эффективному и модульному трансферному обучению. Библиотека доступна по адресу https://adapterhub.ml/adapters.
Мы представляем метод Style Tailoring — подход для тонкой настройки моделей латентной диффузии (LDMs) в специфической области с высокой визуальной качеством, соответствием запросам и разнообразием сцен. В качестве целевой области мы выбрали генерацию стикеров, так как такие изображения существенно отличаются от фотореалистичных образцов, обычно создаваемых крупномасштабными LDMs. Мы начинаем с мощной текстово-изобразительной модели, такой как Emu, и показываем, что использование инженерии запросов с фотореалистичной моделью для создания стикеров приводит к слабому соответствию запросам и ограниченному разнообразию сцен. Чтобы преодолеть эти недостатки, мы сначала тонко настраиваем Emu на миллионах изображений, похожих на стикеры, собранных с использованием слабого контроля, чтобы добиться разнообразия. Затем мы создаем наборы данных Alignment и Style с участием человека (HITL) на основе генераций модели и проводим тонкую настройку для улучшения соответствия запросам и стилю соответственно. Последовательная тонкая настройка на этих наборах данных создает компромисс между улучшением соответствия стилю и запросам. Чтобы решить эту проблему, мы предлагаем новый метод тонкой настройки под названием Style Tailoring, который совместно учитывает распределение контента и стиля и достигает оптимального компромисса. Результаты оценки показывают, что наш метод улучшает визуальное качество на 14%, соответствие запросам на 16,2% и разнообразие сцен на 15,3% по сравнению с использованием инженерии запросов на базовой модели Emu для генерации стикеров.
Последние достижения в области генерации 3D-моделей из текста знаменуют собой важный этап в развитии генеративных моделей, открывая новые возможности для создания креативных 3D-ассетов в различных реальных сценариях. Однако, несмотря на прогресс, многие современные методы часто не справляются с задачей создания детализированных и высококачественных 3D-моделей. Эта проблема особенно актуальна, поскольку многие подходы основываются на методе Score Distillation Sampling (SDS). В данной работе выявлен существенный недостаток SDS: он приводит к нестабильным и низкокачественным направлениям обновления 3D-модели, вызывая эффект избыточного сглаживания. Для решения этой проблемы мы предлагаем новый подход под названием Interval Score Matching (ISM). ISM использует детерминированные траектории диффузии и интервальное сопоставление оценок для противодействия избыточному сглаживанию. Кроме того, мы интегрируем метод 3D Gaussian Splatting в наш конвейер генерации 3D-моделей из текста. Многочисленные эксперименты демонстрируют, что наша модель значительно превосходит современные аналоги по качеству и эффективности обучения.
Увеличение количества параметров языковых моделей доказало свою эффективность в улучшении их производительности. Для плотных моделей рост размера модели пропорционально увеличивает вычислительные затраты. В данной работе мы стремимся радикально разделить обучающую способность и количество операций с плавающей запятой (FLOPs) с помощью моделей типа "Смесь экспертов" (Mixture-of-Experts, MoE), использующих функции маршрутизации на основе богатого словаря и экспертов. Наш предложенный подход, названный "Смесь экспертов по словам" (Mixture of Word Experts, MoWE), можно рассматривать как модель, дополненную памятью, где большое множество экспертов, специализирующихся на отдельных словах, играет роль разреженной памяти. Мы демонстрируем, что MoWE значительно превосходит модели семейства T5 при схожем количестве FLOPs в различных задачах обработки естественного языка. Кроме того, MoWE превосходит обычные модели MoE в задачах, требующих глубоких знаний, и демонстрирует производительность, сопоставимую с более сложными подходами, дополненными памятью, которые часто требуют использования специальных механизмов для поиска в разреженной памяти.
Визуализация историй направлена на создание серии изображений, соответствующих текстовому описанию сюжета, при этом сгенерированные изображения должны обладать высоким качеством, соответствовать текстовому описанию и сохранять согласованность в идентичности персонажей. Учитывая сложность задачи визуализации историй, существующие методы значительно упрощают проблему, ограничиваясь рассмотрением лишь нескольких конкретных персонажей и сценариев или требуя от пользователей предоставления управляющих условий для каждого изображения, таких как наброски. Однако такие упрощения делают эти методы непригодными для реальных приложений. В связи с этим мы предлагаем автоматизированную систему визуализации историй, способную эффективно генерировать разнообразные, высококачественные и согласованные наборы изображений с минимальным участием человека. В частности, мы используем способности крупных языковых моделей к пониманию и планированию для разработки компоновки, а затем применяем масштабные модели преобразования текста в изображение для создания сложных изображений на основе этой компоновки. Эмпирически мы установили, что разреженные управляющие условия, такие как ограничивающие рамки, подходят для планирования компоновки, тогда как плотные управляющие условия, например, наброски и ключевые точки, подходят для создания высококачественного содержания изображений. Чтобы объединить преимущества обоих подходов, мы разработали модуль генерации плотных условий, который преобразует простые компоновки с ограничивающими рамками в управляющие условия в виде набросков или ключевых точек для финальной генерации изображений. Это не только повышает качество изображений, но и позволяет осуществлять легкое и интуитивно понятное взаимодействие с пользователем. Кроме того, мы предлагаем простой, но эффективный метод для создания согласованных изображений персонажей в нескольких ракурсах, устраняя необходимость в ручном сборе или рисовании изображений персонажей.
От древних водяных колес до роботизированной автоматизации процессов (RPA), технологии автоматизации развивались на протяжении истории, освобождая людей от изнурительных задач. Однако RPA сталкивается с трудностями при выполнении задач, требующих человеческого интеллекта, особенно в сложном проектировании построения рабочих процессов и динамическом принятии решений в ходе их выполнения. С появлением крупных языковых моделей (LLM), обладающих интеллектом, схожим с человеческим, в данной статье представлена Агентная Автоматизация Процессов (APA) — революционная парадигма автоматизации, использующая агентов на основе LLM для продвинутой автоматизации путем передачи человеческого труда агентам, отвечающим за построение и выполнение процессов. Мы представляем ProAgent, агента на основе LLM, разработанного для создания рабочих процессов на основе человеческих инструкций и принятия сложных решений путем координации специализированных агентов. Проведены эмпирические эксперименты, детализирующие процедуру построения и выполнения рабочих процессов, демонстрирующие осуществимость APA и открывающие возможность новой парадигмы автоматизации, управляемой агентами. Наш код доступен по адресу https://github.com/OpenBMB/ProAgent.
Крупные языковые модели (LLM) продемонстрировали способность решать задачи, требующие сочетания планирования задач и использования внешних инструментов, таких как API. Однако реальные сложные системы представляют три основные проблемы, связанные с планированием задач и использованием инструментов: (1) Реальная система обычно имеет огромное количество API, поэтому невозможно передать описания всех API в подсказку LLM из-за ограниченной длины токенов; (2) реальная система предназначена для выполнения сложных задач, и базовые LLM с трудом могут спланировать правильный порядок подзадач и вызовов API для таких задач; (3) Схожие семантика и функциональность API в реальных системах создают трудности как для LLM, так и даже для людей в их различении. В ответ на это данная статья представляет комплексную структуру, направленную на улучшение способностей LLM-агентов к планированию задач и использованию инструментов (TPTU) в реальных системах. Наша структура включает три ключевых компонента, предназначенных для решения этих проблем: (1) API Retriever выбирает наиболее подходящие API для задачи пользователя из обширного массива доступных; (2) LLM Finetuner настраивает базовую LLM, чтобы настроенная модель могла лучше справляться с планированием задач и вызовом API; (3) Demo Selector адаптивно извлекает различные демонстрации, связанные с трудноразличимыми API, которые далее используются для обучения в контексте с целью повышения итоговой производительности. Мы проверяем наши методы на реальной коммерческой системе, а также на открытом академическом наборе данных, и результаты явно демонстрируют эффективность каждого отдельного компонента, а также интегрированной структуры в целом.
Мы представляем конвейер, который расширяет возможности универсальной модели обработки визуальной и языковой информации GPT-4V(ision), интегрируя наблюдения за действиями человека для облегчения роботизированного манипулирования. Эта система анализирует видео, на которых люди выполняют задачи, и создает исполняемые программы для роботов, включающие данные о возможностях взаимодействия. Вычисления начинаются с анализа видео с помощью GPT-4V для преобразования деталей окружающей среды и действий в текст, за которым следует планирование задач с использованием GPT-4. В последующих анализах системы компьютерного зрения повторно анализируют видео с учетом плана задачи. Названия объектов уточняются с помощью детектора объектов с открытым словарем, а фокус на взаимодействии руки и объекта помогает определить моменты захвата и отпускания. Это пространственно-временное уточнение позволяет системам компьютерного зрения дополнительно собирать данные о возможностях взаимодействия (например, тип захвата, ключевые точки и позы тела). Эксперименты в различных сценариях демонстрируют эффективность этого метода в достижении операций реальных роботов на основе демонстраций человека в режиме zero-shot. Подсказки для GPT-4V/GPT-4 доступны на странице проекта: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
Современная исследовательская среда, использующая большие языковые модели (LLM), переживает значительный подъем. Многие работы используют мощные способности этих моделей к рассуждению для понимания различных модальностей, таких как текст, речь, изображения, видео и т.д. Они также применяют LLM для понимания человеческих намерений и генерации желаемых результатов, таких как изображения, видео и музыка. Однако исследования, сочетающие как понимание, так и генерацию с использованием LLM, все еще ограничены и находятся на начальной стадии. Чтобы восполнить этот пробел, мы представляем фреймворк Multi-modal Music Understanding and Generation (M²UGen), который объединяет способности LLM к пониманию и генерации музыки для различных модальностей. Фреймворк M²UGen специально разработан для раскрытия творческого потенциала из разнообразных источников вдохновения, включая музыку, изображения и видео, с использованием предобученных моделей MERT, ViT и ViViT соответственно. Для генерации музыки мы исследуем применение моделей AudioLDM 2 и MusicGen. Связь между многомодальным пониманием и генерацией музыки осуществляется через интеграцию модели LLaMA 2. Кроме того, мы используем модель MU-LLaMA для создания обширных наборов данных, поддерживающих генерацию музыки из текста, изображений и видео, что облегчает обучение нашего фреймворка M²UGen. Мы проводим тщательную оценку предложенного фреймворка. Результаты экспериментов показывают, что наша модель достигает или превосходит производительность современных моделей, являющихся эталоном в данной области.