Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Florence-2, новую базовую модель для обработки изображений, которая использует унифицированное представление на основе текстовых запросов для решения разнообразных задач компьютерного зрения и взаимодействия изображений с текстом. В то время как существующие крупные модели обработки изображений демонстрируют высокие результаты в трансферном обучении, они испытывают трудности с выполнением множества задач на основе простых инструкций, что требует способности справляться со сложностью различных пространственных иерархий и семантической гранулярности. Florence-2 была разработана для принятия текстовых запросов в качестве инструкций и генерации желаемых результатов в текстовой форме, будь то создание подписей, обнаружение объектов, локализация или сегментация. Такая настройка многозадачного обучения требует масштабных и качественных аннотированных данных. Для этого мы совместно разработали FLD-5B, который включает 5,4 миллиарда всеобъемлющих визуальных аннотаций для 126 миллионов изображений, используя итеративную стратегию автоматической аннотации изображений и уточнения модели. Мы применили структуру "последовательность-последовательность" для обучения Florence-2 выполнению универсальных и комплексных задач обработки изображений. Многочисленные оценки на различных задачах показали, что Florence-2 является сильным претендентом на роль базовой модели для обработки изображений, обладающей беспрецедентными возможностями в условиях нулевого обучения и тонкой настройки.
Достижение человеческого уровня планирования и управления с использованием мультимодальных наблюдений в открытом мире является ключевым этапом для создания более функциональных универсальных агентов. Существующие подходы способны справляться с определенными долгосрочными задачами в открытом мире. Однако они по-прежнему сталкиваются с трудностями, когда количество задач в открытом мире потенциально бесконечно, и не обладают способностью постепенно улучшать выполнение задач по мере прогрессирования игрового времени. Мы представляем JARVIS-1 — агента открытого мира, который способен воспринимать мультимодальные входные данные (визуальные наблюдения и инструкции от человека), генерировать сложные планы и выполнять управление в физическом мире, все это в рамках популярной, но сложной открытой вселенной Minecraft. В частности, мы разработали JARVIS-1 на основе предварительно обученных мультимодальных языковых моделей, которые преобразуют визуальные наблюдения и текстовые инструкции в планы. Эти планы в конечном итоге передаются контроллерам, ориентированным на достижение целей. Мы оснастили JARVIS-1 мультимодальной памятью, которая способствует планированию, используя как предварительно полученные знания, так и реальный игровой опыт выживания. В наших экспериментах JARVIS-1 демонстрирует почти идеальные результаты в более чем 200 различных задачах из Minecraft Universe Benchmark, начиная с начального и заканчивая средним уровнем сложности. JARVIS-1 достиг показателя завершения в 12,5% в долгосрочной задаче по созданию алмазной кирки. Это представляет собой значительное увеличение до 5 раз по сравнению с предыдущими рекордами. Кроме того, мы показываем, что JARVIS-1 способен к самоулучшению в рамках парадигмы обучения на протяжении всей жизни благодаря мультимодальной памяти, что способствует развитию более общего интеллекта и улучшенной автономии. Страница проекта доступна по адресу https://craftjarvis-jarvis1.github.io.
Модели генерации 3D-объектов из текста с использованием диффузионных моделей достигли значительного прогресса в последние годы. Однако существующие методы либо полагаются на оптимизацию с использованием дистилляции оценок, что приводит к медленному выводу, низкому разнообразию и проблемам с "Янус-эффектом", либо являются методами прямого прохода, которые генерируют низкокачественные результаты из-за недостатка обучающих данных в 3D. В данной статье мы предлагаем Instant3D — новый метод, который генерирует высококачественные и разнообразные 3D-объекты из текстовых запросов в режиме прямого прохода. Мы используем двухэтапный подход: сначала генерируется разреженный набор из четырех структурированных и согласованных видов из текста за один шаг с помощью дообученной 2D диффузионной модели для генерации изображений из текста, а затем напрямую регрессируется NeRF из сгенерированных изображений с использованием нового трансформерного реконструктора для разреженных видов. В ходе обширных экспериментов мы демонстрируем, что наш метод способен генерировать высококачественные, разнообразные и свободные от "Янус-эффекта" 3D-объекты менее чем за 20 секунд, что на два порядка быстрее, чем предыдущие методы на основе оптимизации, которые могут занимать от 1 до 10 часов. Наш проект доступен по ссылке: https://jiahao.ai/instant3d/.
Мы представляем Lumos — новый фреймворк для обучения языковых агентов, который использует унифицированный формат данных и модульную архитектуру на основе открытых крупных языковых моделей (LLM). Lumos состоит из трех отдельных модулей: планирования, привязки и выполнения. Модуль планирования разбивает задачу на ряд высокоуровневых, независимых от инструментов подцелей, которые затем конкретизируются модулем привязки через набор низкоуровневых действий. Эти действия выполняются модулем выполнения с использованием различных готовых инструментов и API. Для эффективного обучения этих модулей были собраны высококачественные аннотации подцелей и действий, которые доступны для тонкой настройки открытых LLM для различных задач, таких как сложные вопросы, веб-задачи и математические задачи. Благодаря этому унифицированному набору данных и модульному дизайну Lumos не только демонстрирует сопоставимую или превосходящую производительность по сравнению с современными передовыми агентами, но также обладает несколькими ключевыми преимуществами: (1) Lumos превосходит агентов на основе GPT-4/3.5 в сложных вопросах и веб-задачах, при этом достигая производительности значительно более крупных LLM-агентов в математических задачах; (2) Lumos превосходит открытые агенты, созданные с использованием традиционных методов обучения и тех, что используют обучение с цепочкой рассуждений; и (3) Lumos способен эффективно обобщать на незнакомые интерактивные задачи, превосходя более крупные LLM-агенты и даже специализированные агенты.
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты во многих задачах NLP и за его пределами, однако большинство открытых моделей имеют крайне ограниченное покрытие малых языков, а исследования LLM, как правило, сосредоточены на языках, для которых доступны практически неограниченные данные для предварительного обучения. В данной работе мы исследуем сложности создания LLM для финского языка, на котором говорит менее 0,1% мирового населения. Мы собираем обширный набор данных на финском языке, включающий веб-сканеры, новости, социальные сети и электронные книги. Мы применяем два подхода для предварительного обучения моделей: 1) обучаем семь монолингвальных моделей с нуля (от 186 млн до 13 млрд параметров), названных FinGPT, 2) продолжаем предварительное обучение многоязычной модели BLOOM на смеси её исходных обучающих данных и финского языка, получая модель с 176 млрд параметров, которую мы называем BLUUMI. Для оценки моделей мы представляем FIN-bench — версию BIG-bench с заданиями на финском языке. Мы также анализируем другие качества моделей, такие как токсичность и предвзятость. Наши модели и инструменты открыто доступны по адресу https://turkunlp.org/gpt3-finnish.
Инженерия промптов является сложной, но крайне важной задачей для оптимизации производительности больших языковых моделей (LLM). Она требует сложного анализа для выявления ошибок модели, формулирования гипотез о том, что отсутствует или вводит в заблуждение в текущем промпте, и четкого описания задачи. Хотя последние исследования показывают, что LLM могут быть мета-промптированы для автоматической инженерии промптов, их потенциал может быть не полностью раскрыт из-за недостаточного руководства, необходимого для активации сложных аналитических способностей в мета-промпте. В данной работе мы исследуем проблему "инженерии промптов для инженера промптов" — создание мета-промпта, который более эффективно направляет LLM на выполнение автоматической инженерии промптов. Мы вводим и анализируем ключевые компоненты, такие как шаблон пошагового рассуждения и спецификация контекста, которые способствуют улучшению производительности. Кроме того, вдохновленные распространенными концепциями оптимизации, такими как размер пакета, размер шага и импульс, мы добавляем их вербализованные аналоги в мета-промпт и изучаем их влияние. Наш итоговый метод, названный PE2, находит промпт, который превосходит подход "давайте думать шаг за шагом" на 6,3% на наборе данных MultiArith и на 3,1% на наборе данных GSM8K. Чтобы продемонстрировать его универсальность, мы применяем PE2 к бенчмарку Instruction Induction, набору контрфактуальных задач и длинному промпту из реальной промышленной практики. В этих условиях PE2 демонстрирует высокую производительность и превосходит предыдущие базовые методы автоматической инженерии промптов. Кроме того, мы показываем, что PE2 вносит осмысленные и целенаправленные изменения в промпты, исправляет ошибочные или неполные промпты и демонстрирует нетривиальные способности к контрфактуальному рассуждению.
Логическое рассуждение является фундаментальным аспектом человеческого интеллекта и ключевым компонентом таких задач, как решение проблем и принятие решений. Последние достижения позволили крупным языковым моделям (LLM) потенциально демонстрировать способности к рассуждению, однако сложное логическое рассуждение остается вызовом. Современные модели, усиленные решателями, используют LLM для преобразования логических вопросов на естественном языке в символические представления, а затем применяют внешние логические решатели для обработки этих символических представлений и вывода ответов. Несмотря на впечатляющие результаты, любые ошибки в процессе преобразования неизбежно приводят к сбою в работе внешнего логического решателя и отсутствию ответа на логические вопросы. В данной статье мы представляем LoGiPT — новую языковую модель, которая непосредственно имитирует процессы рассуждения логических решателей и избегает ошибок преобразования, обучаясь строгому соблюдению синтаксиса и грамматики решателей. LoGiPT дорабатывается на новом наборе данных для настройки инструкций, созданном на основе анализа и уточнения скрытого процесса рассуждения дедуктивных решателей. Экспериментальные результаты на двух публичных наборах данных для дедуктивного рассуждения показывают, что LoGiPT превосходит современные модели, усиленные решателями, и методы немногих примеров на конкурентных LLM, таких как ChatGPT или GPT-4.
Крупные базовые модели становятся повсеместными, но их обучение с нуля требует непомерно высоких затрат. Поэтому эффективная адаптация этих мощных моделей для решения конкретных задач становится все более важной. В данной статье мы исследуем принципиальный подход к тонкой настройке — Ортогональную Тонкую Настройку (OFT) — для адаптации моделей к целевым задачам. Несмотря на демонстрацию хорошей обобщающей способности, OFT по-прежнему использует значительное количество обучаемых параметров из-за высокой размерности ортогональных матриц. Чтобы решить эту проблему, мы начинаем с анализа OFT с точки зрения передачи информации и выделяем несколько ключевых требований, которые позволяют повысить эффективность использования параметров. Вдохновленные тем, как алгоритм быстрого преобразования Фурье Кули-Тьюки обеспечивает эффективную передачу информации, мы предлагаем эффективную ортогональную параметризацию с использованием структур "бабочка". Мы применяем эту параметризацию к OFT, создавая новый метод тонкой настройки с высокой эффективностью параметров, называемый Ортогональная Бабочка (BOFT). Включая OFT как частный случай, BOFT представляет собой обобщенную структуру ортогональной тонкой настройки. Наконец, мы проводим обширное эмпирическое исследование адаптации крупных трансформеров для обработки изображений, крупных языковых моделей и моделей диффузии текста в изображения к различным целевым задачам в области зрения и языка.
Сверточные модели с длинными фильтрами продемонстрировали передовые способности в решении задач с длинными последовательностями, но уступают наиболее оптимизированным трансформерам по времени выполнения. Основным узким местом является быстрое преобразование Фурье (FFT), которое позволяет выполнять длинные свертки за время O(N logN) для последовательности длины N, но имеет низкую эффективность использования аппаратного обеспечения. В данной работе мы исследуем, как оптимизировать свертку на основе FFT. Мы выявили два ключевых узких места: FFT неэффективно использует специализированные блоки для матричного умножения и вызывает дорогостоящие операции ввода-вывода между уровнями иерархии памяти. В ответ мы предлагаем FlashFFTConv. FlashFFTConv использует матричное разложение, которое вычисляет FFT с использованием блоков матричного умножения и позволяет объединять ядра для длинных последовательностей, сокращая операции ввода-вывода. Мы также представляем два алгоритма разреженной свертки: 1) частичные свертки и 2) частотно-разреженные свертки, которые могут быть реализованы простым пропуском блоков в матричном разложении, что открывает дополнительные возможности для экономии памяти и вычислений. FlashFFTConv ускоряет точные FFT-свертки до 7.93 раз по сравнению с PyTorch и обеспечивает до 4.4-кратного ускорения на всем конвейере. При одинаковом бюджете вычислений FlashFFTConv позволяет Hyena-GPT-s достичь на 2.3 пункта лучшей перплексии на наборе данных PILE, а M2-BERT-base — на 3.3 пункта выше оценки GLUE, что соответствует моделям с вдвое большим количеством параметров. FlashFFTConv также достигает 96.1% точности на задаче Path-512, высокоразрешающей задаче компьютерного зрения, где ранее ни одна модель не показывала точность выше 50%. Кроме того, частичные свертки позволяют создавать модели для более длинных последовательностей, что привело к появлению первой модели для обработки ДНК, способной обрабатывать самые длинные человеческие гены (2.3 млн пар оснований), а частотно-разреженные свертки ускоряют предобученные модели, сохраняя или улучшая их качество.
Крупные языковые модели (LLM) всё чаще используются для интерактивных задач принятия решений, требующих планирования и адаптации к окружающей среде. В последних работах LLM применяются в качестве агентов двумя основными способами: итеративное определение следующего действия (итеративные исполнители) или генерация планов и выполнение подзадач с использованием LLM (планирование и выполнение). Однако эти методы сталкиваются с трудностями при работе со сложными задачами, так как неспособность выполнить любую подзадачу может привести к провалу задачи. Для устранения этих недостатков мы представляем подход As-Needed Decomposition and Planning for complex Tasks (ADaPT), который явно планирует и декомпозирует сложные подзадачи по мере необходимости, то есть когда LLM не может их выполнить. ADaPT рекурсивно декомпозирует подзадачи, адаптируясь как к сложности задачи, так и к возможностям LLM. Наши результаты показывают, что ADaPT значительно превосходит установленные сильные базовые методы, достигая показателей успешности на 28,3% выше в ALFWorld, на 27% в WebShop и на 33% в TextCraft — новом композиционном наборе данных, который мы представляем. В ходе детального анализа мы демонстрируем важность многоуровневой декомпозиции и показываем, что ADaPT динамически адаптируется как к возможностям исполнительной LLM, так и к сложности задачи.
Одной из основных проблем мультимодального обучения является необходимость объединения разнородных модальностей (например, видео, аудио, текст). Например, видео и аудио получаются с гораздо более высокой частотой, чем текст, и примерно синхронизированы во времени. Однако они часто не синхронизированы с текстом, который предоставляется в виде глобального контекста, например, заголовка или описания. Кроме того, объемы видео- и аудиовходов значительно больше и увеличиваются с продолжительностью видео, что естественным образом требует больше вычислительных ресурсов для обработки этих модальностей и усложняет моделирование долгосрочных зависимостей. Мы предлагаем разделить мультимодальное моделирование, разбив его на отдельные авторегрессивные модели, которые обрабатывают входные данные в соответствии с характеристиками модальностей. Мы представляем мультимодальную модель под названием Mirasol3B, состоящую из авторегрессивного компонента для временно синхронизированных модальностей (аудио и видео) и авторегрессивного компонента для контекстных модальностей, которые не обязательно синхронизированы во времени, но остаются последовательными. Для обработки длинных последовательностей видео- и аудиовходов мы предлагаем дополнительно разделить видео- и аудиопоследовательности на последовательные фрагменты и авторегрессивно обрабатывать их представления. Для этого мы предлагаем механизм Combiner, который моделирует аудио- и видеоинформацию совместно в пределах временного интервала. Combiner обучается извлекать аудио- и видеофункции из исходных пространственно-временных сигналов, а затем обучается объединять эти функции, создавая компактные, но выразительные представления для каждого фрагмента. Наш подход достигает наилучших результатов на хорошо зарекомендовавших себя мультимодальных тестах, превосходя гораздо более крупные модели. Он эффективно решает проблему высоких вычислительных требований медиа-входов, обучая компактные представления, контролируя длину последовательностей аудио- и видеопризнаков и моделируя их временные зависимости.
Изучение взаимодействия признаков является ключевой основой для построения рекомендательных систем. В веб-масштабных приложениях обучение взаимодействию признаков крайне сложно из-за разреженного и обширного пространства входных признаков; в то же время ручное создание эффективных взаимодействий признаков невозможно из-за экспоненциального пространства решений. Мы предлагаем использовать архитектуру на основе Transformer с уровнями внимания для автоматического захвата взаимодействий признаков. Архитектуры Transformer добились значительных успехов во многих областях, таких как обработка естественного языка и компьютерное зрение. Однако в индустрии пока не наблюдается широкого внедрения архитектуры Transformer для моделирования взаимодействий признаков. Мы стремимся устранить этот пробел. Мы выделяем две ключевые проблемы при применении базовой архитектуры Transformer к веб-масштабным рекомендательным системам: (1) архитектура Transformer не способна захватывать гетерогенные взаимодействия признаков на уровне self-attention; (2) задержка обработки архитектуры Transformer может быть слишком высокой для развертывания в веб-масштабных рекомендательных системах. Сначала мы предлагаем гетерогенный уровень self-attention, который представляет собой простое, но эффективное изменение уровня self-attention в Transformer, чтобы учитывать гетерогенность взаимодействий признаков. Затем мы представляем Hiformer (Heterogeneous Interaction Transformer) для дальнейшего повышения выразительности модели. Благодаря низкоранговой аппроксимации и обрезке модели, Hiformer обеспечивает быстрое выполнение для онлайн-развертывания. Результаты обширных оффлайн-экспериментов подтверждают эффективность и производительность модели Hiformer. Мы успешно внедрили модель Hiformer в крупномасштабную модель ранжирования приложений в Google Play, что привело к значительному улучшению ключевых метрик вовлеченности (до +2,66\%).
Задачи плотного предсказания, такие как семантическая сегментация, оценка глубины и предсказание нормалей поверхности, могут быть легко сформулированы как классификация на уровне пикселей (дискретные выходы) или регрессия (непрерывные выходы). Этот подход к предсказанию на уровне пикселей остается популярным благодаря широкому распространению полностью сверточных сетей. Однако на современном этапе развития задач сегментации сообщество наблюдает сдвиг парадигмы от предсказания на уровне пикселей к предсказанию на уровне кластеров с появлением архитектур трансформеров, в частности масковых трансформеров, которые напрямую предсказывают метку для маски, а не для пикселя. Несмотря на этот сдвиг, методы, основанные на парадигме предсказания на уровне пикселей, по-прежнему доминируют в тестах для других задач плотного предсказания, требующих непрерывных выходов, таких как оценка глубины и предсказание нормалей поверхности. Вдохновленные успехом методов DORN и AdaBins в оценке глубины, достигнутым за счет дискретизации непрерывного пространства выходов, мы предлагаем обобщить метод, основанный на предсказании кластеров, на общие задачи плотного предсказания. Это позволяет нам унифицировать задачи плотного предсказания в рамках масковых трансформеров. Примечательно, что полученная модель PolyMaX демонстрирует наилучшие результаты на трех тестах набора данных NYUD-v2. Мы надеемся, что наш простой, но эффективный дизайн вдохновит на дальнейшие исследования по использованию масковых трансформеров для большего числа задач плотного предсказания. Код и модель будут доступны.
Модель трансформера получила широкое распространение в задачах компьютерного зрения в последнее время. Однако из-за квадратичной временной и объемной сложности механизма самовнимания, которая пропорциональна количеству входных токенов, большинство существующих Vision Transformers (ViTs) сталкиваются с трудностями в достижении эффективной производительности в практических сценариях промышленного внедрения, таких как TensorRT и CoreML, где традиционные сверточные нейронные сети (CNNs) демонстрируют превосходство. Хотя в последнее время были предприняты попытки разработать гибридные архитектуры CNN-Transformer для решения этой проблемы, их общая производительность не оправдала ожиданий. Для преодоления этих трудностей мы предлагаем эффективную гибридную архитектуру ViT под названием FMViT. Этот подход повышает выразительную способность модели за счет объединения высокочастотных и низкочастотных признаков с различными частотами, что позволяет эффективно захватывать как локальную, так и глобальную информацию. Кроме того, мы вводим механизмы, удобные для развертывания, такие как Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) и Convolutional Fusion Block (CFB), чтобы дополнительно улучшить производительность модели и снизить вычислительные затраты. Наши эксперименты показывают, что FMViT превосходит существующие CNNs, ViTs и гибридные архитектуры CNN-Transformer с точки зрения компромисса между задержкой и точностью для различных задач зрения. На платформе TensorRT FMViT превосходит Resnet101 на 2,5% (83,3% против 80,8%) по точности top-1 на наборе данных ImageNet при сохранении аналогичной задержки вывода. Более того, FMViT демонстрирует сопоставимую производительность с EfficientNet-B5, но с улучшением скорости вывода на 43%. На CoreML FMViT превосходит MobileOne на 2,6% по точности top-1 на наборе данных ImageNet, при этом задержка вывода сравнима с MobileOne (78,5% против 75,9%). Наш код доступен по адресу https://github.com/tany0699/FMViT.