Ежедневно отобранные исследовательские статьи по ИИ с переводами
Тонкая настройка больших языковых моделей (LLM) на инструкциях приводит к значительному улучшению производительности в задачах обработки естественного языка. Мы применяем настройку на инструкциях с использованием кода, используя естественную структуру Git-коммитов, которые связывают изменения кода с человеческими инструкциями. Мы создали CommitPack: 4 терабайта Git-коммитов на 350 языках программирования. Мы сравниваем CommitPack с другими естественными и синтетическими инструкциями по коду (xP3x, Self-Instruct, OASST) на модели StarCoder с 16 миллиардами параметров и достигаем наилучших результатов среди моделей, не обученных на выходах OpenAI, на бенчмарке HumanEval для Python (46,2% pass@1). Мы также представляем HumanEvalPack, расширяя бенчмарк HumanEval до трех задач по кодированию (исправление кода, объяснение кода, синтез кода) на шести языках (Python, JavaScript, Java, Go, C++, Rust). Наши модели, OctoCoder и OctoGeeX, демонстрируют наилучшие результаты на HumanEvalPack среди всех разрешительных моделей, что подтверждает преимущества CommitPack в обобщении на более широкий набор языков и естественных задач по кодированию. Код, модели и данные доступны по адресу https://github.com/bigcode-project/octopack.
В последние годы крупные модели диффузии текста в изображения продемонстрировали впечатляющую способность генерировать высококачественные изображения. Однако создание желаемых изображений с использованием только текстовых подсказок является сложной задачей, так как часто требует тщательной разработки таких подсказок. Альтернативой текстовым подсказкам являются изображения, ведь, как гласит поговорка: "одно изображение стоит тысячи слов". Хотя существующие методы прямой тонкой настройки предобученных моделей эффективны, они требуют значительных вычислительных ресурсов и не совместимы с другими базовыми моделями, текстовыми подсказками и структурными контроллерами. В данной статье мы представляем IP-Adapter — эффективный и легковесный адаптер, который позволяет предобученным моделям диффузии текста в изображения работать с изображениями в качестве подсказок. Ключевой особенностью нашего IP-Adapter является механизм разделенного кросс-внимания, который разделяет слои кросс-внимания для текстовых и визуальных признаков. Несмотря на простоту нашего метода, IP-Adapter с всего 22 миллионами параметров может достичь сопоставимой или даже лучшей производительности по сравнению с полностью настроенной моделью для работы с изображениями-подсказками. Поскольку мы замораживаем предобученную модель диффузии, предложенный IP-Adapter может быть обобщен не только для других пользовательских моделей, настроенных на основе той же базовой модели, но и для управляемой генерации с использованием существующих инструментов управления. Благодаря стратегии разделенного кросс-внимания, изображения-подсказки также могут эффективно работать совместно с текстовыми подсказками для достижения мультимодальной генерации изображений. Страница проекта доступна по адресу https://ip-adapter.github.io.
Последние достижения в области генеративных моделей речи на основе аудио-текстовых подсказок позволили реализовать впечатляющие инновации, такие как высококачественный синтез речи с нулевым обучением (zero-shot text-to-speech). Однако существующие модели по-прежнему сталкиваются с ограничениями при выполнении разнообразных задач генерации речи на основе аудио и текста, включая преобразование входного аудиосигнала и обработку звука, записанного в неблагоприятных акустических условиях. В данной статье представлена модель SpeechX — универсальная система генерации речи, способная выполнять как синтез речи с нулевым обучением, так и различные задачи преобразования речи, работая как с чистыми, так и с зашумленными сигналами. SpeechX сочетает нейросетевое моделирование языковых кодеков с многозадачным обучением с использованием подсказок, зависящих от задачи, что позволяет реализовать унифицированное и расширяемое моделирование, а также обеспечивает согласованный способ использования текстового ввода в задачах улучшения и преобразования речи. Экспериментальные результаты демонстрируют эффективность SpeechX в различных задачах, включая синтез речи с нулевым обучением, подавление шума, выделение целевого говорящего, удаление речи и редактирование речи с фоном или без него, достигая сопоставимой или превосходящей производительности по сравнению со специализированными моделями. Примеры работы модели доступны по ссылке: https://aka.ms/speechx.
Мы представляем Platypus — семейство тонко настроенных и объединенных больших языковых моделей (LLM), которые демонстрируют наивысшую производительность и в настоящее время занимают первое место в рейтинге Open LLM Leaderboard от HuggingFace на момент публикации данной работы. В этой статье мы описываем (1) наш тщательно отобранный набор данных Open-Platypus, который является подмножеством других открытых наборов данных и который мы публикуем для общего доступа, (2) наш процесс тонкой настройки и объединения модулей LoRA с целью сохранения сильных априорных знаний предобученных LLM, одновременно выводя на поверхность специфические знания в определенных областях, (3) наши усилия по проверке на утечку тестовых данных и загрязнение обучающих данных, что может быть полезно для будущих исследований. В частности, семейство Platypus демонстрирует высокие результаты в количественных метриках LLM для моделей различных размеров, возглавляя глобальный рейтинг Open LLM Leaderboard, используя лишь часть данных для тонкой настройки и вычислительных ресурсов, необходимых для других современных тонко настроенных LLM. В частности, модель Platypus объемом 13B может быть обучена на одном GPU A100 с использованием 25 тысяч вопросов за 5 часов. Это свидетельствует о высоком качестве нашего набора данных Open-Platypus и открывает возможности для дальнейших улучшений в этой области. Страница проекта: https://platypus-llm.github.io.
Недавние эмпирические данные свидетельствуют о том, что обучение в контексте на основе трансформеров демонстрирует лучшие результаты при использовании префиксной языковой модели (prefixLM), в которой все примеры в контексте могут взаимодействовать друг с другом, по сравнению с каузальными языковыми моделями (causalLM), которые используют авторегрессивное внимание, запрещающее примерам в контексте учитывать будущие примеры. Хотя этот результат интуитивно понятен, он не объяснен с теоретической точки зрения. В данной статье мы применяем теоретический подход и анализируем поведение сходимости prefixLM и causalLM при определенной конструкции параметров. Наш анализ показывает, что оба типа моделей сходятся к своим стационарным точкам с линейной скоростью, но при этом prefixLM сходится к оптимальному решению линейной регрессии, тогда как динамика сходимости causalLM следует алгоритму онлайн градиентного спуска, который не гарантирует оптимальности даже при бесконечном увеличении числа примеров. Мы дополняем наши теоретические утверждения эмпирическими экспериментами на синтетических и реальных задачах с использованием различных типов трансформеров. Наши эксперименты подтверждают, что causalLM стабильно уступает prefixLM во всех настройках.
Восстановление лиц с неизвестными искажениями (Blind Face Restoration) направлено на восстановление высококачественных изображений лиц из изображений с неизвестными деградациями. Современные алгоритмы в основном используют априорные данные для дополнения деталей высокого качества и демонстрируют впечатляющие результаты. Однако большинство этих алгоритмов игнорируют богатую контекстуальную информацию в изображении лица и её взаимодействие с априорными данными, что приводит к неоптимальной производительности. Кроме того, они уделяют меньше внимания разрыву между синтетическими и реальными сценариями, что ограничивает их устойчивость и обобщаемость в реальных приложениях. В данной работе мы предлагаем RestoreFormer++, который, с одной стороны, вводит полностью пространственные механизмы внимания для моделирования контекстуальной информации и её взаимодействия с априорными данными, а с другой стороны, исследует расширенную модель деградации для генерации более реалистичных искажённых изображений лиц, что помогает уменьшить разрыв между синтетическими и реальными данными. По сравнению с современными алгоритмами, RestoreFormer++ обладает несколькими ключевыми преимуществами. Во-первых, вместо использования механизма многоголового самовнимания, как в традиционном визуальном трансформере, мы вводим многоголовое кросс-внимание на многоуровневых признаках, чтобы полностью исследовать пространственные взаимодействия между искажённой информацией и априорными данными высокого качества. Это позволяет RestoreFormer++ восстанавливать изображения лиц с большей реалистичностью и точностью. Во-вторых, в отличие от словаря, ориентированного на распознавание, мы обучаем словарь, ориентированный на восстановление, который содержит более разнообразные детали высокого качества и лучше соответствует цели восстановления. В-третьих, мы вводим расширенную модель деградации, которая включает более реалистичные сценарии искажений для синтеза обучающих данных, что помогает повысить устойчивость и обобщаемость нашей модели RestoreFormer++. Многочисленные эксперименты показывают, что RestoreFormer++ превосходит современные алгоритмы как на синтетических, так и на реальных наборах данных.
Обладая глубоким пониманием целевой области на основе естественного языка, мы добиваемся перспективных результатов в переводе через значительные междоменные разрывы и восстановлении скелетов к жизни. В данной работе мы используем текстово-управляемые латентные диффузионные модели для выполнения задачи zero-shot перевода изображения в изображение (I2I) через большие междоменные разрывы (longI2I), где требуется генерация значительного количества новых визуальных признаков и геометрии для перехода в целевую область. Возможность выполнения переводов через большие междоменные разрывы имеет широкий спектр практических применений в криминалистике, астрологии, охране окружающей среды и палеонтологии. В данной работе мы представляем новую задачу Skull2Animal для перевода между черепами и живыми животными. В рамках этой задачи мы обнаруживаем, что неуправляемые генеративно-состязательные сети (GAN) не способны выполнять перевод через большие междоменные разрывы. Вместо традиционных методов I2I мы исследуем использование управляемых диффузионных моделей и моделей редактирования изображений, а также предлагаем новую эталонную модель Revive-2I, способную выполнять zero-shot I2I с использованием текстовых подсказок в латентных диффузионных моделях. Мы выясняем, что управление необходимо для longI2I, поскольку для преодоления значительного междоменного разрыва требуется предварительное знание о целевой области. Кроме того, мы обнаруживаем, что использование подсказок предоставляет наиболее качественную и масштабируемую информацию о целевой области, так как диффузионные модели с управлением через классификаторы требуют переобучения для конкретных случаев использования и не имеют строгих ограничений на целевую область из-за широкого разнообразия изображений, на которых они обучаются.
Автоматическая оценка машинного перевода (МП) является важным инструментом, способствующим быстрому итеративному развитию систем МП. Несмотря на значительный прогресс в оценке единого скалярного показателя качества, современные метрики уступают по информативности более детализированным схемам, которые аннотируют отдельные ошибки, таким как Многомерные метрики качества (MQM). В данной статье мы стремимся заполнить этот пробел, предлагая AutoMQM — метод подсказок, который использует способности крупных языковых моделей (LLM) к рассуждению и обучению в контексте, чтобы идентифицировать и классифицировать ошибки в переводах. Мы начинаем с оценки современных LLM, таких как PaLM и PaLM-2, с помощью простых подсказок для предсказания оценок, и изучаем влияние размеченных данных через обучение в контексте и тонкую настройку. Затем мы оцениваем AutoMQM с моделями PaLM-2 и обнаруживаем, что этот метод улучшает производительность по сравнению с простым запросом оценок (с особенно значительным приростом для более крупных моделей), одновременно обеспечивая интерпретируемость через выделение ошибок, которые соответствуют человеческим аннотациям.
Мы представляем VisIT-Bench (Visual InsTruction Benchmark) — эталонный набор данных для оценки моделей обработки визуально-языковой информации, ориентированных на выполнение инструкций, в реальных условиях. Наша отправная точка — создание 70 «семейств инструкций», которые, как мы предполагаем, должны быть доступны для обработки моделями, настроенными на выполнение инструкций. Выходя за рамки таких оценок, как VQAv2 и COCO, задачи варьируются от базового распознавания до игровых сценариев и творческой генерации. После отбора наш набор данных включает 592 тестовых запроса, каждый из которых сопровождается аннотацией, созданной человеком и зависящей от инструкции. Эти описания выделяют факторы, специфичные для инструкций; например, для инструкции, касающейся доступности витрины магазина для пользователей инвалидных колясок, аннотация описывает пандусы или потенциальные препятствия. Такие описания позволяют: 1) собирать проверенные человеком эталонные ответы для каждого примера; и 2) автоматически оценивать кандидатов на мультимодальную генерацию с использованием текстовой языковой модели (LLM), что согласуется с человеческой оценкой. Мы количественно оцениваем разницу в качестве между моделями и эталонами с помощью как человеческой, так и автоматической оценки; например, лучшая модель, ориентированная на выполнение инструкций, превосходит эталон GPT-4 только в 27% случаев. VisIT-Bench является динамическим инструментом для участия: практикующие специалисты просто отправляют ответы своей модели на сайте проекта; данные, код и таблица лидеров доступны на visit-bench.github.io.