Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние прорывы в области больших языковых моделей (LLMs) сосредоточены на нескольких языках с богатыми данными. Что требуется для расширения доступа к этим достижениям за пределы языков "первого класса"? Наша работа представляет Aya — массово многоязычную генеративную языковую модель, которая выполняет инструкции на 101 языке, более 50% из которых считаются малоресурсными. Aya превосходит модели mT0 и BLOOMZ в большинстве задач, охватывая вдвое больше языков. Мы представляем обширные новые наборы для оценки, которые расширяют современные стандарты многоязычного тестирования на 99 языков, включая дискриминативные и генеративные задачи, человеческую оценку и моделируемые показатели успеха, охватывающие как задачи с исключенными данными, так и производительность в рамках распределения. Кроме того, мы проводим детальные исследования оптимального состава смеси для тонкой настройки, обрезки данных, а также токсичности, предвзятости и безопасности наших моделей. Мы открываем исходные коды наших наборов инструкций и модели по адресу https://hf.co/CohereForAI/aya-101.
Автономное взаимодействие с компьютером долгое время оставалось сложной задачей, обладающей огромным потенциалом, и недавнее распространение больших языковых моделей (LLM) значительно ускорило прогресс в создании цифровых агентов. Однако большинство таких агентов разработаны для взаимодействия с узкой областью, например, с конкретным программным обеспечением или веб-сайтом. Такая узкая направленность ограничивает их применимость для выполнения общих компьютерных задач. В связи с этим мы представляем OS-Copilot — фреймворк для создания универсальных агентов, способных взаимодействовать с различными элементами операционной системы (ОС), включая веб, терминалы, файлы, мультимедиа и сторонние приложения. С помощью OS-Copilot мы создали FRIDAY — самообучающегося воплощённого агента для автоматизации общих компьютерных задач. На бенчмарке GAIA, предназначенном для оценки универсальных ИИ-ассистентов, FRIDAY превосходит предыдущие методы на 35%, демонстрируя сильную способность к обобщению для работы с новыми приложениями благодаря накопленным навыкам из предыдущих задач. Мы также представляем численные и качественные доказательства того, что FRIDAY обучается управлению и самообучению в Excel и PowerPoint при минимальном контроле. Наш фреймворк OS-Copilot и эмпирические результаты предоставляют инфраструктуру и идеи для будущих исследований в направлении создания более мощных и универсальных компьютерных агентов.
Крупные языковые модели (LLM) достигли значительных успехов в химических приложениях, включая предсказание свойств молекул, генерацию молекул, разработку экспериментальных протоколов и т.д. Однако сообществу не хватает диалоговой модели, специально разработанной для химии. Основная сложность заключается в том, что большинство химических данных и научных знаний хранятся в структурированных базах данных, и прямое использование этих структурированных данных ограничивает способность модели поддерживать связный диалог. Для решения этой проблемы мы разработали новый метод построения инструкций на основе шаблонов, который преобразует структурированные знания в простой диалоговый формат, подходящий для обучения языковых моделей. Используя этот подход, мы создали ChemLLM — первую крупную языковую модель, посвящённую химии, способную выполнять различные задачи в химических дисциплинах с плавным диалоговым взаимодействием. ChemLLM превосходит GPT-3.5 по всем трём основным задачам в химии, таким как конвертация названий, описание молекул и предсказание реакций, и опережает GPT-4 по двум из них. Примечательно, что ChemLLM также демонстрирует исключительную адаптивность к связанным математическим и физическим задачам, несмотря на обучение преимущественно на химически ориентированных корпусах. Кроме того, ChemLLM показывает высокую эффективность в специализированных NLP-задачах в химии, таких как перевод научной литературы и программирование в области хемоинформатики. ChemLLM открывает новые возможности для исследований в химии, а наш метод интеграции структурированных химических знаний в диалоговые системы задаёт новый стандарт для разработки LLM в различных научных областях. Коды, наборы данных и веса модели доступны публично по адресу hf.co/AI4Chem/ChemLLM-7B-Chat.
Крупные языковые модели (LLM), основанные на архитектуре Mixture-of-Experts (MoE), демонстрируют многообещающие результаты в различных задачах. Однако их запуск в условиях ограниченных ресурсов, где объем памяти GPU недостаточен, является сложной задачей из-за огромных размеров моделей. Существующие системы, которые выгружают веса модели в память CPU, страдают от значительных накладных расходов, связанных с частым перемещением данных между CPU и GPU. В данной статье мы предлагаем Fiddler — ресурсоэффективный механизм вывода с координацией работы CPU и GPU для моделей MoE. Основная идея Fiddler заключается в использовании вычислительных возможностей CPU для минимизации перемещения данных между CPU и GPU. Наши оценки показывают, что Fiddler способен запускать несжатую модель Mixtral-8x7B, которая превышает 90 ГБ параметров, генерируя более 3 токенов в секунду на одном GPU с 24 ГБ памяти, что демонстрирует улучшение на порядок по сравнению с существующими методами. Код Fiddler доступен публично по адресу https://github.com/efeslab/fiddler.
Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие возможности в решении разнообразных задач, от логического рассуждения до визуального понимания. Это открывает путь к более богатому взаимодействию с окружающим миром, например, к управлению роботами. Однако VLMs генерируют только текстовые выходные данные, в то время как управление роботами и другие пространственные задачи требуют вывода непрерывных координат, действий или траекторий. Как мы можем позволить VLMs справляться с такими задачами без тонкой настройки на специфичных данных? В данной статье мы предлагаем новый подход визуального подсказывания для VLMs, который мы называем Prompting with Iterative Visual Optimization (PIVOT). Этот подход преобразует задачи в итеративное визуальное вопросно-ответное взаимодействие. На каждой итерации изображение аннотируется визуальным представлением предложений, на которые может ссылаться VLM (например, возможные действия робота, локализации или траектории). Затем VLM выбирает наилучшие из них для выполнения задачи. Эти предложения итеративно уточняются, что позволяет VLM в конечном итоге найти наилучший доступный ответ. Мы исследуем PIVOT на задачах навигации роботов в реальном мире, манипуляций на основе изображений, выполнения инструкций в симуляции, а также на дополнительных задачах пространственного вывода, таких как локализация. Мы обнаружили, что, возможно, удивительно, наш подход позволяет осуществлять управление роботами без предварительного обучения на данных, связанных с роботами, навигацию в различных средах и другие возможности. Хотя текущая производительность далека от идеальной, наша работа подчеркивает потенциал и ограничения этого нового подхода и демонстрирует перспективный метод для VLMs масштаба интернета в областях робототехники и пространственного рассуждения. Веб-сайт: pivot-prompt.github.io и HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
Смех является одним из самых выразительных и естественных аспектов человеческой речи, передающим эмоции, социальные сигналы и юмор. Однако большинство систем преобразования текста в речь (TTS) не способны воспроизводить реалистичные и уместные звуки смеха, что ограничивает их применение и качество взаимодействия с пользователем. Хотя ранее предпринимались попытки генерации естественного смеха, они не достигали достаточного уровня контроля над временем и разнообразием генерируемого смеха. В данной работе мы представляем ELaTE — zero-shot TTS систему, способную генерировать естественную речь со смехом для любого говорящего на основе короткого аудиопромпта с точным контролем времени и выражения смеха. В частности, ELaTE использует аудиопромпт для имитации характеристик голоса, текстовый промпт для указания содержания генерируемой речи и входные данные для управления выражением смеха, которые могут быть либо временем начала и окончания смеха, либо дополнительным аудиопромптом, содержащим смех для имитации. Мы разрабатываем нашу модель на основе условного flow-matching подхода для zero-shot TTS и дорабатываем её с использованием фрейм-уровневого представления от детектора смеха в качестве дополнительного условия. С помощью простой схемы смешивания небольшого набора данных, обусловленных смехом, с крупномасштабными данными предварительного обучения, мы демонстрируем, что предварительно обученная zero-shot TTS модель может быть легко доработана для генерации естественного смеха с высокой степенью управляемости, без потери качества самой модели. В ходе оценок мы показываем, что ELaTE способна генерировать речь со смехом значительно более высокого качества и управляемости по сравнению с традиционными моделями. Демонстрационные примеры доступны по ссылке: https://aka.ms/elate/.
По мере увеличения размеров моделей ИИ, законы масштабирования нейронных сетей стали важным инструментом для прогнозирования улучшений крупных моделей при увеличении их мощности и объема исходных (человеческих или естественных) обучающих данных. Однако широкое использование популярных моделей означает, что экосистема онлайн-данных и текстов будет эволюционировать, постепенно включая всё больше синтезированных данных. В данной статье мы задаемся вопросом: как изменятся законы масштабирования в неизбежном режиме, когда синтетические данные начнут попадать в обучающий корпус? Будут ли будущие модели продолжать улучшаться или обречены на деградацию вплоть до полного (модельного) коллапса? Мы разрабатываем теоретическую основу для изучения модельного коллапса через призму законов масштабирования. Мы обнаруживаем широкий спектр явлений ухудшения, анализируя потерю масштабируемости, смещение масштабирования с увеличением числа поколений, «разучивание» навыков и феномен «гроккинга» при смешении человеческих и синтезированных данных. Наша теория подтверждается крупномасштабными экспериментами с трансформером на арифметической задаче и генерацией текста с использованием крупной языковой модели Llama2.
Визуально-обусловленные языковые модели (VLMs) находят всё более широкое применение в таких задачах, как визуальный диалог, понимание сцен и планирование задач в робототехнике; это распространение стимулировало появление множества новых моделей, таких как LLaVa, InstructBLIP и PaLI-3. Несмотря на обилие новых релизов, ключевые решения, связанные с предобработкой изображений, архитектурой и оптимизацией, остаются недостаточно изученными, что затрудняет понимание факторов, влияющих на производительность моделей. Эта проблема усугубляется отсутствием объективных и согласованных методов оценки. Чтобы устранить эти пробелы, мы, во-первых, разработали набор стандартизированных тестов, охватывающих визуальное ответы на вопросы, локализацию объектов на основе текста и специализированные наборы данных, которые исследуют такие свойства, как галлюцинации; эти тесты предоставляют калиброванное и детализированное понимание возможностей VLM. Во-вторых, мы тщательно исследуем VLMs по ключевым аспектам проектирования, включая предобученные визуальные представления и анализ компромиссов между использованием базовых и инструктивно-настроенных языковых моделей, среди прочего. Наш анализ дополняется тремя ресурсными вкладами: (1) унифицированной системой для оценки VLMs, (2) оптимизированным и гибким кодом для обучения VLMs и (3) контрольными точками для всех моделей, включая семейство VLMs масштаба 7-13B, которые строго превосходят InstructBLIP и LLaVa v1.5, являющиеся передовыми решениями среди открытых VLMs.
Для повышения уровня математического мышления языковых моделей посредством непрерывного предварительного обучения мы представляем новую стратегию, которая использует базовые языковые модели для автономного выбора данных. В отличие от традиционного тонкого настройки с учителем или обученных классификаторов с аннотированными человеком данными, наш подход применяет мета-запрашиваемые языковые модели в качестве верификаторов с нулевым обучением для автономной оценки и выбора высококачественного математического контента, и мы выпускаем курированный открытый набор данных AutoMathText, содержащий более 200 ГБ данных. Чтобы продемонстрировать эффективность нашего метода, мы непрерывно предварительно обучали языковую модель Mistral с 7 миллиардами параметров на наборе данных AutoMathText, достигнув значительных улучшений в производительности на наборе данных MATH при сокращении количества токенов на порядки по сравнению с предыдущими работами по непрерывному предварительному обучению. Наш метод демонстрирует двукратное увеличение эффективности использования токенов при предварительном обучении по сравнению с базовыми подходами, подчеркивая потенциал нашего метода в улучшении математических способностей моделей. Набор данных AutoMathText доступен по адресу https://huggingface.co/datasets/math-ai/AutoMathText. Код доступен по адресу https://github.com/yifanzhang-pro/AutoMathText.
Модели типа "Смесь экспертов" (Mixture of Experts, MoE) стали основным решением для снижения вычислительных затрат крупных языковых моделей. В данной работе мы анализируем их свойства масштабирования, учитывая расширенный набор переменных. В частности, мы вводим новый гиперпараметр — гранулярность, регулировка которого позволяет точно контролировать размер экспертов. На основе этого мы устанавливаем законы масштабирования для детализированных моделей MoE, учитывая количество токенов для обучения, размер модели и гранулярность. Используя эти законы, мы определяем оптимальную конфигурацию обучения для заданного вычислительного бюджета. Наши результаты не только показывают, что модели MoE стабильно превосходят плотные трансформеры, но и подчеркивают, что разрыв в эффективности между плотными моделями и моделями MoE увеличивается по мере масштабирования размера модели и бюджета на обучение. Кроме того, мы демонстрируем, что распространенная практика установки размера экспертов в MoE в соответствии с размером прямого слоя не является оптимальной практически для любого вычислительного бюджета.
В данной работе мы исследуем проблему манипуляции с наградой, связанной с длиной ответа, — вызов, возникающий при обучении с подкреплением на основе обратной связи от человека (RLHF) для крупных языковых моделей (LLM). Хорошо структурированный, многословный, но менее полезный ответ от LLM часто может обмануть как сами модели, так и даже человеческих оценщиков, чтобы получить высокие баллы. Та же проблема наблюдается и для некоторых моделей награды в RL. Чтобы решить эти проблемы как в обучении, так и в оценке, мы разрабатываем более надежный протокол оценки для сравнения различных конфигураций обучения, который анализирует компромисс между оценкой LLM и длиной ответа, полученной при варьировании гиперпараметров обучения. На основе этой оценки мы проводим масштабные исследования, результаты которых проливают свет на эффективность гиперпараметров и приемов, используемых в RL для смягчения смещения по длине. Мы также предлагаем улучшить модель награды путем совместного обучения двух линейных голов на общих представлениях признаков для предсказания наград: одна обучается коррелировать с длиной, а другая — декоррелировать с длиной, чтобы больше фокусироваться на фактическом содержании. Затем мы исключаем голову, связанную с длиной, в RL, чтобы предотвратить манипуляцию с наградой по длине. Эксперименты показывают, что наш подход практически устраняет корреляцию награды с длиной и значительно улучшает полученную политику.
Мы представляем LiRank, масштабируемую систему ранжирования в LinkedIn, которая внедряет в производство передовые архитектуры моделей и методы оптимизации. Мы раскрываем несколько улучшений в моделировании, включая Residual DCN, который добавляет механизмы внимания и остаточные соединения к известной архитектуре DCNv2. Мы делимся инсайтами по комбинированию и настройке современных архитектур для создания унифицированной модели, включая Dense Gating, Transformers и Residual DCN. Также мы предлагаем новые методы калибровки и описываем, как мы внедрили в производство методы исследования/эксплуатации на основе глубокого обучения. Для обеспечения эффективного обслуживания крупных моделей ранжирования в производственных условиях мы подробно рассказываем, как обучать и сжимать модели с использованием квантования и сжатия словаря. Мы предоставляем детали о настройке развертывания для масштабных сценариев использования, таких как ранжирование ленты, рекомендации вакансий и прогнозирование кликабельности рекламы (CTR). Мы обобщаем наши выводы из различных A/B-тестов, выделяя наиболее эффективные технические подходы. Эти идеи способствовали улучшению ключевых метрик во всех направлениях в LinkedIn: +0,5% сессий пользователей в ленте, +1,76% квалифицированных откликов на вакансии в поиске и рекомендациях, а также +4,3% для CTR рекламы. Мы надеемся, что эта работа предоставит практические инсайты и решения для специалистов, заинтересованных в использовании масштабируемых систем глубокого ранжирования.
Мы представляем GALA3D — генеративные 3D-гауссовы распределения с управлением на основе компоновки (LAyout-guided control) для эффективного композиционного преобразования текста в 3D. Сначала мы используем большие языковые модели (LLM) для создания начальной компоновки и вводим представление 3D-гауссовых распределений, управляемое компоновкой, для генерации 3D-контента с адаптивными геометрическими ограничениями. Затем мы предлагаем механизм оптимизации композиции объектов и сцены с использованием условной диффузии, который совместно генерирует реалистичные 3D-сцены с согласованной геометрией, текстурой, масштабом и точными взаимодействиями между множеством объектов, одновременно корректируя грубые априорные данные о компоновке, извлеченные из LLM, для их согласования с генерируемой сценой. Эксперименты показывают, что GALA3D представляет собой удобный в использовании, сквозной фреймворк для передовой генерации 3D-контента на уровне сцены и контролируемого редактирования, обеспечивая при этом высокую точность объектов внутри сцены. Исходные коды и модели будут доступны по адресу https://gala3d.github.io/.
Самостоятельное выравнивание (self-alignment) является эффективным способом снижения затрат на аннотирование данных человеком при сохранении высокой производительности модели. Однако большинство современных методов выполняют сбор данных и обучение за один этап, что может упускать из виду постоянно улучшающиеся способности самонастраиваемых моделей. Это порождает ключевой вопрос: что, если мы применим многократное бутстрэппинговое самонастроение? Улучшает ли эта стратегия производительность модели или приводит к быстрой деградации? В данной статье мы проводим новаторское исследование влияния бутстрэппингового самонастроения на крупные языковые модели. Наши результаты показывают, что бутстрэппинговое самонастроение значительно превосходит одноэтапный подход, обеспечивая разнообразие данных благодаря обучению в контексте. Для дальнейшего раскрытия потенциала бутстрэппинга мы исследуем и корректируем порядок обучения данных, что приводит к улучшению производительности модели. На основе этих выводов мы предлагаем метод Step-On-Feet Tuning (SOFT), который использует постоянно улучшающуюся способность модели к обучению с малым количеством примеров (few-shot) для повышения производительности в задачах с нулевым или одним примером (zero/one-shot). На основе стратегии обучения от простого к сложному мы предлагаем SOFT+, который дополнительно повышает эффективность самонастроения. Наши эксперименты демонстрируют эффективность SOFT (SOFT+) в различных задачах классификации и генерации, подчеркивая потенциал бутстрэппингового самонастроения для постоянного улучшения производительности моделей.
Мы представляем Модели Языковой Обратной Связи (Language Feedback Models, LFMs), которые идентифицируют желательное поведение — действия, способствующие выполнению задач, указанных в инструкции, — для обучения с подражанием в следовании инструкциям. Для обучения LFMs мы получаем обратную связь от Больших Языковых Моделей (Large Language Models, LLMs) на основе визуальных траекторий, переведенных в языковые описания. Во-первых, используя LFMs для идентификации желательного поведения для подражания, мы улучшаем процент выполнения задач по сравнению с сильными базовыми моделями поведенческого клонирования в трех различных средах языкового заземления (Touchdown, ScienceWorld и ALFWorld). Во-вторых, LFMs превосходят использование LLMs в качестве экспертов для прямого предсказания действий при контроле за количеством выходных токенов LLM. В-третьих, LFMs демонстрируют обобщение на незнакомые среды, улучшая процент выполнения задач на 3,5–12,0% после одного раунда адаптации. Наконец, LFM может быть модифицирована для предоставления интерпретируемой человеком обратной связи без потери производительности, что позволяет проверять желательное поведение для обучения с подражанием.