Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы продолжаем исследование возможностей небольших языковых моделей на основе архитектуры Transformer, начатое с TinyStories — модели с 10 миллионами параметров, способной генерировать связный английский текст, и последующей работы над phi-1 — моделью с 1,3 миллиардами параметров, демонстрирующей производительность в написании кода на Python, близкую к современным стандартам. В последней работе было предложено использовать существующие крупные языковые модели (LLM) для генерации данных «учебного качества» как способа улучшения процесса обучения по сравнению с традиционными веб-данными. Мы следуем подходу «Textbooks Are All You Need», на этот раз сосредоточившись на здравом смысле в естественном языке, и создаем новую модель с 1,3 миллиардами параметров под названием phi-1.5. Ее производительность в задачах обработки естественного языка сравнима с моделями в 5 раз большего размера, а в более сложных задачах, таких как математика начальной школы и базовое программирование, она превосходит большинство непередовых LLM. В целом, phi-1.5 демонстрирует многие черты гораздо более крупных LLM, как положительные — например, способность «мыслить шаг за шагом» или выполнять элементарное обучение в контексте, — так и отрицательные, включая галлюцинации и склонность к генерации токсичного и предвзятого контента. Однако обнадеживает то, что мы наблюдаем улучшения в этом аспекте благодаря отсутствию веб-данных. Мы открываем исходный код phi-1.5, чтобы способствовать дальнейшим исследованиям в этих актуальных направлениях.
Хотя в последнее время мультимодальные большие языковые модели (MM-LLMs) достигли значительных успехов, они в основном ограничиваются пониманием мультимодальных данных на входе, не обладая способностью генерировать контент в нескольких модальностях. Поскольку мы, люди, всегда воспринимаем мир и общаемся с другими через различные модальности, разработка MM-LLMs, способных принимать и создавать контент в любой модальности (any-to-any), становится ключевой для создания ИИ, приближенного к человеческому уровню. Чтобы заполнить этот пробел, мы представляем универсальную end-to-end систему NExT-GPT, которая объединяет LLM с мультимодальными адаптерами и различными диффузионными декодерами, позволяя NExT-GPT воспринимать входные данные и генерировать выходные в произвольных комбинациях текста, изображений, видео и аудио. Используя уже хорошо обученные высокопроизводительные кодировщики и декодировщики, NExT-GPT настраивается с помощью лишь небольшого количества параметров (1%) в определенных проекционных слоях, что не только снижает стоимость обучения, но и упрощает расширение на дополнительные потенциальные модальности. Кроме того, мы вводим метод тонкой настройки с инструкциями по переключению модальностей (MosIT) и вручную создаем высококачественный набор данных для MosIT, на основе которого NExT-GPT приобретает способность к сложному кросс-модальному семантическому пониманию и генерации контента. В целом, наше исследование демонстрирует перспективную возможность создания ИИ-агента, способного моделировать универсальные модальности, прокладывая путь к более человекообразным исследованиям ИИ в научном сообществе.
Мы представляем MADLAD-400 — вручную проверенный, общедоступный одноязычный набор данных объемом 3 триллиона токенов, созданный на основе CommonCrawl и охватывающий 419 языков. Мы обсуждаем ограничения, выявленные в ходе самопроверки MADLAD-400, и роль аудита данных в процессе создания набора. Затем мы обучаем и публикуем модель машинного перевода с 10,7 миллиардами параметров, охватывающую более 450 языков на основе 250 миллиардов токенов, используя общедоступные данные, и обнаруживаем, что она конкурентоспособна с моделями значительно большего размера, а также представляем результаты для различных доменов. Кроме того, мы обучаем языковую модель с 8 миллиардами параметров и оцениваем её результаты в задачах перевода с малым количеством примеров. Мы предоставляем базовые модели для использования научным сообществом.
В данной работе мы используем большие языковые модели (LLMs) для расширения и ускорения исследований проблемы P против NP, одной из важнейших открытых проблем в теоретической информатике и математике. В частности, мы предлагаем сократическое рассуждение — общий фреймворк, который способствует глубокому мышлению с помощью LLMs для решения сложных задач. Сократическое рассуждение побуждает LLMs рекурсивно обнаруживать, решать и интегрировать проблемы, одновременно способствуя самооценке и уточнению. Наше пилотное исследование проблемы P против NP показывает, что GPT-4 успешно создает схему доказательства и вовлекается в строгое рассуждение на протяжении 97 диалоговых шагов, приходя к выводу «P ≠ NP», что согласуется с (Xu и Zhou, 2023). Исследование раскрывает новые инсайты в обширном пространстве решений LLMs, проливая свет на использование LLMs в науке.
Мы анализируем семейство крупных языковых моделей настолько легковесным способом, что это можно выполнить на одном графическом процессоре. В частности, мы сосредоточились на семействе моделей OPT с количеством параметров от 125 миллионов до 66 миллиардов, используя только информацию о том, активируется ли нейрон FFN или нет. Во-первых, мы обнаружили, что начальная часть сети является разреженной и представляет множество дискретных признаков. Здесь многие нейроны (более 70% в некоторых слоях модели с 66 миллиардами параметров) являются "мертвыми", то есть они никогда не активируются на большом наборе разнообразных данных. В то же время многие из активных нейронов зарезервированы для дискретных признаков и действуют как детекторы токенов и n-грамм. Интересно, что соответствующие обновления FFN не только способствуют выбору следующего токена, как можно было бы ожидать, но также явно сосредоточены на удалении информации о токенах, которые их активировали, то есть о текущем входе. Насколько нам известно, это первый пример механизмов, специализирующихся на удалении (а не добавлении) информации из остаточного потока. С увеличением масштаба модели становятся более разреженными в том смысле, что в них больше мертвых нейронов и детекторов токенов. Наконец, некоторые нейроны являются позиционными: их активация зависит в значительной (или исключительно) степени от позиции и в меньшей (или вовсе не зависит) от текстовых данных. Мы обнаружили, что меньшие модели имеют наборы нейронов, действующих как индикаторы диапазонов позиций, в то время как более крупные модели работают менее явным образом.
Большие объемы текстовых данных значительно способствовали развитию крупных языковых моделей (LLM) в последние годы. Эти данные обычно собираются путем сканирования интернета, что приводит к созданию предобучающих наборов данных, состоящих из зашумленного веб-текста. До сих пор усилия по сокращению этих наборов данных до более качественного подмножества основывались на ручных эвристиках, закодированных в виде правил фильтрации. В данной работе мы рассматриваем более широкий подход и исследуем масштабируемые оценки качества данных, которые могут быть использованы для систематического измерения качества предобучающих данных. Мы проводим масштабное сравнение простого метода оценки качества данных через перплексию, а также более сложных и вычислительно затратных оценок, таких как L2-норма ошибки и запоминание. Эти метрики используются для ранжирования и сокращения предобучающих корпусов, после чего мы сравниваем LLM, обученные на этих сокращенных наборах данных. Удивительно, но мы обнаруживаем, что простой метод перплексии превосходит наши более вычислительно затратные методы оценки. Мы улучшаем результаты по сравнению с базовым подходом без сокращения данных, обучая модели всего на 30% исходного набора данных. Наша работа закладывает основу для неисследованных стратегий автоматического формирования высококачественных корпусов и предполагает, что большая часть предобучающих данных может быть удалена без потери производительности.
Трансформеры стали доминирующей моделью в глубоком обучении, однако причины их превосходной производительности остаются малоизученными. В данной работе мы выдвигаем гипотезу, что высокая эффективность Трансформеров обусловлена их архитектурной предрасположенностью к меза-оптимизации — процессу, который обучается в рамках прямого прохода модели и состоит из двух этапов: (i) построения внутренней цели обучения и (ii) нахождения соответствующего решения через оптимизацию. Чтобы проверить эту гипотезу, мы проводим обратный инжиниринг ряда авторегрессивных Трансформеров, обученных на простых задачах моделирования последовательностей, и обнаруживаем лежащие в их основе градиентные алгоритмы меза-оптимизации, управляющие генерацией предсказаний. Более того, мы показываем, что обученный алгоритм оптимизации в прямом проходе может быть немедленно адаптирован для решения задач обучения с малым количеством примеров, что позволяет предположить, что меза-оптимизация может лежать в основе способности крупных языковых моделей к обучению в контексте. Наконец, мы предлагаем новый слой self-attention, меза-слой, который явно и эффективно решает задачи оптимизации, заданные в контексте. Мы обнаруживаем, что этот слой может улучшить производительность в синтетических и предварительных экспериментах по языковому моделированию, что подтверждает нашу гипотезу о том, что меза-оптимизация является важной операцией, скрытой в весах обученных Трансформеров.
Крупные языковые модели (LLM) продемонстрировали исключительные способности в выполнении задач, связанных с обработкой языка. Однако их развертывание сопряжено с существенными трудностями из-за значительных требований к памяти и хранилищу. В ответ на эту проблему квантование только весов, особенно 3- и 4-битное квантование только весов, стало одним из наиболее жизнеспособных решений. По мере уменьшения количества бит сетка квантования расширяется, что подчеркивает важность округления вверх и вниз. Хотя предыдущие исследования показали, что тонкая настройка округления вверх и вниз с добавлением возмущений может повысить точность в некоторых сценариях, наше исследование мотивировано точной и ограниченной границей этих возмущений, где значим только порог изменения значения округления. В результате мы предлагаем краткий и высокоэффективный подход для оптимизации задачи округления весов. Наш метод, названный SignRound, включает легкую блочную настройку с использованием знакового градиентного спуска, что позволяет нам достичь выдающихся результатов за 400 шагов. SignRound превосходит установленный базовый метод округления до ближайшего (RTN) и успешно конкурирует с недавними методами, не вводя дополнительных накладных расходов на этапе вывода. Исходный код будет вскоре доступен по адресу https://github.com/intel/neural-compressor.
Аудио-языковые модели совместно обучаются на мультимодальных текстовых и аудио представлениях, что позволяет выполнять Zero-Shot вывод. Модели полагаются на кодировщики для создания мощных представлений входных данных и обобщения на множество задач, включая звуки, музыку и речь. Хотя модели достигли впечатляющих результатов, все еще существует разрыв в производительности по сравнению с моделями, специализированными на конкретных задачах. В данной статье мы предлагаем модель Contrastive Language-Audio Pretraining, которая предварительно обучается на разнообразной коллекции из 4,6 миллионов пар аудио-текст с использованием двух инновационных кодировщиков для Zero-Shot вывода. Для обучения аудио представлений мы обучили аудио кодировщик на 22 аудио задачах, вместо стандартного обучения классификации звуковых событий. Для обучения языковых представлений мы обучили авторегрессионную модель только с декодером, вместо стандартных моделей только с кодировщиком. Затем аудио и языковые представления объединяются в совместное мультимодальное пространство с использованием контрастивного обучения. Мы использовали наши кодировщики для улучшения производительности на последующих задачах с заметным отрывом. Мы провели обширную оценку обобщаемости наших представлений на 26 последующих задачах, что является самым большим показателем в литературе. Наша модель достигает передовых результатов в нескольких задачах, прокладывая путь к универсальным аудио представлениям.
Встраивание полигональных сеточных объектов в фотореалистичные объемы Neural Radiance Fields (NeRF) таким образом, чтобы их можно было визуализировать и симулировать их динамику физически согласованно с NeRF, остается малоизученным с точки зрения системной интеграции NeRF в традиционный графический конвейер. В данной статье разрабатывается двусторонняя связь между сеткой и NeRF в процессе визуализации и симуляции. Сначала мы рассматриваем уравнения переноса света для сетки и NeRF, а затем сводим их в эффективный алгоритм для обновления излучения и пропускной способности вдоль луча с произвольным количеством отражений. Чтобы устранить несоответствие между линейным цветовым пространством, которое предполагает трассировщик путей, и цветовым пространством sRGB, используемым в стандартном NeRF, мы обучаем NeRF с использованием изображений с высоким динамическим диапазоном (HDR). Также представлена стратегия для оценки источников света и отбрасывания теней на NeRF. Наконец, мы рассматриваем, как гибридная поверхностно-объемная формулировка может быть эффективно интегрирована с высокопроизводительным физическим симулятором, поддерживающим ткани, твердые и мягкие тела. Полная система визуализации и симуляции может работать на GPU с интерактивной скоростью. Мы показываем, что гибридный системный подход превосходит альтернативы в визуальной реалистичности при вставке сеток, поскольку он позволяет реалистично моделировать перенос света из объемной среды NeRF на поверхности, что влияет на внешний вид отражающих/преломляющих поверхностей и освещение диффузных поверхностей, учитывая динамику сцены.
Парадигмы обучения для больших языковых моделей (LLM) в настоящее время обычно сводятся либо к обучению в контексте (in-context learning, ICL), либо к полной тонкой настройке (fine-tuning). Каждая из этих парадигм имеет свои компромиссы, связанные с доступностью данных, размером модели, вычислительными затратами, удобством использования и итоговым качеством, причем ни одно из решений не демонстрирует универсальной эффективности. В данной статье мы сначала описываем парадигмы ICL и тонкой настройки, подчеркивая их естественные взаимосвязи. На основе этих взаимосвязей мы предлагаем новую парадигму обучения под названием FIAT, которая объединяет лучшие аспекты обеих парадигм, позволяя использовать инженерные подсказки и цепочки рассуждений (chain-of-thought reasoning) с самыми крупными моделями, а также применять аналогичные методы для обновления параметров в моделях умеренного размера с помощью параметрически эффективной настройки. Мы оцениваем эффективность FIAT на различных многоязычных задачах и наблюдаем, что FIAT превосходит как ICL, так и тонкую настройку при масштабах обучения от 100 до 10 000 примеров. Мы надеемся, что FIAT предоставит практический способ раскрыть весь потенциал LLM, не требуя жесткого выбора между парадигмами обучения.