Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавний всплеск в разработке открытых крупных языковых моделей (LLM), таких как LLaMA, Falcon и Mistral, предоставляет специалистам и исследователям в области ИИ разнообразные варианты для работы. Однако большинство LLM выпускают лишь частичные артефакты, такие как финальные веса модели или код для вывода, а технические отчеты всё чаще ограничиваются высокоуровневыми проектными решениями и поверхностной статистикой. Эти решения замедляют прогресс в области, снижая прозрачность процесса обучения LLM и вынуждая команды заново открывать множество деталей в процессе обучения. Мы представляем LLM360 — инициативу по полному открытию исходного кода LLM, которая выступает за предоставление сообществу всего обучающего кода и данных, контрольных точек модели и промежуточных результатов. Цель LLM360 — поддержать открытые и совместные исследования в области ИИ, сделав процесс обучения LLM от начала до конца прозрачным и воспроизводимым для всех. В качестве первого шага LLM360 мы выпускаем две LLM с 7 миллиардами параметров, предварительно обученные с нуля, — Amber и CrystalCoder, включая их обучающий код, данные, промежуточные контрольные точки и анализы (доступно на https://www.llm360.ai). Мы стремимся продолжать расширять границы возможностей LLM благодаря этому открытому проекту. Более крупные и мощные модели находятся в разработке и будут выпущены в будущем.
Тонкая настройка языковых моделей (LMs) на данных, созданных человеком, остается распространенной практикой. Однако производительность таких моделей часто ограничивается количеством и разнообразием высококачественных человеческих данных. В данной работе мы исследуем, можем ли мы выйти за пределы человеческих данных в задачах, где доступна скалярная обратная связь, например, в математических задачах, где можно проверить правильность решения. Для этого мы изучаем простой метод самообучения, основанный на алгоритме максимизации ожиданий, который мы называем ReST^{EM}, где мы (1) генерируем выборки из модели и фильтруем их с использованием бинарной обратной связи, (2) тонко настраиваем модель на этих выборках и (3) повторяем этот процесс несколько раз. Тестируя на продвинутых бенчмарках для математических рассуждений MATH и программирования APPS с использованием моделей PaLM-2, мы обнаруживаем, что ReST^{EM} масштабируется лучше с увеличением размера модели и значительно превосходит тонкую настройку только на человеческих данных. В целом, наши результаты показывают, что самообучение с обратной связью может существенно снизить зависимость от данных, созданных человеком.
Мы представляем W.A.L.T — подход на основе трансформеров для создания фотореалистичных видео с использованием диффузионного моделирования. Наш подход включает два ключевых проектных решения. Во-первых, мы используем каузальный энкодер для совместного сжатия изображений и видео в едином латентном пространстве, что позволяет обучать и генерировать данные в разных модальностях. Во-вторых, для повышения эффективности использования памяти и обучения мы применяем архитектуру оконного внимания, адаптированную для совместного пространственного и пространственно-временного генеративного моделирования. В совокупности эти решения позволяют нам достичь наилучших результатов на стандартных бенчмарках для генерации видео (UCF-101 и Kinetics-600) и изображений (ImageNet) без использования классификатор-фри гида. Наконец, мы также обучаем каскад из трех моделей для задачи генерации видео по тексту, включающий базовую латентную диффузионную модель для видео и две диффузионные модели для повышения разрешения видео, что позволяет генерировать видео с разрешением 512×896 и частотой 8 кадров в секунду.
В последнее время создание 3D-контента на основе текстовых запросов продемонстрировало значительный прогресс благодаря использованию 2D и 3D диффузионных моделей. Хотя 3D диффузионные модели обеспечивают высокую согласованность между видами, их способность генерировать качественные и разнообразные 3D-ассеты ограничена недостатком 3D-данных. В то же время 2D диффузионные модели используют подход дистилляции, который достигает отличной обобщаемости и богатых деталей без использования каких-либо 3D-данных. Однако методы поднятия 2D-изображений страдают от присущей им неоднозначности, не зависящей от вида, что приводит к серьезным проблемам многоликости (Janus), когда текстовые запросы не могут предоставить достаточные указания для получения согласованных 3D-результатов. Вместо того чтобы переобучать дорогостоящую модель, учитывающую точки зрения, мы исследуем, как полностью использовать легко доступные грубые 3D-знания для улучшения запросов и направления оптимизации поднятия 2D-изображений для уточнения. В данной статье мы предлагаем Sherpa3D — новый фреймворк для преобразования текста в 3D, который одновременно достигает высокой точности, обобщаемости и геометрической согласованности. В частности, мы разрабатываем пару стратегий руководства, основанных на грубом 3D-приоре, сгенерированном 3D диффузионной моделью: структурное руководство для геометрической точности и семантическое руководство для 3D-согласованности. Используя эти два типа руководства, 2D диффузионная модель обогащает 3D-контент разнообразными и качественными результатами. Многочисленные эксперименты демонстрируют превосходство нашего Sherpa3D над современными методами преобразования текста в 3D с точки зрения качества и 3D-согласованности.
Современные крупные модели обработки зрения и языка (LVLMs) используют общий словарь для задач зрения — CLIP, который охватывает большинство стандартных задач. Однако для некоторых специализированных задач, требующих плотного и детализированного восприятия, таких как OCR на уровне документов или понимание графиков, особенно в неанглоязычных сценариях, словарь в стиле CLIP может демонстрировать низкую эффективность в токенизации визуальных данных и даже сталкиваться с проблемой отсутствия слов в словаре. В связи с этим мы предлагаем Vary — эффективный метод масштабирования словаря зрения для LVLMs. Процедура Vary естественным образом разделяется на два этапа: генерация и интеграция нового словаря зрения. На первом этапе мы разрабатываем сеть словаря вместе с компактным трансформером, работающим только на декодировании, для создания желаемого словаря с помощью авторегрессии. На следующем этапе мы расширяем базовый словарь зрения, объединяя новый словарь с исходным (CLIP), что позволяет LVLMs быстро осваивать новые функции. По сравнению с популярными моделями BLIP-2, MiniGPT4 и LLaVA, Vary сохраняет свои базовые возможности, одновременно демонстрируя более высокую способность к детализированному восприятию и пониманию. В частности, Vary успешно справляется с новыми функциями анализа документов (OCR или преобразование в markdown), достигая 78,2% ANLS в DocVQA и 36,2% в MMVet. Наш код будет доступен на домашней странице.
Крупные языковые модели (LLM) обладают впечатляющей способностью решать новые задачи, используя всего несколько примеров, но для этого им необходим доступ к подходящим инструментам. Метод Retrieval Augmented Generation (RAG) решает эту проблему, извлекая список релевантных инструментов для конкретной задачи. Однако этап извлечения инструментов в RAG требует, чтобы вся необходимая информация была явно представлена в запросе. Это ограничение, поскольку семантический поиск, широко используемый метод извлечения инструментов, может давать сбои, если запрос неполный или лишен контекста. Чтобы устранить это ограничение, мы предлагаем метод Context Tuning для RAG, который использует интеллектуальную систему извлечения контекста для получения релевантной информации, улучшающей как извлечение инструментов, так и генерацию плана. Наша легковесная модель извлечения контекста использует числовые, категориальные сигналы и сигналы привычного использования для извлечения и ранжирования элементов контекста. Наши эмпирические результаты показывают, что настройка контекста значительно улучшает семантический поиск, достигая 3,5-кратного и 1,5-кратного улучшения Recall@K для задач извлечения контекста и инструментов соответственно, а также приводит к увеличению точности планирования на основе LLM на 11,6%. Кроме того, мы демонстрируем, что наша предложенная легковесная модель, использующая Reciprocal Rank Fusion (RRF) с LambdaMART, превосходит извлечение на основе GPT-4. Более того, мы наблюдаем, что дополнение контекста на этапе генерации плана, даже после извлечения инструментов, снижает вероятность галлюцинаций.
Мы представляем разработку Alter3, гуманоидного робота, способного генерировать спонтанные движения с использованием крупной языковой модели (LLM), в частности GPT-4. Этот результат был достигнут путем интеграции GPT-4 в наш собственный андроид Alter3, что эффективно связало LLM с движениями тела Alter. Обычно низкоуровневое управление роботом зависит от аппаратного обеспечения и выходит за рамки корпусов LLM, что создает сложности для прямого управления роботом на основе LLM. Однако в случае гуманоидных роботов, таких как Alter3, прямое управление возможно путем отображения лингвистических выражений человеческих действий на тело робота через программный код. Примечательно, что этот подход позволяет Alter3 принимать различные позы, такие как "селфи" или "притворяться привидением", и генерировать последовательности действий с течением времени без явного программирования для каждой части тела. Это демонстрирует способности робота к обучению с нулевым сэмплингом. Кроме того, вербальная обратная связь может корректировать позы, устраняя необходимость в тонкой настройке. Видео сгенерированных движений Alter3 доступно по адресу https://tnoinkwms.github.io/ALTER-LLM/.
Латентные диффузионные модели (LDMs) фиксируют динамическую эволюцию латентных переменных во времени, объединяя паттерны и мультимодальность в генеративной системе. Несмотря на эффективность LDMs в различных приложениях, таких как генерация изображений из текста, обеспечиваемую мощными текстовыми кодировщиками и вариационным автокодировщиком, острая необходимость развертывания крупных генеративных моделей на устройствах с ограниченными ресурсами стимулирует поиск более компактных, но эффективных альтернатив. Квантование после обучения (Post Training Quantization, PTQ), метод сжатия операционного размера моделей глубокого обучения, сталкивается с трудностями при применении к LDMs из-за временных и структурных сложностей. В данном исследовании предлагается стратегия квантования, которая эффективно квантует LDMs, используя отношение сигнал-квантовый шум (Signal-to-Quantization-Noise Ratio, SQNR) в качестве ключевого метрического показателя для оценки. Рассматривая расхождение при квантовании как относительный шум и выявляя чувствительные части модели, мы предлагаем эффективный подход к квантованию, включающий как глобальные, так и локальные стратегии. Глобальный процесс квантования снижает относительный квантовый шум, начиная с квантования более высокой точности на чувствительных блоках, в то время как локальные методы решают специфические проблемы в квантование-чувствительных и временно-чувствительных модулях. Результаты наших экспериментов показывают, что реализация как глобальных, так и локальных методов приводит к высокоэффективному и результативному квантованию после обучения (PTQ) LDMs.
Мы представляем Llama Guard — модель защиты ввода-вывода на основе языковой модели (LLM), ориентированную на сценарии взаимодействия человека с ИИ. Наша модель включает таксономию рисков безопасности, ценный инструмент для классификации определённого набора рисков, встречающихся в запросах к LLM (т.е. классификация запросов). Эта таксономия также играет ключевую роль в классификации ответов, генерируемых LLM на такие запросы, — процесс, который мы называем классификацией ответов. Для целей как классификации запросов, так и ответов мы тщательно собрали высококачественный набор данных. Llama Guard, модель Llama2-7b, дообученная на наших данных, несмотря на их небольшой объём, демонстрирует высокую производительность на существующих бенчмарках, таких как OpenAI Moderation Evaluation dataset и ToxicChat, где её результаты соответствуют или превосходят доступные инструменты модерации контента. Llama Guard функционирует как языковая модель, выполняя многоклассовую классификацию и генерируя бинарные оценки решений. Более того, дообучение Llama Guard на инструкциях позволяет настраивать задачи и адаптировать форматы вывода. Эта особенность расширяет возможности модели, например, позволяя корректировать категории таксономии в соответствии с конкретными сценариями использования, а также поддерживать нулевой или малошотовый подход с использованием различных таксономий на входе. Мы предоставляем веса модели Llama Guard и призываем исследователей развивать и адаптировать их для удовлетворения растущих потребностей сообщества в безопасности ИИ.
Предварительно обученные большие языковые модели (LLM) требуют тонкой настройки для повышения их отзывчивости на инструкции на естественном языке. Федеративное обучение (FL) предлагает способ выполнения тонкой настройки с использованием обильных данных на конечных устройствах без ущерба для конфиденциальности данных. Большинство существующих методов федеративной тонкой настройки для LLM полагаются на методы параметрически эффективной настройки, которые могут не достигать высот производительности, возможных при полной настройке параметров. Однако коммуникационные издержки, связанные с полной настройкой параметров, чрезмерно высоки как для серверов, так и для клиентов. В данной работе представлен FedKSeed, новый подход, который использует оптимизацию нулевого порядка (ZOO) с набором случайных начальных значений. Это позволяет выполнять федеративную полную настройку параметров миллиардных LLM непосредственно на устройствах. Наш метод значительно сокращает требования к передаче данных между сервером и клиентами до нескольких скалярных градиентов и случайных начальных значений, что составляет всего несколько тысяч байт. На основе этого мы разрабатываем стратегию для оценки значимости возмущений ZOO для FL, позволяющую проводить вероятностно-дифференцированную выборку начальных значений. Это уделяет приоритет возмущениям, которые оказывают большее влияние на точность модели. Эксперименты в шести сценариях с различными LLM, наборами данных и разбиениями данных демонстрируют, что наш подход превосходит существующие методы федеративной тонкой настройки LLM как с точки зрения эффективности коммуникаций, так и обобщения на новые задачи.
Были предложены различные методы использования больших языковых моделей (LLM) в автономном вождении. Одна из стратегий применения LLM для автономного вождения заключается в передаче информации об окружающих объектах в виде текстовых запросов в LLM, включая их координаты и данные о скорости, с последующим выводом последующих движений транспортного средства. При использовании LLM для таких целей ключевыми являются такие способности, как пространственное распознавание и планирование. В частности, требуются две фундаментальные способности: (1) принятие решений с учетом пространственного контекста, то есть умение распознавать пространство на основе координатной информации и принимать решения для избежания столкновений, и (2) способность соблюдать правила дорожного движения. Однако количественные исследования того, насколько точно различные типы LLM могут справляться с этими задачами, не проводились. В данном исследовании мы количественно оценили эти две способности LLM в контексте автономного вождения. Кроме того, для проведения доказательства концепции (Proof of Concept, POC) возможности реализации этих способностей в реальных транспортных средствах, мы разработали систему, использующую LLM для управления автомобилем.
Captum — это всеобъемлющая библиотека для объяснения моделей в PyTorch, предлагающая широкий спектр методов из области интерпретируемости, которые помогают пользователям лучше понимать модели PyTorch. В данной статье мы представляем новые функции в Captum, специально разработанные для анализа поведения генеративных языковых моделей. Мы предоставляем обзор доступных функциональных возможностей и примеры их применения для понимания изученных ассоциаций в генеративных языковых моделях.
Крупные языковые модели (LLM) продемонстрировали мощные способности в генерации текста. Однако достижение оптимальных результатов с заданным запросом или инструкцией может быть сложной задачей, особенно для моделей с миллиардами параметров. Кроме того, могут проявляться нежелательные поведения, такие как токсичность или галлюцинации. Хотя более крупные модели (например, ChatGPT) могут демонстрировать лучшие результаты в смягчении этих проблем, полное предотвращение всё ещё не гарантировано. В данной работе мы предлагаем формализовать генерацию текста как задачу генерации с ограничениями на будущее, чтобы минимизировать нежелательные поведения и обеспечить соответствие инструкциям. Оценка удовлетворения будущих ограничений, выполняемая с использованием LLM, направляет процесс генерации текста. Наши обширные эксперименты демонстрируют эффективность предложенного подхода в трёх различных задачах генерации текста: генерация с ограничениями по ключевым словам (Lin et al., 2020), снижение токсичности (Gehman et al., 2020) и обеспечение фактической точности в вопросах и ответах (Gao et al., 2023).
В данной работе мы эмпирически исследуем динамику оптимизации в многозадачном обучении, уделяя особое внимание тем аспектам, которые управляют набором задач с существенным дисбалансом данных. Мы представляем простой, но эффективный метод, включающий предварительное обучение на задачах с большим объемом данных с последующей тонкой настройкой на смеси задач с высоким и низким объемом данных. Мы проводим детальное эмпирическое исследование и анализ преимуществ этого метода, демонстрируя, что он обеспечивает стабильные улучшения по сравнению с профилем компромиссов производительности стандартного статического взвешивания. Мы анализируем, в каких условиях данных этот метод применим, и эмпирически показываем его улучшения в задачах нейронного машинного перевода (NMT) и многоязычного языкового моделирования.
MEGA — это недавно разработанная архитектура на основе трансформеров, которая использует линейный рекуррентный оператор, чье параллельное вычисление, основанное на быстром преобразовании Фурье (FFT), масштабируется как O(LlogL), где L — длина последовательности. Мы развиваем их подход, заменяя линейную рекуррентность специальной временной сверточной сетью, которая позволяет увеличить размер рецептивного поля при меньшей глубине сети и снижает вычислительную сложность до O(L). Полученная модель называется TCNCA (Temporal Convolutional Network with Chunked Attention). Мы оцениваем TCNCA на задаче языкового моделирования EnWik8, классификации последовательностей в рамках long-range-arena (LRA), а также на синтетическом бенчмарке ассоциативного воспроизведения. На EnWik8 TCNCA превосходит MEGA, достигая меньших потерь при ускорении прямого/обратного прохода в 1.37/1.24 раза во время обучения. Дилатированные свертки, используемые в TCNCA, стабильно и значительно быстрее операций, основанных на FFT, на GPU, что делает их масштабируемым решением для обработки очень длинных последовательностей: они до 7.07/2.86 раза быстрее в прямом/обратном проходе для последовательностей длиной до 131 тыс. элементов. На LRA TCNCA достигает в среднем ускорения в 1.28 раза при выводе с аналогичной точностью по сравнению с MEGA. На ассоциативном воспроизведении мы обнаружили, что даже упрощенная версия TCNCA, без избыточных мультипликативных и аддитивных взаимодействий, остается превосходящей или конкурентоспособной по сравнению с MEGA для различных длин последовательностей и размеров словаря.