Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представьте разработчика, который может изменять только последнюю строку своего кода. Как часто ему придётся начинать писать функцию с нуля, прежде чем она станет правильной? Авторегрессивные модели для генерации кода из естественного языка имеют схожее ограничение: они не позволяют легко пересматривать ранее сгенерированные токены. Мы представляем CodeFusion — предобученную диффузионную модель генерации кода, которая устраняет это ограничение, итеративно очищая полную программу, учитывая закодированный естественный язык. Мы оцениваем CodeFusion на задаче генерации кода из естественного языка для Bash, Python и правил условного форматирования (CF) Microsoft Excel. Эксперименты показывают, что CodeFusion (75 млн параметров) демонстрирует результаты, сопоставимые с современными авторегрессивными системами (350 млн — 175 млрд параметров), по точности в топ-1 и превосходит их в топ-3 и топ-5 благодаря лучшему балансу между разнообразием и качеством.
В данной статье мы исследуем форматы данных с низкой разрядностью FP8 для эффективного обучения крупных языковых моделей (LLM). Наше ключевое наблюдение заключается в том, что большинство переменных, таких как градиенты и состояния оптимизатора, в процессе обучения LLM могут использовать форматы данных с низкой точностью без ущерба для точности модели и без необходимости изменения гиперпараметров. В частности, мы предлагаем новый автоматический смешанный формат точности FP8 для обучения LLM. Этот фреймворк предлагает три уровня использования FP8 для упрощения смешанной точности и распределенного параллельного обучения LLM. Он постепенно включает 8-битные градиенты, состояния оптимизатора и распределенное обучение в инкрементальной манере. Результаты экспериментов показывают, что при обучении модели GPT-175B на платформе GPU H100 наш фреймворк смешанной точности FP8 не только достиг значительного сокращения реального использования памяти на 42%, но и работал на 64% быстрее, чем широко используемый фреймворк BF16 (например, Megatron-LM), превосходя скорость Nvidia Transformer Engine на 17%. Это существенно снижает затраты на обучение крупных базовых моделей. Более того, наша методология смешанной точности FP8 является универсальной. Она может быть легко применена к другим задачам, таким как настройка инструкций LLM и обучение с подкреплением с обратной связью от человека, что позволяет экономить на затратах на тонкую настройку. Наш фреймворк обучения с низкой точностью FP8 доступен в открытом доступе по адресу {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Мы представляем ControlLLM — новый фреймворк, который позволяет крупным языковым моделям (LLM) использовать мультимодальные инструменты для решения сложных задач в реальном мире. Несмотря на впечатляющую производительность LLM, они по-прежнему сталкиваются с трудностями при вызове инструментов из-за неоднозначных пользовательских запросов, неточного выбора и параметризации инструментов, а также неэффективного планирования их использования. Чтобы преодолеть эти проблемы, наш фреймворк включает три ключевых компонента: (1) декомпозитор задач, который разбивает сложную задачу на четкие подзадачи с определенными входами и выходами; (2) парадигму "Мысли на графе" (Thoughts-on-Graph, ToG), которая ищет оптимальный путь решения на предварительно построенном графе инструментов, задающем параметры и зависимости между различными инструментами; и (3) механизм выполнения с богатым набором инструментов, который интерпретирует путь решения и эффективно запускает инструменты на различных вычислительных устройствах. Мы оцениваем наш фреймворк на разнообразных задачах, связанных с обработкой изображений, аудио и видео, демонстрируя его превосходную точность, эффективность и универсальность по сравнению с существующими методами.
Обучение на устройстве и эффективная тонкая настройка позволяют осуществлять непрерывную и конфиденциальную адаптацию (например, локальную тонкую настройку больших языковых моделей на персональных данных). Однако существующие фреймворки для обучения разработаны для облачных серверов с мощными ускорителями (например, GPU, TPU) и не оптимизированы для обучения на периферийных устройствах, которые сталкиваются с ограниченными ресурсами и разнообразием аппаратного обеспечения. Мы представляем PockEngine: компактный, разреженный и эффективный движок, который позволяет выполнять тонкую настройку на различных периферийных устройствах. PockEngine поддерживает разреженное обратное распространение: он обрезает граф обратного распространения и разреженно обновляет модель, обеспечивая значительное сокращение использования памяти и задержек при сохранении качества модели. Во-вторых, PockEngine ориентирован на компиляцию: весь граф обучения (включая прямой проход, обратное распространение и шаги оптимизации) формируется на этапе компиляции, что снижает накладные расходы во время выполнения и открывает возможности для преобразования графа. PockEngine также интегрирует множество оптимизаций графа обучения, что позволяет дополнительно ускорить процесс обучения, включая переупорядочивание операторов и переключение бэкендов. PockEngine поддерживает разнообразные приложения, интерфейсы и аппаратные бэкенды: он гибко компилирует и настраивает модели, определенные в PyTorch/TensorFlow/Jax, и развертывает бинарные файлы на мобильных CPU/GPU/DSP. Мы оценили PockEngine как на моделях компьютерного зрения, так и на больших языковых моделях. PockEngine демонстрирует ускорение до 15 раз по сравнению с готовым TensorFlow (Raspberry Pi) и сокращение использования памяти при обратном распространении в 5,6 раз (Jetson AGX Orin). Примечательно, что PockEngine позволяет выполнять тонкую настройку модели LLaMav2-7B на NVIDIA Jetson AGX Orin со скоростью 550 токенов в секунду, что в 7,9 раз быстрее, чем в PyTorch.
Крупные языковые модели (LLM) демонстрируют перспективность в задачах обработки естественного языка, но сталкиваются с трудностями при прямом применении в сложных областях, таких как финансы. LLM испытывают сложности с рассуждением и интеграцией всей релевантной информации. Мы предлагаем подход, ориентированный на данные, чтобы позволить LLM лучше справляться с финансовыми задачами. Наше ключевое наблюдение заключается в том, что вместо перегрузки модели всей информацией сразу, более эффективно предварительно обрабатывать и анализировать данные. Мы создаем финансовую LLM (FLLM), используя многозадачную тонкую настройку на основе промптов для достижения предварительной обработки и анализа данных. Однако размеченные данные для каждой задачи ограничены. Чтобы избежать затрат на ручную аннотацию, мы применяем абдуктивное расширение рассуждений (AAR) для автоматической генерации обучающих данных путем модификации псевдо-меток на основе выходов самой FLLM. Эксперименты показывают, что наша ориентированная на данные FLLM с AAR значительно превосходит базовые финансовые LLM, разработанные для работы с необработанным текстом, достигая наилучших результатов в задачах финансового анализа и интерпретации. Мы также публикуем новый эталонный набор данных для финансового анализа и интерпретации. Наша методология предлагает перспективный путь для раскрытия потенциала LLM в сложных реальных областях.
Мы представляем фреймворк для автоматизированного измерения метрик ответственного ИИ (RAI) для больших языковых моделей (LLM) и связанных с ними продуктов и услуг. Наш фреймворк для автоматического измерения вреда, причиняемого LLM, основывается на существующих технических и социотехнических знаниях и использует возможности современных LLM, таких как GPT-4. Мы применяем этот фреймворк в нескольких кейс-стадиях, исследующих, как различные LLM могут нарушать ряд принципов, связанных с RAI. Фреймворк может использоваться вместе с предметной социотехнической экспертизой для создания измерений новых областей вреда в будущем. Реализуя этот фреймворк, мы стремимся обеспечить более продвинутые методы измерения вреда и способствовать ответственному использованию LLM.
Мы представляем 3D-осознанную диффузионную модель ZeroNVS для синтеза новых видов из одного изображения в условиях реальных сцен. В то время как существующие методы разработаны для отдельных объектов с маскированным фоном, мы предлагаем новые подходы для решения задач, возникающих в сложных сценах с множеством объектов и разнообразным фоном. В частности, мы обучаем генеративный априор на смеси данных, охватывающих объектно-ориентированные, интерьерные и экстерьерные сцены. Для устранения проблем, связанных с смешением данных, таких как неоднозначность масштаба глубины, мы предлагаем новую параметризацию и схему нормализации условий камеры. Кроме того, мы отмечаем, что метод Score Distillation Sampling (SDS) склонен усекать распределение сложного фона в процессе дистилляции 360-градусных сцен, и предлагаем метод "SDS anchoring" для повышения разнообразия синтезированных новых видов. Наша модель устанавливает новый рекорд по метрике LPIPS на наборе данных DTU в условиях zero-shot, превосходя даже методы, специально обученные на DTU. Мы также адаптируем сложный набор данных Mip-NeRF 360 в качестве нового эталона для синтеза новых видов из одного изображения и демонстрируем высокую производительность в этой задаче. Наш код и данные доступны по адресу http://kylesargent.github.io/zeronvs/.
Нейронные поля излучения (NeRF) доказали свою эффективность как мощные 3D-представления, способные синтезировать новые виды сложных сцен с высоким качеством. Хотя NeRF нашли применение в графике, компьютерном зрении и робототехнике, проблемы с медленной скоростью рендеринга и характерными визуальными артефактами препятствуют их использованию во многих сценариях. В данной работе мы исследуем комбинацию автоэнкодера (AE) с NeRF, в которой рендерятся латентные признаки (вместо цветов), а затем они декодируются с помощью сверточных слоев. Полученный NeRF в латентном пространстве способен создавать новые виды с более высоким качеством, чем стандартные NeRF в цветовом пространстве, так как AE может исправлять определенные визуальные артефакты, при этом рендеринг происходит более чем в три раза быстрее. Наша работа ортогональна другим методам повышения эффективности NeRF. Кроме того, мы можем управлять компромиссом между эффективностью и качеством изображения, уменьшая архитектуру AE, достигая более чем 13-кратного ускорения рендеринга при незначительном снижении производительности. Мы надеемся, что наш подход может стать основой для эффективного, но высокоточного 3D-представления сцен для последующих задач, особенно когда важно сохранить дифференцируемость, как во многих сценариях робототехники, требующих непрерывного обучения.
Мы демонстрируем, что крупные языковые модели (LLM) могут быть адаптированы для использования в качестве обобщаемых стратегий в задачах, связанных с визуальным восприятием в физическом окружении. Наш подход, названный Large LAnguage model Reinforcement Learning Policy (LLaRP), адаптирует предварительно обученную замороженную LLM для обработки текстовых инструкций и визуальных эгоцентрических наблюдений с целью непосредственного вывода действий в окружающей среде. Используя обучение с подкреплением, мы обучаем LLaRP видеть и действовать исключительно через взаимодействия с окружением. Мы показываем, что LLaRP устойчива к сложным перефразированиям инструкций и способна обобщать новые задачи, требующие нестандартного оптимального поведения. В частности, на 1 000 ранее не встречавшихся задач она достигает успеха в 42% случаев, что в 1,7 раза превышает показатели других распространенных обученных базовых моделей или нулевых применений LLM. Наконец, чтобы помочь сообществу в изучении задач, связанных с языковыми условиями, массово многозадачными и воплощенными в ИИ проблемами, мы представляем новый бенчмарк Language Rearrangement, состоящий из 150 000 обучающих и 1 000 тестовых задач для языково-обусловленного переупорядочивания. Видео примеров работы LLaRP с ранее не встречавшимися инструкциями Language Rearrangement доступны по адресу https://llm-rl.github.io.
Крупные языковые модели обучаются на огромных объемах текстов из интернета, которые содержат как достоверную, так и вводящую в заблуждение информацию о мире. Способны ли языковые модели отличать истину от лжи в этих противоречивых данных? Развивая идею о том, что LLM могут моделировать различных агентов, создающих корпусы текстов, мы выдвигаем гипотезу, что они могут группировать достоверные тексты, моделируя "достоверную персону": группу агентов, которые с высокой вероятностью создают правдивые тексты и обладают схожими характеристиками. Например, надежные источники, такие как Википедия и научные издания, обычно используют формальный стиль письма и делают последовательные утверждения. Моделируя такую персону, LLM могут обобщать достоверность за пределы конкретных контекстов, в которых каждый агент создавал обучающие тексты. Например, модель может сделать вывод, что агент "Википедия" будет правдив в темах, которые были созданы только агентом "Наука", поскольку они разделяют одну и ту же персону. Мы сначала демонстрируем доказательства гипотезы о персонах через два наблюдения: (1) мы можем проверить, будет ли ответ модели правдивым, до его генерации; (2) дообучение модели на наборе фактов повышает ее достоверность на неизвестных темах. Затем, используя арифметику как синтетическую среду, мы показываем, что языковые модели могут разделять истинные и ложные утверждения и обобщать достоверность между агентами, но только если агенты в обучающих данных разделяют правдивый генеративный процесс, который позволяет создать достоверную персону. В целом, наши результаты свидетельствуют о том, что модели могут использовать иерархические структуры в данных для изучения абстрактных концепций, таких как достоверность.