HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

CodeFusion: Предобученная диффузионная модель для генерации кода
CodeFusion: A Pre-trained Diffusion Model for Code Generation

Oct 26

ByMukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen

Представьте разработчика, который может изменять только последнюю строку своего кода. Как часто ему придётся начинать писать функцию с нуля, прежде чем она станет правильной? Авторегрессивные модели для генерации кода из естественного языка имеют схожее ограничение: они не позволяют легко пересматривать ранее сгенерированные токены. Мы представляем CodeFusion — предобученную диффузионную модель генерации кода, которая устраняет это ограничение, итеративно очищая полную программу, учитывая закодированный естественный язык. Мы оцениваем CodeFusion на задаче генерации кода из естественного языка для Bash, Python и правил условного форматирования (CF) Microsoft Excel. Эксперименты показывают, что CodeFusion (75 млн параметров) демонстрирует результаты, сопоставимые с современными авторегрессивными системами (350 млн — 175 млрд параметров), по точности в топ-1 и превосходит их в топ-3 и топ-5 благодаря лучшему балансу между разнообразием и качеством.

FP8-LM: Обучение крупных языковых моделей с использованием формата FP8
FP8-LM: Training FP8 Large Language Models

Oct 27

ByHouwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Joe Chau, Han Hu, Peng Cheng

В данной статье мы исследуем форматы данных с низкой разрядностью FP8 для эффективного обучения крупных языковых моделей (LLM). Наше ключевое наблюдение заключается в том, что большинство переменных, таких как градиенты и состояния оптимизатора, в процессе обучения LLM могут использовать форматы данных с низкой точностью без ущерба для точности модели и без необходимости изменения гиперпараметров. В частности, мы предлагаем новый автоматический смешанный формат точности FP8 для обучения LLM. Этот фреймворк предлагает три уровня использования FP8 для упрощения смешанной точности и распределенного параллельного обучения LLM. Он постепенно включает 8-битные градиенты, состояния оптимизатора и распределенное обучение в инкрементальной манере. Результаты экспериментов показывают, что при обучении модели GPT-175B на платформе GPU H100 наш фреймворк смешанной точности FP8 не только достиг значительного сокращения реального использования памяти на 42%, но и работал на 64% быстрее, чем широко используемый фреймворк BF16 (например, Megatron-LM), превосходя скорость Nvidia Transformer Engine на 17%. Это существенно снижает затраты на обучение крупных базовых моделей. Более того, наша методология смешанной точности FP8 является универсальной. Она может быть легко применена к другим задачам, таким как настройка инструкций LLM и обучение с подкреплением с обратной связью от человека, что позволяет экономить на затратах на тонкую настройку. Наш фреймворк обучения с низкой точностью FP8 доступен в открытом доступе по адресу {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

ControlLLM: Расширение языковых моделей с помощью инструментов через поиск на графах
ControlLLM: Augment Language Models with Tools by Searching on Graphs

Oct 26

ByZhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang

Мы представляем ControlLLM — новый фреймворк, который позволяет крупным языковым моделям (LLM) использовать мультимодальные инструменты для решения сложных задач в реальном мире. Несмотря на впечатляющую производительность LLM, они по-прежнему сталкиваются с трудностями при вызове инструментов из-за неоднозначных пользовательских запросов, неточного выбора и параметризации инструментов, а также неэффективного планирования их использования. Чтобы преодолеть эти проблемы, наш фреймворк включает три ключевых компонента: (1) декомпозитор задач, который разбивает сложную задачу на четкие подзадачи с определенными входами и выходами; (2) парадигму "Мысли на графе" (Thoughts-on-Graph, ToG), которая ищет оптимальный путь решения на предварительно построенном графе инструментов, задающем параметры и зависимости между различными инструментами; и (3) механизм выполнения с богатым набором инструментов, который интерпретирует путь решения и эффективно запускает инструменты на различных вычислительных устройствах. Мы оцениваем наш фреймворк на разнообразных задачах, связанных с обработкой изображений, аудио и видео, демонстрируя его превосходную точность, эффективность и универсальность по сравнению с существующими методами.

Финансовые крупные языковые модели, ориентированные на данные
Data-Centric Financial Large Language Models

Oct 7

ByZhixuan Chu, Huaiyu Guo, Xinyuan Zhou, Yijia Wang, Fei Yu, Hong Chen, Wanqing Xu, Xin Lu, Qing Cui, Longfei Li, Jun Zhou, Sheng Li

Крупные языковые модели (LLM) демонстрируют перспективность в задачах обработки естественного языка, но сталкиваются с трудностями при прямом применении в сложных областях, таких как финансы. LLM испытывают сложности с рассуждением и интеграцией всей релевантной информации. Мы предлагаем подход, ориентированный на данные, чтобы позволить LLM лучше справляться с финансовыми задачами. Наше ключевое наблюдение заключается в том, что вместо перегрузки модели всей информацией сразу, более эффективно предварительно обрабатывать и анализировать данные. Мы создаем финансовую LLM (FLLM), используя многозадачную тонкую настройку на основе промптов для достижения предварительной обработки и анализа данных. Однако размеченные данные для каждой задачи ограничены. Чтобы избежать затрат на ручную аннотацию, мы применяем абдуктивное расширение рассуждений (AAR) для автоматической генерации обучающих данных путем модификации псевдо-меток на основе выходов самой FLLM. Эксперименты показывают, что наша ориентированная на данные FLLM с AAR значительно превосходит базовые финансовые LLM, разработанные для работы с необработанным текстом, достигая наилучших результатов в задачах финансового анализа и интерпретации. Мы также публикуем новый эталонный набор данных для финансового анализа и интерпретации. Наша методология предлагает перспективный путь для раскрытия потенциала LLM в сложных реальных областях.

PockEngine: Разреженная и эффективная тонкая настройка в компактном формате
PockEngine: Sparse and Efficient Fine-tuning in a Pocket

Oct 26

ByLigeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han

Обучение на устройстве и эффективная тонкая настройка позволяют осуществлять непрерывную и конфиденциальную адаптацию (например, локальную тонкую настройку больших языковых моделей на персональных данных). Однако существующие фреймворки для обучения разработаны для облачных серверов с мощными ускорителями (например, GPU, TPU) и не оптимизированы для обучения на периферийных устройствах, которые сталкиваются с ограниченными ресурсами и разнообразием аппаратного обеспечения. Мы представляем PockEngine: компактный, разреженный и эффективный движок, который позволяет выполнять тонкую настройку на различных периферийных устройствах. PockEngine поддерживает разреженное обратное распространение: он обрезает граф обратного распространения и разреженно обновляет модель, обеспечивая значительное сокращение использования памяти и задержек при сохранении качества модели. Во-вторых, PockEngine ориентирован на компиляцию: весь граф обучения (включая прямой проход, обратное распространение и шаги оптимизации) формируется на этапе компиляции, что снижает накладные расходы во время выполнения и открывает возможности для преобразования графа. PockEngine также интегрирует множество оптимизаций графа обучения, что позволяет дополнительно ускорить процесс обучения, включая переупорядочивание операторов и переключение бэкендов. PockEngine поддерживает разнообразные приложения, интерфейсы и аппаратные бэкенды: он гибко компилирует и настраивает модели, определенные в PyTorch/TensorFlow/Jax, и развертывает бинарные файлы на мобильных CPU/GPU/DSP. Мы оценили PockEngine как на моделях компьютерного зрения, так и на больших языковых моделях. PockEngine демонстрирует ускорение до 15 раз по сравнению с готовым TensorFlow (Raspberry Pi) и сокращение использования памяти при обратном распространении в 5,6 раз (Jetson AGX Orin). Примечательно, что PockEngine позволяет выполнять тонкую настройку модели LLaMav2-7B на NVIDIA Jetson AGX Orin со скоростью 550 токенов в секунду, что в 7,9 раз быстрее, чем в PyTorch.

Фреймворк для автоматизированной оценки вреда от ответственного использования ИИ в генеративных приложениях искусственного интеллекта
A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

Oct 26

ByAhmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen

Мы представляем фреймворк для автоматизированного измерения метрик ответственного ИИ (RAI) для больших языковых моделей (LLM) и связанных с ними продуктов и услуг. Наш фреймворк для автоматического измерения вреда, причиняемого LLM, основывается на существующих технических и социотехнических знаниях и использует возможности современных LLM, таких как GPT-4. Мы применяем этот фреймворк в нескольких кейс-стадиях, исследующих, как различные LLM могут нарушать ряд принципов, связанных с RAI. Фреймворк может использоваться вместе с предметной социотехнической экспертизой для создания измерений новых областей вреда в будущем. Реализуя этот фреймворк, мы стремимся обеспечить более продвинутые методы измерения вреда и способствовать ответственному использованию LLM.

ZeroNVS: Синтез 360-градусного обзора с нулевым обучением на основе одного реального изображения
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

Oct 27

ByKyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu

Мы представляем 3D-осознанную диффузионную модель ZeroNVS для синтеза новых видов из одного изображения в условиях реальных сцен. В то время как существующие методы разработаны для отдельных объектов с маскированным фоном, мы предлагаем новые подходы для решения задач, возникающих в сложных сценах с множеством объектов и разнообразным фоном. В частности, мы обучаем генеративный априор на смеси данных, охватывающих объектно-ориентированные, интерьерные и экстерьерные сцены. Для устранения проблем, связанных с смешением данных, таких как неоднозначность масштаба глубины, мы предлагаем новую параметризацию и схему нормализации условий камеры. Кроме того, мы отмечаем, что метод Score Distillation Sampling (SDS) склонен усекать распределение сложного фона в процессе дистилляции 360-градусных сцен, и предлагаем метод "SDS anchoring" для повышения разнообразия синтезированных новых видов. Наша модель устанавливает новый рекорд по метрике LPIPS на наборе данных DTU в условиях zero-shot, превосходя даже методы, специально обученные на DTU. Мы также адаптируем сложный набор данных Mip-NeRF 360 в качестве нового эталона для синтеза новых видов из одного изображения и демонстрируем высокую производительность в этой задаче. Наш код и данные доступны по адресу http://kylesargent.github.io/zeronvs/.

Реконструктивные нейронные поля излучения в латентном пространстве для эффективного представления 3D-сцен
Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations

Oct 27

ByTristan Aumentado-Armstrong, Ashkan Mirzaei, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski

Нейронные поля излучения (NeRF) доказали свою эффективность как мощные 3D-представления, способные синтезировать новые виды сложных сцен с высоким качеством. Хотя NeRF нашли применение в графике, компьютерном зрении и робототехнике, проблемы с медленной скоростью рендеринга и характерными визуальными артефактами препятствуют их использованию во многих сценариях. В данной работе мы исследуем комбинацию автоэнкодера (AE) с NeRF, в которой рендерятся латентные признаки (вместо цветов), а затем они декодируются с помощью сверточных слоев. Полученный NeRF в латентном пространстве способен создавать новые виды с более высоким качеством, чем стандартные NeRF в цветовом пространстве, так как AE может исправлять определенные визуальные артефакты, при этом рендеринг происходит более чем в три раза быстрее. Наша работа ортогональна другим методам повышения эффективности NeRF. Кроме того, мы можем управлять компромиссом между эффективностью и качеством изображения, уменьшая архитектуру AE, достигая более чем 13-кратного ускорения рендеринга при незначительном снижении производительности. Мы надеемся, что наш подход может стать основой для эффективного, но высокоточного 3D-представления сцен для последующих задач, особенно когда важно сохранить дифференцируемость, как во многих сценариях робототехники, требующих непрерывного обучения.

Крупные языковые модели как универсальные стратегии для задач в физическом мире
Large Language Models as Generalizable Policies for Embodied Tasks

Oct 26

ByAndrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev

Мы демонстрируем, что крупные языковые модели (LLM) могут быть адаптированы для использования в качестве обобщаемых стратегий в задачах, связанных с визуальным восприятием в физическом окружении. Наш подход, названный Large LAnguage model Reinforcement Learning Policy (LLaRP), адаптирует предварительно обученную замороженную LLM для обработки текстовых инструкций и визуальных эгоцентрических наблюдений с целью непосредственного вывода действий в окружающей среде. Используя обучение с подкреплением, мы обучаем LLaRP видеть и действовать исключительно через взаимодействия с окружением. Мы показываем, что LLaRP устойчива к сложным перефразированиям инструкций и способна обобщать новые задачи, требующие нестандартного оптимального поведения. В частности, на 1 000 ранее не встречавшихся задач она достигает успеха в 42% случаев, что в 1,7 раза превышает показатели других распространенных обученных базовых моделей или нулевых применений LLM. Наконец, чтобы помочь сообществу в изучении задач, связанных с языковыми условиями, массово многозадачными и воплощенными в ИИ проблемами, мы представляем новый бенчмарк Language Rearrangement, состоящий из 150 000 обучающих и 1 000 тестовых задач для языково-обусловленного переупорядочивания. Видео примеров работы LLaRP с ранее не встречавшимися инструкциями Language Rearrangement доступны по адресу https://llm-rl.github.io.

Персоны как способ моделирования правдивости в языковых моделях
Personas as a Way to Model Truthfulness in Language Models

Oct 27

ByNitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He

Крупные языковые модели обучаются на огромных объемах текстов из интернета, которые содержат как достоверную, так и вводящую в заблуждение информацию о мире. Способны ли языковые модели отличать истину от лжи в этих противоречивых данных? Развивая идею о том, что LLM могут моделировать различных агентов, создающих корпусы текстов, мы выдвигаем гипотезу, что они могут группировать достоверные тексты, моделируя "достоверную персону": группу агентов, которые с высокой вероятностью создают правдивые тексты и обладают схожими характеристиками. Например, надежные источники, такие как Википедия и научные издания, обычно используют формальный стиль письма и делают последовательные утверждения. Моделируя такую персону, LLM могут обобщать достоверность за пределы конкретных контекстов, в которых каждый агент создавал обучающие тексты. Например, модель может сделать вывод, что агент "Википедия" будет правдив в темах, которые были созданы только агентом "Наука", поскольку они разделяют одну и ту же персону. Мы сначала демонстрируем доказательства гипотезы о персонах через два наблюдения: (1) мы можем проверить, будет ли ответ модели правдивым, до его генерации; (2) дообучение модели на наборе фактов повышает ее достоверность на неизвестных темах. Затем, используя арифметику как синтетическую среду, мы показываем, что языковые модели могут разделять истинные и ложные утверждения и обобщать достоверность между агентами, но только если агенты в обучающих данных разделяют правдивый генеративный процесс, который позволяет создать достоверную персону. В целом, наши результаты свидетельствуют о том, что модели могут использовать иерархические структуры в данных для изучения абстрактных концепций, таких как достоверность.

PockEngine: Разреженная и эффективная тонкая настройка в компактном формате
PockEngine: Sparse and Efficient Fine-tuning in a Pocket

Oct 26

ByLigeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han