HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

8 papers found

SparQ Attention: Энергоэффективный вывод языковых моделей с ограниченной пропускной способностью
SparQ Attention: Bandwidth-Efficient LLM Inference

Dec 8

ByLuka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr

Генеративные большие языковые модели (LLM) открыли множество новых возможностей, однако их повсеместное использование остается сложной задачей из-за значительных вычислительных требований. Некоторые из наиболее полезных приложений требуют обработки большого количества образцов одновременно и использования длинных контекстов, что существенно увеличивает нагрузку на передачу данных в памяти моделей. Мы представляем SparQ Attention — метод повышения пропускной способности при выводе LLM за счет снижения требований к пропускной способности памяти в блоках внимания через избирательное извлечение кэшированной истории. Наш предложенный метод может быть применен непосредственно к готовым LLM во время вывода, без необходимости изменения настройки предварительного обучения или дополнительного тонкого настраивания. Мы показываем, что SparQ Attention может снизить требования к пропускной способности памяти в механизме внимания до восьми раз без потери точности, оценивая модели Llama 2 и Pythia на широком спектре задач.

DreaMoving: Фреймворк для генерации видео с танцами человека на основе диффузионных моделей
DreaMoving: A Human Dance Video Generation Framework based on Diffusion Models

Dec 8

ByMengyang Feng, Jinlin Liu, Kai Yu, Yuan Yao, Zheng Hui, Xiefan Guo, Xianhui Lin, Haolan Xue, Chen Shi, Xiaowen Li, Aojie Li, Miaomiao Cui, Peiran Ren, Xuansong Xie

В данной статье мы представляем DreaMoving — основанную на диффузии управляемую систему генерации видео для создания высококачественных персонализированных видеороликов с танцующими людьми. В частности, при наличии целевой идентичности и последовательностей поз, DreaMoving может генерировать видео, на котором целевая идентичность танцует в любом месте, управляемая последовательностями поз. Для этого мы предлагаем Video ControlNet для управления движением и Content Guider для сохранения идентичности. Предложенная модель проста в использовании и может быть адаптирована к большинству стилизованных моделей диффузии для получения разнообразных результатов. Страница проекта доступна по адресу https://dreamoving.github.io/dreamoving.

Генерация 3D-моделей из текста с использованием двунаправленной диффузии на основе 2D и 3D априорных данных
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Dec 7

ByLihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue

Большинство исследований в области генерации 3D-моделей сосредоточено на проецировании 2D-моделей в 3D-пространство, либо путем минимизации 2D-потери Score Distillation Sampling (SDS), либо путем дообучения на наборах данных с несколькими видами. Без явных 3D-приоров эти методы часто приводят к геометрическим аномалиям и несогласованности между видами. Недавно исследователи попытались улучшить достоверность 3D-объектов, обучая модели непосредственно на 3D-наборах данных, однако это привело к низкому качеству генерации текстур из-за ограниченного разнообразия текстур в таких наборах. Чтобы объединить преимущества обоих подходов, мы предлагаем Bidirectional Diffusion (BiDiff) — унифицированную структуру, которая включает как 3D-, так и 2D-процессы диффузии, чтобы сохранить соответственно 3D-точность и богатство 2D-текстур. Более того, поскольку простое объединение может привести к несогласованным результатам генерации, мы дополнительно связываем их с помощью новой двунаправленной направляющей. Кроме того, наш метод может использоваться в качестве инициализации для оптимизационных моделей, что позволяет улучшить качество 3D-моделей и эффективность оптимизации, сокращая процесс генерации с 3,4 часов до 20 минут. Экспериментальные результаты показали, что наша модель обеспечивает высококачественную, разнообразную и масштабируемую генерацию 3D-моделей. Проектный сайт: https://bidiff.github.io/.

Настройка движения в моделях диффузии для преобразования текста в видео
Customizing Motion in Text-to-Video Diffusion Models

Dec 7

ByJoanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell

Мы представляем подход для расширения возможностей моделей генерации видео по текстовому описанию за счет добавления пользовательских движений, выходящих за рамки движений, представленных в исходных обучающих данных. Используя несколько видеосэмплов, демонстрирующих определенные движения в качестве входных данных, наш метод изучает и обобщает паттерны движений для разнообразных сценариев, заданных текстом. Наш вклад заключается в трех аспектах. Во-первых, для достижения результатов мы дообучаем существующую модель генерации видео по тексту, чтобы она научилась новому отображению между движением, представленным во входных примерах, и новым уникальным токеном. Чтобы избежать переобучения на новое пользовательское движение, мы предлагаем метод регуляризации на основе видео. Во-вторых, используя априорные знания о движениях в предобученной модели, наш метод способен создавать новые видео, в которых несколько людей выполняют пользовательское движение, а также комбинировать это движение с другими. Кроме того, наш подход распространяется на мультимодальную настройку движения и внешнего вида индивидуальных объектов, что позволяет генерировать видео с уникальными персонажами и различными движениями. В-третьих, для проверки нашего метода мы предлагаем подход для количественной оценки изученного пользовательского движения и проводим систематическое исследование с помощью абляционного анализа. Мы демонстрируем, что наш метод значительно превосходит предыдущие подходы, основанные на настройке внешнего вида, при расширении на задачу настройки движений.

PathFinder: Поиск с управлением по многошаговым траекториям рассуждений
PathFinder: Guided Search over Multi-Step Reasoning Paths

Dec 8

ByOlga Golovneva, Sean O'Brien, Ramakanth Pasunuru, Tianlu Wang, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz

С учетом последних достижений в области крупных языковых моделей, методы, такие как последовательное рассуждение (chain-of-thought prompting), направленные на выявление цепочек логических рассуждений, продемонстрировали улучшение результатов в задачах, требующих логического мышления. Однако задачи, требующие многошагового рассуждения, по-прежнему представляют значительные трудности для современных моделей. Вдохновленные алгоритмом поиска по лучу (beam search), мы предлагаем PathFinder — подход к генерации путей рассуждений, основанный на поиске по дереву. Этот метод улучшает разнообразие ветвления и многошаговое рассуждение за счет интеграции динамического декодирования, реализуемого с помощью различных методов и параметров выборки. Используя ограниченное рассуждение, PathFinder включает новые ограничения качества, методы обрезки и исследования для повышения эффективности и качества генерации. Кроме того, он включает функции оценки и ранжирования для улучшения выбора кандидатов. Наш подход превосходит конкурирующие базовые методы на трех сложных задачах арифметического и здравого рассуждения в среднем на 6%. Наша модель хорошо обобщается на более длинные, ранее не встречавшиеся цепочки рассуждений, отражая схожую сложность с поиском по лучу при больших коэффициентах ветвления.

MVDD: Модели диффузии глубины с использованием множественных представлений
MVDD: Multi-View Depth Diffusion Models

Dec 8

ByZhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang

Модели денизинга на основе диффузии продемонстрировали выдающиеся результаты в генерации 2D-изображений, однако воспроизведение их успеха в генерации 3D-форм остается сложной задачей. В данной работе мы предлагаем использовать многовидовую глубину, которая представляет сложные 3D-формы в формате 2D-данных, удобном для денизинга. Мы сочетаем это представление с диффузионной моделью MVDD, способной генерировать высококачественные плотные облака точек с более чем 20 000 точек и детализированной структурой. Для обеспечения 3D-согласованности в многовидовой глубине мы вводим механизм внимания к отрезкам эпиполярных линий, который учитывает соседние виды на этапе денизинга. Кроме того, в шаги диффузии интегрирован модуль слияния глубины, что дополнительно гарантирует выравнивание карт глубины. При использовании совместно с реконструкцией поверхности MVDD также способна создавать высококачественные 3D-сетки. Более того, MVDD выделяется в других задачах, таких как достраивание глубины, и может служить 3D-приором, значительно улучшая многие последующие задачи, например инверсию GAN. Результаты обширных экспериментов, соответствующие современным стандартам, демонстрируют превосходные способности MVDD в генерации 3D-форм, достраивании глубины и ее потенциал в качестве 3D-приора для последующих задач.

EE-LLM: Масштабное обучение и вывод раннего выхода в больших языковых моделях с использованием 3D-параллелизма
EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism

Dec 8

ByYanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Мы представляем EE-LLM — фреймворк для масштабного обучения и вывода ранневыходных больших языковых моделей (LLM). Хотя недавние работы показали предварительные доказательства эффективности раннего выхода для ускорения вывода LLM, EE-LLM делает фундаментальный шаг к масштабированию таких моделей, поддерживая их обучение и вывод с использованием массивного 3D-параллелизма. Построенный на основе Megatron-LM, EE-LLM реализует ряд алгоритмических инноваций и оптимизаций производительности, адаптированных для раннего выхода, включая легковесный метод, облегчающий обратное распространение для цели обучения с ранним выходом при использовании конвейерного параллелизма, техники задействования простаивающих ресурсов в исходном расписании конвейера для вычислений, связанных с ранневыходными слоями, и два подхода к выводу с ранним выходом, совместимых с кэшированием ключей и значений (KV) для авторегрессионной генерации. Наши аналитические и эмпирические исследования показывают, что EE-LLM достигает высокой эффективности обучения с незначительными вычислительными накладными расходами по сравнению со стандартным обучением LLM, а также выдающегося ускорения вывода без ущерба для качества выходных данных. Для содействия дальнейшим исследованиям и внедрению мы публикуем EE-LLM по адресу https://github.com/pan-x-c/EE-LLM.

Локализованное символьное дистилляция знаний для моделей визуального здравого смысла
Localized Symbolic Knowledge Distillation for Visual Commonsense Models

Dec 8

ByJae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi

Модели обработки визуально-языковых данных (VL), способные следовать инструкциям, предоставляют гибкий интерфейс, поддерживающий широкий спектр мультимодальных задач в режиме zero-shot. Однако интерфейсы, работающие с полными изображениями, не позволяют пользователю напрямую "указывать" на конкретные области изображения и взаимодействовать с ними. Эта возможность важна не только для поддержки эталонных тестов VL, основанных на ссылках, но и для практических приложений, требующих точного анализа внутри изображения. Мы разрабатываем модели локализованного визуального здравого смысла (Localized Visual Commonsense), которые позволяют пользователю задавать (несколько) областей в качестве входных данных. Мы обучаем нашу модель, извлекая локализованные знания здравого смысла из крупной языковой модели (LLM): в частности, мы используем LLM для сбора знаний здравого смысла на основе глобального буквального описания изображения и локального буквального описания области, автоматически генерируемого набором VL-моделей. С помощью отдельно обученной модели-критика, которая отбирает высококачественные примеры, мы обнаруживаем, что обучение на корпусе локализованного здравого смысла позволяет успешно дистиллировать существующие VL-модели для поддержки интерфейса, использующего ссылки в качестве входных данных. Эмпирические результаты и оценки людей в режиме zero-shot показывают, что наш метод дистилляции приводит к созданию более точных VL-моделей для анализа по сравнению с базовым подходом, при котором сгенерированное выражение ссылки передается в LLM.

Локализованное символьное дистилляция знаний для моделей визуального здравого смысла
Localized Symbolic Knowledge Distillation for Visual Commonsense Models

Dec 8

ByJae Sung Park, Jack Hessel, Khyathi Raghavi Chandu, Paul Pu Liang, Ximing Lu, Peter West, Youngjae Yu, Qiuyuan Huang, Jianfeng Gao, Ali Farhadi, Yejin Choi