HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

9 papers found

Magic-Me: Персонализированная генерация видео с использованием диффузионных моделей для конкретных идентичностей
Magic-Me: Identity-Specific Video Customized Diffusion

Feb 14

ByZe Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng

Создание контента для конкретной идентичности (ID) вызывает значительный интерес в области генеративных моделей. В области генерации изображений из текста (T2I) достигнут значительный прогресс в создании контента, управляемого объектом, с возможностью контроля ID на изображениях. Однако расширение этого подхода на генерацию видео изучено недостаточно. В данной работе мы предлагаем простую, но эффективную структуру для генерации видео с управляемой идентичностью объекта, названную Video Custom Diffusion (VCD). С заданной идентичностью объекта, определенной несколькими изображениями, VCD усиливает извлечение информации об идентичности и внедряет корреляцию между кадрами на этапе инициализации для стабильного вывода видео с сохранением идентичности в значительной степени. Для достижения этого мы предлагаем три новых компонента, которые необходимы для высококачественного сохранения ID: 1) модуль ID, обученный на обрезанной идентичности с помощью преобразования запроса в сегментацию, чтобы разделить информацию об ID и фоновый шум для более точного обучения токенов ID; 2) модуль текста в видео (T2V) VCD с 3D гауссовским шумовым приоритетом для улучшения согласованности между кадрами; и 3) модули видео в видео (V2V) Face VCD и Tiled VCD для устранения размытия лица и повышения разрешения видео. Несмотря на свою простоту, мы провели обширные эксперименты, чтобы подтвердить, что VCD способен генерировать стабильные и высококачественные видео с лучшим сохранением ID по сравнению с выбранными сильными базовыми методами. Кроме того, благодаря переносимости модуля ID, VCD также хорошо работает с доступными публично дообученными моделями генерации изображений из текста, что еще больше повышает его применимость. Код доступен по адресу https://github.com/Zhen-Dong/Magic-Me.

Порядок предпосылок имеет значение при рассуждении с использованием больших языковых моделей.
Premise Order Matters in Reasoning with Large Language Models

Feb 14

ByXinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou

Крупные языковые модели (LLM) демонстрируют впечатляющие результаты в задачах логического рассуждения в различных областях. Однако в сфере задач на рассуждение мы обнаруживаем уязвимость: LLM оказываются удивительно чувствительными к порядку предпосылок, несмотря на то, что такой порядок не меняет сути задачи. В частности, мы наблюдаем, что LLM показывают наилучшие результаты, когда порядок предпосылок соответствует контексту, необходимому для промежуточных шагов рассуждения. Например, в задачах дедуктивного рассуждения представление предпосылок в том же порядке, что и в эталонном доказательстве в промпте (в отличие от случайного порядка), значительно повышает точность модели. Мы сначала исследуем влияние порядка предпосылок на дедуктивное рассуждение в различных LLM, и наша оценка показывает, что перестановка порядка предпосылок может привести к снижению производительности более чем на 30%. Кроме того, мы представляем бенчмарк R-GSM, основанный на GSM8K, для изучения влияния порядка на решение математических задач, и снова наблюдаем значительное снижение точности по сравнению с оригинальным бенчмарком GSM8K.

L3GO: Языковые агенты с цепочкой 3D-мыслей для генерации нестандартных объектов
L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects

Feb 14

ByYutaro Yamada, Khyathi Chandu, Yuchen Lin, Jack Hessel, Ilker Yildirim, Yejin Choi

Модели генерации изображений на основе диффузии, такие как DALL-E 3 и Stable Diffusion-XL, демонстрируют впечатляющие способности в создании изображений с реалистичными и уникальными композициями. Однако эти модели недостаточно устойчивы в точном анализе физических и пространственных конфигураций объектов, особенно когда им даются нестандартные, а значит, выходящие за пределы распределения описания, такие как «стул с пятью ножками». В данной статье мы предлагаем языкового агента с цепочкой 3D-мыслей (L3GO) — подход на этапе вывода, который способен анализировать генерацию 3D-мешей для нестандартных объектов, с которыми современные модели на основе данных испытывают трудности. Конкретнее, мы используем крупные языковые модели в качестве агентов для создания желаемого объекта методом проб и ошибок в среде 3D-симуляции. Для облегчения нашего исследования мы разработали новый бенчмарк, Unconventionally Feasible Objects (UFO), а также SimpleBlenv — обёрточную среду, построенную на основе Blender, где языковые агенты могут создавать и комбинировать атомарные строительные блоки через API-вызовы. Оценки как людьми, так и автоматической системой GPT-4V показывают, что наш подход превосходит стандартный GPT-4 и других языковых агентов (например, ReAct и Reflexion) в генерации 3D-мешей на наборе данных ShapeNet. Более того, при тестировании на нашем бенчмарке UFO наш подход превосходит другие современные модели преобразования текста в 2D-изображения и текста в 3D-модели по оценкам людей.

PRDP: Прогнозирование разницы проксимальных наград для масштабной тонкой настройки наград в диффузионных моделях
PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

Feb 13

ByFei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou

Тонкая настройка с использованием вознаграждений стала перспективным подходом для согласования базовых моделей с целевыми задачами. В области обработки языка значительные успехи были достигнуты за счет применения обучения с подкреплением (RL) для максимизации вознаграждений, отражающих человеческие предпочтения. Однако в области компьютерного зрения существующие методы тонкой настройки на основе RL ограничены своей нестабильностью при обучении в крупных масштабах, что делает их неспособными обобщать сложные, ранее не встречавшиеся запросы. В данной статье мы предлагаем метод Proximal Reward Difference Prediction (PRDP), который впервые позволяет стабильно выполнять тонкую настройку с использованием вознаграждений для диффузионных моделей на крупных наборах данных с более чем 100 тыс. запросов. Наше ключевое нововведение — это целевая функция Reward Difference Prediction (RDP), которая имеет то же оптимальное решение, что и целевая функция RL, но при этом обеспечивает лучшую стабильность обучения. В частности, целевая функция RDP представляет собой задачу регрессии с учителем, в которой диффузионная модель должна предсказывать разницу в вознаграждениях для пар сгенерированных изображений на основе их траекторий денойзинга. Мы теоретически доказываем, что диффузионная модель, идеально предсказывающая разницу в вознаграждениях, является точным максимизатором целевой функции RL. Мы также разрабатываем онлайн-алгоритм с проксимальными обновлениями для стабильной оптимизации целевой функции RDP. В экспериментах мы показываем, что PRDP может соответствовать способности максимизации вознаграждения хорошо зарекомендовавших себя методов на основе RL при обучении в малых масштабах. Более того, при обучении на крупных наборах текстовых запросов из Human Preference Dataset v2 и Pick-a-Pic v1, PRDP демонстрирует превосходное качество генерации на разнообразных сложных, ранее не встречавшихся запросах, тогда как методы на основе RL полностью терпят неудачу.

Вычислительные мощности и управление искусственным интеллектом
Computing Power and the Governance of Artificial Intelligence

Feb 13

ByGirish Sastry, Lennart Heim, Haydn Belfield, Markus Anderljung, Miles Brundage, Julian Hazell, Cullen O'Keefe, Gillian K. Hadfield, Richard Ngo, Konstantin Pilz, George Gor, Emma Bluemke, Sarah Shoker, Janet Egan, Robert F. Trager, Shahar Avin, Adrian Weller, Yoshua Bengio, Diane Coyle

Вычислительные мощности, или "компьютинг", играют ключевую роль в разработке и внедрении возможностей искусственного интеллекта (ИИ). В связи с этим правительства и компании начали использовать компьютинг как инструмент управления ИИ. Например, государства инвестируют в развитие внутренних вычислительных мощностей, контролируют их поток в конкурирующие страны и субсидируют доступ к компьютингу для определённых секторов. Однако эти усилия лишь поверхностно затрагивают потенциал использования компьютинга для управления разработкой и внедрением ИИ. По сравнению с другими ключевыми ресурсами для ИИ (данными и алгоритмами), компьютинг, связанный с ИИ, представляет собой особенно эффективную точку вмешательства: он поддаётся обнаружению, исключению и количественной оценке, а его производство сосредоточено в крайне концентрированной цепочке поставок. Эти характеристики, наряду с исключительной важностью компьютинга для передовых моделей ИИ, позволяют предположить, что управление компьютингом может способствовать достижению общих политических целей, таких как обеспечение безопасности и полезного использования ИИ. Более конкретно, политики могут использовать компьютинг для повышения прозрачности регулирования ИИ, распределения ресурсов для стимулирования полезных результатов и введения ограничений на безответственную или злонамеренную разработку и использование ИИ. Однако, хотя политики и технологии, основанные на компьютинге, имеют потенциал для помощи в этих областях, их готовность к реализации значительно варьируется. Некоторые идеи уже тестируются, в то время как другие сдерживаются необходимостью фундаментальных исследований. Более того, наивные или плохо продуманные подходы к управлению компьютингом несут значительные риски в таких областях, как конфиденциальность, экономические последствия и централизация власти. В заключение мы предлагаем меры предосторожности для минимизации этих рисков при управлении компьютингом.

Трансформеры способны достичь обобщения по длине, но не устойчиво.
Transformers Can Achieve Length Generalization But Not Robustly

Feb 14

ByYongchao Zhou, Uri Alon, Xinyun Chen, Xuezhi Wang, Rishabh Agarwal, Denny Zhou

Обобщение по длине, определяемое как способность экстраполировать с более коротких обучающих последовательностей на более длинные тестовые, представляет собой значительную проблему для языковых моделей. Эта проблема сохраняется даже для крупномасштабных трансформеров, выполняющих относительно простые задачи. В данной статье мы проверяем способность трансформеров к обобщению по длине на задаче сложения двух целых чисел. Мы показываем, что успех обобщения по длине тесно связан с форматом данных и типом позиционного кодирования. Используя правильную комбинацию формата данных и позиционных кодирований, мы впервые демонстрируем, что стандартные трансформеры могут экстраполировать на последовательности, длина которых в 2,5 раза превышает длину входных данных. Тем не менее, в отличие от обобщения в пределах распределения, обобщение по длине остается хрупким и значительно зависит от таких факторов, как случайная инициализация весов и порядок обучающих данных, что приводит к большим вариациям при использовании различных случайных начальных значений.

MPIrigen: Генерация MPI-кода с использованием предметно-ориентированных языковых моделей
MPIrigen: MPI Code Generation through Domain-Specific Language Models

Feb 14

ByNadav Schneider, Niranjan Hasabnis, Vy A. Vo, Tal Kadosh, Neva Krien, Mihai Capotă, Abdul Wasay, Guy Tamir, Ted Willke, Nesreen Ahmed, Yuval Pinter, Timothy Mattson, Gal Oren

Необходимость масштабирования вычислений на множество узлов подчеркивает важность эффективных параллельных вычислений, особенно в области интеграции интерфейса передачи сообщений (Message Passing Interface, MPI). Сложная задача параллельного программирования, связанная с генерацией MPI-ориентированных параллельных программ, до сих пор оставалась малоизученной. В данном исследовании впервые изучается производительность современных языковых моделей в генерации MPI-ориентированных параллельных программ. Результаты показывают, что широко используемые модели, такие как GPT-3.5 и PolyCoder (специализированные многоязыковые модели для кода), демонстрируют значительное снижение производительности при генерации MPI-программ по сравнению с программами общего назначения. В то же время специализированные модели, такие как MonoCoder, предварительно обученные на языках программирования C и C++, связанных с MPI, превосходят более крупные модели. Далее мы представляем специализированную задачу генерации MPI-программ путем тонкой настройки MonoCoder на корпусе HPCorpusMPI. Полученную модель мы называем MPIrigen. Мы предлагаем инновационный метод предварительной обработки, при котором завершение кода происходит только после анализа всего кода, что позволяет улучшить завершение с учетом более широкого контекста. Сравнительный анализ с нулевой производительностью GPT-3.5, проведенный с использованием нового метода оценки, ориентированного на высокопроизводительные вычисления (HPC), демонстрирует, что MPIrigen превосходит в генерации точных MPI-функций с точностью до 0,8 в предсказании местоположения и функций и более 0,9 в предсказании аргументов. Успех этого специализированного решения подчеркивает важность тонкой настройки для конкретной области в оптимизации языковых моделей для генерации кода параллельных вычислений, открывая путь к новому поколению инструментов автоматической параллелизации. Исходные материалы этой работы доступны в нашем репозитории MPIrigen на GitHub: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.

GhostWriter: Улучшение совместного опыта человеко-искусственного интеллекта в написании текстов через персонализацию и автономию
GhostWriter: Augmenting Collaborative Human-AI Writing Experiences Through Personalization and Agency

Feb 13

ByCatherine Yeh, Gonzalo Ramos, Rachel Ng, Andy Huntington, Richard Banks

Крупные языковые модели (LLM) становятся всё более распространёнными и находят повсеместное применение в оказании различных форм помощи в написании текстов. Однако системы, основанные на LLM, могут вызывать разочарование у пользователей из-за ограниченной персонализации и контроля, что усугубляется, если пользователи не имеют опыта в инженерии промптов. Мы рассматриваем дизайн как один из способов решения этих проблем и представляем GhostWriter, исследовательский инструмент для написания текстов с использованием ИИ, где пользователи могут проявлять повышенную активность и персонализацию. GhostWriter использует LLM для неявного изучения стиля письма пользователя по мере того, как он пишет, одновременно предоставляя возможность явного обучения через ручное редактирование стиля и аннотации. Мы изучили 18 участников, использующих GhostWriter для выполнения двух различных задач по написанию текстов, и обнаружили, что он помогает пользователям создавать персонализированные тексты и предоставляет им множество способов управления стилем письма системы. На основе этого исследования мы представляем инсайты, касающиеся взаимодействия людей с ИИ-ассистированным написанием текстов, и предлагаем рекомендации по дизайну для будущих работ.

К следующему уровню посттренировочной квантизации гипермасштабных трансформаторов
Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

Feb 14

ByJunhan Kim, Kyungphil Park, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon

С увеличением сложности генеративных моделей ИИ, посттренировочная квантизация (PTQ) стала перспективным решением для развертывания гипермасштабных моделей на устройствах с ограниченными ресурсами, таких как мобильные устройства и телевизоры. Однако существующие схемы PTQ требуют значительных временных и ресурсных затрат, что может стать узким местом в реальных ситуациях, где необходимы частые обновления моделей и настройка множества гиперпараметров. В качестве экономичной альтернативы были предложены одношаговые схемы PTQ. Тем не менее, их производительность несколько ограничена, поскольку они не учитывают межслойные зависимости внутри модуля внимания, что является важной особенностью архитектуры Transformer. В данной статье мы предлагаем новый алгоритм PTQ, который балансирует точность и эффективность. Основная идея предложенного алгоритма, названного aespa, заключается в выполнении квантизации послойно для повышения эффективности, при этом учитывая межслойные зависимости для сохранения точности вычисления внимания. Благодаря обширным экспериментам на различных языковых моделях и анализу сложности, мы демонстрируем, что aespa обеспечивает точную и эффективную квантизацию моделей Transformer.

Вычислительные мощности и управление искусственным интеллектом
Computing Power and the Governance of Artificial Intelligence

Feb 13