HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

8 papers found

К самосовершенствованию LLM с помощью воображения, поиска и критики.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Несмотря на впечатляющие возможности моделей больших языковых объемов (LLM) в различных задачах, они все еще испытывают трудности в сценариях, требующих сложного рассуждения и планирования. В недавних работах были предложены передовые методики подсказок и необходимость тонкой настройки на высококачественных данных для улучшения способностей LLM к рассуждению. Однако эти подходы по своей сути ограничены доступностью и качеством данных. В свете этого самокоррекция и самообучение становятся жизнеспособными решениями, используя стратегии, позволяющие LLM улучшать свои выводы и учиться на самооценке вознаграждений. Тем не менее, эффективность LLM в самосовершенствовании своего ответа, особенно в задачах сложного рассуждения и планирования, остается сомнительной. В данной статье мы представляем AlphaLLM для самосовершенствования LLM, который интегрирует метод поиска по дереву Монте-Карло (MCTS) с LLM для установления цикла самосовершенствования, тем самым улучшая способности LLM без дополнительных аннотаций. Вдохновляясь успехом AlphaGo, AlphaLLM решает уникальные проблемы сочетания MCTS с LLM для самосовершенствования, включая недостаток данных, огромные пространства поиска языковых задач и субъективный характер обратной связи в языковых задачах. AlphaLLM состоит из компонента синтеза подсказок, эффективного подхода MCTS, адаптированного для языковых задач, и тройки моделей-критиков для точной обратной связи. Наши экспериментальные результаты в задачах математического рассуждения показывают, что AlphaLLM значительно улучшает производительность LLM без дополнительных аннотаций, демонстрируя потенциал для самосовершенствования в LLM.

Динамическая типографика: оживление слов
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

Анимация текста служит выразительным средством, преобразуя статическую коммуникацию в динамичные впечатления, вдыхая словам движение для вызова эмоций, подчеркивания значений и создания убедительных повествований. Создание анимаций, осознающих семантику, представляет существенные вызовы, требуя опыта в графическом дизайне и анимации. Мы представляем автоматизированную схему анимации текста, названную "Динамическая Типографика", которая объединяет две сложные задачи. Она деформирует буквы для передачи семантического значения и наполняет их живыми движениями на основе запросов пользователя. Наш метод использует векторные графические представления и оптимизационную структуру на основе конечных результатов. Эта структура использует нейронные поля смещения для преобразования букв в базовые формы и применяет движение кадра к кадру, поощряя согласованность с задуманной текстовой концепцией. Техники сохранения формы и регуляризация потерь восприятия используются для поддержания читаемости и структурной целостности на протяжении процесса анимации. Мы демонстрируем обобщаемость нашего подхода на различных моделях текста-видео и выделяем превосходство нашей методологии конечных результатов над базовыми методами, которые могут включать в себя отдельные задачи. Через количественные и качественные оценки мы демонстрируем эффективность нашей структуры в создании согласованных анимаций текста, верно интерпретирующих запросы пользователя, сохраняя читаемость. Наш код доступен по ссылке: https://animate-your-word.github.io/demo/.

MeshLRM: Большая модель восстановления для высококачественной сетки
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Мы предлагаем MeshLRM, новый подход на основе LRM, который может восстанавливать высококачественную сетку всего лишь из четырех входных изображений менее чем за одну секунду. В отличие от предыдущих крупных моделей восстановления (LRM), сосредотачивающихся на восстановлении на основе NeRF, MeshLRM включает дифференцируемое извлечение и рендеринг сетки в рамках LRM. Это позволяет для конечного восстановления сетки донастройкой предварительно обученного LRM NeRF с рендерингом сетки. Более того, мы улучшаем архитектуру LRM, упрощая несколько сложных конструкций в предыдущих LRM. Инициализация NeRF в MeshLRM обучается последовательно с изображениями низкого и высокого разрешения; эта новая стратегия обучения LRM обеспечивает значительно более быструю сходимость и, следовательно, приводит к лучшему качеству с меньшим вычислительным объемом. Наш подход достигает передового восстановления сетки из разреженных входных данных и также позволяет использовать множество последующих приложений, включая текст-в-3D и генерацию изображения-в-3D. Страница проекта: https://sarahweiii.github.io/meshlrm/

EdgeFusion: Генерация изображений по тексту на устройстве
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

Интенсивная вычислительная нагрузка стабильного диффузионного метода (Stable Diffusion, SD) для генерации текста в изображение представляет собой значительное препятствие для его практического применения. Для преодоления этого вызова недавние исследования сосредотачиваются на методах сокращения шагов выборки, таких как модель латентной согласованности (Latent Consistency Model, LCM), и на использовании архитектурных оптимизаций, включая обрезку и дистилляцию знаний. Отклоняясь от существующих подходов, мы уникально начинаем с компактной варианта SD, BK-SDM. Мы замечаем, что прямое применение LCM к BK-SDM с обычно используемыми наборами данных, полученными путем обхода, дает неудовлетворительные результаты. Это приводит нас к разработке двух стратегий: (1) использование высококачественных пар изображение-текст от ведущих генеративных моделей и (2) разработка продвинутого процесса дистилляции, нацеленного на LCM. Через наше тщательное исследование квантования, профилирования и развертывания на устройствах с ограниченными ресурсами, мы достигаем быстрой генерации фотореалистичных изображений, выровненных по тексту, всего за два шага, с задержкой менее одной секунды на устройствах краевых вычислений.

TriForce: Без потерь ускорение генерации длинных последовательностей с иерархическим спекулятивным декодированием
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

С широким развертыванием крупных языковых моделей (LLM) для генерации длинного контента в последнее время возникла растущая потребность в эффективной поддержке вывода длинных последовательностей. Однако ключевое-значение (KV) кэш, который хранится для избежания повторного вычисления, стал критическим узким местом, поскольку его размер линейно увеличивается с длиной последовательности. Из-за авторегрессивной природы LLM весь кэш KV будет загружен для каждого сгенерированного токена, что приводит к низкому использованию вычислительных ядер и высокой задержке. Хотя были предложены различные методы сжатия для кэша KV с целью смягчения этой проблемы, они страдают от ухудшения качества генерации. Мы представляем TriForce, иерархическую систему спекулятивного декодирования, которая масштабируется для генерации длинных последовательностей. Этот подход использует исходные веса модели и динамический разреженный кэш KV через извлечение в качестве модели-черновика, которая служит промежуточным уровнем в иерархии и дополнительно спекулируется более маленькой моделью для сокращения времени ее составления. TriForce не только обеспечивает впечатляющее ускорение для Llama2-7B-128K, достигая до 2.31 раза на GPU A100, но также демонстрирует масштабируемость в обработке даже более длинных контекстов. Для сценария выгрузки на двух GPU RTX 4090 TriForce достигает 0.108 с/токен — всего вдвое медленнее, чем авторегрессивная базовая модель на A100, которая достигает 7.78 раз на нашей оптимизированной системе выгрузки. Кроме того, TriForce работает в 4.86 раза быстрее, чем DeepSpeed-Zero-Inference на одном GPU RTX 4090. Устойчивость TriForce подчеркивается его постоянно выдающимися показателями производительности при различных температурах. Код доступен на https://github.com/Infini-AI-Lab/TriForce.

МоА: Смесь внимания для разделения субъекта и контекста в персонализированной генерации изображений.
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Мы представляем новую архитектуру для персонализации моделей диффузии текста в изображение, названную Смесь-Внимания (MoA). Вдохновленная механизмом Смесь-Экспертов, используемым в больших языковых моделях (LLM), MoA распределяет рабочую нагрузку по генерации между двумя путями внимания: персонализированным и неперсонализированным. MoA разработана для сохранения исходной модели, фиксируя слои внимания в неперсонализированном пути, и минимального вмешательства в процесс генерации с помощью персонализированного пути, который обучается встраивать объекты в композицию и контекст, созданные неперсонализированным путем. Новый механизм маршрутизации управляет распределением пикселей в каждом слое между этими путями для оптимизации смешивания персонализированного и общего контента. После обучения MoA облегчает создание высококачественных персонализированных изображений с несколькими объектами, композициями и взаимодействиями так разнообразными, как те, что создает исходная модель. Критически важно, что MoA улучшает различие между существующей способностью модели и новым дополнительным персонализированным вмешательством, предлагая более разделенный контроль над объектом и контекстом, который ранее был недостижим. Страница проекта: https://snap-research.github.io/mixture-of-attention

Используйте свои награды повторно: передача модели вознаграждения для кросс-языкового выравнивания с нулевым шагом.
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Выравнивание языковых моделей (LMs) на основе данных о предпочтениях, аннотированных людьми, является важным этапом в получении практичных и эффективных систем на основе LM. Однако многоязычные данные о предпочтениях людей сложно получить в масштабе, что затрудняет расширение этой структуры на разнообразные языки. В данной работе мы оцениваем простой подход к кросс-языковому выравниванию "нулевого сэмпла", где модель вознаграждения обучается на данных о предпочтениях на одном исходном языке и применяется непосредственно к другим целевым языкам. На задачах суммаризации и генерации открытого диалога мы показываем, что этот метод последовательно успешен в рамках всесторонних настроек оценки, включая оценку человеком: кросс-языковые выровненные модели предпочтительны людьми по сравнению с невыровненными моделями вплоть до >70% случаев оценки. Мы также обнаруживаем, что модель вознаграждения на другом языке иногда обеспечивает лучшее выравнивание моделей, чем модель вознаграждения на том же языке. Мы также выявляем лучшие практики, когда нет языковых данных даже для надзорного донастройки, еще одного компонента в выравнивании.

Представляем версию 0.5 Бенчмарка по безопасности искусственного интеллекта от MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Эта статья представляет версию 0.5 Бенчмарка по безопасности искусственного интеллекта, который был создан Рабочей группой по безопасности искусственного интеллекта MLCommons. Бенчмарк по безопасности искусственного интеллекта разработан для оценки рисков безопасности систем искусственного интеллекта, использующих языковые модели, настроенные на чаты. Мы представляем принципиальный подход к спецификации и созданию бенчмарка, который в версии 0.5 охватывает только один сценарий использования (взрослый общается с универсальным помощником на английском языке) и ограниченный набор персонажей (т.е. типичные пользователи, злонамеренные пользователи и уязвимые пользователи). Мы создали новую таксономию из 13 категорий опасностей, из которых 7 имеют тесты в бенчмарке версии 0.5. Мы планируем выпустить версию 1.0 Бенчмарка по безопасности искусственного интеллекта к концу 2024 года. Бенчмарк версии 1.0 предоставит значимые исследования безопасности систем искусственного интеллекта. Однако бенчмарк версии 0.5 не следует использовать для оценки безопасности систем искусственного интеллекта. Мы стремились полностью задокументировать ограничения, недостатки и вызовы версии 0.5. Этот выпуск версии 0.5 Бенчмарка по безопасности искусственного интеллекта включает (1) принципиальный подход к спецификации и созданию бенчмарка, включающий сценарии использования, типы тестируемых систем (SUTs), язык и контекст, персонажи, тесты и тестовые элементы; (2) таксономию из 13 категорий опасностей с определениями и подкатегориями; (3) тесты для семи из категорий опасностей, каждый из которых включает уникальный набор тестовых элементов, т.е. подсказок. Всего 43 090 тестовых элементов, которые мы создали с использованием шаблонов; (4) систему оценки систем искусственного интеллекта по бенчмарку; (5) платформу с открытым исходным кодом и загружаемый инструмент под названием ModelBench, который можно использовать для оценки безопасности систем искусственного интеллекта по бенчмарку; (6) пример отчета об оценке, который оценивает производительность более десятка открыто доступных языковых моделей, настроенных на чаты; (7) спецификацию теста для бенчмарка.

Представляем версию 0.5 Бенчмарка по безопасности искусственного интеллекта от MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18