HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

BASE TTS: Уроки создания модели преобразования текста в речь с миллиардом параметров на основе 100 тысяч часов данных
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Feb 12

ByMateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman

Мы представляем модель преобразования текста в речь (Text-to-Speech, TTS) под названием BASE TTS, что расшифровывается как Big Adaptive Streamable TTS with Emergent abilities (Большая Адаптивная Потоковая TTS с возникающими способностями). BASE TTS является крупнейшей на сегодняшний день моделью TTS, обученной на 100 тысячах часов речевых данных из общедоступных источников, и устанавливает новый стандарт естественности речи. Модель использует авторегрессивный Transformer с 1 миллиардом параметров, который преобразует исходные тексты в дискретные коды ("речевые коды"), за которыми следует сверточный декодер, преобразующий эти речевые коды в звуковые волны инкрементально и с возможностью потоковой передачи. Кроме того, наши речевые коды создаются с использованием новой техники токенизации речи, которая включает разделение идентификатора говорящего и сжатие с помощью кодирования пар байтов (byte-pair encoding). Подобно широко обсуждаемым "возникающим способностям" больших языковых моделей при обучении на растущих объемах данных, мы показываем, что варианты BASE TTS, построенные на 10+ тысячах часов данных и 500+ миллионах параметров, начинают демонстрировать естественную просодию на текстах с высокой сложностью. Мы разработали и опубликовали специализированный набор данных для измерения этих возникающих способностей в задачах преобразования текста в речь. Мы демонстрируем передовую естественность BASE TTS, сравнивая её с базовыми моделями, включая общедоступные крупномасштабные системы TTS: YourTTS, Bark и TortoiseTTS. Аудиообразцы, созданные моделью, можно прослушать по адресу https://amazon-ltts-paper.com/.

Мировая модель на видео и языке миллионной длины с использованием кольцевого внимания
World Model on Million-Length Video And Language With RingAttention

Feb 13

ByHao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel

Современные языковые модели не справляются с пониманием аспектов мира, которые сложно описать словами, и испытывают трудности с выполнением сложных, длительных задач. Видеопоследовательности предоставляют ценную временную информацию, отсутствующую в языке и статических изображениях, что делает их привлекательными для совместного моделирования с языком. Такие модели могли бы развить понимание как человеческих текстовых знаний, так и физического мира, что позволило бы расширить возможности ИИ для помощи людям. Однако обучение на миллионах токенов видеопоследовательностей и языковых данных сталкивается с проблемами из-за ограничений памяти, вычислительной сложности и недостатка данных. Для решения этих проблем мы создали большой набор данных, включающий разнообразные видео и книги, использовали технику RingAttention для масштабируемого обучения на длинных последовательностях и постепенно увеличивали размер контекста с 4K до 1M токенов. В данной статье представлены следующие вклады: (a) Нейронная сеть с самым большим размером контекста: Мы обучили одну из крупнейших трансформерных моделей с большим размером контекста на длинных видеопоследовательностях и языковых данных, установив новые стандарты в сложных задачах поиска и понимания длинных видео. (b) Решения для преодоления проблем обучения на данных, сочетающих зрение и язык, включая использование маскированной упаковки последовательностей для смешивания разных длин, взвешивание потерь для баланса между языком и зрением и создание набора данных для чата с длинными последовательностями на основе модели. (c) Высокооптимизированная реализация с использованием RingAttention, маскированной упаковки последовательностей и других ключевых функций для обучения на мультимодальных последовательностях длиной в миллионы токенов. (d) Полностью открытые модели с 7B параметров, способные обрабатывать длинные текстовые документы (LWM-Text, LWM-Text-Chat) и видео (LWM, LWM-Chat) длиной более 1M токенов. Эта работа прокладывает путь для обучения на огромных наборах данных, включающих длинные видео и языковые последовательности, что способствует развитию понимания как человеческих знаний, так и мультимодального мира, а также расширению возможностей ИИ.

Смеси экспертов открывают возможности масштабирования параметров для глубокого обучения с подкреплением
Mixtures of Experts Unlock Parameter Scaling for Deep RL

Feb 13

ByJohan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro

Недавний быстрый прогресс в моделях (само)обучения с учителем во многом предсказывается эмпирическими законами масштабирования: производительность модели пропорционально увеличивается с ростом её размера. Однако аналогичные законы масштабирования остаются неуловимыми для областей обучения с подкреплением, где увеличение количества параметров модели часто ухудшает её итоговую производительность. В данной работе мы демонстрируем, что включение модулей Mixture-of-Expert (MoE), и в частности Soft MoEs (Puigcerver et al., 2023), в сети, основанные на оценке ценности, приводит к созданию более масштабируемых по параметрам моделей, что подтверждается значительным улучшением производительности в различных режимах обучения и при различных размерах моделей. Таким образом, эта работа предоставляет убедительные эмпирические доказательства в пользу разработки законов масштабирования для обучения с подкреплением.

Lumos: Расширение возможностей мультимодальных LLM за счет распознавания текста на сцене
Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Feb 12

ByAshish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar

Мы представляем Lumos — первую сквозную мультимодальную систему ответов на вопросы с возможностями понимания текста. В основе Lumos лежит компонент распознавания текста на изображениях (Scene Text Recognition, STR), который извлекает текст из изображений, снятых от первого лица. Этот текст затем используется для обогащения входных данных мультимодальной крупной языковой модели (Multimodal Large Language Model, MM-LLM). В процессе разработки Lumos мы столкнулись с многочисленными проблемами, связанными с качеством STR, общей задержкой и выводом модели. В данной статье мы подробно рассматриваем эти проблемы, обсуждаем архитектуру системы, принятые проектные решения и методы моделирования, которые позволили преодолеть эти трудности. Мы также предоставляем всестороннюю оценку каждого компонента, демонстрируя высокое качество и эффективность.

Graph Mamba: В направлении обучения на графах с использованием моделей пространства состояний
Graph Mamba: Towards Learning on Graphs with State Space Models

Feb 13

ByAli Behrouz, Farnoosh Hashemi

Графовые нейронные сети (GNNs) продемонстрировали значительный потенциал в обучении представлений графов. Большинство GNNs определяют локальный механизм передачи сообщений, распространяя информацию по графу с помощью наложения нескольких слоев. Однако эти методы известны двумя основными ограничениями: чрезмерным сжатием информации и слабым учетом дальнодействующих зависимостей. Недавно Графовые Трансформеры (GTs) появились как мощная альтернатива нейронным сетям с передачей сообщений (MPNNs). Тем не менее, GTs имеют квадратичную вычислительную сложность, не обладают индуктивными смещениями на структуры графов и полагаются на сложные позиционные/структурные кодирования (SE/PE). В данной работе мы показываем, что хотя Трансформеры, сложная передача сообщений и SE/PE достаточны для хорошей производительности на практике, ни один из этих элементов не является необходимым. Вдохновленные недавним успехом моделей пространства состояний (SSMs), таких как Mamba, мы представляем Графовые сети Mamba (GMNs), общую основу для нового класса GNNs, основанных на селективных SSMs. Мы обсуждаем и классифицируем новые вызовы при адаптации SSMs к графовым данным и представляем четыре обязательных и один необязательный шаг для проектирования GMNs, где мы выбираем (1) Токенизацию окрестностей, (2) Упорядочивание токенов, (3) Архитектуру двунаправленного селективного SSM-кодировщика, (4) Локальное кодирование и необязательное (5) PE и SE. Мы также предоставляем теоретическое обоснование мощности GMNs. Эксперименты показывают, что, несмотря на значительно меньшую вычислительную стоимость, GMNs достигают выдающейся производительности на наборах данных с дальнодействующими, малыми, крупными и гетерофильными характеристиками.

UFO: Агент с фокусом на пользовательский интерфейс для взаимодействия с ОС Windows
UFO: A UI-Focused Agent for Windows OS Interaction

Feb 8

ByChaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

Мы представляем UFO — инновационного агента, ориентированного на пользовательский интерфейс, для выполнения запросов пользователей, адаптированного для приложений на ОС Windows, с использованием возможностей GPT-Vision. UFO использует двухагентную архитектуру для тщательного наблюдения и анализа графического пользовательского интерфейса (GUI) и управляющей информации приложений Windows. Это позволяет агенту беспрепятственно перемещаться и управлять отдельными приложениями, а также взаимодействовать между ними для выполнения запросов пользователей, даже если они охватывают несколько приложений. Архитектура включает модуль взаимодействия с управлением, что обеспечивает выполнение действий без вмешательства человека и позволяет полностью автоматизировать процесс. В результате UFO превращает сложные и трудоемкие задачи в простые, выполнимые исключительно с помощью команд на естественном языке. Мы провели тестирование UFO на 9 популярных приложениях Windows, охватывая различные сценарии, отражающие повседневное использование пользователями. Результаты, полученные на основе количественных метрик и реальных кейсов, подчеркивают превосходную эффективность UFO в выполнении запросов пользователей. Насколько нам известно, UFO является первым агентом, специально разработанным для выполнения задач в среде ОС Windows. Исходный код UFO доступен на https://github.com/microsoft/UFO.

ChatCell: Упрощение анализа данных на уровне отдельных клеток с использованием естественного языка
ChatCell: Facilitating Single-Cell Analysis with Natural Language

Feb 13

ByYin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen

По мере стремительного развития крупных языковых моделей (LLM) их влияние в науке становится все более заметным. Возникающие возможности LLM в области обобщения задач и свободного диалога могут значительно продвинуть такие области, как химия и биология. Однако в области биологии отдельных клеток, которая составляет фундаментальные строительные блоки живых организмов, до сих пор существует несколько проблем. Высокие барьеры знаний и ограниченная масштабируемость современных методов препятствуют полному использованию LLM для анализа данных о единичных клетках, затрудняя прямую доступность и быструю итерацию. В связи с этим мы представляем ChatCell, который знаменует собой смену парадигмы, облегчая анализ единичных клеток с использованием естественного языка. Благодаря адаптации словаря и унифицированной генерации последовательностей, ChatCell приобрел глубокие знания в области биологии единичных клеток и способность адаптироваться к широкому спектру аналитических задач. Многочисленные эксперименты дополнительно демонстрируют устойчивую производительность ChatCell и его потенциал для углубления понимания единичных клеток, прокладывая путь к более доступному и интуитивно понятному исследованию в этой ключевой области. Наш проект доступен по адресу: https://zjunlp.github.io/project/ChatCell.

IM-3D: Итеративное мультивьюное диффузионное моделирование и реконструкция для генерации высококачественных 3D-моделей
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Feb 13

ByLuke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos

Большинство генераторов текста в 3D основываются на готовых моделях преобразования текста в изображения, обученных на миллиардах изображений. Они используют варианты метода Score Distillation Sampling (SDS), который работает медленно, несколько нестабилен и склонен к появлению артефактов. Одним из способов улучшения является тонкая настройка 2D-генератора для учета многовидовой информации, что может помочь в процессе дистилляции или может быть объединено с реконструкционными сетями для непосредственного вывода 3D-объектов. В данной статье мы более глубоко исследуем пространство проектирования моделей преобразования текста в 3D. Мы значительно улучшаем генерацию многовидовых данных, рассматривая видео-генераторы вместо генераторов изображений. В сочетании с 3D-реконструкционным алгоритмом, который, используя сплайны на основе гауссовых функций, может оптимизировать устойчивую функцию потерь на основе изображений, мы напрямую получаем высококачественные 3D-результаты из сгенерированных видов. Наш новый метод, IM-3D, сокращает количество вычислений в сети 2D-генератора в 10-100 раз, что приводит к более эффективному процессу, лучшему качеству, меньшему количеству геометрических несоответствий и более высокой доле пригодных 3D-ассетов.

Обучение непрерывных 3D-слов для генерации изображений из текста
Learning Continuous 3D Words for Text-to-Image Generation

Feb 13

ByTa-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni

Современные методы управления моделями диффузии (например, через текст или ControlNet) для генерации изображений недостаточно эффективны в распознавании абстрактных, непрерывных атрибутов, таких как направление освещения или нежесткие изменения формы. В данной статье мы представляем подход, который позволяет пользователям текстово-графических моделей осуществлять детализированный контроль над несколькими атрибутами изображения. Мы достигаем этого путем разработки специальных наборов входных токенов, которые могут быть преобразованы непрерывным образом — мы называем их Непрерывными 3D-словами. Эти атрибуты могут быть представлены, например, в виде ползунков и применяться совместно с текстовыми запросами для точного управления процессом генерации изображений. Используя только одну сетку и движок рендеринга, мы демонстрируем, что наш подход может быть адаптирован для обеспечения непрерывного пользовательского контроля над несколькими 3D-атрибутами, включая освещение в зависимости от времени суток, ориентацию крыльев птицы, эффект доли-зума и позы объектов. Наш метод способен одновременно учитывать несколько Непрерывных 3D-слов и текстовых описаний при создании изображений, не добавляя дополнительной нагрузки на процесс генерации. Страница проекта: https://ttchengab.github.io/continuous_3d_words

Тандемные трансформаторы для эффективного вывода больших языковых моделей
Tandem Transformers for Inference Efficient LLMs

Feb 13

ByAishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli

Авторегрессивная природа традиционных больших языковых моделей (LLM) неизбежно ограничивает скорость вывода, поскольку токены генерируются последовательно. Хотя спекулятивные и параллельные методы декодирования пытаются смягчить это ограничение, они сталкиваются с проблемами: либо полагаются на менее точные небольшие модели для генерации, либо не могут полностью использовать представления базовой LLM. Мы представляем новую архитектуру, Tandem transformers, для решения этих проблем. Эта архитектура уникальным образом сочетает (1) небольшую авторегрессивную модель и (2) крупную модель, работающую в блочном режиме (обрабатывающую несколько токенов одновременно). Точность предсказания небольшой модели значительно повышается за счет предоставления ей доступа к более богатым представлениям крупной модели. На наборе данных предварительного обучения PaLM2 тандем из PaLM2-Bison и PaLM2-Gecko демонстрирует улучшение точности предсказания следующего токена на 3,3% по сравнению с автономной PaLM2-Gecko, обеспечивая ускорение в 1,16 раза по сравнению с моделью PaLM2-Otter при сопоставимой производительности на последующих задачах. Мы также интегрируем тандемную модель в рамках спекулятивного декодирования (SPEED), где крупная модель проверяет токены, сгенерированные небольшой моделью. Это гарантирует, что тандем из PaLM2-Bison и PaLM2-Gecko достигает значительного ускорения (примерно в 1,14 раза быстрее, чем использование стандартной PaLM2-Gecko в SPEED), сохраняя при этом идентичную точность на последующих задачах.

Настройка жестов рук на основе зрения по одному демонстрационному примеру
Vision-Based Hand Gesture Customization from a Single Demonstration

Feb 13

BySoroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput

Распознавание жестов становится все более распространенным способом взаимодействия человека с компьютером, особенно с учетом повсеместного распространения камер в повседневных устройствах. Несмотря на постоянный прогресс в этой области, настройка жестов часто остается недостаточно изученной. Настройка имеет решающее значение, поскольку позволяет пользователям определять и демонстрировать жесты, которые являются более естественными, запоминающимися и доступными. Однако настройка требует эффективного использования данных, предоставляемых пользователем. Мы представляем метод, который позволяет пользователям легко создавать индивидуальные жесты с помощью монохромной камеры на основе одной демонстрации. Мы используем трансформеры и методы метаобучения для решения задач обучения с малым количеством примеров. В отличие от предыдущих работ, наш метод поддерживает любые комбинации одноручных, двуручных, статических и динамических жестов, включая различные точки обзора. Мы оценили наш метод настройки в ходе пользовательского исследования с 20 жестами, собранными от 21 участника, достигнув средней точности распознавания до 97% на основе одной демонстрации. Наша работа предлагает жизнеспособный путь для настройки жестов на основе компьютерного зрения, закладывая основу для будущих достижений в этой области.

Аналогии NeRF: Перенос визуальных атрибутов на основе примеров для NeRF
NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs

Feb 13

ByMichael Fischer, Zhengqin Li, Thu Nguyen-Phuoc, Aljaz Bozic, Zhao Dong, Carl Marshall, Tobias Ritschel

Нейронное поле излучения (NeRF) кодирует специфическую взаимосвязь трехмерной геометрии и внешнего вида сцены. Мы задаемся вопросом, можно ли перенести внешний вид из исходного NeRF на целевую трехмерную геометрию семантически осмысленным образом, чтобы результирующий новый NeRF сохранял целевую геометрию, но имел внешний вид, аналогичный исходному NeRF. Для этого мы обобщаем классические аналогии изображений с двумерных изображений на NeRF. Мы используем перенос соответствий на основе семантического сходства, которое определяется семантическими признаками из крупных предобученных моделей двумерных изображений, для достижения согласованного переноса внешнего вида между несколькими видами. Наш метод позволяет исследовать пространство комбинаций трехмерной геометрии и внешнего вида. Мы показываем, что наш метод превосходит традиционные подходы, основанные на стилизации, и что подавляющее большинство пользователей предпочитают наш метод нескольким типичным базовым подходам.

Мировая модель на видео и языке миллионной длины с использованием кольцевого внимания
World Model on Million-Length Video And Language With RingAttention

Feb 13

ByHao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel