Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем модель преобразования текста в речь (Text-to-Speech, TTS) под названием BASE TTS, что расшифровывается как Big Adaptive Streamable TTS with Emergent abilities (Большая Адаптивная Потоковая TTS с возникающими способностями). BASE TTS является крупнейшей на сегодняшний день моделью TTS, обученной на 100 тысячах часов речевых данных из общедоступных источников, и устанавливает новый стандарт естественности речи. Модель использует авторегрессивный Transformer с 1 миллиардом параметров, который преобразует исходные тексты в дискретные коды ("речевые коды"), за которыми следует сверточный декодер, преобразующий эти речевые коды в звуковые волны инкрементально и с возможностью потоковой передачи. Кроме того, наши речевые коды создаются с использованием новой техники токенизации речи, которая включает разделение идентификатора говорящего и сжатие с помощью кодирования пар байтов (byte-pair encoding). Подобно широко обсуждаемым "возникающим способностям" больших языковых моделей при обучении на растущих объемах данных, мы показываем, что варианты BASE TTS, построенные на 10+ тысячах часов данных и 500+ миллионах параметров, начинают демонстрировать естественную просодию на текстах с высокой сложностью. Мы разработали и опубликовали специализированный набор данных для измерения этих возникающих способностей в задачах преобразования текста в речь. Мы демонстрируем передовую естественность BASE TTS, сравнивая её с базовыми моделями, включая общедоступные крупномасштабные системы TTS: YourTTS, Bark и TortoiseTTS. Аудиообразцы, созданные моделью, можно прослушать по адресу https://amazon-ltts-paper.com/.
Современные языковые модели не справляются с пониманием аспектов мира, которые сложно описать словами, и испытывают трудности с выполнением сложных, длительных задач. Видеопоследовательности предоставляют ценную временную информацию, отсутствующую в языке и статических изображениях, что делает их привлекательными для совместного моделирования с языком. Такие модели могли бы развить понимание как человеческих текстовых знаний, так и физического мира, что позволило бы расширить возможности ИИ для помощи людям. Однако обучение на миллионах токенов видеопоследовательностей и языковых данных сталкивается с проблемами из-за ограничений памяти, вычислительной сложности и недостатка данных. Для решения этих проблем мы создали большой набор данных, включающий разнообразные видео и книги, использовали технику RingAttention для масштабируемого обучения на длинных последовательностях и постепенно увеличивали размер контекста с 4K до 1M токенов. В данной статье представлены следующие вклады: (a) Нейронная сеть с самым большим размером контекста: Мы обучили одну из крупнейших трансформерных моделей с большим размером контекста на длинных видеопоследовательностях и языковых данных, установив новые стандарты в сложных задачах поиска и понимания длинных видео. (b) Решения для преодоления проблем обучения на данных, сочетающих зрение и язык, включая использование маскированной упаковки последовательностей для смешивания разных длин, взвешивание потерь для баланса между языком и зрением и создание набора данных для чата с длинными последовательностями на основе модели. (c) Высокооптимизированная реализация с использованием RingAttention, маскированной упаковки последовательностей и других ключевых функций для обучения на мультимодальных последовательностях длиной в миллионы токенов. (d) Полностью открытые модели с 7B параметров, способные обрабатывать длинные текстовые документы (LWM-Text, LWM-Text-Chat) и видео (LWM, LWM-Chat) длиной более 1M токенов. Эта работа прокладывает путь для обучения на огромных наборах данных, включающих длинные видео и языковые последовательности, что способствует развитию понимания как человеческих знаний, так и мультимодального мира, а также расширению возможностей ИИ.
Недавний быстрый прогресс в моделях (само)обучения с учителем во многом предсказывается эмпирическими законами масштабирования: производительность модели пропорционально увеличивается с ростом её размера. Однако аналогичные законы масштабирования остаются неуловимыми для областей обучения с подкреплением, где увеличение количества параметров модели часто ухудшает её итоговую производительность. В данной работе мы демонстрируем, что включение модулей Mixture-of-Expert (MoE), и в частности Soft MoEs (Puigcerver et al., 2023), в сети, основанные на оценке ценности, приводит к созданию более масштабируемых по параметрам моделей, что подтверждается значительным улучшением производительности в различных режимах обучения и при различных размерах моделей. Таким образом, эта работа предоставляет убедительные эмпирические доказательства в пользу разработки законов масштабирования для обучения с подкреплением.
Мы представляем Lumos — первую сквозную мультимодальную систему ответов на вопросы с возможностями понимания текста. В основе Lumos лежит компонент распознавания текста на изображениях (Scene Text Recognition, STR), который извлекает текст из изображений, снятых от первого лица. Этот текст затем используется для обогащения входных данных мультимодальной крупной языковой модели (Multimodal Large Language Model, MM-LLM). В процессе разработки Lumos мы столкнулись с многочисленными проблемами, связанными с качеством STR, общей задержкой и выводом модели. В данной статье мы подробно рассматриваем эти проблемы, обсуждаем архитектуру системы, принятые проектные решения и методы моделирования, которые позволили преодолеть эти трудности. Мы также предоставляем всестороннюю оценку каждого компонента, демонстрируя высокое качество и эффективность.
Графовые нейронные сети (GNNs) продемонстрировали значительный потенциал в обучении представлений графов. Большинство GNNs определяют локальный механизм передачи сообщений, распространяя информацию по графу с помощью наложения нескольких слоев. Однако эти методы известны двумя основными ограничениями: чрезмерным сжатием информации и слабым учетом дальнодействующих зависимостей. Недавно Графовые Трансформеры (GTs) появились как мощная альтернатива нейронным сетям с передачей сообщений (MPNNs). Тем не менее, GTs имеют квадратичную вычислительную сложность, не обладают индуктивными смещениями на структуры графов и полагаются на сложные позиционные/структурные кодирования (SE/PE). В данной работе мы показываем, что хотя Трансформеры, сложная передача сообщений и SE/PE достаточны для хорошей производительности на практике, ни один из этих элементов не является необходимым. Вдохновленные недавним успехом моделей пространства состояний (SSMs), таких как Mamba, мы представляем Графовые сети Mamba (GMNs), общую основу для нового класса GNNs, основанных на селективных SSMs. Мы обсуждаем и классифицируем новые вызовы при адаптации SSMs к графовым данным и представляем четыре обязательных и один необязательный шаг для проектирования GMNs, где мы выбираем (1) Токенизацию окрестностей, (2) Упорядочивание токенов, (3) Архитектуру двунаправленного селективного SSM-кодировщика, (4) Локальное кодирование и необязательное (5) PE и SE. Мы также предоставляем теоретическое обоснование мощности GMNs. Эксперименты показывают, что, несмотря на значительно меньшую вычислительную стоимость, GMNs достигают выдающейся производительности на наборах данных с дальнодействующими, малыми, крупными и гетерофильными характеристиками.
Мы представляем UFO — инновационного агента, ориентированного на пользовательский интерфейс, для выполнения запросов пользователей, адаптированного для приложений на ОС Windows, с использованием возможностей GPT-Vision. UFO использует двухагентную архитектуру для тщательного наблюдения и анализа графического пользовательского интерфейса (GUI) и управляющей информации приложений Windows. Это позволяет агенту беспрепятственно перемещаться и управлять отдельными приложениями, а также взаимодействовать между ними для выполнения запросов пользователей, даже если они охватывают несколько приложений. Архитектура включает модуль взаимодействия с управлением, что обеспечивает выполнение действий без вмешательства человека и позволяет полностью автоматизировать процесс. В результате UFO превращает сложные и трудоемкие задачи в простые, выполнимые исключительно с помощью команд на естественном языке. Мы провели тестирование UFO на 9 популярных приложениях Windows, охватывая различные сценарии, отражающие повседневное использование пользователями. Результаты, полученные на основе количественных метрик и реальных кейсов, подчеркивают превосходную эффективность UFO в выполнении запросов пользователей. Насколько нам известно, UFO является первым агентом, специально разработанным для выполнения задач в среде ОС Windows. Исходный код UFO доступен на https://github.com/microsoft/UFO.
Большинство генераторов текста в 3D основываются на готовых моделях преобразования текста в изображения, обученных на миллиардах изображений. Они используют варианты метода Score Distillation Sampling (SDS), который работает медленно, несколько нестабилен и склонен к появлению артефактов. Одним из способов улучшения является тонкая настройка 2D-генератора для учета многовидовой информации, что может помочь в процессе дистилляции или может быть объединено с реконструкционными сетями для непосредственного вывода 3D-объектов. В данной статье мы более глубоко исследуем пространство проектирования моделей преобразования текста в 3D. Мы значительно улучшаем генерацию многовидовых данных, рассматривая видео-генераторы вместо генераторов изображений. В сочетании с 3D-реконструкционным алгоритмом, который, используя сплайны на основе гауссовых функций, может оптимизировать устойчивую функцию потерь на основе изображений, мы напрямую получаем высококачественные 3D-результаты из сгенерированных видов. Наш новый метод, IM-3D, сокращает количество вычислений в сети 2D-генератора в 10-100 раз, что приводит к более эффективному процессу, лучшему качеству, меньшему количеству геометрических несоответствий и более высокой доле пригодных 3D-ассетов.
По мере стремительного развития крупных языковых моделей (LLM) их влияние в науке становится все более заметным. Возникающие возможности LLM в области обобщения задач и свободного диалога могут значительно продвинуть такие области, как химия и биология. Однако в области биологии отдельных клеток, которая составляет фундаментальные строительные блоки живых организмов, до сих пор существует несколько проблем. Высокие барьеры знаний и ограниченная масштабируемость современных методов препятствуют полному использованию LLM для анализа данных о единичных клетках, затрудняя прямую доступность и быструю итерацию. В связи с этим мы представляем ChatCell, который знаменует собой смену парадигмы, облегчая анализ единичных клеток с использованием естественного языка. Благодаря адаптации словаря и унифицированной генерации последовательностей, ChatCell приобрел глубокие знания в области биологии единичных клеток и способность адаптироваться к широкому спектру аналитических задач. Многочисленные эксперименты дополнительно демонстрируют устойчивую производительность ChatCell и его потенциал для углубления понимания единичных клеток, прокладывая путь к более доступному и интуитивно понятному исследованию в этой ключевой области. Наш проект доступен по адресу: https://zjunlp.github.io/project/ChatCell.
Современные методы управления моделями диффузии (например, через текст или ControlNet) для генерации изображений недостаточно эффективны в распознавании абстрактных, непрерывных атрибутов, таких как направление освещения или нежесткие изменения формы. В данной статье мы представляем подход, который позволяет пользователям текстово-графических моделей осуществлять детализированный контроль над несколькими атрибутами изображения. Мы достигаем этого путем разработки специальных наборов входных токенов, которые могут быть преобразованы непрерывным образом — мы называем их Непрерывными 3D-словами. Эти атрибуты могут быть представлены, например, в виде ползунков и применяться совместно с текстовыми запросами для точного управления процессом генерации изображений. Используя только одну сетку и движок рендеринга, мы демонстрируем, что наш подход может быть адаптирован для обеспечения непрерывного пользовательского контроля над несколькими 3D-атрибутами, включая освещение в зависимости от времени суток, ориентацию крыльев птицы, эффект доли-зума и позы объектов. Наш метод способен одновременно учитывать несколько Непрерывных 3D-слов и текстовых описаний при создании изображений, не добавляя дополнительной нагрузки на процесс генерации. Страница проекта: https://ttchengab.github.io/continuous_3d_words
Авторегрессивная природа традиционных больших языковых моделей (LLM) неизбежно ограничивает скорость вывода, поскольку токены генерируются последовательно. Хотя спекулятивные и параллельные методы декодирования пытаются смягчить это ограничение, они сталкиваются с проблемами: либо полагаются на менее точные небольшие модели для генерации, либо не могут полностью использовать представления базовой LLM. Мы представляем новую архитектуру, Tandem transformers, для решения этих проблем. Эта архитектура уникальным образом сочетает (1) небольшую авторегрессивную модель и (2) крупную модель, работающую в блочном режиме (обрабатывающую несколько токенов одновременно). Точность предсказания небольшой модели значительно повышается за счет предоставления ей доступа к более богатым представлениям крупной модели. На наборе данных предварительного обучения PaLM2 тандем из PaLM2-Bison и PaLM2-Gecko демонстрирует улучшение точности предсказания следующего токена на 3,3% по сравнению с автономной PaLM2-Gecko, обеспечивая ускорение в 1,16 раза по сравнению с моделью PaLM2-Otter при сопоставимой производительности на последующих задачах. Мы также интегрируем тандемную модель в рамках спекулятивного декодирования (SPEED), где крупная модель проверяет токены, сгенерированные небольшой моделью. Это гарантирует, что тандем из PaLM2-Bison и PaLM2-Gecko достигает значительного ускорения (примерно в 1,14 раза быстрее, чем использование стандартной PaLM2-Gecko в SPEED), сохраняя при этом идентичную точность на последующих задачах.
Распознавание жестов становится все более распространенным способом взаимодействия человека с компьютером, особенно с учетом повсеместного распространения камер в повседневных устройствах. Несмотря на постоянный прогресс в этой области, настройка жестов часто остается недостаточно изученной. Настройка имеет решающее значение, поскольку позволяет пользователям определять и демонстрировать жесты, которые являются более естественными, запоминающимися и доступными. Однако настройка требует эффективного использования данных, предоставляемых пользователем. Мы представляем метод, который позволяет пользователям легко создавать индивидуальные жесты с помощью монохромной камеры на основе одной демонстрации. Мы используем трансформеры и методы метаобучения для решения задач обучения с малым количеством примеров. В отличие от предыдущих работ, наш метод поддерживает любые комбинации одноручных, двуручных, статических и динамических жестов, включая различные точки обзора. Мы оценили наш метод настройки в ходе пользовательского исследования с 20 жестами, собранными от 21 участника, достигнув средней точности распознавания до 97% на основе одной демонстрации. Наша работа предлагает жизнеспособный путь для настройки жестов на основе компьютерного зрения, закладывая основу для будущих достижений в этой области.
Нейронное поле излучения (NeRF) кодирует специфическую взаимосвязь трехмерной геометрии и внешнего вида сцены. Мы задаемся вопросом, можно ли перенести внешний вид из исходного NeRF на целевую трехмерную геометрию семантически осмысленным образом, чтобы результирующий новый NeRF сохранял целевую геометрию, но имел внешний вид, аналогичный исходному NeRF. Для этого мы обобщаем классические аналогии изображений с двумерных изображений на NeRF. Мы используем перенос соответствий на основе семантического сходства, которое определяется семантическими признаками из крупных предобученных моделей двумерных изображений, для достижения согласованного переноса внешнего вида между несколькими видами. Наш метод позволяет исследовать пространство комбинаций трехмерной геометрии и внешнего вида. Мы показываем, что наш метод превосходит традиционные подходы, основанные на стилизации, и что подавляющее большинство пользователей предпочитают наш метод нескольким типичным базовым подходам.