Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные диффузионные модели для генерации изображений по тексту продемонстрировали впечатляющую способность создавать высококачественные изображения. Однако при применении этих моделей к видеообеспечение временной согласованности между кадрами остается серьезной проблемой. В данной статье предлагается новая zero-shot текст-управляемая структура для перевода видео в видео, адаптирующая модели изображений для работы с видео. Структура включает две части: перевод ключевых кадров и перевод полного видео. Первая часть использует адаптированную диффузионную модель для генерации ключевых кадров, с применением иерархических межкадровых ограничений для обеспечения согласованности форм, текстур и цветов. Вторая часть распространяет ключевые кадры на другие кадры с использованием временно-ориентированного сопоставления патчей и смешивания кадров. Наша структура достигает глобальной стилевой и локальной текстурной временной согласованности при низких затратах (без повторного обучения или оптимизации). Адаптация совместима с существующими техниками диффузии изображений, что позволяет нашей структуре использовать их преимущества, такие как настройка конкретного объекта с помощью LoRA и введение дополнительного пространственного управления с помощью ControlNet. Обширные экспериментальные результаты демонстрируют эффективность предложенной структуры по сравнению с существующими методами в создании высококачественных и временно-согласованных видео.
Мы представляем Generalized LoRA (GLoRA) — продвинутый подход для универсальных задач параметрически эффективной тонкой настройки. Улучшая метод Low-Rank Adaptation (LoRA), GLoRA использует обобщённый модуль подсказок для оптимизации весов предобученных моделей и настройки промежуточных активаций, обеспечивая большую гибкость и производительность в разнообразных задачах и наборах данных. Более того, GLoRA способствует эффективной адаптации параметров за счёт масштабируемого, модульного поиска структуры по слоям, который обучает индивидуальный адаптер для каждого слоя. Исходя из единой математической формулировки, GLoRA демонстрирует мощные способности в трансферном обучении, обучении с малым количеством данных и обобщении на новые домены, адаптируясь к новым задачам через дополнительные измерения весов и активаций. Комплексные эксперименты показывают, что GLoRA превосходит все предыдущие методы на естественных, специализированных и структурированных бенчмарках, достигая превосходной точности с меньшим количеством параметров и вычислений на различных наборах данных. Кроме того, наш дизайн структурной репараметризации гарантирует, что GLoRA не требует дополнительных затрат на вывод, что делает его практичным решением для приложений с ограниченными ресурсами. Код доступен по адресу: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
В данной статье мы сосредоточимся на том, как искусственный интеллект (ИИ) может быть использован для помощи пользователям в создании аниме-портретов, а именно для преобразования набросков в аниме-портреты в процессе их рисования. На вход подается последовательность незавершенных свободных набросков, которые постепенно уточняются штрих за штрихом, а на выходе получается последовательность высококачественных аниме-портретов, соответствующих входным наброскам в качестве ориентира. Хотя современные генеративно-состязательные сети (GAN) способны создавать изображения высокого качества, задача сохранения высокого качества генерируемых изображений из набросков с низкой степенью завершенности остается сложной из-за некорректно поставленных задач в условной генерации изображений. Даже с использованием последних технологий преобразования набросков в изображения (S2I) создание высококачественных изображений из незавершенных набросков для аниме-портретов остается трудной задачей, поскольку аниме-стиль имеет тенденцию быть более абстрактным по сравнению с реалистичным стилем. Для решения этой проблемы мы применяем исследование латентного пространства StyleGAN с двухэтапной стратегией обучения. Мы рассматриваем входные штрихи свободного наброска как соответствующие атрибутам, связанным с информацией о границах в латентном структурном коде StyleGAN, и называем соответствие между штрихами и этими атрибутами развязкой на уровне штрихов. На первом этапе мы обучили кодировщик изображений с использованием предварительно обученной модели StyleGAN в качестве учителя. На втором этапе мы смоделировали процесс рисования генерируемых изображений без использования дополнительных данных (меток) и обучили кодировщик набросков для незавершенных прогрессивных набросков, чтобы генерировать высококачественные портретные изображения с выравниванием признаков по развязанным представлениям в учителе. Мы проверили предложенную прогрессивную систему S2I с помощью качественных и количественных оценок и достигли высококачественных аниме-портретов из незавершенных прогрессивных набросков. Наше пользовательское исследование подтвердило эффективность системы в помощи художественному творчеству в аниме-стиле.
Мы представляем WebGLM — веб-усиленную систему ответов на вопросы, основанную на Общей Языковой Модели (GLM). Её цель — расширить возможности предварительно обученной крупной языковой модели (LLM) за счёт интеграции веб-поиска и извлечения данных, сохраняя при этом эффективность для реального применения. Для достижения этой цели мы разработали WebGLM, используя стратегии для LLM-усиленного извлекателя, бутстраппированного генератора и оценщика, учитывающего человеческие предпочтения. В частности, мы выявляем и устраняем ограничения WebGPT (OpenAI), что позволяет WebGLM превосходить её по точности, эффективности и экономичности. Кроме того, мы предлагаем систематические критерии для оценки веб-усиленных систем ответов на вопросы. Мы проводим многомерную человеческую оценку и количественные исследования с удалением компонентов, которые демонстрируют превосходство предложенных решений WebGLM над существующими системами. WebGLM с 10-миллиардной GLM (10B) показывает лучшие результаты, чем WebGPT аналогичного размера (13B), и даже сопоставима с WebGPT (175B) в человеческой оценке. Код, демонстрация и данные доступны по адресу https://github.com/THUDM/WebGLM.
Контрастное предварительное обучение на парах изображение-текст из интернета является одной из самых популярных стратегий крупномасштабного предобучения для визуальных моделей, особенно в контексте больших мультимодальных моделей. В то же время, генерация описаний изображений на таких данных обычно считается менее эффективной стратегией предобучения. В данной работе мы проводим справедливое сравнение этих двух стратегий предобучения, тщательно согласовывая данные для обучения, вычислительные ресурсы и емкость модели. Используя стандартный трансформер с архитектурой кодировщик-декодировщик, мы обнаруживаем, что генерация описаний изображений сама по себе оказывается удивительно эффективной: в задачах классификации она создает визуальные кодировщики, конкурентоспособные с кодировщиками, обученными контрастным методом, а в задачах, связанных с визуальными и языковыми данными, даже превосходит их. Мы также анализируем влияние архитектуры модели, масштаба и данных предобучения на качество представлений и обнаруживаем, что генерация описаний демонстрирует такое же или лучшее масштабирование по этим параметрам. В целом наши результаты показывают, что простая генерация описаний изображений является более мощной стратегией предобучения, чем считалось ранее.
Крупные языковые модели (LLM) демонстрируют способность к обучению в контексте, что позволяет одной и той же модели выполнять различные задачи без специального обучения для каждой из них. В отличие от этого, традиционные подходы адаптации, такие как тонкая настройка (fine-tuning), изменяют базовые модели для каждой конкретной задачи. Однако обучение в контексте стабильно уступает по производительности подходам, ориентированным на конкретные задачи, даже при использовании одинаковых примеров. Хотя большинство существующих подходов (например, инженерия промптов) сосредоточены на изученных представлениях LLM для устранения этого разрыва в производительности, наш анализ показывает, что представления LLM содержат достаточно информации для принятия качественных решений. В связи с этим мы сосредотачиваемся на способностях LLM к рассуждению и демонстрируем, что этот разрыв в производительности возникает из-за их неспособности выполнять простые задачи вероятностного рассуждения. Это поднимает интригующий вопрос: Способны ли LLM действительно научиться рассуждать в независимой от задачи манере? Мы отвечаем на этот вопрос утвердительно и предлагаем TART — подход, который универсально улучшает способности LLM к рассуждению с использованием синтетически обученного модуля рассуждений на основе Transformer. TART обучает этот модуль рассуждений независимо от задач, используя только синтетические задачи логистической регрессии, и комбинирует его с произвольной предварительно обученной моделью реального мира без дополнительного обучения. С одним модулем вывода TART улучшает производительность в различных семействах моделей (GPT-Neo, Pythia, BLOOM), размерах моделей (от 100M до 6B), задачах (14 задач бинарной классификации в NLP) и даже в различных модальностях (аудио и визуальные данные). Кроме того, на бенчмарке RAFT TART улучшает производительность GPT-Neo (125M) до уровня, превосходящего BLOOM (176B), и приближается к GPT-3 (175B) с разницей менее 4%. Наш код и модели доступны по адресу https://github.com/HazyResearch/TART.
Моделирование 3D-объектов на основе текста достигло значительного прогресса благодаря сочетанию генеративных моделей "текст-изображение" с методами "изображение-3D", такими как Neural Radiance Fields. DreamFusion недавно продемонстрировал высококачественные результаты, но требует длительной оптимизации для каждого отдельного текстового запроса при создании 3D-объектов. Чтобы решить эту проблему, мы применяем амортизацию оптимизации для текстовых запросов, обучая модель одновременно на множестве запросов с использованием единой модели вместо раздельной обработки. Это позволяет разделять вычисления между набором запросов, сокращая время обучения по сравнению с оптимизацией для каждого запроса. Наша структура — Amortized Text-to-3D (ATT3D) — обеспечивает обмен знаниями между запросами, что позволяет обобщать подход для новых сценариев и создавать плавные интерполяции между текстами для генерации новых объектов и простых анимаций.
Крупные языковые модели (LLMs) продемонстрировали потенциал для выполнения задач высокоуровневого планирования. Однако для LLMs остается сложной задачей понимание низкоуровневых команд, таких как целевые углы суставов или крутящие моменты двигателей. В данной статье предлагается подход, использующий паттерны контакта стоп в качестве интерфейса, который связывает команды человека на естественном языке и контроллер локомоции, выдающий эти низкоуровневые команды. Это приводит к созданию интерактивной системы для четвероногих роботов, позволяющей пользователям гибко разрабатывать разнообразные модели движения. Мы предлагаем дизайн подсказок для LLM, функцию вознаграждения и метод для ознакомления контроллера с допустимым распределением паттернов контакта. В результате создается контроллер, способный достигать разнообразных моделей локомоции, которые могут быть перенесены на реальное роботизированное оборудование. По сравнению с другими подходами, предложенный метод демонстрирует более чем 50% успешность в предсказании правильных паттернов контакта и может решить на 10 задач больше из общего числа 30 задач. Наш проект доступен по адресу: https://saytap.github.io.
В данной работе мы стремимся восстановить изменяющуюся во времени 3D-модель, способную генерировать фотореалистичные изображения с независимым управлением точкой обзора, освещением и временем, на основе интернет-фотографий крупных достопримечательностей. Основные проблемы заключаются в следующем. Во-первых, различные типы временных изменений, такие как освещение и изменения самой сцены (например, замена одного граффити на другое), переплетены в изображениях. Во-вторых, изменения на уровне сцены часто носят дискретный и спорадический характер во времени, а не непрерывный. Для решения этих проблем мы предлагаем новое представление сцены, оснащенное методом кодирования временной ступенчатой функции, который может моделировать дискретные изменения содержания сцены как кусочно-постоянные функции времени. В частности, мы представляем сцену как пространственно-временное поле излучения с вложением освещения для каждого изображения, где временные изменения сцены кодируются с использованием набора обученных ступенчатых функций. Для облегчения задачи восстановления хронологии из интернет-изображений мы также собираем новый набор данных из четырех сцен, демонстрирующих различные изменения во времени. Мы показываем, что наш метод демонстрирует передовые результаты синтеза изображений на этом наборе данных, обеспечивая независимое управление точкой обзора, временем и освещением.
Без точной транскрипции числовых данных в научных документах ученый не может сделать достоверные выводы. К сожалению, процесс копирования числовых данных из одной статьи в другую подвержен человеческим ошибкам. В данной работе мы предлагаем решить эту проблему с помощью новой задачи автоматической проверки таблиц (AutoTV), целью которой является проверка точности числовых данных в таблицах путем перекрестного сопоставления с цитируемыми источниками. Для поддержки этой задачи мы предлагаем новый эталонный набор данных arXiVeri, который включает табличные данные, извлеченные из открытых научных статей на arXiv. Мы вводим метрики для оценки производительности системы проверки таблиц в двух ключевых областях: (i) сопоставление таблиц, целью которого является идентификация исходной таблицы в цитируемом документе, соответствующей целевой таблице, и (ii) сопоставление ячеек, целью которого является точное определение общих ячеек между целевой и исходной таблицами и их индексов строк и столбцов. Используя гибкие возможности современных больших языковых моделей (LLM), мы предлагаем простые базовые подходы для проверки таблиц. Наши результаты подчеркивают сложность этой задачи даже для передовых LLM, таких как GPT-4 от OpenAI. Код и эталонный набор данных будут опубликованы в открытом доступе.
Крупные языковые модели (LLM) нашли применение в области обработки речи, однако часто наблюдается снижение производительности из-за несоответствия между речевыми и языковыми представлениями. Чтобы устранить этот разрыв, мы предлагаем совместную модель речи и языка (SLM), использующую адаптер Speech2Text, который преобразует речь в пространство текстовых токенов без потери речевой информации. Кроме того, с помощью фильтрации пробелов на основе CTC мы можем сократить длину речевой последовательности до длины текста. На наборе данных MultiWoz для речи (задача DSTC11) SLM значительно улучшает производительность отслеживания состояния диалога (DST) (точность увеличивается с 24,7% до 28,4%). Для устранения ошибок, связанных с редкими сущностями, мы дополняем SLM модулем Speech2Entity, который использует речь для извлечения соответствующих сущностей и добавляет их в качестве префикса к исходному входу SLM. С этой расширенной моделью SLM (ReSLM) производительность DST возрастает до 34,6% точности. Более того, дополнение задачи автоматического распознавания речи (ASR) задачей понимания диалога улучшает производительность ASR с 9,4% до 8,5% WER.
Мы предлагаем новый подход на основе оценок для генерации 3D-молекул, представленных в виде атомных плотностей на регулярных сетках. Сначала мы обучаем нейронную сеть для удаления шума, которая учится отображать сглаженное распределение зашумленных молекул в распределение реальных молекул. Затем, следуя нейроэмпирическому байесовскому подходу [Saremi и Hyvarinen, 2019], мы генерируем молекулы в два этапа: (i) выборка зашумленных сеток плотностей из сглаженного распределения с использованием метода Монте-Карло с цепью Маркова в условиях недостаточного демпфирования (underdamped Langevin), и (ii) восстановление «чистой» молекулы путем удаления шума с сетки за один шаг. Наш метод, VoxMol, генерирует молекулы принципиально иначе, чем современные подходы (например, диффузионные модели, применяемые к облакам атомных точек). Он отличается в терминах представления данных, модели шума, архитектуры сети и алгоритма генеративного моделирования. VoxMol демонстрирует результаты, сопоставимые с современными методами в задаче безусловной генерации 3D-молекул, при этом проще в обучении и быстрее в генерации молекул.
Мы утверждаем, что существует множество понятий «сходства», и модели, подобно людям, должны уметь адаптироваться к ним динамически. Это контрастирует с большинством методов обучения представлений, будь то с учителем или самообучение, которые изучают фиксированную функцию вложения и, следовательно, неявно предполагают единое понятие сходства. Например, модели, обученные на ImageNet, смещены в сторону категорий объектов, в то время как пользователь может предпочесть, чтобы модель фокусировалась на цветах, текстурах или конкретных элементах сцены. В данной статье мы предлагаем бенчмарк GeneCIS («генезис»), который измеряет способность моделей адаптироваться к различным условиям сходства. Расширяя предыдущие работы, наш бенчмарк предназначен исключительно для оценки в режиме zero-shot и, следовательно, рассматривает открытый набор условий сходства. Мы обнаруживаем, что базовые модели на основе мощных CLIP-моделей испытывают трудности на GeneCIS, а производительность на этом бенчмарке лишь слабо коррелирует с точностью на ImageNet, что указывает на то, что простое масштабирование существующих методов не приносит плодов. Мы также предлагаем простое и масштабируемое решение, основанное на автоматическом извлечении информации из существующих наборов данных с изображениями и подписями. Мы обнаруживаем, что наш метод значительно превосходит базовые подходы на GeneCIS и дополнительно улучшает производительность в режиме zero-shot на связанных бенчмарках для поиска изображений. Фактически, хотя оценка проводится в режиме zero-shot, наша модель превосходит современные модели с учителем на MIT-States. Страница проекта: https://sgvaze.github.io/genecis/.
Мы представляем Galactic — масштабируемую платформу для симуляции и обучения с подкреплением (RL), предназначенную для мобильной манипуляции роботов в условиях помещений. В частности, робот Fetch (оснащённый мобильной базой, 7-степенным манипулятором, RGBD-камерой, эгомоцией и бортовыми датчиками) размещается в домашней среде и получает задание переставлять объекты — перемещаясь к объекту, поднимая его, перемещаясь к целевой точке и затем размещая объект в нужном месте. Galactic отличается высокой скоростью. По показателям скорости симуляции (рендеринг + физика) Galactic достигает более 421 000 шагов в секунду (SPS) на узле с 8 GPU, что в 54 раза быстрее, чем Habitat 2.0 (7699 SPS). Важно отметить, что Galactic был разработан для оптимизации всего процесса взаимодействия рендеринга, физики и RL, поскольку любое узкое место в этом взаимодействии замедляет обучение. По показателям скорости симуляции+RL (рендеринг + физика + вывод + обучение) Galactic достигает более 108 000 SPS, что в 88 раз быстрее, чем Habitat 2.0 (1243 SPS). Эти значительные ускорения не только радикально сокращают время обучения в существующих экспериментах, но и открывают возможность проведения экспериментов беспрецедентного масштаба. Во-первых, Galactic может обучить навыку мобильного захвата с точностью >80% менее чем за 16 минут, что в 100 раз быстрее, чем 24 часа, необходимые для обучения тому же навыку в Habitat 2.0. Во-вторых, мы использовали Galactic для проведения крупнейшего на сегодняшний день эксперимента по перестановке объектов, используя 5 миллиардов шагов опыта за 46 часов, что эквивалентно 20 годам работы робота. Этот масштаб позволил создать единую нейронную сеть, состоящую из компонентов, не зависящих от задачи, которая достигает 85% успеха в задаче GeometricGoal, по сравнению с 0% успеха, зафиксированного в Habitat 2.0 для того же подхода. Код доступен на github.com/facebookresearch/galactic.
Существующие методы для создания наборов данных 3D-голов с плотной семантической корреспонденцией являются медленными и обычно решают задачу в два отдельных этапа: реконструкция с использованием многовидового стерео (MVS) с последующей нежесткой регистрацией. Чтобы упростить этот процесс, мы представляем TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) для прямого вывода 3D-голов с плотной корреспонденцией из калиброванных многовидовых изображений. Регистрация наборов данных 3D-сканирований обычно требует ручной настройки параметров для нахождения правильного баланса между точным соответствием поверхностям сканирования и устойчивостью к шумам и выбросам. Вместо этого мы предлагаем совместно регистрировать набор данных 3D-голов во время обучения TEMPEH. В частности, в процессе обучения мы минимизируем геометрическую потерю, обычно используемую для регистрации поверхностей, эффективно используя TEMPEH в качестве регуляризатора. Наш многовидовой вывод голов основан на объемном представлении признаков, которое выбирает и объединяет признаки из каждого вида с использованием информации о калибровке камер. Для учета частичных окклюций и большого объема захвата, позволяющего движения головы, мы используем видозависимое и поверхностно-ориентированное объединение признаков, а также модуль локализации головы на основе пространственного преобразователя. Мы используем сырые MVS-сканы в качестве обучающих данных, но, после обучения, TEMPEH напрямую предсказывает 3D-головы с плотной корреспонденцией без необходимости сканирования. Предсказание одной головы занимает около 0,3 секунды с медианной ошибкой реконструкции 0,26 мм, что на 64% ниже, чем у текущего состояния искусства. Это позволяет эффективно создавать большие наборы данных, содержащие нескольких людей и разнообразные мимические движения. Код, модель и данные доступны публично по адресу https://tempeh.is.tue.mpg.de.
Транскрипции телефонных разговоров представляют значительную ценность в различных областях, таких как продажи, обслуживание клиентов, здравоохранение и правоохранительные органы. Однако анализ этих записанных бесед может быть трудоемким и времязатратным процессом, особенно при работе с длительными или сложными диалогами. В данной работе мы предлагаем новый метод, GPT-дистиллированная сегментация и тегирование звонков (GPT-Calls), для эффективной и точной сегментации разговоров и извлечения тем. GPT-Calls состоит из оффлайн и онлайн этапов. Оффлайн этап применяется один раз к заданному списку тем и включает генерацию распределения синтетических предложений для каждой темы с использованием модели GPT и извлечение опорных векторов. Онлайн этап применяется к каждому звонку отдельно и оценивает сходство между транскрибированным разговором и опорными векторами тем, найденными на оффлайн этапе. Затем к оценкам сходства применяется анализ временной области для группировки высказываний в сегменты и их тегирования темами. Предложенный подход обеспечивает точный и эффективный метод сегментации звонков и извлечения тем, который не требует размеченных данных, что делает его универсальным решением, применимым в различных областях. Наш алгоритм работает в производственной среде под Dynamics 365 Sales Conversation Intelligence, а наше исследование основано на реальных разговорах о продажах, собранных от различных арендаторов Dynamics 365 Sales.
В условиях огромного объема данных, доступных как онлайн, так и офлайн, рекомендательные системы стали крайне необходимы для помощи пользователям в поиске контента, соответствующего их интересам. Когда доступна информация о социальных сетях, существуют методы, которые используют эти данные для улучшения рекомендаций, однако такие методы часто громоздки, имеют сложные архитектуры и процедуры обучения. Более того, многие из существующих подходов используют графовые нейронные сети, которые известны своей сложностью в обучении. Для решения этих проблем мы предлагаем систему рекомендаций Socially-aware Temporally caUsal Decoder recommender sYstems (STUDY). STUDY выполняет совместный вывод для групп пользователей, смежных в графе социальной сети, с использованием одного прямого прохода модифицированной сети-декодера на основе трансформера. Мы тестируем наш метод в образовательной среде на основе школьных данных, используя структуру классов для определения социальных сетей. Наш метод превосходит как социальные, так и последовательные подходы, сохраняя при этом простоту конструкции единой однородной сети, которая моделирует все взаимодействия в данных. Мы также проводим исследования с удалением компонентов, чтобы понять причины улучшения производительности, и обнаруживаем, что наша модель зависит от использования структуры социальной сети, которая эффективно моделирует сходства в поведении пользователей.