Ежедневно отобранные исследовательские статьи по ИИ с переводами
Растущий спрос на генерацию высококачественных видео из текстовых описаний стимулировал активные исследования в этой области. В данной работе мы представляем MagicVideo-V2, который объединяет модель преобразования текста в изображение, генератор движения видео, модуль встраивания эталонных изображений и модуль интерполяции кадров в единый сквозной конвейер генерации видео. Благодаря этим архитектурным решениям, MagicVideo-V2 способен создавать эстетически привлекательные видео высокого разрешения с выдающейся точностью и плавностью. Система демонстрирует превосходную производительность по сравнению с ведущими системами преобразования текста в видео, такими как Runway, Pika 1.0, Morph, Moon Valley и моделью Stable Video Diffusion, что подтверждается масштабной пользовательской оценкой.
Мы представляем MAGNeT — метод маскированного генеративного моделирования последовательностей, который работает непосредственно с несколькими потоками аудиотокенов. В отличие от предыдущих работ, MAGNeT состоит из одноэтапного неавторегрессивного трансформера. Во время обучения мы предсказываем маскированные фрагменты токенов, полученные с помощью планировщика маскирования, а во время вывода постепенно строим выходную последовательность с использованием нескольких шагов декодирования. Для дальнейшего повышения качества генерируемого аудио мы вводим новый метод переоценки, в котором используем внешнюю предобученную модель для переоценки и ранжирования предсказаний MAGNeT, которые затем используются на последующих шагах декодирования. Наконец, мы исследуем гибридную версию MAGNeT, в которой объединяем авторегрессивные и неавторегрессивные модели для генерации первых нескольких секунд авторегрессивным способом, в то время как остальная часть последовательности декодируется параллельно. Мы демонстрируем эффективность MAGNeT для задач генерации текста в музыку и текста в аудио и проводим обширное эмпирическое исследование, учитывая как объективные метрики, так и исследования с участием людей. Предложенный подход сопоставим с оцениваемыми базовыми методами, при этом значительно быстрее (в 7 раз быстрее авторегрессивного базового метода). С помощью анализа и исследований мы раскрываем важность каждого из компонентов, составляющих MAGNeT, а также указываем на компромиссы между авторегрессивным и неавторегрессивным моделированием, учитывая задержку, пропускную способность и качество генерации. Примеры доступны на нашей демонстрационной странице: https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
Линейное внимание — это эффективный механизм внимания, который недавно появился как перспективная альтернатива традиционному softmax-вниманию. Благодаря способности обрабатывать токены с линейной вычислительной сложностью, линейное внимание теоретически может работать с последовательностями неограниченной длины без потери скорости, то есть поддерживать постоянную скорость обучения для различных длин последовательностей при фиксированном потреблении памяти. Однако из-за проблемы с кумулятивным суммированием (cumsum) текущие алгоритмы линейного внимания не могут продемонстрировать свои теоретические преимущества в причинно-следственных настройках. В данной статье мы представляем Lightning Attention-2 — первую реализацию линейного внимания, которая позволяет линейному вниманию реализовать свои теоретические вычислительные преимущества. Для этого мы используем идею тайлинга, раздельно обрабатывая внутриблочные и межблочные компоненты в вычислении линейного внимания. В частности, мы применяем традиционный механизм вычисления внимания для внутриблочных компонентов и используем трюки с ядрами линейного внимания для межблочных компонентов. Техника тайлинга применяется как в прямом, так и в обратном проходе, чтобы максимально эффективно использовать аппаратные возможности GPU. Мы реализуем наш алгоритм в Triton, чтобы сделать его IO-оптимизированным и дружественным к оборудованию. Проведены различные эксперименты на моделях разных размеров и последовательностях разной длины. Lightning Attention-2 сохраняет постоянную скорость обучения и вывода независимо от длины входной последовательности и значительно быстрее других механизмов внимания. Исходный код доступен по адресу https://github.com/OpenNLPLab/lightning-attention.
Табличное рассуждение с использованием больших языковых моделей (LLM) представляет собой перспективное направление для решения множества задач, связанных с пониманием таблиц, таких как ответы на вопросы на основе таблиц и проверка фактов. В отличие от общего рассуждения, табличное рассуждение требует извлечения скрытой семантики как из свободно сформулированных вопросов, так и из полуструктурированных табличных данных. Подходы, такие как Chain-of-Thought и их аналоги, включают цепочку рассуждений в виде текстового контекста, однако вопрос о том, как эффективно использовать табличные данные в цепочке рассуждений, остается открытым. Мы предлагаем фреймворк Chain-of-Table, в котором табличные данные явно используются в цепочке рассуждений в качестве промежуточных мыслей. В частности, мы направляем LLM с помощью обучения в контексте, чтобы итеративно генерировать операции и обновлять таблицу, представляя таким образом цепочку табличного рассуждения. LLM могут динамически планировать следующую операцию на основе результатов предыдущих. Это непрерывное изменение таблицы формирует цепочку, показывающую процесс рассуждения для данной табличной задачи. Цепочка содержит структурированную информацию о промежуточных результатах, что позволяет делать более точные и надежные прогнозы. Chain-of-Table демонстрирует новое состояние искусства на бенчмарках WikiTQ, FeTaQA и TabFact для различных вариантов LLM.
Резкий переход (jump cut) создает внезапное, зачастую нежелательное изменение в восприятии видео. Мы представляем новый подход для сглаживания таких переходов в контексте видеороликов с говорящими людьми. Мы используем внешний вид объекта из других кадров видео, объединяя его с промежуточным представлением, основанным на ключевых точках DensePose и ориентирах лица. Для создания плавного движения мы интерполируем ключевые точки и ориентиры между конечными кадрами вокруг перехода. Затем применяем сеть преобразования изображений на основе ключевых точек и исходных кадров для синтеза пикселей. Поскольку ключевые точки могут содержать ошибки, мы предлагаем схему кросс-модального внимания для выбора наиболее подходящего источника среди нескольких вариантов для каждой ключевой точки. Используя это промежуточное представление, наш метод достигает более качественных результатов по сравнению с сильным базовым методом интерполяции видео. Мы демонстрируем наш подход на различных резких переходах в видеороликах с говорящими людьми, таких как удаление слов-паразитов, пауз и даже случайных переходов. Наши эксперименты показывают, что мы можем добиться плавных переходов даже в сложных случаях, когда говорящий поворачивается или значительно перемещается в момент резкого перехода.
Приложения нейронных сетей в области компьютерного зрения и обработки визуально-текстовых данных, такие как классификация изображений и генерация подписей, зависят от крупномасштабных аннотированных наборов данных, сбор которых требует значительных усилий. Этот трудоемкий процесс ограничивает появление крупных наборов данных, оставляя исследователям и практикам лишь небольшой выбор. Поэтому мы стремимся найти более эффективные способы сбора и аннотирования изображений. Предыдущие инициативы включали сбор подписей из HTML-альтернативных текстов и данных из социальных сетей, однако такие источники страдают от шума, разреженности или субъективности. По этой причине мы обращаемся к коммерческим интернет-магазинам, чьи данные соответствуют трем критериям: чистота, информативность и грамотность. Мы представляем набор данных Let's Go Shopping (LGS) — крупномасштабный публичный набор, содержащий 15 миллионов пар изображение-подпись, собранных с общедоступных сайтов электронной коммерции. В сравнении с существующими наборами данных общего назначения, изображения в LGS сосредоточены на объекте переднего плана и имеют менее сложный фон. Наши эксперименты с LGS показывают, что классификаторы, обученные на существующих эталонных наборах данных, не всегда хорошо обобщаются на данные электронной коммерции, в то время как специализированные самообучаемые экстракторы визуальных признаков демонстрируют лучшую обобщаемость. Кроме того, высококачественные изображения в LGS, ориентированные на электронную коммерцию, и их бимодальная природа делают этот набор данных особенно полезным для задач, связанных с обработкой визуально-текстовых данных: LGS позволяет моделям генерации подписей создавать более насыщенные описания и помогает моделям генерации изображений из текста достигать стилевого переноса в стиле электронной коммерции.
Фактические вопросы обычно могут быть корректно ответены на разных уровнях детализации. Например, и «4 августа 1961 года», и «1961 год» являются правильными ответами на вопрос «Когда родился Барак Обама?». Однако стандартные протоколы оценки систем вопросно-ответных (QA) систем не учитывают это явно и сравнивают предсказанный ответ с ответами только одного уровня детализации. В данной работе мы предлагаем GRANOLA QA — новый подход к оценке, в котором предсказанный ответ оценивается с точки зрения точности и информативности относительно набора ответов с разной степенью детализации. Мы представляем простую методологию для обогащения существующих наборов данных ответами с разной детализацией и создаем GRANOLA-EQ — версию набора данных EntityQuestions с поддержкой многоуровневой детализации. Мы оцениваем различные методы декодирования на GRANOLA-EQ, включая новый алгоритм под названием Decoding with Response Aggregation (DRAG), который направлен на согласование уровня детализации ответа с неопределенностью модели. Наши эксперименты показывают, что крупные языковые модели со стандартным декодированием склонны генерировать конкретные ответы, которые часто оказываются неверными. В то же время, при оценке на ответах с разной детализацией, DRAG демонстрирует увеличение точности в среднем на 20 пунктов, причем этот показатель еще выше для редких сущностей. В целом, это показывает, что стандартные методы оценки и декодирования могут значительно недооценивать знания, заложенные в языковых моделях.
Несмотря на потенциал диффузионных моделей в улучшении качества речи, их применение в задаче акустического подавления эха (AEC) оставалось ограниченным. В данной статье мы представляем DI-AEC, впервые предлагая подход, основанный на стохастической регенерации с использованием диффузии, специально разработанный для AEC. Кроме того, мы предлагаем FADI-AEC — быстрый фреймворк для подавления эха на основе диффузионных моделей, который снижает вычислительные затраты, что делает его предпочтительным для устройств с ограниченными ресурсами. Этот метод выделяется тем, что модель оценки запускается только один раз за кадр, что значительно повышает эффективность обработки. Помимо этого, мы вводим новую методику генерации шума, в которой используются сигналы удаленного конца, объединяя их с сигналами ближнего конца для повышения точности модели оценки. Мы тестируем наш метод на оценочном наборе данных конкурса Microsoft по глубокому подавлению эха ICASSP2023, где наш подход превосходит некоторые end-to-end методы и другие методы подавления эха на основе диффузии.