Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем поле деформации контента CoDeF как новый тип представления видео, которое состоит из канонического поля контента, агрегирующего статическое содержимое всего видео, и временного поля деформации, фиксирующего преобразования от канонического изображения (т.е., визуализированного из канонического поля контента) к каждому отдельному кадру вдоль временной оси. Для целевого видео эти два поля совместно оптимизируются для его реконструкции через тщательно разработанный конвейер визуализации. Мы намеренно вводим некоторые регуляризации в процесс оптимизации, побуждая каноническое поле контента наследовать семантику (например, форму объекта) из видео. Благодаря такому дизайну, CoDeF естественным образом поддерживает перенос алгоритмов обработки изображений на видео, в том смысле, что можно применить алгоритм обработки изображений к каноническому изображению и легко распространить результаты на всё видео с помощью временного поля деформации. Экспериментально мы показываем, что CoDeF способен переносить преобразование изображение-в-изображение на преобразование видео-в-видео, а также переносить обнаружение ключевых точек на отслеживание ключевых точек без какого-либо обучения. Более того, благодаря нашей стратегии переноса, которая применяет алгоритмы только к одному изображению, мы достигаем превосходной согласованности между кадрами в обработанных видео по сравнению с существующими подходами преобразования видео-в-видео, и даже успешно отслеживаем нежесткие объекты, такие как вода и дым. Страница проекта доступна по адресу https://qiuyu96.github.io/CoDeF/.
Недавние достижения в области больших языковых моделей (LLM), таких как GPT-4 и PaLM-2, привели к значительному прогрессу в решении задач математического рассуждения. В частности, последняя версия GPT-4 от OpenAI, известная как GPT-4 Code Interpreter, демонстрирует впечатляющие результаты на сложных математических наборах данных. В данной статье мы исследуем влияние кода на улучшение способности LLM к рассуждению, вводя различные ограничения на частоту использования кода в GPT-4 Code Interpreter. Мы обнаружили, что успех модели во многом обусловлен её мощными навыками в генерации и выполнении кода, оценке результатов выполнения кода и исправлении своего решения при получении необоснованных результатов. На основе этого наблюдения мы предлагаем новый и эффективный метод подсказок, явную само-верификацию на основе кода (CSV), чтобы дополнительно повысить потенциал математического рассуждения GPT-4 Code Interpreter. Этот метод использует нулевой сценарий подсказки для GPT-4 Code Interpreter, чтобы побудить модель использовать код для само-верификации своих ответов. В случаях, когда состояние верификации регистрируется как «Ложь», модель автоматически исправляет своё решение, аналогично нашему подходу к исправлению ошибок во время математического экзамена. Кроме того, мы отмечаем, что состояния результата верификации указывают на уверенность в решении, что может повысить эффективность метода большинства голосов. С использованием GPT-4 Code Interpreter и CSV мы достигаем впечатляющей точности в нулевом сценарии на наборе данных MATH (от 53,9% до 84,3%).
В данной статье мы исследуем способность к обучению в контексте у моделей языка с кодировщиком-декодировщиком, усиленных механизмом извлечения. Сначала мы проводим всесторонний анализ современной модели ATLAS и выявляем её ограничения в обучении в контексте, обусловленные главным образом несоответствием между предварительным обучением и тестированием, а также ограниченной длиной контекста. Для устранения этих проблем мы предлагаем модель RAVEN, которая сочетает маскированное языковое моделирование, усиленное извлечением, и префиксное языковое моделирование. Кроме того, мы вводим концепцию Fusion-in-Context Learning для улучшения производительности в условиях малого количества примеров, позволяя модели использовать больше примеров в контексте без необходимости дополнительного обучения или модификации модели. В ходе обширных экспериментов мы демонстрируем, что RAVEN значительно превосходит ATLAS и достигает результатов, сопоставимых с наиболее продвинутыми языковыми моделями в определённых сценариях, несмотря на существенно меньшее количество параметров. Наша работа подчеркивает потенциал моделей языка с кодировщиком-декодировщиком, усиленных механизмом извлечения, для обучения в контексте и стимулирует дальнейшие исследования в этом направлении.
Способность обучаться на основе контекста с новыми концепциями и давать соответствующие ответы является ключевой в человеческих диалогах. Несмотря на то, что современные мультимодальные большие языковые модели (MLLMs) и большие языковые модели (LLMs) обучаются на огромных наборах данных, распознавание неизвестных изображений или понимание новых концепций без дополнительного обучения остается сложной задачей. Обучение в контексте (In-Context Learning, ICL) исследует обучение с малым количеством примеров без дополнительного обучения, где модели стимулируются к тому, чтобы "учиться учиться" на ограниченных задачах и обобщать их на неизвестные задачи. В данной работе мы предлагаем обучение с учетом связей (Link-Context Learning, LCL), которое делает акцент на "рассуждении о причинно-следственных связях" для расширения возможностей обучения MLLMs. LCL выходит за рамки традиционного ICL, явно усиливая причинно-следственную связь между обучающим набором и набором запросов. Предоставляя примеры с причинно-следственными связями, LCL направляет модель на распознавание не только аналогий, но и глубинных причинно-следственных ассоциаций между точками данных, что позволяет MLLMs более эффективно распознавать неизвестные изображения и понимать новые концепции. Для облегчения оценки этого нового подхода мы представляем набор данных ISEKAI, состоящий исключительно из неизвестных сгенерированных пар изображение-метка, разработанных для обучения с учетом связей. Многочисленные эксперименты показывают, что наша LCL-MLLM демонстрирует сильные способности к обучению с учетом связей для новых концепций по сравнению с базовыми MLLMs. Код и данные будут доступны по адресу https://github.com/isekai-portal/Link-Context-Learning.
В данной работе рассматривается задача создания переосвещаемых и анимируемых нейронных аватаров на основе видео с динамичными людьми, снятых с ограниченного числа ракурсов (или даже с одного ракурса) при неизвестном освещении. По сравнению со студийными условиями, такой подход является более практичным и доступным, но представляет собой крайне сложную некорректно поставленную задачу. Существующие методы нейронной реконструкции человека позволяют создавать анимируемые аватары на основе ограниченного числа ракурсов, используя деформированные поля знаковых расстояний (SDF), но не способны восстанавливать параметры материалов для переосвещения. Хотя методы, основанные на дифференцируемом обратном рендеринге, успешно справляются с восстановлением материалов для статичных объектов, их применение к динамичным людям не является тривиальным, поскольку вычисление пересечения пикселей с поверхностью и видимости света на деформированных SDF для обратного рендеринга требует значительных вычислительных ресурсов. Для решения этой задачи мы предлагаем алгоритм иерархического запроса расстояний (HDQ), который аппроксимирует расстояния в мировом пространстве при произвольных позах человека. В частности, мы оцениваем грубые расстояния на основе параметрической модели человека и вычисляем точные расстояния, используя локальную инвариантность деформации SDF. На основе алгоритма HDQ мы применяем сферический трассинг для эффективного определения пересечения с поверхностью и видимости света. Это позволяет нам разработать первую систему, способную восстанавливать анимируемые и переосвещаемые нейронные аватары на основе ограниченного числа ракурсов (или одного ракурса). Эксперименты демонстрируют, что наш подход позволяет получать результаты, превосходящие современные методы. Наш код будет опубликован для обеспечения воспроизводимости.
Недавние исследования в области глубокого обучения с подкреплением (DRL) показали, что алгоритмическую информацию о хороших стратегиях можно извлекать из оффлайн-данных, в которых отсутствует явная информация о выполненных действиях. Например, видео с участием людей или роботов могут содержать много неявной информации о последовательностях действий, приводящих к вознаграждению, но DRL-система, желающая извлечь пользу из просмотра таких видео, должна сначала самостоятельно научиться идентифицировать и распознавать соответствующие состояния/действия/вознаграждения. Без использования аннотаций с точными данными наш новый метод, называемый Deep State Identifier, учится предсказывать возвраты на основе эпизодов, закодированных в виде видео. Затем он использует анализ чувствительности на основе масок для извлечения/идентификации важных критических состояний. Многочисленные эксперименты демонстрируют потенциал нашего метода для понимания и улучшения поведения агента. Исходный код и сгенерированные наборы данных доступны по адресу https://github.com/AI-Initiative-KAUST/VideoRLCS.
Инъекция текста для автоматического распознавания речи (ASR), при которой используются только непарные текстовые данные для дополнения парных аудио-текстовых данных, показала многообещающие улучшения в снижении частоты ошибок на слово. В данном исследовании рассматривается использование инъекции текста для вспомогательных задач, которые представляют собой не-ASR задачи, часто выполняемые сквозной (end-to-end) моделью. В этой работе мы используем совместное сквозное обучение с внутренней языковой моделью (JEIT) в качестве алгоритма инъекции текста для обучения модели ASR, которая выполняет две вспомогательные задачи. Первая — это капитализация, которая является задачей де-нормализации. Вторая — предсказание смены реплик, которое пытается определить, завершил ли пользователь свою реплику во взаимодействии с цифровым помощником. Мы демонстрируем результаты, показывающие, что наш метод инъекции текста повышает производительность капитализации для данных с длинным хвостом и улучшает полноту обнаружения смены реплик.