Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

X-Prompt: К универсальному контекстному генерированию изображений в авторегрессионных моделях основы видео-языкового моделирования
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2, 2024

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

662

Генерация в контексте является ключевым компонентом способности к обобщению открытых задач больших моделей языка (LLM) на различные задачи. Используя несколько примеров в качестве контекста, LLM могут выполнять как задачи в предметной области, так и задачи вне предметной области. Недавние достижения в авторегрессионных моделях видео-языка (VLM), построенных на основе LLM, продемонстрировали впечатляющую производительность в генерации текста к изображению. Однако потенциал обучения в контексте для общих задач генерации изображений остается в значительной степени неисследованным. Для решения этой проблемы мы представляем X-Prompt, чисто авторегрессионную крупномасштабную модель языка видения, разработанную для достижения конкурентоспособной производительности на широком спектре как видимых, так и невидимых задач генерации изображений, все в рамках унифицированной системы обучения в контексте. X-Prompt включает специализированный дизайн, который эффективно сжимает ценные характеристики из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая его способность к обобщению на невидимые задачи. Унифицированная обучающая задача как для предсказания текста, так и для изображения позволяет X-Prompt обрабатывать общие задачи генерации изображений с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты подтверждают производительность модели на различных видимых задачах генерации изображений и ее способность к обобщению на ранее невидимые задачи.

o1-Coder: репликация o1 для кодирования
o1-Coder: an o1 Replication for Coding

Nov 29, 2024

Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

452

Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 от OpenAI с упором на задачи программирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло поиска по дереву (MCTS) для улучшения когнитивных способностей модели System-2. Фреймворк включает в себя обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, использование MCTS для генерации данных кода с процессами рассуждения, и итеративное настройку политики модели для начального создания псевдокода, за которым следует генерация полного кода. В отчете также рассматриваются возможности и вызовы в развертывании моделей подобных o1 в прикладных областях, предлагается переход к парадигме System-2 и выделяется необходимость обновлений состояния окружения. Обновленный прогресс модели и результаты экспериментов будут представлены в последующих версиях. Весь исходный код, отобранные наборы данных, а также полученные модели будут опубликованы на https://github.com/ADaM-BJTU/O1-CODER.

FLOAT: Сопоставление генеративного потока латентных переменных для аудио-ориентированного создания анимированных портретов.
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2, 2024

Taekyung Ki, Dongchan Min, Gyoungsu Chae

428

С быстрым развитием моделей генерации изображений на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами в генерации видео с временной согласованностью и быстрой выборки из-за своей итеративной природы выборки. В данной статье представлена FLOAT, метод генерации видео с анимированным портретом, управляемый аудио, основанный на модели генерации сопоставления потоков. Мы переносим генеративное моделирование из пиксельного латентного пространства в изученное латентное пространство движения, обеспечивая эффективное проектирование временно согласованного движения. Для этого мы представляем предиктор векторного поля на основе трансформера с простым, но эффективным механизмом условий на уровне кадра. Кроме того, наш метод поддерживает улучшение эмоций, управляемых речью, обеспечивая естественное включение выразительных движений. Обширные эксперименты демонстрируют, что наш метод превосходит современные методы аудио-управляемых анимированных портретов по качеству изображения, достоверности движения и эффективности.

Switti: Разработка трансформеров по шкалам для синтеза текста в изображение
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2, 2024

Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

363

Данная работа представляет Switti, масштабно-ориентированный трансформер для генерации текста в изображение. Начиная с существующих моделей AR для предсказания следующего масштаба, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации для улучшения их сходимости и общей производительности. Затем мы замечаем, что карты самовнимания нашей предварительно обученной масштабно-ориентированной модели AR проявляют слабую зависимость от предыдущих масштабов. Исходя из этого наблюдения, мы предлагаем немасштабный аналог, обеспечивающий приблизительно на 11% более быструю выборку и более низкое использование памяти, сохраняя при этом немного лучшее качество генерации. Кроме того, мы выявляем, что отсутствие руководства классификатором на масштабах высокого разрешения часто не нужно и даже может ухудшить производительность. Отключив руководство на этих масштабах, мы добиваемся дополнительного ускорения выборки примерно на 20% и улучшаем генерацию мелких деталей. Обширные исследования предпочтений людей и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с передовыми моделями диффузии T2I, при этом работая в 7 раз быстрее.

План Open-Sora: Модель генерации больших видео с открытым исходным кодом
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28, 2024

Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan

342

Мы представляем Open-Sora Plan, проект с открытым исходным кодом, который направлен на создание крупной модели генерации для генерации желаемых видеороликов высокого разрешения с длительным временем работы на основе различных пользовательских входных данных. Наш проект включает несколько компонентов для всего процесса генерации видео, включая вариационный авокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse и различные контроллеры условий. Более того, разработано множество вспомогательных стратегий для эффективного обучения и вывода, а также предложена многомерная конвейерная обработка данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт могут вдохновить исследовательское сообщество по генерации видео. Все наши коды и модельные веса доступны публично на https://github.com/PKU-YuanGroup/Open-Sora-Plan.

VISTA: Улучшение понимания видео длительного действия и высокого разрешения посредством пространственно-временного увеличения видео.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1, 2024

Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

282

В настоящее время перед крупными мультимодальными моделями (LMMs) стоят значительные вызовы в обработке и понимании видеороликов длительного или высокого разрешения, что в основном обусловлено отсутствием качественных наборов данных. Для решения этой проблемы с точки зрения данных мы предлагаем VISTA, простую, но эффективную структуру аугментации видео в пространстве и времени, которая синтезирует пары видеоинструкций и следования из существующих наборов данных видео-описаний. VISTA пространственно и временно объединяет видеоролики для создания новых синтетических видео с увеличенной длительностью и улучшенным разрешением, а затем генерирует пары вопрос-ответ, относящиеся к этим вновь синтезированным видеороликам. Основываясь на этой парадигме, мы разработали семь методов аугментации видео и создали VISTA-400K, набор данных видеоинструкций и следования, направленный на улучшение понимания видеороликов длительного и высокого разрешения. Настройка различных видео LMMs на наших данных привела к среднему улучшению на 3.3% по четырем сложным бенчмаркам для понимания длинных видеороликов. Более того, мы представляем первый всесторонний бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши настроенные модели достигли улучшения производительности на 6.5%. Эти результаты подчеркивают эффективность нашей структуры.

SOLAMI: Моделирование социального видения-языка-действия для иммерсивного взаимодействия с трехмерными автономными персонажами
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29, 2024

Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

232

Человек - социальное животное. Как оборудовать трехмерных автономных персонажей с аналогичным социальным интеллектом, способных воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной проблемой. В этой статье мы представляем SOLAMI - первую полную модель социального видео-языково-действенного (VLA) моделирования для иммерсивного взаимодействия с трехмерными автономными персонажами. Конкретно, SOLAMI создает трехмерных автономных персонажей с трех точек зрения: (1) Архитектура социального VLA: Мы предлагаем унифицированную социальную VLA структуру для генерации мультимодального ответа (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социального взаимодействия, созданный автоматическим конвейером с использованием только существующих наборов данных о движениях, чтобы решить проблему нехватки данных. (3) Иммерсивный интерфейс виртуальной реальности: Мы разрабатываем интерфейс виртуальной реальности, позволяющий пользователям иммерсивно взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и пользовательские исследования демонстрируют, что наша структура приводит к более точным и естественным ответам персонажей (как в речи, так и в движении), соответствующим ожиданиям пользователя с более низкой задержкой.

TAPTRv3: Пространственный и временной контекст способствуют надежному отслеживанию любой точки в длинном видео.
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27, 2024

Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

202

В данной статье мы представляем TAPTRv3, который основан на TAPTRv2 с целью улучшения его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, способную точно отслеживать любую точку в видео из реального мира без необходимости использования объемно-стоимостных данных. TAPTRv3 улучшает TAPTRv2, решая его недостаток в запросе высококачественных признаков из длинных видео, где отслеживаемые точки обычно подвержены увеличивающемуся изменению со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запроса признаков вдоль пространственных и временных измерений для более надежного отслеживания в длинных видео. Для улучшения пространственного запроса признаков мы представляем Межвнимательность с Учетом Контекста (CCA), которая использует окружающий пространственный контекст для улучшения качества оценок внимания при запросе признаков изображения. Для улучшения временного запроса признаков мы вводим Долговременное Внимание с Учетом Видимости (VLTA) для проведения временного внимания ко всем прошлым кадрам с учетом их соответствующей видимости, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его долговременным моделированием, аналогичным RNN. TAPTRv3 превосходит TAPTRv2 с большим отрывом на большинстве сложных наборов данных и достигает передовых показателей. Даже в сравнении с методами, обученными на большом объеме дополнительных внутренних данных, TAPTRv3 остается конкурентоспособным.

GATE ОткрыТИЕ: Комплексный Критерий для Оценки Генерации Изображений и Текста в Открытом Виде
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27, 2024

Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang

182

Многомодельные модели с большим языковым объемом (MLLM) сделали значительные шаги в задачах визуального понимания и генерации. Однако генерация переплетенного контента изображений и текста остается вызовом, требующим интегрированного многомодального понимания и генерации. Хотя прогресс в единых моделях предлагает новые решения, существующие бенчмарки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Для устранения этого разрыва мы представляем GATE OpenING (OpenING), обширный бенчмарк, включающий 5 400 высококачественных аннотированных человеком примеров по 56 задачам реального мира. OpenING охватывает разнообразные повседневные сценарии, такие как путеводитель, дизайн и мозговой штурм, предлагая надежную платформу для вызова методов генерации с переплетением. Кроме того, мы представляем IntJudge, модель-судью для оценки открытых многомодальных методов генерации. Обученный с помощью новой конвейерной системы данных, наш IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщиков на основе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы генерации с переплетением все еще имеют значительный потенциал для улучшения. Ключевые результаты по генерации переплетенного изображения и текста дополнительно представлены для направления развития моделей следующего поколения. OpenING доступен в открытом доступе на https://opening.github.io.

Колодец: крупномасштабная коллекция разнообразных физических симуляций для машинного обучения
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30, 2024

Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho

172

Суррогатные модели на основе машинного обучения предоставляют исследователям мощные инструменты для ускорения рабочих процессов на основе симуляций. Однако, поскольку стандартные наборы данных в этой области часто охватывают небольшие классы физического поведения, может быть сложно оценить эффективность новых подходов. Для решения этого пробела мы представляем Well: крупномасштабную коллекцию наборов данных, содержащих числовые симуляции широкого спектра пространственно-временных физических систем. Well использует знания экспертов в области и разработчиков численного программного обеспечения для предоставления 15 ТБ данных по 16 наборам, охватывающих разнообразные области, такие как биологические системы, динамика жидкостей, акустическое рассеяние, а также магнитогидродинамические симуляции экстрагалактических жидкостей или взрывы сверхновых. Эти наборы данных могут использоваться как индивидуально, так и в рамках более широкого набора тестов. Для облегчения использования Well мы предоставляем унифицированный интерфейс PyTorch для обучения и оценки моделей. Мы демонстрируем функционал этой библиотеки, представляя примеры базовых уровней, которые выделяют новые вызовы, представленные сложной динамикой Well. Код и данные доступны по ссылке https://github.com/PolymathicAI/the_well.

Эффективное отслеживание всего.
Efficient Track Anything

Nov 28, 2024

Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra

173

Модель Segment Anything Model 2 (SAM 2) стала мощным инструментом для сегментации объектов на видео и отслеживания всего. Ключевые компоненты SAM 2, обеспечивающие впечатляющую производительность сегментации объектов на видео, включают в себя большой многоуровневый кодировщик изображений для извлечения признаков кадра и механизм памяти, который сохраняет контексты памяти из прошлых кадров для помощи в сегментации текущего кадра. Высокая вычислительная сложность многоуровневого кодировщика изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации объектов на видео на мобильных устройствах. Для преодоления этого ограничения мы предлагаем EfficientTAMs, легкие модели отслеживания объектов, которые производят качественные результаты с низкой задержкой и размером модели. Наша идея основана на повторном рассмотрении обычного, неиерархического Vision Transformer (ViT) в качестве кодировщика изображений для сегментации объектов на видео и введении эффективного модуля памяти, который уменьшает сложность как извлечения признаков кадра, так и вычисления памяти для сегментации текущего кадра. Мы используем обычные легкие ViT и эффективный модуль памяти для создания EfficientTAMs и обучаем модели на наборах данных SA-1B и SA-V для сегментации объектов на видео и задач отслеживания объектов. Мы оцениваем на нескольких бенчмарках сегментации видео, включая полу-надзорный VOS и сегментацию видео по запросу, и обнаруживаем, что наша предложенная EfficientTAM с обычным ViT работает сопоставимо с моделью SAM 2 (HieraB+SAM 2) с ускорением в ~2 раза на A100 и сокращением параметров в ~2.4 раза. В задачах сегментации изображений на все, наши EfficientTAMs также проявляют себя лучше, чем оригинальная SAM с ускорением в ~20 раз на A100 и сокращением параметров в ~20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAMs могут работать с частотой ~10 кадров в секунду для выполнения сегментации объектов на видео с приемлемым качеством, подчеркивая возможности небольших моделей для приложений сегментации объектов на видео на устройствах.

Управление моделями векторного поля для генерации изображений с коррекцией потока движения
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27, 2024

Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

168

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, благодаря отсутствию классификаторов и техникам инверсии изображений. Однако модели прямого потока (RFM) остаются малоисследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением на предварительно обученные латентные модели, показывают низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В данной работе мы в первую очередь разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM для эффективного управления траекторией удаления шума. Наши результаты показывают, что мы можем навигировать векторное поле детерминированным и безградиентным способом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией удаления шума для контролируемых задач генерации изображений, с помощью пропуска градиента. FlowChef - это единая структура для контролируемой генерации изображений, которая впервые одновременно решает задачи классификации, линейных обратных задач и редактирования изображений без необходимости дополнительного обучения, инверсии или интенсивного обратного распространения. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным затратам, достигая новых результатов, являющихся лучшими в своем классе. Страница проекта: https://flowchef.github.io.

VLsI: Вербализованные слои-взаимодействия от больших к малым моделям видения на языке.
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2, 2024

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

152

Недавний всплеск высококачественных образцов настройки визуальных инструкций от моделей видео-языкового восприятия (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей представляет существенные вычислительные вызовы, особенно для развертывания на ресурсоемких устройствах, таких как мобильные платформы и роботы. Для решения этой проблемы мы предлагаем VLsI: Вербализованные Слои-взаимодействия, новое семейство VLM размеров моделей 2B и 7B, которое приоритизирует эффективность, не жертвуя точностью. VLsI использует уникальный процесс дистилляции слоев, вводя промежуточные "вербализаторы", которые отображают признаки с каждого слоя в пространство естественного языка, позволяя более маленьким VLM гибко выравниваться с процессами рассуждения более крупных VLM. Этот подход смягчает нестабильность обучения, часто встречающуюся при имитации вывода, и выходит за рамки типичной настройки финального слоя, выравнивая прогрессирование слоев маленьких VLM с прогрессированием больших. Мы проверяем VLsI на десяти сложных бенчмарках видео-языкового восприятия, достигая значительного увеличения производительности (11,0% для 2B и 17,4% для 7B) по сравнению с GPT-4V без необходимости масштабирования, слияния или изменения архитектуры модели.

TinyFusion: Поверхностные трансформеры с диффузией, выученные
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2, 2024

Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

142

Диффузионные трансформеры продемонстрировали выдающиеся возможности в генерации изображений, но часто имеют избыточное параметризацию, что приводит к значительным накладным расходам при выводе в реальных приложениях. В данной работе мы представляем TinyFusion, метод обрезки глубины, разработанный для удаления избыточных слоев из диффузионных трансформеров с помощью обучения с применением конечных точек. Основным принципом нашего подхода является создание обрезанной модели с высокой восстанавливаемостью, позволяющей ей достичь высокой производительности после тонкой настройки. Для достижения этой цели мы вводим дифференцируемую технику выборки для обучения обрезки, совмещенную с кооптимизированным параметром для имитации будущей тонкой настройки. В то время как предыдущие работы сосредотачивались на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после тонкой настройки. Экспериментальные результаты показывают, что этот обучаемый парадигма приносит существенные преимущества для обрезки слоев диффузионных трансформеров, превосходящих существующие методы на основе важности и ошибок. Кроме того, TinyFusion проявляет сильное обобщение на различных архитектурах, таких как DiTs, MARs и SiTs. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформер менее чем за 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с оценкой FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

ОЦЕНКА МНОГОЯЗЫЧНОГО ПОНИМАНИЯ ЯЗЫКА С УЧЕТОМ РЕГИОНАЛЬНЫХ ЗНАНИЙ
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29, 2024

Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut

142

Дифференциальная производительность больших языковых моделей (LLM) между языками затрудняет их эффективное внедрение во многих регионах, препятствуя потенциальной экономической и общественной ценности генеративных инструментов искусственного интеллекта во многих сообществах. Однако разработка функциональных LLM на многих языках (т.е. мультиязычных LLM) сталкивается с проблемой отсутствия ресурсов высокого качества для оценки на языках, отличных от английского. Более того, текущие практики по созданию мультиязычных бенчмарков часто переводят англоязычные ресурсы, игнорируя региональные и культурные знания среды, в которой мультиязычные системы будут использоваться. В данной работе мы создаем набор оценочных вопросов в объеме 197 243 пар вопрос-ответ из местных источников экзаменов для измерения возможностей мультиязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, представляет собой комплексный бенчмарк, ориентированный на знания и рассуждения, на 44 письменных языках, который оценивает производительность мультиязычных LLM в фактических языковых средах, где они будут использоваться.

WF-VAE: Улучшение видео-VAE с помощью волнового энергетического потока для латентной видео-диффузионной модели
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26, 2024

Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

112

Видео вариационный автоэнкодер (VAE) кодирует видео в пространство низкой размерности, становясь ключевым компонентом большинства моделей латентной диффузии видео (LVDM), направленных на снижение затрат на обучение модели. Однако с увеличением разрешения и продолжительности создаваемых видео стоимость кодирования видео VAE становится ограничивающим фактором при обучении LVDM. Более того, метод блочного вывода, принятый в большинстве LVDM, может привести к разрывам в латентном пространстве при обработке видео большой продолжительности. Ключ к преодолению вычислительного узкого места заключается в разложении видео на отдельные компоненты и эффективном кодировании важной информации. Вейвлет-преобразование может разложить видео на несколько компонентов в частотной области и значительно повысить эффективность. Мы предлагаем Вейвлет-потоковый вариационный автоэнкодер (WF-VAE), автоэнкодер, использующий многоуровневое вейвлет-преобразование для облегчения потока энергии низкой частоты в латентное представление. Кроме того, мы представляем метод, названный "Причинный кэш", который поддерживает целостность латентного пространства во время блочного вывода. По сравнению с передовыми видео VAE, WF-VAE демонстрирует превосходную производительность как по метрикам PSNR, так и LPIPS, достигая удвоенного уровня пропускной способности и вчетверо меньшего потребления памяти при сохранении конкурентоспособного качества восстановления. Наш код и модели доступны по адресу https://github.com/PKU-YuanGroup/WF-VAE.

VLSBench: Раскрытие визуальных утечек в мультимодальной безопасности
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29, 2024

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

102

Проблемы безопасности мультимодальных моделей крупного размера (MLLM) постепенно стали важной проблемой в различных областях применения. Удивительно, что предыдущие работы указывают на контринтуитивное явление, что использование текстового забывания для выравнивания MLLM достигает сравнимых показателей безопасности с MLLM, обученными с парами изображение-текст. Для объяснения такого контринтуитивного явления мы обнаружили проблему утечки визуальной информации о безопасности (VSIL) в существующих мультимодальных бенчмарках безопасности, то есть потенциально рискованный и чувствительный контент на изображении был раскрыт в текстовом запросе. Таким образом, MLLM могут легко отклонять эти чувствительные текстово-изображенческие запросы в соответствии с текстовыми запросами. Однако пары изображение-текст без VSIL распространены в реальных сценариях и игнорируются существующими мультимодальными бенчмарками безопасности. Для этого мы создали мультимодальный визуальный бенчмарк без утечки безопасности (VLSBench), предотвращающий утечку визуальной безопасности от изображения к текстовому запросу с 2,4 тыс. парами изображение-текст. Экспериментальные результаты показывают, что VLSBench представляет собой значительное испытание как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование демонстрирует, что текстовое выравнивание достаточно для мультимодальных сценариев безопасности с VSIL, в то время как мультимодальное выравнивание является более перспективным решением для мультимодальных сценариев без VSIL. Пожалуйста, ознакомьтесь с нашим кодом и данными по ссылке: http://hxhcreate.github.io/VLSBench

Генерация длинного видеоряда с сегментированным кросс-вниманием и курированием видеоданных с обильным содержанием.
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2, 2024

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

Мы представляем Presto, новую модель видеодиффузии, разработанную для создания видеороликов продолжительностью 15 секунд с долгосрочной связностью и насыщенным содержанием. Расширение методов генерации видео для поддержания разнообразия сценариев на протяжении длительного времени представляет существенные вызовы. Для решения этой проблемы мы предлагаем стратегию Сегментированного Перекрестного Внимания (SCA), которая разделяет скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно взаимодействовать с соответствующим подзаголовком. SCA не требует дополнительных параметров, обеспечивая бесшовное внедрение в существующие архитектуры на основе DiT. Для облегчения генерации долгих видеороликов высокого качества мы создали набор данных LongTake-HD, состоящий из 261 тыс. видеороликов с насыщенным содержанием, обладающих сценарной связностью, аннотированных общим видео-заголовком и пятью постепенными подзаголовками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по Динамической Степени, превосходя существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает насыщенность контента, поддерживает долгосрочную связность и улавливает тонкие текстовые детали. Более подробная информация доступна на нашей странице проекта: https://presto-video.github.io/.

Модели генерации без искусства: создание искусства без знаний графического искусства.
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29, 2024

Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

Мы исследуем вопрос: "Как много предварительных знаний о произведениях искусства необходимо для создания искусства?" Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы представляем простой, но эффективный метод обучения адаптера искусства, используя лишь несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с использованием нашего метода, воспринимается пользователями как сравнимое с искусством, созданным моделями, обученными на больших, содержащих много искусства, наборах данных. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры из художественных и нехудожественных наборов данных способствовали созданию новых художественных стилей.

VisOnlyQA: Большие модели языка и зрения все еще испытывают трудности с визуальным восприятием геометрической информации.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1, 2024

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

Ошибки в понимании визуальной информации на изображениях (т.е. ошибки в визуальном восприятии) остаются основным источником ошибок в больших моделях языка и зрения (LVLMs). Хотя дальнейший анализ необходим, существует недостаток наборов данных для оценки визуального восприятия LVLMs. В данной работе мы представляем VisOnlyQA, новый набор данных, разработанный для прямой оценки возможностей визуального восприятия LVLMs на вопросы о геометрической и числовой информации в научных фигурах. Наш набор данных позволяет нам анализировать визуальное восприятие LVLMs для детализированной визуальной информации, независимо от других способностей, таких как рассуждение. Оценочный набор VisOnlyQA включает 1,200 вопросов с выбором ответа по 12 задачам в четырех категориях фигур. Мы также предоставляем синтетические обучающие данные, состоящие из 70 тыс. экземпляров. Наши эксперименты на VisOnlyQA выявляют следующие результаты: (i) 20 LVLMs, которые мы оцениваем, включая GPT-4o и Gemini 1.5 Pro, плохо справляются с задачами визуального восприятия в VisOnlyQA, в то время как человеческая производительность практически идеальна. (ii) Настройка на синтетических обучающих данных демонстрирует потенциал для улучшения визуального восприятия LVLMs, однако наблюдаемые улучшения ограничены определенными задачами и конкретными моделями. (iii) Более сильные языковые модели улучшают визуальное восприятие LVLMs. В заключение, наши эксперименты подтверждают, что как данные для обучения, так и архитектуры моделей следует улучшить для повышения возможностей визуального восприятия LVLMs. Наборы данных, код и ответы моделей предоставлены на https://github.com/psunlpgroup/VisOnlyQA.

PhysGame: Выявление нарушений физического здравого смысла в видеороликах игрового процесса
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2, 2024

Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) привели к появлению разнообразных возможностей для рассуждения и интерпретации динамического визуального контента. Среди них видеоролики игрового процесса выделяются как характерный источник данных, часто содержащий ошибки, которые противоречат физическому здравому смыслу. Эта особенность делает их эффективным бенчмарком для оценки недостаточно изученной способности понимания физического здравого смысла в видео LLMs. В данной статье мы предлагаем PhysGame в качестве первоначального бенчмарка для оценки нарушений физического здравого смысла в видеороликах игрового процесса. PhysGame включает 880 видеороликов с ошибками, охватывающими четыре основных области (механику, кинематику, оптику и свойства материалов) и 12 различных аспектов физического здравого смысла. После тщательной оценки различных передовых видео LLMs наши результаты показывают, что производительность текущих открытых видео LLMs значительно отстает от закрытых аналогов. Для устранения этой разницы мы создаем набор данных для настройки инструкций PhysInstruct с 140 057 вопросами-ответами для облегчения обучения физическому здравому смыслу. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются на основе вводных заголовков (т.е. взлом метаинформации), меньшего количества кадров (т.е. временной взлом) и более низких пространственных разрешений (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, обогащенную физическими знаниями. Обширные эксперименты как на физически ориентированном бенчмарке PhysGame, так и на общих бенчмарках понимания видео демонстрируют передовую производительность PhysVLM.

Простой и доказуемый закон масштабирования для вычислений во время тестирования больших языковых моделей.
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29, 2024

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Мы предлагаем общий двухэтапный алгоритм, который обладает доказуемым законом масштабирования для вычислений на этапе тестирования больших языковых моделей (LLM). Учитывая входную проблему, предлагаемый алгоритм сначала генерирует N кандидатских решений, а затем выбирает лучшее из них с помощью многораундового турнира, где каждая пара кандидатов сравнивается K раз, и только победители переходят на следующий раунд. В минималистической реализации оба этапа могут быть выполнены только с помощью черного ящика LLM и ничего более (например, без внешнего верификатора или модели вознаграждения), и для решения входной проблемы требуется всего N раз (K + 1) параллельных вызовов LLM. Предполагая, что сгенерированное кандидатское решение верно с вероятностью p_{gen} > 0, а сравнение между парой правильных и неправильных решений идентифицирует правильного победителя с вероятностью p_{comp} > 0.5 (т.е. лучше случайного угадывания), мы теоретически доказываем, что вероятность ошибки предложенного алгоритма экспоненциально убывает с увеличением N и K: $P(финальный вывод неверен) \leq (1 - p_{gen})^N + \lceil log_2 N \rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Наши эмпирические результаты с трудным бенчмарком MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и выгоды от масштабирования его вычислений на этапе тестирования.

Совместная навигация по экземплярам: использование самодиалога агента для минимизации ввода пользователя.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2, 2024

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

Существующие задачи навигации к цели на основе воплощенных экземпляров, управляемые естественным языком, предполагают, что человеческие пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и двусмысленными. Для устранения этого разрыва мы предлагаем новую задачу, Коллаборативную Навигацию по Экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, без шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод, Взаимодействие Агента с Пользователем с Учетом Неопределенности (AIUTA), использующий возможности восприятия моделей Визуального Языка (VLMs) и возможности Больших Языковых Моделей (LLMs). Сначала, после обнаружения объекта, модель Само-Вопрошающего начинает самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности смягчает неточное восприятие VLM. Затем модуль Триггера Взаимодействия определяет, стоит ли задать вопрос пользователю, продолжить или прекратить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, бенчмарк, поддерживающий как реальных, так и симулированных людей. AIUTA достигает конкурентоспособной производительности в навигации по экземплярам по сравнению с передовыми методами, демонстрируя большую гибкость в обработке ввода пользователя.

Мировая консистентность видео-диффузии с явным 3D-моделированием.
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2, 2024

Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Недавние достижения в моделях диффузии установили новые стандарты в генерации изображений и видео, обеспечивая реалистичный визуальный синтез как в однокадровых, так и в многокадровых контекстах. Однако эти модели все еще испытывают трудности с эффективной и явной генерацией содержимого, согласованного в 3D. Для решения этой проблемы мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явное 3D-наблюдение с использованием изображений XYZ, кодирующих глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем трансформер диффузии для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность через гибкую стратегию заполнения пропусков. Например, WVD может оценивать кадры XYZ из исходных RGB или генерировать новые RGB кадры, используя проекции XYZ вдоль указанной траектории камеры. Таким образом, WVD объединяет задачи, такие как генерация 3D из одного изображения, многоплановая стереоскопия и генерация видео под управлением камеры. Наш подход продемонстрировал конкурентоспособную производительность на нескольких платформах, предоставляя масштабируемое решение для генерации 3D-согласованных видео и изображений с использованием одной предварительно обученной модели.

Исследование возможностей крупных языковых моделей в решении пропорциональных аналогий с помощью усиления знаний через подсказки.
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1, 2024

Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

Аналогии играют фундаментальную роль в когнитивных процессах. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки лингвистических и когнитивных способностей. Например, заполнение аналогий вроде "Кислород относится к Газу как <пусто> относится к <пусто>" требует определения семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В данной работе мы представляем набор данных для многовариантного вопросно-ответного теста на 15 тыс. пропорциональных аналогий и оцениваем производительность современных моделей больших языков (LLM) в различных настройках запросов с улучшенными знаниями. Конкретно, мы дополняем запросы тремя типами знаний: образцовым, структурированным и целевым. Наши результаты показывают, что несмотря на обширные данные для обучения, решение пропорциональных аналогий остается сложной задачей для текущих LLM, лучшая модель достигает точности 55%. Особенно мы обнаружили, что предоставление целевых знаний может лучше помочь моделям в заполнении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

AMO Sampler: Улучшение отображения текста с помощью перерасхода.
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28, 2024

Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации текста в изображение представляет собой значительное вызов, особенно в отображении письменного текста на изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным изображением текста, что приводит к опечаткам или несогласованному тексту. Мы представляем метод обучения без обучения с минимальной вычислительной нагрузкой, который значительно улучшает качество отображения текста. Конкретно, мы вводим сэмплер с перестрелкой для предварительно обученных моделей прямого потока (RF), чередуя перестрелку изученного обыкновенного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, сэмплер с перестрелкой эффективно вводит дополнительный термин динамики Ланжевена, который может помочь исправить накапливающуюся ошибку от последовательных шагов Эйлера и, следовательно, улучшить отображение текста. Однако при высокой силе перестрелки мы наблюдаем артефакты излишнего сглаживания на сгенерированных изображениях. Для решения этой проблемы мы предлагаем сэмплер с модулированием внимания и перестрелкой (AMO), который адаптивно контролирует силу перестрелки для каждого патча изображения в соответствии с их оценкой внимания к содержанию текста. AMO демонстрирует улучшение точности отображения текста на 32,3% и 35,9% на моделях SD3 и Flux без ущерба для общего качества изображения или увеличения стоимости вывода.

HUGSIM: Симулятор реального времени с фотореалистичностью и замкнутым циклом для автономного вождения
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2, 2024

Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

За последние несколько десятилетий алгоритмы автономного вождения сделали значительные успехи в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает производительность всей системы, что подчеркивает необходимость более всесторонних методов оценки. Это мотивирует разработку HUGSIM - замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого путем преобразования захваченных 2D RGB изображений в трехмерное пространство с помощью трехмерного гауссова сплетения, улучшая качество визуализации для сцен с замкнутым циклом и создавая среду замкнутого цикла. В части визуализации мы решаем проблемы нового синтеза видов в сценариях с замкнутым циклом, включая экстраполяцию точки зрения и визуализацию транспортных средств на 360 градусов. Помимо нового синтеза видов, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния и наблюдения эго и актеров на основе управляющих команд. Более того, HUGSIM предлагает всеобъемлющий бенчмарк по более чем 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более чем 400 разнообразных сценариев, обеспечивая справедливую и реалистичную платформу оценки для существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком оценки, но также открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной среде с замкнутым циклом.

К разработке кросс-языкового обнаружения злоупотреблений в аудио в условиях ограниченных ресурсов с использованием обучения с небольшим числом образцов
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2, 2024

Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

Обнаружение онлайн-контента с оскорблениями, особенно в условиях ограниченных ресурсов и в аудио-модальности, остается мало исследованным. Мы исследуем потенциал предварительно обученных аудио-представлений для обнаружения оскорбительной речи на языках с ограниченными ресурсами, в данном случае, на индийских языках с использованием обучения на небольшом количестве примеров (Few Shot Learning, FSL). Используя мощные представления из моделей, таких как Wav2Vec и Whisper, мы исследуем кросс-языковое обнаружение оскорблений с использованием набора данных ADIMA с помощью FSL. Наш подход интегрирует эти представления в рамках модели-агностического мета-обучения (Model-Agnostic Meta-Learning, MAML) для классификации оскорбительной речи на 10 языках. Мы экспериментируем с различными размерами выборки (50-200), оценивая влияние ограниченных данных на производительность. Кроме того, было проведено исследование визуализации признаков для лучшего понимания поведения модели. Это исследование подчеркивает способность к обобщению предварительно обученных моделей в условиях ограниченных ресурсов и предлагает ценные идеи для обнаружения оскорбительной речи в мультиязычных контекстах.

Повышение устойчивости верификации диктора с помощью синтетических эмоциональных высказываний
Improving speaker verification robustness with synthetic emotional utterances

Nov 30, 2024

Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke

Система верификации диктора (SV) предоставляет сервис аутентификации, разработанный для подтверждения того, что данная речевая выборка происходит от определенного диктора. Эта технология открыла путь для различных персонализированных приложений, учитывающих индивидуальные предпочтения. Заметным вызовом, стоящим перед системами SV, является их способность к последовательной работе в различных эмоциональных спектрах. Большинство существующих моделей показывают высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. Следовательно, это явление часто приводит к упущению интересной речи. Эта проблема в основном обусловлена ограниченной доступностью размеченных данных эмоциональной речи, затрудняющей разработку надежных представлений диктора, охватывающих разнообразные эмоциональные состояния. Для решения этой проблемы мы предлагаем новый подход, используя фреймворк CycleGAN в качестве метода аугментации данных. Эта техника синтезирует эмоциональные речевые сегменты для каждого конкретного диктора, сохраняя уникальную голосовую идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого расширенного набора данных, последовательно превосходят базовые модели в задаче верификации дикторов в сценариях эмоциональной речи, снижая равную ошибку до 3,64% относительно.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

X-Prompt: К универсальному контекстному генерированию изображений в авторегрессионных моделях основы видео-языкового моделирования
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2, 2024

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

662

o1-Coder: репликация o1 для кодирования
o1-Coder: an o1 Replication for Coding

Nov 29, 2024

Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

452

FLOAT: Сопоставление генеративного потока латентных переменных для аудио-ориентированного создания анимированных портретов.
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2, 2024

Taekyung Ki, Dongchan Min, Gyoungsu Chae

428

Switti: Разработка трансформеров по шкалам для синтеза текста в изображение
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2, 2024

Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

363

План Open-Sora: Модель генерации больших видео с открытым исходным кодом
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28, 2024

342

VISTA: Улучшение понимания видео длительного действия и высокого разрешения посредством пространственно-временного увеличения видео.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1, 2024

Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

282

SOLAMI: Моделирование социального видения-языка-действия для иммерсивного взаимодействия с трехмерными автономными персонажами
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29, 2024

Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

232

TAPTRv3: Пространственный и временной контекст способствуют надежному отслеживанию любой точки в длинном видео.
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27, 2024

Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

202

GATE ОткрыТИЕ: Комплексный Критерий для Оценки Генерации Изображений и Текста в Открытом Виде
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27, 2024

182

Колодец: крупномасштабная коллекция разнообразных физических симуляций для машинного обучения
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30, 2024

172

Эффективное отслеживание всего.
Efficient Track Anything

Nov 28, 2024

173

Управление моделями векторного поля для генерации изображений с коррекцией потока движения
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27, 2024

Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

168

VLsI: Вербализованные слои-взаимодействия от больших к малым моделям видения на языке.
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2, 2024

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

152

TinyFusion: Поверхностные трансформеры с диффузией, выученные
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2, 2024

Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

142

ОЦЕНКА МНОГОЯЗЫЧНОГО ПОНИМАНИЯ ЯЗЫКА С УЧЕТОМ РЕГИОНАЛЬНЫХ ЗНАНИЙ
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29, 2024

142

WF-VAE: Улучшение видео-VAE с помощью волнового энергетического потока для латентной видео-диффузионной модели
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26, 2024

Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

112

VLSBench: Раскрытие визуальных утечек в мультимодальной безопасности
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29, 2024

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

102

Генерация длинного видеоряда с сегментированным кросс-вниманием и курированием видеоданных с обильным содержанием.
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2, 2024

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

Модели генерации без искусства: создание искусства без знаний графического искусства.
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29, 2024

Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

VisOnlyQA: Большие модели языка и зрения все еще испытывают трудности с визуальным восприятием геометрической информации.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1, 2024

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

PhysGame: Выявление нарушений физического здравого смысла в видеороликах игрового процесса
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2, 2024

Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

Простой и доказуемый закон масштабирования для вычислений во время тестирования больших языковых моделей.
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29, 2024

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

Совместная навигация по экземплярам: использование самодиалога агента для минимизации ввода пользователя.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2, 2024

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

Мировая консистентность видео-диффузии с явным 3D-моделированием.
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2, 2024

Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

Исследование возможностей крупных языковых моделей в решении пропорциональных аналогий с помощью усиления знаний через подсказки.
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1, 2024

Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

AMO Sampler: Улучшение отображения текста с помощью перерасхода.
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28, 2024

Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

HUGSIM: Симулятор реального времени с фотореалистичностью и замкнутым циклом для автономного вождения
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2, 2024

Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

К разработке кросс-языкового обнаружения злоупотреблений в аудио в условиях ограниченных ресурсов с использованием обучения с небольшим числом образцов
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2, 2024

Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

Повышение устойчивости верификации диктора с помощью синтетических эмоциональных высказываний
Improving speaker verification robustness with synthetic emotional utterances

Nov 30, 2024

Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke