ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

OpenCoder: Открытая поваренная книга для высококачественных языковых моделей кода
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Nov 7
BySiming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
128
6

Крупные языковые модели (LLM) для работы с кодом стали незаменимыми в различных областях, включая генерацию кода, задачи логического рассуждения и системы агентов. Хотя открытые LLM для кода всё чаще приближаются по производительности к проприетарным моделям, высококачественные LLM для кода, подходящие для строгих научных исследований, особенно те, которые имеют воспроизводимые конвейеры обработки данных и прозрачные протоколы обучения, остаются ограниченными. Этот дефицит обусловлен различными вызовами, включая ограниченность ресурсов, этические соображения и конкурентные преимущества сохранения передовых моделей. Чтобы устранить этот пробел, мы представляем OpenCoder — высококлассную LLM для кода, которая не только достигает производительности, сопоставимой с ведущими моделями, но и служит «открытой кулинарной книгой» для научного сообщества. В отличие от большинства предыдущих усилий, мы публикуем не только веса модели и код для вывода, но и воспроизводимые данные для обучения, полный конвейер обработки данных, строгие результаты экспериментального абляционного анализа и детальные протоколы обучения для открытых научных исследований. Благодаря этой всесторонней публикации мы определяем ключевые компоненты для создания высококлассной LLM для кода: (1) эвристические правила, оптимизированные для очистки данных, и методы дедупликации данных, (2) извлечение текстового корпуса, связанного с кодом, и (3) высококачественные синтетические данные на этапах как отжига, так и контролируемой тонкой настройки. Предлагая такой уровень открытости, мы стремимся расширить доступ ко всем аспектам высококлассной LLM для кода, где OpenCoder служит как мощной моделью, так и открытой основой для ускорения исследований и обеспечения воспроизводимых достижений в области искусственного интеллекта для работы с кодом.

2

BitNet a4.8: 4-битные активации для 1-битных больших языковых моделей
BitNet a4.8: 4-bit Activations for 1-bit LLMs

Nov 7
ByHongyu Wang, Shuming Ma, Furu Wei
69
6

Последние исследования 1-битных больших языковых моделей (LLM), таких как BitNet b1.58, открывают перспективное направление для снижения стоимости вывода LLM при сохранении их производительности. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битных LLM. BitNet a4.8 применяет гибридную стратегию квантования и разрежения для минимизации ошибок квантования, вносимых каналами-выбросами. В частности, мы используем 4-битные активации для входов слоев внимания и прямой сети, в то время как промежуточные состояния подвергаются разрежению с последующим 8-битным квантованием. Многочисленные эксперименты показывают, что BitNet a4.8 демонстрирует производительность, сопоставимую с BitNet b1.58 при эквивалентных затратах на обучение, но обеспечивает более быстрый вывод благодаря использованию 4-битных (INT4/FP4) ядер. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный KV-кэш, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.

3

DimensionX: Создание любых 3D и 4D сцен из одного изображения с помощью управляемой видео-диффузии
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Nov 7
ByWenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang
57
4

В данной статье мы представляем фреймворк DimensionX, предназначенный для генерации фотореалистичных 3D и 4D сцен всего из одного изображения с использованием видео-диффузии. Наш подход основывается на идее, что как пространственная структура 3D сцены, так и временна́я эволюция 4D сцены могут быть эффективно представлены через последовательности видео-кадров. Хотя современные модели видео-диффузии демонстрируют впечатляющие успехи в создании ярких визуальных эффектов, они сталкиваются с ограничениями при непосредственном восстановлении 3D/4D сцен из-за недостаточной пространственной и временно́й управляемости в процессе генерации. Для преодоления этого мы предлагаем ST-Director, который разделяет пространственные и временны́е факторы в видео-диффузии путем обучения размерностно-озадачных LoRA (Low-Rank Adaptation) на данных с варьирующейся размерностью. Этот управляемый подход к видео-диффузии позволяет точно манипулировать пространственной структурой и временно́й динамикой, что дает возможность реконструировать как 3D, так и 4D представления из последовательных кадров путем комбинации пространственных и временны́х измерений. Дополнительно, для преодоления разрыва между сгенерированными видео и реальными сценами, мы вводим траекторно-озадачный механизм для 3D генерации и стратегию шумоподавления с сохранением идентичности для 4D генерации. Многочисленные эксперименты на различных реальных и синтетических наборах данных демонстрируют, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

4

Смесь Трансформеров: Разреженная и Масштабируемая Архитектура для Мультимодальных Фундаментальных Моделей
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Nov 7
ByWeixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin
51
2

Разработка больших языковых моделей (LLM) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в единой архитектуре. Обучение таких моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLM. Для решения проблем масштабирования мы представляем Mixture-of-Transformers (MoT) — разреженную многомодальную трансформерную архитектуру, которая существенно снижает вычислительные затраты на предварительное обучение. MoT разделяет не-эмбеддинговые параметры модели по модальностям (включая feed-forward сети, матрицы внимания и layer normalization), обеспечивая модально-специфичную обработку с глобальным self-attention по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В конфигурации Chameleon 7B (авторегрессионная генерация текста и изображений) MoT соответствует производительности плотного базового уровня, используя лишь 55.8% FLOPs. При расширении для работы с речью MoT достигает сопоставимой с плотным базовым уровнем речевой производительности всего за 37.2% FLOPs. В конфигурации Transfusion, где текст и изображения обучаются с разными целями, модель MoT на 7B параметров соответствует производительности плотного базового уровня по модальности изображений при одной трети FLOPs, а модель MoT на 760M параметров превосходит плотный базовый уровень на 1.4B по ключевым метрикам генерации изображений. Профилирование системы дополнительно подчеркивает практические преимущества MoT: достижение качества изображений плотного базового уровня за 47.2% реального времени и качества текста за 75.6% реального времени (измерения проводились на инстансах AWS p4de.24xlarge с GPU NVIDIA A100).

5

M3DocRAG: Мультимодальный поиск — это то, что нужно для понимания многостраничных и многодокументных данных
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

Nov 7
ByJaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
30
4

Системы визуального ответа на вопросы по документам (DocVQA), которые отвечают на вопросы на основе документов, имеют широкую сферу применения. Существующие методы сосредоточены на обработке одностраничных документов с помощью мультимодальных языковых моделей (МЯМ) или полагаются на текстовую генерацию с усилением retrieval-ом (RAG), использующую инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако применение этих методов в реальных сценариях сопряжено с трудностями: (а) вопросы часто требуют информации из разных страниц или документов, с чем МЯМ не справляются при работе с большим количеством длинных документов; (b) документы часто содержат важную информацию в визуальных элементах, таких как рисунки и диаграммы, но инструменты извлечения текста игнорируют их. Мы представляем M3DocRAG — новую мультимодальную RAG-архитектуру, которая гибко адаптируется к различным контекстам документов (закрытого и открытого доменов), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, диаграмма, рисунок и т.д.). M3DocRAG находит релевантные документы и отвечает на вопросы с помощью мультимодального retriever-а и МЯМ, что позволяет эффективно обрабатывать как отдельные документы, так и их большие коллекции, сохраняя при этом визуальную информацию. Поскольку существующие наборы данных DocVQA задают вопросы в контексте конкретного документа, мы также представляем M3DocVQA — новый эталонный набор для оценки открытой DocVQA, содержащий более 3000 PDF-документов с общим числом страниц свыше 40 000. На трех эталонах (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG в сочетании с моделями ColPali и Qwen2-VL 7B демонстрирует превосходную производительность по сравнению со многими сильными базовыми методами, включая наилучший результат на MP-DocVQA. Мы предоставляем всесторонний анализ различных подходов к индексированию, МЯМ и моделей retrieval-а. Наконец, мы качественно показываем, что M3DocRAG успешно справляется с различными сценариями, такими как случаи, когда релевантная информация распределена по нескольким страницам, или когда доказательства для ответа существуют только в изображениях.

6

VideoGLaMM: Крупная мультимодальная модель для пиксельной визуальной привязки в видео
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Nov 7
ByShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
24
3

Точное согласование видео и текста является сложной задачей из-за сложной пространственно-временной динамики видеоданных. Существующие видео-ориентированные большие мультимодальные модели (LMM) справляются с базовыми диалогами, но испытывают трудности с точной привязкой на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM — LMM, разработанную для детальной пиксельной привязки в видео на основе текстовых запросов пользователя. Наша архитектура бесшовно объединяет три ключевых компонента: большую языковую модель, двойной визуальный кодировщик, учитывающий как пространственные, так и временные детали, и пространственно-временной декодер для точного генерации масок. Это соединение обеспечивается с помощью настраиваемых адаптеров V-L и L-V, которые обеспечивают тесное согласование визуальных и языковых (VL) представлений. Архитектура обучается для синхронизации пространственных и временных элементов видеоконтента с текстовыми инструкциями. Для реализации детальной привязки мы создали мультимодальный датасет с подробными визуально-обоснованными диалогами, используя полуавтоматический пайплайн разметки, что позволило получить разнообразный набор из 38K видео-вопрос-ответных троек, включающий 83K объектов и 671K масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных диалогов, визуальная привязка и референциальная сегментация видео. Результаты экспериментов показывают, что наша модель стабильно превосходит существующие подходы по всем трем задачам.

7

Анализ языка визуальных токенов
Analyzing The Language of Visual Tokens

Nov 7
ByDavid M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell
24
2

С появлением трансформаторных моделей для задач компьютерного зрения и обработки естественного языка, таких как LLaVA и Chameleon, возобновился интерес к дискретным токенизированным представлениям изображений. Эти модели часто рассматривают фрагменты изображений как дискретные токены, по аналогии со словами в естественном языке, изучая совместные соответствия между визуальным и человеческим языками. Однако статистическое поведение этих визуальных языков остается малоизученным — следуют ли они схожим частотным распределениям, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки подчиняются распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и меньшему сжатию, при этом токены преимущественно представляют части объектов, что указывает на промежуточную гранулярность. Мы также демонстрируем, что визуальным языкам не хватает связных грамматических структур, что ведет к более высокой перплексии и более слабой иерархической организации по сравнению с естественными языками. Наконец, мы показываем, что, хотя модели зрения оказываются ближе к естественным языкам, чем другие модели, это соответствие остается значительно слабее, чем связность, наблюдаемая внутри естественных языков. Проведя эти эксперименты, мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может способствовать проектированию более эффективных моделей компьютерного зрения.

8

Танос: Улучшение диалоговых агентов с помощью больших языковых моделей, обогащенных навыками мышления
Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Nov 7
ByYoung-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi
23
3

Для повышения социальной связанности с собеседниками люди естественным образом приобретают способность реагировать уместно в конкретной ситуации, оценивая, какой коммуникативный навык наиболее подходит для ответа — процесс, который мы называем "навыком мышления" (skill-of-mind). Для диалоговых агентов на основе больших языковых моделей (LLM) планирование соответствующих коммуникативных навыков, как это делают люди, является сложной задачей из-за сложности социального диалога, особенно в интерактивных сценариях. Для решения этой проблемы мы предлагаем размеченный диалоговый набор данных с аннотацией навыков мышления, названный Multifaceted Skill-of-Mind, который включает многоходовые и многогранные коммуникативные навыки в различных интерактивных сценариях (например, долгосрочные, консультационные, целеориентированные), основанные на разнообразных социальных контекстах (демография, персона, практические правила). Этот набор данных содержит примерно 100 тыс. диалогов. Используя его, мы представляем новое семейство LLM, обогащенных навыками мышления, под названием Thanos, с размерами моделей 1 млрд, 3 млрд и 8 млрд параметров. Многочисленные эксперименты показывают, что эти модели успешно демонстрируют процесс навыков мышления и обладают высокой способностью к обобщению при выводе многогранных навыков в различных областях. Кроме того, мы показываем, что Thanos значительно повышает качество ответов, генерируемых LLM-агентами, и способствует просоциальному поведению по оценкам людей.

9

SVDQuant: Поглощение выбросов низкоранговыми компонентами для 4-битных диффузионных моделей
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7
ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han
22
3

Модели диффузии доказали свою высокую эффективность в генерации качественных изображений. Однако с увеличением размера этих моделей они требуют значительно больше памяти и страдают от высокой задержки, что создает серьезные проблемы для развертывания. В данной работе мы стремимся ускорить модели диффузии путем квантования их весов и активаций до 4 бит. При такой агрессивной степени квантования как веса, так и активации становятся высокочувствительными, и традиционные методы послетренировочного квантования для больших языковых моделей, такие как сглаживание, становятся недостаточными. Чтобы преодолеть это ограничение, мы предлагаем SVDQuant — новую парадигму 4-битного квантования. В отличие от сглаживания, которое перераспределяет выбросы между весами и активациями, наш подход поглощает эти выбросы с помощью низкоранговой ветви. Сначала мы консолидируем выбросы, перемещая их из активаций в веса, а затем используем высокоточную низкоранговую ветвь для поглощения выбросов весов с помощью сингулярного разложения (SVD). Этот процесс облегчает квантование с обеих сторон. Однако наивное независимое выполнение низкоранговой ветви приводит к значительным накладным расходам из-за дополнительного перемещения данных активаций, что нивелирует ускорение от квантования. Для решения этой проблемы мы совместно разрабатываем механизм вывода Nunchaku, который объединяет ядра низкоранговой ветви с ядрами низкобитной ветви, чтобы исключить избыточный доступ к памяти. Он также может бесшовно поддерживать готовые низкоранговые адаптеры (LoRA) без необходимости повторного квантования. Многочисленные эксперименты на SDXL, PixArt-Sigma и FLUX.1 подтверждают эффективность SVDQuant в сохранении качества изображений. Мы сокращаем использование памяти для 12-миллиардных моделей FLUX.1 в 3.5 раза, достигая 3-кратного ускорения по сравнению с базовым уровнем с 4-битным квантованием только весов на ноутбучном GPU 4090 с 16 ГБ памяти, прокладывая путь для более интерактивных приложений на ПК. Наша библиотека квантования и механизм вывода имеют открытый исходный код.

10

Продевание иголки: способны ли большие языковые модели следовать за нитью в стоге сена почти миллионного масштаба?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Nov 7
ByJonathan Roberts, Kai Han, Samuel Albanie
22
3

По мере увеличения ограничений контекста больших языковых моделей (LLM) расширяется спектр их возможных применений и производных функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям зачастую разнородных документов, содержащих в основном нерелевантную информацию. LLM с длинным контекстом кажутся хорошо подходящими для такой формы сложного информационного поиска и рассуждений, которые традиционно оказываются дорогостоящими и трудоемкими. Однако, хотя разработка моделей с более длинным контекстом демонстрировала быстрый прогресс в последние годы, наше понимание того, насколько эффективно LLM используют свой контекст, не поспевало за этим развитием. Чтобы устранить этот пробел, мы проводим серию экспериментов по поиску информации, предназначенных для оценки возможностей 17 ведущих LLM, таких как их способность отслеживать цепочки информации в пределах окна контекста. Примечательно, что мы обнаружили, что многие модели обладают замечательной устойчивостью к параллельным потокам: они способны одновременно отслеживать несколько цепочек без значительной потери производительности. Тем не менее, для многих моделей мы выявили, что эффективный предел контекста существенно короче заявленной длины контекста, причем точность снижается по мере роста окна контекста. Наше исследование также подчеркивает важный момент: количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно разному количеству письменных символов. Мы публикуем наш код и экспериментальные данные для работы с длинным контекстом.

11

DynaMem: Онлайн-динамическая пространственно-семантическая память для мобильного манипулирования в открытом мире
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Nov 7
ByPeiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
18
2

Значительный прогресс достигнут в области мобильного манипулирования с открытым словарем, где цель заключается в выполнении роботом задач в любой среде по естественно-языковому описанию. Однако большинство современных систем предполагают статичную среду, что ограничивает применимость системы в реальных сценариях, где среда часто меняется из-за вмешательства человека или собственных действий робота. В данной работе мы представляем DynaMem — новый подход к мобильному манипулированию в открытом мире, который использует динамическую пространственно-семантическую память для представления среды робота. DynaMem строит 3D-структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы локализации объектов с открытым словарем с использованием мультимодальных БОМ или признаков с открытым словарем, генерируемых современными визуально-языковыми моделями. Благодаря DynaMem наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере перемещения, появления или исчезновения объектов в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти офлайн-сценах и достигли среднего показателя успешности операций «взять-положить» на уровне 70% для нестационарных объектов, что более чем в 2 раза превышает показатели современных статических систем. Наш код, а также видео экспериментов и развертывания являются открытыми и доступны на сайте проекта: https://dynamem.github.io/

12

RetrieveGPT: Объединение промтов и математических моделей для улучшенного поиска информации в кодово-смешанных данных
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Nov 7
ByAniket Deroy, Subhankar Maity
17
3

Кодовое смешение — интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения — представляет собой широко распространенное лингвистическое явление, особенно характерное для многоязычных обществ. В Индии пользователи социальных сетей часто прибегают к кодовому смешению с использованием латинской графики, в особенности в сообществах мигрантов, которые создают онлайн-группы для обмена соответствующей местной информацией. Данная статья посвящена проблемам извлечения релевантной информации из разговоров с кодовым смешением, в частности на основе романизированного бенгальского языка, смешанного с английским. В исследовании предлагается новый подход к решению этих задач путем разработки механизма автоматической идентификации наиболее релевантных ответов в таких диалогах. Эксперименты проводились на наборе данных, включающем запросы и документы из Facebook, а также файлы оценки релевантности запросов (QRels). Результаты демонстрируют эффективность нашего подхода к извлечению целевой информации из сложных цифровых бесед с кодовым смешением, что вносит вклад в развитие обработки естественного языка в условиях многоязычия и неформальных текстовых сред. Мы используем GPT-3.5 Turbo через промптинг, а также учитываем последовательный характер релевантных документов для построения математической модели, которая помогает выявлять документы, соответствующие запросу.

13

M3SciQA: Многомодальный многодокументный научный бенчмарк для оценки вопросно-ответных систем в фундаментальных моделях
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Nov 6
ByChuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
17
2

Существующие тестовые наборы для оценки базовых моделей в основном ориентированы на задачи с одним текстовым документом. Однако они зачастую не в полной мере отражают сложность исследовательских процессов, которые обычно включают интерпретацию нетекстовых данных и сбор информации из множества документов. Для устранения этого пробела мы представляем M3SciQA — многомодальный, многодокументный бенчмарк для ответов на научные вопросы, предназначенный для более комплексной оценки базовых моделей. M3SciQA содержит 1452 экспертно размеченных вопроса, охватывающих 70 кластеров научных статей по обработке естественного языка, где каждый кластер представляет основную статью вместе со всеми цитируемыми документами, что имитирует рабочий процесс понимания отдельной статьи через требование многомодальных и многодокументных данных. С помощью M3SciQA мы провели всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что современные базовые модели по-прежнему существенно уступают экспертам-людям в многомодальном информационном поиске и в рассуждениях на основе множества научных документов. Кроме того, мы исследуем последствия этих выводов для будущего развития применения базовых моделей в многомодальном анализе научной литературы.

14

GazeGen: Взаимодействие с пользователем на основе направления взгляда для генерации визуального контента
GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Nov 7
ByHe-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung
15
2

Мы представляем GazeGen — систему взаимодействия с пользователем, которая генерирует визуальный контент (изображения и видео) для областей, указанных направлением взгляда пользователя. GazeGen позволяет интуитивно управлять визуальным контентом путем наведения взгляда на интересующие области. Используя передовые методы обнаружения объектов и генеративного ИИ, система выполняет управляемое взглядом добавление/удаление изображений, изменение их позиционирования и текстуры поверхностей объектов, а также преобразует статические изображения в видео. Ключевым компонентом GazeGen является агент DFT Gaze (Distilled and Fine-Tuned Gaze) — сверхлегкая модель всего с 281 тыс. параметров, которая выполняет точное прогнозирование направления взгляда в реальном времени с учетом индивидуальных особенностей глаз пользователя на маломощных периферийных устройствах. GazeGen является первой системой, объединяющей генерацию визуального контента с оценкой направления взгляда в реальном времени, что стало возможным исключительно благодаря DFT Gaze. Эта возможность оценки взгляда в реальном времени обеспечивает выполнение различных задач по генерации визуального контента, полностью управляемых взглядом пользователя. Входными данными для DFT Gaze служат изображения глаз пользователя, тогда как для генерации визуального контента используются обзор пользователя и прогнозируемая точка взгляда от DFT Gaze. Для обеспечения эффективного прогнозирования направления взгляда мы получаем компактную модель из крупной модели (в 10 раз больше) с помощью новых методов дистилляции знаний и персональной адаптации. Мы интегрируем дистилляцию знаний с маскированным автоэнкодером, создавая компактную, но мощную модель оценки взгляда. Эта модель дополнительно дорабатывается с помощью адаптеров (Adapters), что позволяет достигать высокоточных персонализированных прогнозов направления взгляда при минимальном участии пользователя. DFT Gaze обеспечивает отслеживание взгляда с низкой задержкой и высокой точностью, поддерживая широкий спектр задач, управляемых взглядом. Мы проверяем производительность DFT Gaze на бенчмарках AEA и OpenEDS2020, демонстрируя низкую угловую погрешность оценки взгляда и малую задержку на периферийном устройстве (Raspberry Pi 4). Кроме того, мы описываем применения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

15

SG-I2V: Самоконтролируемое управление траекторией в генерации видео из изображений
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Nov 7
ByKoichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
15
4

Методы генерации видео из изображений достигли впечатляющего фотореалистичного качества. Однако точная настройка конкретных элементов в создаваемых видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными сидами. Современные подходы решают эту проблему путем дообучения предварительно обученной модели для следования управляющим сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, процедура дообучиния может быть вычислительно затратной и требует наличия наборов данных с аннотированным движением объектов, которые сложно получить. В данной работе мы представляем SG-I2V — фреймворк для управляемой генерации видео из изображений, который является самонаправляемым и обеспечивает zero-shot контроль, полагаясь исключительно на знания, заложенные в предварительно обученную диффузионную модель без необходимости дообучения или привлечения внешних знаний. Наш zero-shot метод превосходит неконтролируемые базовые подходы, оставаясь конкурентоспособным с обученными моделями по визуальному качеству и точности передачи движения.

16

Diff-2-in-1: Объединение генерации и плотного восприятия с помощью диффузионных моделей
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Nov 7
ByShuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
13
2

Помимо синтеза изображений высокой четкости, диффузионные модели недавно продемонстрировали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают диффузионные модели как самостоятельный компонент для задач восприятия, используя их либо исключительно для готового расширения данных, либо просто в качестве экстракторов признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, универсальную диффузионную структуру Diff-2-in-1, которая способна одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие за счет уникального использования процесса диффузии-денойзинга. В рамках этой структуры мы дополнительно улучшаем дискриминативное визуальное восприятие с помощью многомодальной генерации, используя деннойзинг-сеть для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно, что Diff-2-in-1 оптимизирует использование созданных разнообразных и достоверных данных за счет применения нового механизма самообучающегося обучения. Комплексные экспериментальные оценки подтверждают эффективность нашей структуры, демонстрируя стабильное улучшение производительности на различных дискриминативных бэкбонах и генерацию качественных многомодальных данных, характеризующихся как реалистичностью, так и практической полезностью.

Nov 7
Nov 8
Nov 11