ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Авторегрессионное моделирование видео с длинным контекстом и предсказанием следующего кадра
Long-Context Autoregressive Video Modeling with Next-Frame Prediction

Mar 25
ByYuchao Gu, Weijia Mao, Mike Zheng Shou
73
2

Авторегрессионное моделирование с длинным контекстом значительно продвинуло генерацию текста, однако генерация видео по-прежнему испытывает трудности с полным использованием расширенных временных контекстов. Для исследования моделирования видео с длинным контекстом мы представляем Frame AutoRegressive (FAR), мощный базовый подход для авторегрессионного моделирования видео. Подобно тому, как языковые модели изучают причинные зависимости между токенами (т.е., Token AR), FAR моделирует временные причинные зависимости между последовательными кадрами, достигая лучшей сходимости по сравнению с Token AR и видео диффузионными трансформерами. На основе FAR мы отмечаем, что моделирование зрения с длинным контекстом сталкивается с проблемами из-за визуальной избыточности. Существующий RoPE не обеспечивает эффективного временного затухания для удаленного контекста и плохо экстраполируется на длинные видео последовательности. Кроме того, обучение на длинных видео вычислительно затратно, так как визуальные токены растут гораздо быстрее, чем языковые. Для решения этих проблем мы предлагаем баланс между локальностью и долгосрочной зависимостью. Мы представляем FlexRoPE, технику на этапе тестирования, которая добавляет гибкое временное затухание к RoPE, позволяя экстраполировать на 16 раз более длинные визуальные контексты. Дополнительно, мы предлагаем моделирование долгосрочного и краткосрочного контекста, где высокоразрешающее окно краткосрочного контекста обеспечивает детальную временную согласованность, а неограниченное окно долгосрочного контекста кодирует долгосрочную информацию с использованием меньшего количества токенов. С таким подходом мы можем обучаться на длинных видео последовательностях с управляемой длиной контекста токенов. Мы демонстрируем, что FAR достигает передовых результатов как в генерации коротких, так и длинных видео, предоставляя простой, но эффективный базовый подход для авторегрессионного моделирования видео.

2

Масштабирование предварительного обучения моделей зрения до разрешения 4K
Scaling Vision Pre-Training to 4K Resolution

Mar 25
ByBaifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
41
2

Высокое разрешение восприятия визуальных деталей имеет решающее значение для повседневных задач. Однако текущее предобучение моделей зрения по-прежнему ограничено низкими разрешениями (например, 378 x 378 пикселей) из-за квадратичной стоимости обработки изображений большего размера. Мы представляем PS3, который масштабирует предобучение зрения в стиле CLIP до разрешения 4K с почти постоянной стоимостью. Вместо контрастивного обучения на глобальном представлении изображения, PS3 предобучается путем выборочной обработки локальных областей и их сопоставления с локальными детализированными описаниями, что позволяет изучать представления с высоким разрешением при значительно сниженных вычислительных затратах. Предобученная модель PS3 способна как кодировать глобальное изображение в низком разрешении, так и выборочно обрабатывать локальные области с высоким разрешением на основе их значимости или релевантности текстовому запросу. При применении PS3 к мультимодальным большим языковым моделям (MLLM), результирующая модель, названная VILA-HD, значительно улучшает восприятие визуальных данных с высоким разрешением по сравнению с базовыми моделями, такими как AnyRes и S^2, которые не используют предобучение с высоким разрешением, при этом используя до 4,3 раза меньше токенов. PS3 также раскрывает привлекательные свойства масштабирования VILA-HD, включая бесплатное увеличение разрешения и масштабирование вычислительных ресурсов во время тестирования для повышения производительности. По сравнению с современными решениями, VILA-HD превосходит предыдущие MLLM, такие как NVILA и Qwen2-VL, на множестве бенчмарков и демонстрирует лучшую эффективность, чем последние подходы к сокращению токенов. Наконец, мы обнаруживаем, что текущие бенчмарки не требуют восприятия с разрешением 4K, что побудило нас предложить 4KPro — новый бенчмарк для вопросно-ответных задач на изображениях с разрешением 4K, на котором VILA-HD превосходит все предыдущие MLLM, включая улучшение на 14,5% по сравнению с GPT-4o, а также улучшение на 3,2% и ускорение в 2,96 раза по сравнению с Qwen2-VL.

3

Масштабирование во время вывода для потоковых моделей с использованием стохастической генерации и принудительного распределения бюджета перехода
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

Mar 25
ByJaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
34
4

Мы предлагаем подход масштабирования на этапе вывода для предобученных моделей потоков. В последнее время масштабирование на этапе вывода привлекло значительное внимание в крупных языковых моделях (LLM) и моделях диффузии, улучшая качество выборок или лучше согласовывая выходные данные с предпочтениями пользователей за счет использования дополнительных вычислений. Для моделей диффузии выборка частиц позволила более эффективное масштабирование благодаря стохастичности на промежуточных этапах удаления шума. В то же время, хотя модели потоков приобрели популярность как альтернатива моделям диффузии — предлагая более быструю генерацию и высококачественные результаты в современных моделях генерации изображений и видео — эффективные методы масштабирования на этапе вывода, используемые для моделей диффузии, не могут быть напрямую применены из-за их детерминированного процесса генерации. Чтобы обеспечить эффективное масштабирование на этапе вывода для моделей потоков, мы предлагаем три ключевые идеи: 1) генерацию на основе стохастических дифференциальных уравнений (SDE), позволяющую выборку частиц в моделях потоков, 2) преобразование интерполянтов, расширяющее пространство поиска и повышающее разнообразие выборок, и 3) принудительное распределение бюджета (Rollover Budget Forcing, RBF) — адаптивное распределение вычислительных ресурсов по временным шагам для максимизации использования бюджета. Наши эксперименты показывают, что генерация на основе SDE, в частности генерация на основе интерполянтов с сохранением дисперсии (VP), улучшает производительность методов выборки частиц для масштабирования на этапе вывода в моделях потоков. Кроме того, мы демонстрируем, что RBF в сочетании с VP-SDE достигает наилучшей производительности, превосходя все предыдущие подходы к масштабированию на этапе вывода.

4

Исследование галлюцинаций крупных мультимодальных моделей в понимании видео: бенчмарк, анализ и методы устранения
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

Mar 25
ByHongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
31
4

Галлюцинации крупных мультимодальных моделей (LMMs), выражающиеся в предоставлении ответов, которые кажутся правильными, но на самом деле ошибочны, ограничивают их надежность и применимость. В данной статье мы исследуем проблему галлюцинаций LMMs в видео-модальности, которая является динамической и более сложной по сравнению со статическими модальностями, такими как изображения и текст. Исходя из этой мотивации, мы сначала представляем комплексный бенчмарк под названием HAVEN для оценки галлюцинаций LMMs в задачах понимания видео. Он построен на трех измерениях: причины галлюцинаций, аспекты галлюцинаций и форматы вопросов, что в итоге дает 6 тысяч вопросов. Затем мы количественно исследуем 7 влиятельных факторов на галлюцинации, таких как продолжительность видео, размеры моделей и способность моделей к рассуждению, с помощью экспериментов на 16 LMMs с использованием представленного бенчмарка. Кроме того, вдохновленные современными моделями мышления, такими как OpenAI o1, мы предлагаем видео-мыслительную модель для снижения галлюцинаций LMMs с помощью контролируемой тонкой настройки рассуждений (SRFT) и оптимизации прямых предпочтений (TDPO) — где SRFT улучшает способности к рассуждению, а TDPO уменьшает галлюцинации в процессе мышления. Обширные эксперименты и анализы демонстрируют эффективность предложенного подхода. В частности, он улучшает базовый показатель на 7,65% по точности в оценке галлюцинаций и снижает показатель смещения на 4,5%. Код и данные доступны по адресу https://github.com/Hongcheng-Gao/HAVEN.

5

CoMP: Непрерывное мультимодальное предобучение для базовых моделей компьютерного зрения
CoMP: Continual Multimodal Pre-training for Vision Foundation Models

Mar 24
ByYitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
30
1

Предварительно обученные базовые модели для обработки изображений (Vision Foundation Models, VFMs) обеспечивают мощные визуальные представления для широкого спектра задач. В данной работе мы продолжаем предварительное обучение популярных VFMs в мультимодальном режиме, чтобы они могли легко обрабатывать визуальные входные данные различных размеров и генерировать визуальные представления, более согласованные с языковыми, независимо от их исходного процесса предварительного обучения. Для этого мы представляем CoMP — тщательно разработанный конвейер мультимодального предварительного обучения. CoMP использует Continual Rotary Position Embedding для поддержки предварительного обучения на нативном разрешении и функцию потерь Alignment Loss между визуальными и текстовыми признаками через языковые прототипы для согласования мультимодальных представлений. Благодаря трехэтапному обучению наши VFMs демонстрируют значительные улучшения не только в мультимодальном понимании, но и в других задачах, таких как классификация и сегментация. Примечательно, что CoMP-SigLIP достигает показателей 66.7 на ChartQA и 75.9 на DocVQA с использованием языковой модели на 0.5 миллиарда параметров, сохраняя при этом точность 87.4% на ImageNet-1K и 49.5 mIoU на ADE20K в условиях замороженной оценки фрагментов.

6

Подумайте дважды: улучшение рассуждений языковых моделей за счет масштабирования многоэтапного мышления во время тестирования
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Mar 25
ByXiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
29
5

Недавние достижения в области крупных языковых моделей (LLM), таких как OpenAI-o1 и DeepSeek-R1, продемонстрировали эффективность масштабирования на этапе тестирования, при котором расширенные процессы рассуждения существенно улучшают производительность моделей. Однако текущие модели ограничены трудностями в обработке длинных текстов и эффективностью обучения с подкреплением (RL). Для решения этих проблем мы предлагаем простой, но эффективный подход к масштабированию на этапе тестирования — метод "Многораундовое мышление". Этот метод итеративно улучшает рассуждения модели, используя предыдущие ответы в качестве подсказок для последующих раундов. Многочисленные эксперименты на различных моделях, включая QwQ-32B и DeepSeek-R1, стабильно показывают улучшение производительности на различных тестовых наборах, таких как AIME 2024, MATH-500, GPQA-diamond и LiveCodeBench. Например, точность модели QwQ-32B улучшилась с 80,3% (Раунд 1) до 82,1% (Раунд 2) на наборе данных AIME 2024, в то время как DeepSeek-R1 показала аналогичный рост с 79,7% до 82,0%. Эти результаты подтверждают, что "Многораундовое мышление" является универсальным и простым подходом для достижения стабильного улучшения производительности моделей, подчеркивая его потенциал для будущего развития методов масштабирования на этапе тестирования. Ключевая подсказка: {Исходный вопрос} Предыдущий ответ ассистента: <ответ> {ответ предыдущего раунда} </ответ>, пожалуйста, ответьте снова.

7

Найди подделку: обнаружение синтетических изображений с помощью крупных мультимодальных моделей и объяснение артефактов
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Mar 19
BySiwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
20
3

С быстрым развитием технологий создания контента с использованием искусственного интеллекта (AIGC), синтетические изображения становятся всё более распространёнными в повседневной жизни, что создаёт новые вызовы для оценки подлинности и обнаружения подделок. Несмотря на эффективность существующих методов в оценке подлинности изображений и локализации фальсификаций, эти подходы часто недостаточно интерпретируемы для человека и не полностью справляются с растущей сложностью синтетических данных. Для решения этих задач мы представляем FakeVLM — специализированную крупную мультимодальную модель, разработанную как для задач общего обнаружения синтетических изображений, так и для выявления DeepFake. FakeVLM не только превосходно различает реальные и поддельные изображения, но и предоставляет понятные объяснения на естественном языке для артефактов изображений, повышая интерпретируемость. Кроме того, мы представляем FakeClue — всеобъемлющий набор данных, содержащий более 100 000 изображений в семи категориях, аннотированных детализированными подсказками об артефактах на естественном языке. FakeVLM демонстрирует производительность, сопоставимую с экспертной моделью, при этом устраняя необходимость в дополнительных классификаторах, что делает её надёжным решением для обнаружения синтетических данных. Масштабные оценки на нескольких наборах данных подтверждают превосходство FakeVLM как в задачах классификации подлинности, так и в объяснении артефактов, устанавливая новый стандарт для обнаружения синтетических изображений. Набор данных и код будут опубликованы по адресу: https://github.com/opendatalab/FakeVLM.

8

MDocAgent: Мультимодальная мультиагентная система для анализа документов
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Mar 18
BySiwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
20
2

Ответы на вопросы по документам (Document Question Answering, DocQA) — это весьма распространенная задача. Существующие методы, использующие большие языковые модели (Large Language Models, LLMs) или большие мультимодальные модели (Large Vision Language Models, LVLMs) в сочетании с генерацией, усиленной поиском (Retrieval Augmented Generation, RAG), часто отдают приоритет информации из одного модального источника, неэффективно интегрируя текстовые и визуальные подсказки. Эти подходы испытывают трудности со сложным мультимодальным рассуждением, что ограничивает их производительность на реальных документах. Мы представляем MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding) — новую RAG и мультиагентную структуру, которая использует как текст, так и изображения. Наша система включает пять специализированных агентов: общий агент, критический агент, текстовый агент, визуальный агент и агент для суммирования. Эти агенты участвуют в мультимодальном извлечении контекста, объединяя свои индивидуальные выводы для достижения более полного понимания содержания документа. Такой совместный подход позволяет системе синтезировать информацию как из текстовых, так и из визуальных компонентов, что приводит к повышению точности ответов на вопросы. Предварительные эксперименты на пяти тестовых наборах, таких как MMLongBench и LongDocURL, демонстрируют эффективность нашего MDocAgent, показывая среднее улучшение на 12,1% по сравнению с современными методами. Эта работа способствует разработке более надежных и всесторонних систем DocQA, способных справляться со сложностями реальных документов, содержащих богатую текстовую и визуальную информацию. Наши данные и код доступны по адресу https://github.com/aiming-lab/MDocAgent.

9

ReSearch: Обучение рассуждению с использованием поиска для языковых моделей через обучение с подкреплением
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

Mar 25
ByMingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
19
3

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в рассуждениях, что подтверждается успехами моделей OpenAI-o1 и DeepSeek-R1. Однако интеграция рассуждений с внешними процессами поиска остается сложной задачей, особенно для сложных многошаговых вопросов, требующих нескольких этапов извлечения информации. Мы предлагаем ReSearch, новый фреймворк, который обучает LLM рассуждать с использованием поиска через обучение с подкреплением, не используя никаких размеченных данных о шагах рассуждений. Наш подход рассматривает операции поиска как неотъемлемые компоненты цепочки рассуждений, где время и способ выполнения поиска определяются текстовым мышлением, а результаты поиска, в свою очередь, влияют на дальнейшие рассуждения. Мы обучаем ReSearch на моделях Qwen2.5-7B(-Instruct) и Qwen2.5-32B(-Instruct) и проводим обширные эксперименты. Несмотря на обучение только на одном наборе данных, наши модели демонстрируют высокую обобщаемость на различных бенчмарках. Анализ показывает, что ReSearch естественным образом развивает продвинутые способности к рассуждениям, такие как рефлексия и самокоррекция, в процессе обучения с подкреплением.

10

CoLLM: Крупная языковая модель для составного поиска изображений
CoLLM: A Large Language Model for Composed Image Retrieval

Mar 25
ByChuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
15
2

Составной поиск изображений (Composed Image Retrieval, CIR) — это сложная задача, направленная на поиск изображений на основе мультимодального запроса. Типичные обучающие данные состоят из троек, содержащих эталонное изображение, текстовое описание желаемых изменений и целевое изображение, которые дорого и трудоемко собирать. Недостаток наборов данных для CIR привел к появлению подходов с нулевым обучением, использующих синтетические тройки или задействующих модели взаимодействия зрения и языка (Vision-Language Models, VLMs) с повсеместно доступными парами изображение-описание, собранными из интернета. Однако эти методы имеют существенные ограничения: синтетические тройки страдают от ограниченного масштаба, недостатка разнообразия и неестественных текстов изменений, в то время как пары изображение-описание затрудняют совместное обучение встраиваниям мультимодального запроса из-за отсутствия данных в виде троек. Более того, существующие подходы сталкиваются с трудностями при обработке сложных и тонких текстов изменений, требующих глубокого слияния и понимания модальностей зрения и языка. Мы представляем CoLLM — универсальную структуру, которая эффективно решает эти проблемы. Наш подход генерирует тройки на лету из пар изображение-описание, что позволяет проводить обучение с учителем без ручной аннотации. Мы используем большие языковые модели (Large Language Models, LLMs) для создания совместных встраиваний эталонных изображений и текстов изменений, способствуя более глубокому мультимодальному слиянию. Кроме того, мы представляем Multi-Text CIR (MTCIR) — крупномасштабный набор данных, содержащий 3,4 миллиона образцов, и улучшаем существующие бенчмарки для CIR (CIRR и Fashion-IQ) для повышения надежности оценки. Экспериментальные результаты показывают, что CoLLM достигает наилучших показателей на нескольких бенчмарках и в различных настройках CIR. MTCIR демонстрирует конкурентоспособные результаты с улучшением производительности до 15%. Наши улучшенные бенчмарки предоставляют более надежные метрики оценки для моделей CIR, способствуя развитию этой важной области.

11

Сверхразрешение в латентном пространстве для генерации изображений с более высоким разрешением с использованием диффузионных моделей
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

Mar 24
ByJinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
12
2

В данной статье мы представляем LSRNA — новый фреймворк для генерации изображений с высоким разрешением (превышающим 1K) с использованием диффузионных моделей, применяя супер-разрешение непосредственно в латентном пространстве. Существующие диффузионные модели сталкиваются с трудностями при масштабировании за пределы их обучающих разрешений, что часто приводит к структурным искажениям или повторению контента. Методы, основанные на референсах, решают эти проблемы путем апскейлинга низкокачественного референса для управления генерацией изображений с более высоким разрешением. Однако они сталкиваются с существенными ограничениями: апскейлинг в латентном пространстве часто вызывает отклонение от многообразия, что ухудшает качество выходных данных. С другой стороны, апскейлинг в RGB-пространстве склонен создавать излишне сглаженные результаты. Чтобы преодолеть эти ограничения, LSRNA объединяет супер-разрешение в латентном пространстве (LSR) для выравнивания многообразия и региональное добавление шума (RNA) для улучшения высокочастотных деталей. Наши обширные эксперименты демонстрируют, что интеграция LSRNA превосходит современные методы, основанные на референсах, по различным разрешениям и метрикам, одновременно подчеркивая ключевую роль апскейлинга в латентном пространстве для сохранения деталей и резкости. Код доступен по адресу https://github.com/3587jjh/LSRNA.

12

WikiAutoGen: К созданию многомодальной генерации статей в стиле Википедии
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Mar 24
ByZhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny
11
2

Обнаружение и сбор знаний — это интеллектуально сложные задачи, которые традиционно требуют значительных человеческих усилий для обеспечения высококачественных результатов. В последних исследованиях изучаются мультиагентные фреймворки для автоматизации создания статей в стиле Википедии путем извлечения и синтеза информации из интернета. Однако эти методы в основном сосредоточены на генерации только текста, упуская важность мультимодального контента для повышения информативности и вовлеченности. В данной работе мы представляем WikiAutoGen — новую систему для автоматизированного создания мультимодальных статей в стиле Википедии. В отличие от предыдущих подходов, WikiAutoGen извлекает и интегрирует релевантные изображения вместе с текстом, обогащая как глубину, так и визуальную привлекательность генерируемого контента. Для дальнейшего повышения фактической точности и полноты мы предлагаем механизм многоперспективной саморефлексии, который критически оценивает извлеченный контент с различных точек зрения, чтобы улучшить надежность, широту и согласованность. Кроме того, мы представляем WikiSeek — бенчмарк, состоящий из статей Википедии с темами, представленными как текстовыми, так и визуальными данными, предназначенный для оценки мультимодальной генерации знаний на более сложных темах. Экспериментальные результаты показывают, что WikiAutoGen превосходит предыдущие методы на 8%-29% на нашем бенчмарке WikiSeek, создавая более точные, согласованные и визуально обогащенные статьи в стиле Википедии. Некоторые из наших сгенерированных примеров можно увидеть на https://wikiautogen.github.io/.

13

FullDiT: Многофункциональная генеративная базовая модель для видео с полным вниманием
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Mar 25
ByXuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
8
2

Современные базовые модели для генерации видео в основном сосредоточены на задачах преобразования текста в видео, предоставляя ограниченный контроль для создания детализированного видеоконтента. Хотя адаптерные подходы (например, ControlNet) позволяют добавлять дополнительные элементы управления с минимальной донастройкой, они сталкиваются с трудностями при интеграции нескольких условий, включая: конфликты ветвей между независимо обученными адаптерами, избыточность параметров, ведущую к увеличению вычислительных затрат, и неоптимальную производительность по сравнению с полной донастройкой. Для решения этих проблем мы представляем FullDiT — унифицированную базовую модель для генерации видео, которая бесшовно интегрирует несколько условий с помощью унифицированных механизмов полного внимания. Объединяя условия для многозадачности в единое последовательностное представление и используя способность полного самовнимания к обучению на длинных контекстах для учета динамики условий, FullDiT снижает избыточность параметров, избегает конфликтов условий и демонстрирует масштабируемость и эмерджентные способности. Мы также представляем FullBench для оценки многозадачной генерации видео. Эксперименты показывают, что FullDiT достигает наилучших результатов, подчеркивая эффективность полного внимания в сложной многозадачной генерации видео.

14

FirePlace: Геометрические уточнения здравого смысла в рассуждениях языковых моделей для размещения 3D-объектов
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Mar 6
ByIan Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi
8
2

Генерация сцен с использованием 3D-ассетов представляет собой сложную задачу, требующую как высокоуровневого семантического понимания, так и низкоуровневого геометрического анализа. Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют высокие результаты в семантических задачах, их применение для генерации 3D-сцен ограничено недостаточным учетом 3D-геометрии. В данной статье мы исследуем, как наиболее эффективно использовать MLLMs в задаче размещения объектов. Для достижения этой цели мы представляем новую структуру, FirePlace, которая применяет существующие MLLMs для (1) геометрического анализа 3D-сцен и извлечения соответствующих геометрических деталей, (2) построения и решения геометрических ограничений на основе извлеченной низкоуровневой геометрии и (3) отбора окончательных вариантов размещения, соответствующих здравому смыслу. Комбинируя геометрический анализ с реальным пониманием MLLMs, наш метод предлагает размещения объектов, которые удовлетворяют как геометрическим ограничениям, так и высокоуровневым семантическим соображениям. Наши эксперименты показывают, что эти возможности позволяют нашему методу более эффективно размещать объекты в сложных сценах с замысловатой геометрией, превосходя качество предыдущих работ.

15

PhysTwin: Физически обоснованная реконструкция и симуляция деформируемых объектов на основе видеозаписей
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos

Mar 23
ByHanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li
8
2

Создание физического цифрового двойника реального объекта обладает огромным потенциалом в робототехнике, создании контента и расширенной реальности (XR). В данной статье мы представляем PhysTwin — новый фреймворк, который использует разреженные видео динамических объектов в процессе взаимодействия для создания фотореалистичной и физически точной интерактивной виртуальной копии в реальном времени. Наш подход основывается на двух ключевых компонентах: (1) физически информированное представление, объединяющее модели пружинно-массовых систем для реалистичного физического моделирования, генеративные модели формы для геометрии и гауссовы сплайны для рендеринга; и (2) новая многоэтапная оптимизационная структура обратного моделирования, которая восстанавливает полную геометрию, определяет плотные физические свойства и воспроизводит реалистичный внешний вид на основе видео. Наш метод интегрирует фреймворк обратной физики с визуальными подсказками восприятия, что позволяет достичь высокоточной реконструкции даже при частичных, заслонённых и ограниченных углах обзора. PhysTwin поддерживает моделирование различных деформируемых объектов, включая верёвки, мягкие игрушки, ткань и посылки. Эксперименты показывают, что PhysTwin превосходит конкурирующие методы в реконструкции, рендеринге, прогнозировании будущего состояния и моделировании при новых взаимодействиях. Мы также демонстрируем его применение в интерактивном моделировании в реальном времени и планировании движений роботов на основе моделей.

16

DiffPortrait360: Согласованная диффузия портретов для синтеза 360-градусного обзора
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

Mar 19
ByYuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
8
2

Создание высококачественных 360-градусных изображений человеческих голов на основе однокадровых изображений имеет ключевое значение для разработки доступных приложений иммерсивного телеприсутствия и масштабируемого создания персонализированного контента. Хотя современные методы генерации полных голов ограничиваются моделированием реалистичных человеческих голов, последние диффузионные подходы для синтеза голов с учетом стиля способны создавать только фронтальные виды и испытывают трудности с согласованностью видов, что препятствует их преобразованию в настоящие 3D-модели для рендеринга с произвольных углов. Мы представляем новый подход, который генерирует полностью согласованные 360-градусные виды голов, охватывая человеческие, стилизованные и антропоморфные формы, включая аксессуары, такие как очки и шляпы. Наш метод основан на фреймворке DiffPortrait3D, включая пользовательский ControlNet для генерации деталей затылка и двойной модуль внешнего вида для обеспечения глобальной согласованности фронтальной и задней частей. Благодаря обучению на последовательностях непрерывных видов и интеграции эталонного изображения задней части, наш подход достигает устойчивого и локально непрерывного синтеза видов. Наша модель может использоваться для создания высококачественных нейронных полей излучения (NeRF) для рендеринга в реальном времени с произвольных точек обзора, превосходя современные методы в синтезе объектов и генерации 360-градусных голов для крайне сложных входных портретов.

17

Mask^2DiT: Трансформер диффузии с двойной маской для генерации длинных видео с несколькими сценами
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

Mar 25
ByTianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
6
2

Sora продемонстрировала огромный потенциал архитектуры Diffusion Transformer (DiT) в генерации видео с одной сценой. Однако более сложная задача генерации видео с несколькими сценами, которая открывает более широкие возможности применения, остается относительно малоизученной. Чтобы восполнить этот пробел, мы предлагаем Mask^2DiT — новый подход, который устанавливает детальное, однозначное соответствие между сегментами видео и их текстовыми аннотациями. В частности, мы вводим симметричную бинарную маску на каждом уровне внимания в архитектуре DiT, гарантируя, что каждая текстовая аннотация применяется исключительно к соответствующему сегменту видео, сохраняя при этом временную согласованность между визуальными токенами. Этот механизм внимания обеспечивает точное выравнивание текста и визуального контента на уровне сегментов, позволяя архитектуре DiT эффективно справляться с задачами генерации видео с фиксированным количеством сцен. Чтобы дополнительно наделить архитектуру DiT способностью генерировать новые сцены на основе существующих, мы внедряем условную маску на уровне сегментов, которая учитывает предшествующие сегменты видео при генерации каждого нового сегмента, тем самым обеспечивая авторегрессивное расширение сцен. Как качественные, так и количественные эксперименты подтверждают, что Mask^2DiT превосходно поддерживает визуальную согласованность между сегментами, одновременно обеспечивая семантическое соответствие между каждым сегментом и его текстовым описанием. Страница нашего проекта доступна по адресу: https://tianhao-qi.github.io/Mask2DiTProject.

18

Сопоставление потоков Gumbel-Softmax с прямым сквозным управлением для контролируемой генерации биологических последовательностей
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

Mar 21
BySophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
5
3

Сопоставление потоков в непрерывном симплексе стало перспективной стратегией для проектирования последовательностей ДНК, однако оно сталкивается с трудностями при масштабировании на более высокие размерности симплекса, необходимые для генерации пептидов и белков. Мы представляем Gumbel-Softmax Flow и Score Matching — генеративную структуру на симплексе, основанную на новом интерполянте Gumbel-Softmax с зависящей от времени температурой. Используя этот интерполянт, мы вводим Gumbel-Softmax Flow Matching, выводя параметризованное поле скоростей, которое переносит от гладких категориальных распределений к распределениям, сконцентрированным в одной вершине симплекса. Альтернативно мы представляем Gumbel-Softmax Score Matching, который обучается регрессии градиента плотности вероятности. Наша структура обеспечивает высококачественную и разнообразную генерацию и эффективно масштабируется на симплексы более высокой размерности. Для реализации обучения без обучения мы предлагаем Straight-Through Guided Flows (STGFlow) — метод управления на основе классификатора, который использует straight-through estimators для направления безусловного поля скоростей к оптимальным вершинам симплекса. STGFlow позволяет эффективно управлять на этапе вывода с использованием классификаторов, предварительно обученных на чистых последовательностях, и может применяться с любым методом дискретных потоков. Вместе эти компоненты формируют надежную структуру для управляемой генерации последовательностей de novo. Мы демонстрируем передовые результаты в условном проектировании промоторов ДНК, генерации белков только на основе последовательностей и проектировании пептидов для связывания с мишенями при лечении редких заболеваний.

19

LookAhead Tuning: Более безопасные языковые модели через предварительный просмотр частичных ответов
LookAhead Tuning: Safer Language Models via Partial Answer Previews

Mar 24
ByKangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
5
3

Тонкая настройка позволяет крупным языковым моделям (LLM) адаптироваться к конкретным областям, но часто подрывает их ранее установленную безопасную согласованность. Чтобы смягчить ухудшение безопасности модели в процессе тонкой настройки, мы представляем LookAhead Tuning — подход, включающий два простых, ресурсоэффективных и действенных метода, основанных на данных, которые модифицируют обучающие данные путем предварительного просмотра частичных префиксов ответов. Оба метода направлены на сохранение встроенных механизмов безопасности модели за счет минимизации изменений в начальных распределениях токенов. Комплексные эксперименты демонстрируют, что LookAhead Tuning эффективно поддерживает безопасность модели без ущерба для её производительности на целевых задачах. Наши результаты позиционируют LookAhead Tuning как надежное и эффективное решение для безопасной и результативной адаптации LLM. Код доступен по адресу https://github.com/zjunlp/LookAheadTuning.

20

xKV: Межслойное SVD для сжатия KV-кэша
xKV: Cross-Layer SVD for KV-Cache Compression

Mar 24
ByChi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
5
1

Крупные языковые модели (LLM) с длинными контекстными окнами открывают возможности для мощных приложений, но требуют значительного объема памяти для хранения состояний ключей и значений (KV-Cache). Недавние исследования пытались объединить KV-cache из нескольких слоев в общие представления, однако эти подходы либо требуют дорогостоящего предварительного обучения, либо основываются на предположениях о высокой косинусной схожести между токенами в разных слоях, что на практике обычно не выполняется. Мы обнаружили, что доминирующие сингулярные векторы удивительно хорошо согласованы между несколькими слоями KV-Cache. Используя это наблюдение, мы предлагаем xKV — простой метод пост-обучения, который применяет сингулярное разложение (SVD) к KV-cache сгруппированных слоев. xKV объединяет KV-cache нескольких слоев в общее низкоранговое подпространство, значительно уменьшая размеры KV-cache. В ходе обширных оценок на бенчмарке RULER для длинных контекстов с широко используемыми LLM (например, Llama-3.1 и Qwen2.5) xKV достигает сжатия до 6.8 раз выше, чем современные межслойные методы, при этом повышая точность на 2.7%. Более того, xKV совместим с развивающейся технологией Multi-Head Latent Attention (MLA) (например, DeepSeek-Coder-V2), обеспечивая заметное 3-кратное сжатие на задачах кодирования без потери производительности. Эти результаты подчеркивают мощные возможности и универсальность xKV в решении проблем с памятью при выводе LLM с длинными контекстами. Наш код доступен по адресу: https://github.com/abdelfattah-lab/xKV.

21

FRESA: Прямое восстановление персонализированных скиннированных аватаров по нескольким изображениям
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Mar 24
ByRong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
4
2

Мы представляем новый метод для реконструкции персонализированных 3D-аватаров человека с реалистичной анимацией, используя лишь несколько изображений. Из-за значительных вариаций в формах тела, позах и типах одежды существующие методы в основном требуют часов оптимизации для каждого субъекта на этапе вывода, что ограничивает их практическое применение. В отличие от них, мы обучаем универсальный априорный шаблон на основе более тысячи одетых людей, что позволяет достичь мгновенного генеративного вывода и обобщения с нулевым обучением. В частности, вместо использования общих весов скиннинга для аватара, мы совместно выводим персонализированную форму аватара, веса скиннинга и деформации, зависящие от позы, что эффективно повышает общую геометрическую точность и уменьшает артефакты деформации. Кроме того, для нормализации вариаций поз и устранения связанной неоднозначности между каноническими формами и весами скиннинга, мы разработали процесс 3D-канонизации, который создает пиксельно-выровненные начальные условия, что помогает восстанавливать мелкозернистые геометрические детали. Затем мы предлагаем агрегацию признаков по нескольким кадрам для устойчивого уменьшения артефактов, возникающих при канонизации, и объединения правдоподобного аватара, сохраняющего индивидуальные особенности человека. Наконец, мы обучаем модель в сквозной структуре на крупномасштабном наборе данных, содержащем разнообразных субъектов с высококачественными 3D-сканами. Многочисленные эксперименты показывают, что наш метод обеспечивает более достоверную реконструкцию и анимацию по сравнению с современными подходами и может быть непосредственно обобщен на входные данные, полученные с помощью случайных фотографий с телефона. Страница проекта и код доступны по адресу https://github.com/rongakowang/FRESA.

22

Надежный базовый подход: Многодроновое отслеживание с использованием YOLOv12 и BoT-SORT-ReID
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

Mar 21
ByYu-Hsi Chen
4
5

Обнаружение и отслеживание нескольких беспилотных летательных аппаратов (БПЛА) в тепловизионном видео представляет собой сложную задачу из-за низкого контраста, шумов окружающей среды и малых размеров целей. В данной статье предлагается простой подход для решения задачи многократного отслеживания БПЛА в тепловизионном видео, основанный на последних достижениях в области обнаружения и отслеживания. Вместо использования YOLOv5 с конвейером DeepSORT мы представляем фреймворк для отслеживания, построенный на YOLOv12 и BoT-SORT, дополненный специализированными стратегиями обучения и вывода. Мы оцениваем наш подход, следуя метрикам 4-го Anti-UAV Challenge, и демонстрируем конкурентоспособные результаты. Важно отметить, что мы достигаем высоких показателей без использования усиления контраста или слияния временной информации для обогащения признаков БПЛА, что подчеркивает наш подход как "Сильный Базовый" для задачи многократного отслеживания БПЛА. Мы предоставляем детали реализации, углубленный анализ экспериментов и обсуждение возможных улучшений. Код доступен по адресу https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.

23

Когда слова превосходят зрение: визуально-языковые модели могут самосовершенствоваться через обучение только на тексте для принятия решений, ориентированных на человека
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Mar 21
ByZhe Hu, Jing Li, Yu Yin
4
2

Принятие решений в физическом мире является фундаментальным для ИИ-агентов, действующих в реальных условиях. Хотя визуально-языковые модели (VLM) продвинули эту способность, они все еще испытывают трудности с принятием сложных решений, особенно в ситуациях, ориентированных на человека, которые требуют глубокого анализа человеческих потребностей и ценностей. В данном исследовании мы систематически оцениваем открытые VLM на задачах многомодального принятия решений, ориентированных на человека. Мы обнаруживаем, что языковые модели (LLM), получающие только текстовые описания, неожиданно превосходят свои VLM-аналоги сопоставимого масштаба, обрабатывающие реальные изображения, что указывает на то, что визуальное выравнивание может ограничивать способности VLM. Для решения этой проблемы мы предлагаем новый подход к обучению только на текстовых данных с использованием синтезированных текстов. Этот метод усиливает языковые компоненты VLM и переносит полученные навыки на многомодальный вывод, устраняя необходимость в дорогостоящих парных данных "изображение-текст". Кроме того, мы показываем, что VLM могут достичь значительного улучшения производительности за счет самосовершенствования, используя обучающие данные, сгенерированные их LLM-аналогами, вместо того чтобы полагаться на более крупные учительские модели, такие как GPT-4. Наши результаты устанавливают более эффективный и масштабируемый подход к улучшению способностей VLM в принятии решений, ориентированных на человека, открывая новые пути для оптимизации VLM через механизмы самосовершенствования.

24

Эффективная разработка моделей посредством тонкой настройки трансферного обучения
Efficient Model Development through Fine-tuning Transfer

Mar 25
ByPin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
4
2

Современные крупные языковые модели (LLM) сталкиваются с трудностями в эффективном обновлении, так как каждая новая версия предварительно обученной модели требует повторения дорогостоящих процессов согласования. Эта проблема также актуальна для моделей, специализированных на определённых областях или языках, где тонкая настройка на специализированных данных должна выполняться заново для каждого нового релиза базовой модели. В данной работе мы исследуем перенос обновлений тонкой настройки между версиями моделей. В частности, мы извлекаем вектор изменений (diff vector) из одной исходной версии модели, который отражает изменения весов в результате тонкой настройки, и применяем его к базовой модели другой целевой версии. Эмпирические оценки на различных версиях моделей с открытыми весами показывают, что перенос векторов изменений может значительно улучшить целевую базовую модель, часто достигая производительности, сравнимой с её тонко настроенным аналогом. Например, повторное использование обновлений тонкой настройки от Llama 3.0 8B приводит к абсолютному улучшению точности на 10,7% на GPQA по сравнению с базовой Llama 3.1 8B без дополнительного обучения, превосходя Llama 3.1 8B Instruct. В контексте разработки многоязычных моделей мы показываем, что этот подход может значительно повысить производительность на задачах целевого языка без повторного обучения, достигая абсолютного улучшения на 4,7% и 15,5% на Global MMLU для малагасийского и турецкого языков соответственно по сравнению с Llama 3.1 8B Instruct. Наши контролируемые эксперименты показывают, что перенос тонкой настройки наиболее эффективен, когда исходная и целевая модели линейно связаны в пространстве параметров. Кроме того, мы демонстрируем, что перенос тонкой настройки предоставляет более сильную и вычислительно эффективную отправную точку для дальнейшей тонкой настройки. Наконец, мы предлагаем итеративный подход "переработка-затем-тонкая настройка" для непрерывной разработки моделей, который улучшает как эффективность, так и результативность. Наши результаты свидетельствуют о том, что перенос тонкой настройки является жизнеспособной стратегией для снижения затрат на обучение при сохранении производительности модели.

25

К созданию унифицированной фундаментальной модели Copernicus для задач компьютерного зрения в области изучения Земли
Towards a Unified Copernicus Foundation Model for Earth Vision

Mar 14
ByYi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu
4
3

Достижения в области базовых моделей для наблюдения Земли (EO) раскрыли потенциал больших спутниковых данных для изучения общих представлений из космоса, что приносит пользу широкому спектру важных для нашей планеты прикладных задач. Однако большинство существующих разработок ограничиваются фиксированными спектральными сенсорами, сосредотачиваются исключительно на поверхности Земли и упускают ценную метаинформацию, выходящую за рамки изображений. В данной работе мы делаем шаг к созданию базовых моделей EO следующего поколения, предлагая три ключевых компонента: 1) Copernicus-Pretrain — масштабный набор данных для предварительного обучения, объединяющий 18,7 млн согласованных изображений со всех основных миссий Copernicus Sentinel, охватывающих как поверхность Земли, так и её атмосферу; 2) Copernicus-FM — унифицированная базовая модель, способная обрабатывать любые спектральные и неспектральные сенсорные модальности с использованием расширенных динамических гиперсетей и гибкого кодирования метаданных; и 3) Copernicus-Bench — систематический эталонный тест с 15 иерархическими прикладными задачами, начиная с предварительной обработки и заканчивая специализированными приложениями для каждой миссии Sentinel. Наш набор данных, модель и эталонный тест значительно повышают масштабируемость, универсальность и мультимодальную адаптивность базовых моделей EO, а также создают новые возможности для объединения исследований в области наблюдения Земли, погоды и климата. Коды, наборы данных и модели доступны по адресу https://github.com/zhu-xlab/Copernicus-FM.

26

OpenCity3D: Что знают модели "зрение-язык" о городской среде?
OpenCity3D: What do Vision-Language Models know about Urban Environments?

Mar 21
ByValentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
3
2

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительный потенциал для понимания 3D-сцен, однако их применение в основном ограничивается внутренними пространствами или задачами автономного вождения, сосредоточенными на низкоуровневых задачах, таких как сегментация. В данной работе мы расширяем их использование до городских масштабов, используя 3D-реконструкции на основе многовидовой аэрофотосъемки. Мы предлагаем OpenCity3D — подход, который решает высокоуровневые задачи, такие как оценка плотности населения, классификация возраста зданий, прогнозирование стоимости недвижимости, оценка уровня преступности и анализ шумового загрязнения. Наши результаты подчеркивают впечатляющие возможности OpenCity3D в условиях zero-shot и few-shot, демонстрируя адаптивность к новым контекстам. Это исследование устанавливает новую парадигму для анализа городской среды с использованием языковых моделей, открывая возможности для применения в планировании, разработке политики и экологическом мониторинге. Подробнее на странице проекта: opencity3d.github.io.

27

Any6D: Безмодельное 6D-оценивание позы новых объектов
Any6D: Model-free 6D Pose Estimation of Novel Objects

Mar 24
ByTaeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon
3
2

Мы представляем Any6D — метод оценки 6D позы объектов, не требующий предварительного обучения модели и использующий всего одно RGB-D изображение-якорь для оценки как 6D позы, так и размеров неизвестных объектов в новых сценах. В отличие от существующих подходов, которые полагаются на текстурированные 3D-модели или множественные точки обзора, Any6D применяет совместный процесс выравнивания объектов для улучшения 2D-3D соответствия и оценки метрического масштаба, что повышает точность определения позы. Наш подход интегрирует стратегию рендеринга и сравнения для генерации и уточнения гипотез поз, обеспечивая устойчивую работу в условиях окклюзий, непересекающихся видов, разнообразного освещения и значительных различий между средами. Мы оцениваем наш метод на пяти сложных наборах данных: REAL275, Toyota-Light, HO3D, YCBINEOAT и LM-O, демонстрируя его эффективность и значительное превосходство над современными методами оценки позы новых объектов. Страница проекта: https://taeyeop.com/any6d.

28

LLaVAction: оценка и обучение мультимодальных больших языковых моделей для распознавания действий
LLaVAction: evaluating and training multi-modal large language models for action recognition

Mar 24
ByShaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
3
2

Понимание человеческого поведения требует измерения поведенческих действий. Ввиду своей сложности, поведение лучше всего отображать на богатую семантическую структуру, такую как язык. Недавнее развитие мультимодальных больших языковых моделей (MLLMs) представляет собой многообещающий подход для широкого спектра задач понимания действий. В данной работе мы сосредоточились на оценке и последующем улучшении MLLMs для выполнения задач распознавания действий. Мы переформулировали EPIC-KITCHENS-100, один из крупнейших и наиболее сложных наборов данных эгоцентричных действий, в форму множественного видео-вопроса (EPIC-KITCHENS-100-MQA). Мы показываем, что при использовании сложных неправильных ответов в качестве отвлекающих факторов, ведущие MLLMs испытывают трудности с распознаванием правильных действий. Мы предлагаем ряд методов, которые значительно улучшают способность MLLMs выполнять распознавание действий, достигая наилучших результатов на валидационном наборе EPIC-KITCHENS-100, а также превосходя GPT-4o на 21 процентный пункт по точности на EPIC-KITCHENS-100-MQA. Наконец, мы демонстрируем улучшения на других видео-бенчмарках, связанных с действиями, таких как EgoSchema, PerceptionTest, LongVideoBench, VideoMME и MVBench, что свидетельствует о перспективности MLLMs для сложных задач, связанных с действиями. Код и модели доступны по адресу: https://github.com/AdaptiveMotorControlLab/LLaVAction.

29

Могут ли модели "зрение-язык" отвечать на вопросы лицом к лицу в реальном мире?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Mar 25
ByReza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
2
2

Модели ИИ в последние годы достигли значительных успехов в способности описывать и отвечать на вопросы о реальных изображениях. Они также продвинулись в возможности вести диалог с пользователями в реальном времени с использованием аудиовхода. Это поднимает вопрос: достигли ли мы точки, где модели ИИ, подключенные к камере и микрофону, могут общаться с пользователями в реальном времени о сценах и событиях, которые разворачиваются перед камерой? Это долгосрочная цель в области ИИ и необходимое условие для того, чтобы ассистенты на основе ИИ и человекоподобные роботы могли взаимодействовать с людьми в повседневных ситуациях. В данной работе мы представляем новый набор данных и эталонный тест — Interactive Video Dataset (IVD) от Qualcomm, который позволяет оценить, в какой степени существующие модели способны поддерживать эти функции, и насколько эти возможности могут быть улучшены с помощью тонкой настройки. Набор данных основан на простой схеме вопросов и ответов, где пользователи задают вопросы, на которые система должна отвечать в реальном времени на основе данных с камеры и аудиовхода. Мы показываем, что существующие модели значительно отстают от человеческой производительности в этой задаче, и определяем основные причины этого отставания. Однако мы также демонстрируем, что для многих необходимых перцептивных навыков тонкая настройка на таких данных может существенно сократить этот разрыв.

30

Преодоление несоответствия словарного запаса: Моделирование языка с использованием словарно-независимого учителя
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

Mar 24
ByHaebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
2
2

Использование крупных моделей-учителей для обучения более компактных моделей-учеников стало преобладающей парадигмой для эффективного и результативного обучения. Однако несоответствия в словарях между моделями языка учителя и ученика создают значительные трудности в моделировании языка, приводя к расходящимся последовательностям токенов и распределениям выходных данных. Чтобы преодолеть эти ограничения, мы предлагаем Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) — новый подход, который устраняет разрыв, вызванный несоответствием словарей, с помощью двух ключевых методов: (1) Лексическое выравнивание на уровне токенов, которое согласовывает последовательности токенов в несовпадающих словарях, и (2) Потеря с учетом учителя, которая использует потери модели-учителя для эффективного обучения модели-ученика. Мы демонстрируем эффективность этого подхода в моделировании языка на примере модели-ученика с 1 миллиардом параметров, обученной с использованием различных моделей-учителей с 7 миллиардами параметров и разными словарями. Примечательно, что с моделью Qwen2.5-Math-Instruct, словарь которой совпадает с TinyLlama лишь на 6%, VocAgnoLM достигает улучшения производительности на 46% по сравнению с наивным продолжением предобучения. Кроме того, мы показываем, что VocAgnoLM стабильно выигрывает от использования более мощных моделей-учителей, предлагая надежное решение проблемы несоответствия словарей в моделировании языка.

31

ST-VLM: Кинематическая настройка инструкций для пространственно-временного анализа в визуально-языковых моделях
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models

Mar 25
ByDohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
2
1

Пространственно-временное рассуждение играет ключевую роль в понимании реальных сред в различных областях, таких как автономное вождение и спортивная аналитика. Последние достижения улучшили способность моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), к пространственному рассуждению за счет использования крупномасштабных данных, однако эти модели по-прежнему испытывают трудности с анализом кинематических элементов, таких как пройденное расстояние и скорость движущихся объектов. Чтобы устранить этот пробел, мы создали набор данных и эталонный тест для пространственно-временного рассуждения с использованием кинематической настройки инструкций, названные STKit и STKit-Bench. Они включают реальные видео с 3D-аннотациями, детализирующими динамику движения объектов: пройденное расстояние, скорость, направление движения, сравнение расстояний между объектами и относительное направление движения. Для масштабирования создания таких данных на видео без 3D-меток мы предлагаем автоматизированный процесс генерации псевдо-меток с использованием 4D-реконструкции в реальном масштабе. С помощью наших данных для кинематической настройки инструкций в пространственно-временном рассуждении мы представляем ST-VLM — модель VLM, улучшенную для пространственно-временного рассуждения, которая демонстрирует выдающуюся производительность на STKit-Bench. Кроме того, мы показываем, что ST-VLM успешно обобщает знания в различных областях и задачах, превосходя базовые модели на других пространственно-временных тестах (например, ActivityNet, TVQA+). Наконец, интегрируя изученное пространственно-временное рассуждение с существующими способностями, ST-VLM позволяет выполнять сложное многошаговое рассуждение. Страница проекта: https://ikodoh.github.io/ST-VLM.

32

Частотно-динамическая свертка для плотного предсказания изображений
Frequency Dynamic Convolution for Dense Image Prediction

Mar 24
ByLinwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
2
2

Хотя динамическая свертка (DY-Conv) демонстрирует многообещающие результаты благодаря адаптивному выбору весов через использование нескольких параллельных весов, объединенных с механизмом внимания, частотные характеристики этих весов часто оказываются схожими, что приводит к высоким затратам на параметры при ограниченной адаптируемости. В данной работе мы представляем частотную динамическую свертку (FDConv) — новый подход, который устраняет эти ограничения путем обучения фиксированного бюджета параметров в частотной области. FDConv разделяет этот бюджет на группы, основанные на частоте, с непересекающимися индексами Фурье, что позволяет создавать веса с разнообразными частотными характеристиками без увеличения затрат на параметры. Для дальнейшего повышения адаптируемости мы предлагаем модуляцию пространства ядра (KSM) и модуляцию частотных полос (FBM). KSM динамически регулирует частотные характеристики каждого фильтра на пространственном уровне, в то время как FBM разлагает веса на отдельные частотные полосы в частотной области и динамически модулирует их на основе локального содержимого. Многочисленные эксперименты в задачах детекции объектов, сегментации и классификации подтверждают эффективность FDConv. Мы показываем, что при применении к ResNet-50 FDConv достигает превосходных результатов с умеренным увеличением параметров на +3,6M, превосходя предыдущие методы, требующие значительного увеличения бюджета параметров (например, CondConv +90M, KW +76,5M). Более того, FDConv легко интегрируется в различные архитектуры, включая ConvNeXt и Swin-Transformer, предлагая гибкое и эффективное решение для современных задач компьютерного зрения. Код доступен по адресу https://github.com/Linwei-Chen/FDConv.

33

LPOSS: Распространение меток по патчам и пикселям для семантической сегментации с открытым словарём
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

Mar 25
ByVladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
1
2

Мы предлагаем метод для семантической сегментации с открытым словарём, не требующий обучения, с использованием моделей, объединяющих зрение и язык (Vision-and-Language Models, VLMs). Наш подход улучшает начальные предсказания на уровне отдельных патчей, полученные с помощью VLMs, за счёт распространения меток, которое совместно оптимизирует предсказания, учитывая отношения между патчами. Поскольку VLMs в основном оптимизированы для кросс-модального согласования, а не для внутримодального сходства, мы используем модель зрения (Vision Model, VM), которая, как было замечено, лучше захватывает такие отношения. Мы устраняем ограничения разрешения, присущие патч-ориентированным энкодерам, применяя распространение меток на уровне пикселей в качестве этапа уточнения, что значительно повышает точность сегментации вблизи границ классов. Наш метод, названный LPOSS+, выполняет вывод на всём изображении, избегая обработки по окнам и тем самым учитывая контекстные взаимодействия по всему изображению. LPOSS+ демонстрирует наилучшие результаты среди методов, не требующих обучения, на разнообразных наборах данных. Код: https://github.com/vladan-stojnic/LPOSS

34

Co-SemDepth: Быстрое совместное семантическое сегментирование и оценка глубины на аэрофотоснимках
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

Mar 23
ByYara AlaaEldin, Francesca Odone
0
2

Понимание геометрических и семантических свойств сцены является крайне важным для автономной навигации и представляет особую сложность в случае навигации беспилотных летательных аппаратов (БПЛА). Такая информация может быть получена путем оценки карт глубины и семантической сегментации окружающей среды, а для их практического использования в автономной навигации этот процесс должен выполняться максимально близко к реальному времени. В данной работе мы используем монокулярные камеры на борту аэророботов для предсказания карт глубины и семантики в неструктурированных средах на малых высотах. Мы предлагаем совместную архитектуру глубокого обучения, которая способна выполнять обе задачи точно и быстро, и подтверждаем ее эффективность на эталонных наборах данных MidAir и Aeroscapes. Наша совместная архитектура демонстрирует конкурентоспособность или превосходство по сравнению с другими методами, как отдельными, так и совместными, при этом выполняя задачи быстро, предсказывая 20,2 кадра в секунду на одной видеокарте NVIDIA Quadro P5000, и имеет низкий объем потребляемой памяти. Все коды для обучения и предсказания доступны по ссылке: https://github.com/Malga-Vision/Co-SemDepth.

Mar 25
Mar 26
Mar 27