Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Когда меньше — достаточно: адаптивное сокращение токенов для эффективного представления изображений
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

Mar 20

ByEduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov

Визуальные энкодеры обычно генерируют большое количество визуальных токенов, предоставляя информационно насыщенные представления, но значительно увеличивая вычислительные затраты. Это поднимает вопрос о том, все ли сгенерированные токены одинаково ценны или некоторые из них можно отбросить для снижения вычислительных затрат без ущерба для качества. В данной статье мы представляем новый метод определения полезности признаков, основанный на идее, что менее ценные признаки могут быть восстановлены из более ценных. Мы реализуем эту концепцию, интегрируя автоэнкодер с механизмом выбора Gumbel-Softmax, который позволяет идентифицировать и сохранять только наиболее информативные визуальные токены. Для проверки нашего подхода мы сравнили производительность модели LLaVA-NeXT, использующей признаки, отобранные нашим методом, с признаками, выбранными случайным образом. Мы обнаружили, что в задачах, основанных на оптическом распознавании символов (OCR), более 50% визуального контекста можно удалить с минимальной потерей производительности, тогда как случайное удаление того же количества признаков значительно снижает возможности модели. Кроме того, в задачах общего назначения даже случайное сохранение только 30% токенов позволяет достичь производительности, сравнимой с использованием полного набора визуальных токенов. Наши результаты указывают на перспективное направление адаптивного и эффективного мультимодального сокращения, которое способствует масштабируемому и низкозатратному выводу без ущерба для производительности.

MAPS: Многоагентная структура, основанная на модели "Большой семерки" личностных черт и сократовском наставничестве для решения мультимодальных научных задач
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Mar 21

ByJian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu

Мультимодальные научные задачи (MSPs) представляют собой сложные проблемы, требующие интеграции нескольких модальностей, таких как текст и диаграммы, что создает значительные трудности в области искусственного интеллекта. Хотя прогресс был достигнут в решении традиционных научных задач, MSPs по-прежнему сталкиваются с двумя основными проблемами: сложностью многомодального комплексного рассуждения в процессе решения научных задач и отсутствием рефлексивных и переосмысливающих способностей. Для решения этих проблем мы представляем мультиагентную структуру, основанную на модели "Большой семерки" личности и сократовском руководстве (MAPS). Эта структура использует семь различных агентов, которые применяют механизмы обратной связи и сократовский метод для руководства процессом решения MSPs. Для решения первой проблемы мы предлагаем прогрессивную стратегию решения с участием четырех агентов, где каждый агент сосредоточен на определенном этапе процесса решения задачи. Для второй проблемы мы вводим агента-критика, вдохновленного сократовским методом вопросов, который стимулирует критическое мышление и способствует автономному обучению. Мы проводим обширные эксперименты на наборах данных EMMA, Olympiad и MathVista, достигая впечатляющих результатов, которые превосходят текущую модель SOTA на 15,84% по всем задачам. Дополнительные аналитические эксперименты также подтверждают прогресс модели и ее способность к обобщению.

Всесторонний обзор моделирования языка с длинным контекстом
A Comprehensive Survey on Long Context Language Modeling

Mar 20

ByJiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang

Эффективная обработка длинных контекстов остается важной задачей в области обработки естественного языка. С увеличением количества длинных документов, диалогов и других текстовых данных становится необходимым разработка моделей языка с длинным контекстом (Long Context Language Models, LCLMs), способных эффективно и результативно обрабатывать и анализировать обширные входные данные. В данной статье представлен всесторонний обзор последних достижений в области моделирования длинного контекста для крупных языковых моделей. Наш обзор структурирован вокруг трех ключевых аспектов: как получить эффективные и производительные LCLMs, как эффективно обучать и развертывать LCLMs, а также как всесторонне оценивать и анализировать LCLMs. В рамках первого аспекта обсуждаются стратегии работы с данными, архитектурные решения и подходы к процессам, ориентированные на обработку длинного контекста. Для второго аспекта приводится детальный анализ инфраструктуры, необходимой для обучения и вывода LCLMs. В третьем аспекте представлены парадигмы оценки понимания длинного контекста и генерации длинных текстов, а также поведенческий анализ и интерпретируемость механизмов LCLMs. Помимо этих трех ключевых аспектов, мы подробно исследуем разнообразные сценарии применения, в которых уже используются существующие LCLMs, и намечаем перспективные направления для будущего развития. Этот обзор представляет собой актуальный анализ литературы по LCLMs, который, как мы надеемся, станет ценным ресурсом для исследователей и инженеров. Связанный репозиторий на GitHub, содержащий последние статьи и репозитории, доступен по адресу: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.

MARS: Многоагентная структура с использованием сократовского подхода для автоматической оптимизации промптов
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

Mar 21

ByJian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria

Базовый формат вопрос-ответ в больших языковых моделях предполагает ввод промта и получение ответа, при этом качество промта напрямую влияет на эффективность ответа. Автоматическая оптимизация промтов (Automated Prompt Optimization, APO) стремится освободиться от когнитивных искажений, присущих ручному проектированию промтов, и исследует более широкое пространство их дизайна. Однако существующие методы APO сталкиваются с ограниченной гибкостью фиксированных шаблонов и неэффективным поиском в пространстве промтов как ключевыми проблемами. В связи с этим мы предлагаем фреймворк Multi-Agent framework Incorporating Socratic guidance (MARS), который использует технологию мультиагентного слияния для автоматического планирования с постепенной непрерывной оптимизацией и оценкой. В частности, MARS состоит из семи агентов, каждый из которых выполняет уникальные функции и автономно использует Planner для разработки гибкого пути оптимизации. Кроме того, он применяет диалоговую модель "Учитель-Критик-Ученик" в духе Сократа для итеративной оптимизации промтов и эффективного поиска. Мы проводим обширные эксперименты на различных наборах данных для проверки эффективности нашего метода, а также выполняем дополнительные аналитические эксперименты для оценки прогресса модели и её интерпретируемости.

RoboFactory: Исследование взаимодействия воплощенных агентов с композиционными ограничениями
RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Mar 20

ByYiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai

Разработка эффективных воплощенных мультиагентных систем имеет решающее значение для решения сложных задач реального мира в различных областях. Из-за сложности таких систем существующие методы не способны автоматически генерировать безопасные и эффективные обучающие данные. В связи с этим мы предлагаем концепцию композиционных ограничений для воплощенных мультиагентных систем, направленную на решение проблем, возникающих при взаимодействии воплощенных агентов. Мы разрабатываем различные интерфейсы, адаптированные под разные типы ограничений, что обеспечивает беспрепятственное взаимодействие с физическим миром. Используя композиционные ограничения и специально разработанные интерфейсы, мы создаем автоматизированную систему сбора данных для воплощенных мультиагентных систем и представляем первый бенчмарк для манипуляций в таких системах — RoboFactory. На основе бенчмарка RoboFactory мы адаптируем и оцениваем метод обучения с подражанием, анализируя его производительность в задачах различной сложности. Кроме того, мы исследуем архитектуры и стратегии обучения для мультиагентного обучения с подражанием, стремясь создать безопасные и эффективные воплощенные мультиагентные системы.

Модификация крупных языковых моделей после обучения для разнообразного творческого письма
Modifying Large Language Model Post-Training for Diverse Creative Writing

Mar 21

ByJohn Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski

Поскольку задачи творческого письма не имеют единственно правильных ответов, крупные языковые модели (LLMs), обученные для выполнения этих задач, должны быть способны генерировать разнообразные допустимые результаты. Однако пост-обучение LLM часто сосредоточено на улучшении качества генерации, но упускает из виду необходимость обеспечения разнообразия выходных данных. Поэтому в генерации творческого письма мы исследуем подходы пост-обучения, направленные на повышение как разнообразия, так и качества выходных данных. Наша ключевая идея заключается во включении отклонения — степени различия между обучающим образцом и всеми другими образцами с тем же запросом — в целевую функцию обучения, чтобы облегчить обучение на редких высококачественных примерах. Применяя наш подход к оптимизации прямых предпочтений (DPO) и оптимизации предпочтений на основе отношения шансов (ORPO), мы демонстрируем, что можем повысить разнообразие выходных данных обученных моделей при минимальном снижении качества. Наша лучшая модель с 8 миллиардами параметров смогла достичь уровня разнообразия, сопоставимого с набором данных, созданным людьми, при этом качество выходных данных было аналогично лучшим моделям с настройкой на инструкции, которые мы исследовали, — GPT-4o и DeepSeek-R1. Мы дополнительно подтверждаем наши подходы с помощью человеческой оценки, абляции и сравнения с существующим подходом к диверсификации, DivPO.

Соединение непрерывных и дискретных токенов для авторегрессивной генерации визуальных данных
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Mar 20

ByYuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu

Авторегрессионные модели визуальной генерации обычно полагаются на токенизаторы для сжатия изображений в токены, которые могут быть предсказаны последовательно. Существует фундаментальная дилемма в представлении токенов: дискретные токены позволяют простое моделирование с использованием стандартной кросс-энтропийной функции потерь, но страдают от потери информации и нестабильности обучения токенизатора; непрерывные токены лучше сохраняют визуальные детали, но требуют сложного моделирования распределений, что усложняет процесс генерации. В данной работе мы предлагаем TokenBridge, который устраняет этот разрыв, сохраняя мощную способность представления непрерывных токенов при этом поддерживая простоту моделирования дискретных токенов. Для достижения этого мы разделяем процесс дискретизации и обучения токенизатора через пост-обученную квантование, которая напрямую получает дискретные токены из непрерывных представлений. В частности, мы вводим стратегию покомпонентного квантования, которая независимо дискретизирует каждую размерность признаков, в сочетании с легковесным авторегрессионным механизмом предсказания, эффективно моделирующим получившееся большое пространство токенов. Многочисленные эксперименты показывают, что наш подход достигает качества реконструкции и генерации на уровне непрерывных методов, используя стандартное категориальное предсказание. Эта работа демонстрирует, что объединение дискретных и непрерывных парадигм может эффективно использовать преимущества обоих подходов, предоставляя перспективное направление для высококачественной визуальной генерации с простым авторегрессионным моделированием. Страница проекта: https://yuqingwang1029.github.io/TokenBridge.

TaoAvatar: Реалистичные аватары с полным телом для дополненной реальности в реальном времени с использованием 3D-гауссовского сплайтинга
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Mar 21

ByJianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv

Реалистичные 3D-аватары с полным телом, способные говорить, обладают огромным потенциалом в дополненной реальности (AR), с приложениями, начиная от прямых трансляций в электронной коммерции до голографической коммуникации. Несмотря на прогресс в технологии 3D Gaussian Splatting (3DGS) для создания реалистичных аватаров, существующие методы сталкиваются с трудностями в тонком управлении мимикой и движениями тела в задачах, связанных с полным телом. Кроме того, они часто недостаточно детализированы и не могут работать в реальном времени на мобильных устройствах. Мы представляем TaoAvatar — высококачественный, легковесный 3DGS-аватар с полным телом, управляемый различными сигналами. Наш подход начинается с создания персонализированного параметрического шаблона одетого человека, который связывает гауссовы распределения для представления внешнего вида. Затем мы предварительно обучаем сеть на основе StyleUnet для обработки сложных нежестких деформаций, зависящих от позы, что позволяет захватывать высокочастотные детали внешнего вида, но требует слишком много ресурсов для мобильных устройств. Чтобы преодолеть это, мы "запекаем" нежесткие деформации в легковесную сеть на основе MLP с использованием техники дистилляции и разрабатываем blend shapes для компенсации деталей. Многочисленные эксперименты показывают, что TaoAvatar достигает наивысшего качества рендеринга, работая в реальном времени на различных устройствах, поддерживая 90 кадров в секунду на устройствах с высоким разрешением, таких как Apple Vision Pro.

OpenVLThinker: Первые шаги в сложном визуально-языковом рассуждении через итеративное самоусовершенствование
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

Mar 21

ByYihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

Недавние достижения, продемонстрированные моделью DeepSeek-R1, показали, что сложные способности к рассуждению в больших языковых моделях (LLM), включая такие сложные поведения, как самопроверка и самокоррекция, могут быть достигнуты с помощью обучения с подкреплением (RL) с верифицируемыми наградами, что значительно улучшает производительность модели на сложных задачах, таких как AIME. Вдохновленные этими результатами, наше исследование изучает, могут ли аналогичные способности к рассуждению быть успешно интегрированы в большие визуально-языковые модели (LVLM), и оценивает их влияние на сложные задачи мультимодального рассуждения. Мы рассматриваем подход, который итеративно использует контролируемую тонкую настройку (SFT) на легковесных данных обучения и обучение с подкреплением (RL) для дальнейшего улучшения обобщения модели. Изначально способности к рассуждению были извлечены из чисто текстовых моделей R1 путем генерации шагов рассуждения с использованием высококачественных описаний изображений, полученных из разнообразных визуальных наборов данных. Впоследствии итеративное обучение RL дополнительно улучшило навыки рассуждения, причем каждая итерация RL-улучшенной модели генерировала уточненные наборы данных SFT для следующего раунда. Этот итеративный процесс привел к созданию OpenVLThinker, LVLM, демонстрирующей стабильно улучшенную производительность на сложных тестах, таких как MathVista, MathVerse и MathVision, что подчеркивает потенциал нашей стратегии для надежного визуально-языкового рассуждения. Код, модель и данные доступны по адресу https://github.com/yihedeng9/OpenVLThinker.

MathFlow: Улучшение перцептивного потока MLLM для визуальных математических задач
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

Mar 19

ByFelix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang

Несмотря на впечатляющие результаты в решении разнообразных задач, мультимодальные большие языковые модели (MLLMs) пока не полностью раскрыли свой потенциал в решении визуальных математических задач, особенно в точном восприятии и интерпретации диаграмм. Вдохновленные типичными процессами, используемыми людьми, мы предполагаем, что способность извлекать значимую информацию из диаграмм имеет решающее значение, так как она напрямую влияет на последующие процессы логического вывода. Чтобы проверить эту гипотезу, мы разработали FlowVerse — комплексный бенчмарк, который классифицирует всю информацию, используемую при решении задач, на четыре компонента, которые затем объединяются в шесть версий задач для оценки. Наши предварительные результаты на FlowVerse показывают, что существующие MLLMs демонстрируют существенные ограничения в извлечении ключевой информации и логических свойств из диаграмм, а также в выполнении сложных рассуждений на основе этих визуальных данных. В ответ на это мы представляем MathFlow — модульный конвейер решения задач, который разделяет восприятие и логический вывод на отдельные этапы, оптимизируя каждый из них независимо. Учитывая наблюдаемые ограничения в восприятии у современных MLLMs, мы обучили MathFlow-P-7B как специализированную модель восприятия. Экспериментальные результаты показывают, что MathFlow-P-7B обеспечивает значительное улучшение производительности при интеграции с различными закрытыми и открытыми моделями логического вывода. Это демонстрирует эффективность конвейера MathFlow и его совместимость с разнообразными фреймворками логического вывода. Бенчмарк FlowVerse и код доступны по адресу https://github.com/MathFlow-zju/MathFlow.

Обеспечение универсального управления моделями диффузии видео
Enabling Versatile Controls for Video Diffusion Models

Mar 21

ByXu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu

Несмотря на значительный прогресс в генерации видео из текста, достижение точного и гибкого контроля над детализированными пространственно-временными атрибутами остается важной нерешенной задачей в исследованиях по генерации видео. Для преодоления этих ограничений мы представляем VCtrl (также называемый PP-VCtrl) — новую архитектуру, предназначенную для обеспечения детализированного контроля над предобученными моделями диффузии видео в унифицированном формате. VCtrl интегрирует разнообразные пользовательские управляющие сигналы, такие как границы Канни, маски сегментации и ключевые точки человека, в предобученные модели диффузии видео с помощью обобщаемого условного модуля, способного единообразно кодировать различные типы вспомогательных сигналов без изменения базового генератора. Кроме того, мы разработали унифицированный конвейер кодирования управляющих сигналов и механизм разреженных остаточных связей для эффективного включения управляющих представлений. Комплексные эксперименты и оценки пользователей демонстрируют, что VCtrl значительно повышает управляемость и качество генерации. Исходный код и предобученные модели доступны публично и реализованы с использованием фреймворка PaddlePaddle по адресу http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Итеративная генерация и редактирование на основе одного изображения с учетом объекта
Single Image Iterative Subject-driven Generation and Editing

Mar 20

ByYair Shpitzer, Gal Chechik, Idan Schwartz

Персонализация генерации и редактирования изображений представляет особую сложность, когда у нас есть лишь несколько изображений объекта или даже одно изображение. Распространённый подход к персонализации — это обучение концепции, которое позволяет относительно быстро интегрировать объект в существующие модели, но качество изображений быстро ухудшается при малом количестве изображений объекта. Качество можно улучшить за счёт предварительного обучения энкодера, однако обучение ограничивает генерацию распределением данных, использованных при обучении, и требует значительных временных затрат. Персонализация генерации и редактирования изображений на основе одного изображения без обучения остаётся сложной и нерешённой задачей. В данной работе мы представляем SISO — новый подход, не требующий обучения, основанный на оптимизации показателя сходства с входным изображением объекта. В частности, SISO итеративно генерирует изображения и оптимизирует модель на основе потери сходства с заданным изображением объекта до достижения удовлетворительного уровня сходства, что позволяет использовать метод для оптимизации любого генератора изображений по принципу "подключи и работай". Мы оценили SISO в двух задачах — редактировании и генерации изображений — на разнообразном наборе данных с персонализированными объектами и продемонстрировали значительное улучшение качества изображений, точности передачи объекта и сохранения фона по сравнению с существующими методами.

ETVA: Оценка согласованности текста и видео через генерацию и ответы на детализированные вопросы
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Mar 21

ByKaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song

Точная оценка семантического соответствия между текстовыми запросами и сгенерированными видео остается сложной задачей в области генерации видео по тексту (Text-to-Video, T2V). Существующие метрики оценки соответствия текста и видео, такие как CLIPScore, предоставляют лишь грубые оценки без детализированной информации о соответствии, что не согласуется с человеческими предпочтениями. Для устранения этого ограничения мы предлагаем ETVA — новый метод оценки соответствия текста и видео через генерацию и ответы на детализированные вопросы. Сначала многоагентная система анализирует запросы, преобразуя их в семантические графы сцен, чтобы генерировать атомарные вопросы. Затем мы разрабатываем многоступенчатую систему рассуждений, дополненную знаниями, для ответов на вопросы, где вспомогательная языковая модель (LLM) сначала извлекает релевантные общеизвестные знания (например, физические законы), а затем видео-LLM отвечает на сгенерированные вопросы с помощью многоступенчатого механизма рассуждений. Многочисленные эксперименты показывают, что ETVA достигает коэффициента корреляции Спирмена 58.47, что значительно выше корреляции с человеческими суждениями по сравнению с существующими метриками, которые достигают лишь 31.0. Мы также создаем комплексный бенчмарк, специально разработанный для оценки соответствия текста и видео, включающий 2k разнообразных запросов и 12k атомарных вопросов, охватывающих 10 категорий. Систематическая оценка 15 существующих моделей генерации видео по тексту позволяет выявить их ключевые возможности и ограничения, прокладывая путь для следующего поколения T2V-генерации.

FastCuRL: Обучение с подкреплением на основе учебного плана с прогрессивным расширением контекста для эффективного обучения моделей рассуждений, подобных R1
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

Mar 21

ByMingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang

В данной статье мы представляем \textsc{FastCuRL} — простой, но эффективный подход к обучению с подкреплением на основе учебного плана (Curriculum Reinforcement Learning) с использованием стратегии расширения контекстного окна для ускорения эффективности обучения моделей, подобных R1, в задачах сложного рассуждения с длинными цепочками мыслей, особенно для языковой модели с 1,5 миллиардами параметров. \textsc{FastCuRL} состоит из двух основных процедур: сегментации обучающих данных с учетом длины и обучения с расширением контекстного окна. В частности, первая процедура сначала разделяет исходные обучающие данные на три уровня в зависимости от длины входного промта, а затем вторая процедура использует сегментированные наборы данных с постепенно увеличивающейся длиной контекстного окна для обучения модели рассуждений. Экспериментальные результаты показывают, что \textsc{FastCuRL}-1.5B-Preview превосходит DeepScaleR-1.5B-Preview на всех пяти наборах данных (включая MATH 500, AIME 2024, AMC 2023, Minerva Math и OlympiadBench), используя при этом только 50\% шагов обучения. Более того, все этапы обучения для FastCuRL-1.5B-Preview выполняются на одном узле с 8 графическими процессорами.

Могут ли крупные визуально-языковые модели читать карты как человек?
Can Large Vision Language Models Read Maps Like a Human?

Mar 18

ByShuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu

В данной статье мы представляем MapBench — первый набор данных, специально разработанный для удобочитаемой, пиксельной навигации на основе карт в условиях открытой местности, созданный на основе сложных сценариев поиска пути. MapBench включает более 1600 задач поиска пути в пиксельном пространстве на 100 разнообразных картах. В MapBench модели LVLM (Large Vision-Language Models) генерируют текстовые инструкции для навигации на основе изображения карты и запроса с указанием начальной и конечной точек. Для каждой карты MapBench предоставляет Map Space Scene Graph (MSSG) в качестве структуры данных для индексации, которая позволяет преобразовывать естественный язык и оценивать результаты, сгенерированные LVLM. Мы демонстрируем, что MapBench представляет значительную сложность для современных LVLM как в режиме zero-shot prompting, так и в рамках подхода Chain-of-Thought (CoT), который декомпозирует навигацию по карте на последовательные когнитивные процессы. Наша оценка как открытых, так и закрытых LVLM подчеркивает существенные трудности, создаваемые MapBench, выявляя критические ограничения в их способностях к пространственному мышлению и структурированному принятию решений. Мы публикуем весь код и набор данных по адресу https://github.com/taco-group/MapBench.

От начала до конца: к сбалансированному представлению в крупных моделях обработки зрения и языка через адаптивную калибровку данных
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mar 17

ByMingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Крупные модели, объединяющие зрительное восприятие и язык (Large Vision-Language Models, LVLMs), достигли значительного прогресса в сочетании визуального понимания с генерацией текста. Несмотря на этот успех, данные для обучения LVLMs по-прежнему страдают от проблем "длинного хвоста" (Long-Tail, LT), где распределение данных сильно несбалансировано. Предыдущие работы в основном сосредотачивались на традиционных архитектурах VLM, таких как CLIP или ViT, и конкретных задачах, таких как распознавание и классификация. Однако исследование LVLM (например, LLaVA) и более общих задач (например, визуальный вопросно-ответный анализ и визуальное рассуждение) остается недостаточно изученным. В данной статье мы сначала проводим углубленный анализ проблем LT в LVLMs и выявляем две основные причины: чрезмерное представление "головных" концепций и недостаточное представление "хвостовых" концепций. На основе этих наблюдений мы предлагаем Адаптивную структуру уточнения данных (Adaptive Data Refinement Framework, ADR), которая состоит из двух этапов: Ребалансировка данных (Data Rebalancing, DR) и Синтез данных (Data Synthesis, DS). На этапе DR мы адаптивно перебалансируем избыточные данные на основе распределения сущностей, а на этапе DS используем модели вероятностного диффузионного шумоподавления (Denoising Diffusion Probabilistic Models, DDPMs) и редкие изображения для дополнения недостаточно представленных частей. Благодаря всесторонним оценкам на одиннадцати бенчмарках, предложенная нами ADR эффективно смягчает проблему длинного хвоста в данных обучения, улучшая среднюю производительность LLaVA 1.5 относительно на 4,36%, без увеличения объема данных для обучения.

Скрытые предубеждения в моделях рассуждений
Implicit Bias-Like Patterns in Reasoning Models

Mar 14

ByMessi H. J. Lee, Calvin K. Lai

Неявная предвзятость относится к автоматическим или спонтанным психическим процессам, которые формируют восприятие, суждения и поведение. Предыдущие исследования, изучающие «неявную предвзятость» в больших языковых моделях (LLM), часто подходили к этому явлению иначе, чем при изучении у людей, сосредотачиваясь в основном на выходных данных модели, а не на её внутренних процессах. Для изучения внутренних процессов модели мы представляем метод под названием Тест на неявные ассоциации в моделях рассуждений (RM-IAT), предназначенный для исследования паттернов, схожих с неявной предвзятостью, в моделях рассуждений: LLM, которые используют пошаговые рассуждения для решения сложных задач. С помощью этого метода мы обнаруживаем, что модели рассуждений требуют больше токенов при обработке информации, несовместимой с ассоциациями, по сравнению с информацией, совместимой с ассоциациями. Эти результаты позволяют предположить, что системы ИИ содержат паттерны обработки информации, аналогичные человеческой неявной предвзятости. Мы рассматриваем последствия этих паттернов, схожих с неявной предвзятостью, для их применения в реальных приложениях.

PVChat: Персонализированный видеозвонок с обучением на одном примере
PVChat: Personalized Video Chat with One-Shot Learning

Mar 21

ByYufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo

Видео-ориентированные большие языковые модели (ViLLMs) превосходно справляются с общим пониманием видео, например, распознаванием действий, таких как разговор или прием пищи, но испытывают трудности с идентификацией субъектов, например, в таких случаях, как "Уилсон проходит химиотерапию" или "Том обсуждает что-то с Сарой", что ограничивает их применимость в сферах умного здравоохранения и умного дома. Чтобы устранить это ограничение, мы предлагаем фреймворк PVChat, основанный на обучении с одного примера, — первую персонализированную ViLLM, которая позволяет отвечать на вопросы, учитывающие субъекта, на основе одного видео для каждого субъекта. Наш подход оптимизирует ViLLM, усиленную механизмом Mixture-of-Heads (MoH), на синтетически расширенном наборе данных "видео-вопросы-ответы", используя стратегию прогрессивного обучения от изображений к видео. В частности, мы представляем автоматизированный конвейер аугментации, который синтезирует позитивные образцы с сохранением идентичности и извлекает сложные негативные примеры из существующих видеокорпусов, создавая разнообразный набор данных для обучения с четырьмя типами вопросов: о существовании, внешности, действиях и местоположении. Для улучшения обучения, ориентированного на конкретного субъекта, мы предлагаем механизм внимания ReLU Routing MoH, а также две новые цели: (1) Smooth Proximity Regularization для прогрессивного обучения через экспоненциальное масштабирование расстояния и (2) Head Activation Enhancement для сбалансированного распределения внимания. Наконец, мы применяем двухэтапную стратегию обучения, переходя от предварительного обучения на изображениях к тонкой настройке на видео, что позволяет постепенно переходить от статических атрибутов к динамическим представлениям. Мы оцениваем PVChat на различных наборах данных, охватывающих медицинские сценарии, телесериалы, аниме и реальные видеозаписи, демонстрируя её превосходство в понимании персонализированных характеристик после обучения на одном видео по сравнению с современными ViLLMs.

GAEA: Геолокационно-ориентированная диалоговая модель
GAEA: A Geolocation Aware Conversational Model

Mar 20

ByRon Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah

Геолокализация изображений, в которой традиционно модель ИИ предсказывает точные GPS-координаты изображения, является сложной задачей с множеством прикладных применений. Однако пользователь не может использовать модель для получения дополнительной информации, кроме GPS-координат; модель не обладает пониманием местоположения и способностью вести диалог с пользователем. В последнее время, благодаря значительному прогрессу в области крупных мультимодальных моделей (LMMs), как проприетарных, так и открытых, исследователи предприняли попытки геолокализации изображений с использованием LMMs. Однако проблемы остаются нерешенными; за пределами общих задач, для более специализированных прикладных задач, одной из которых является геолокализация, LMMs испытывают трудности. В данной работе мы предлагаем решить эту проблему, представив диалоговую модель GAEA, которая может предоставлять информацию о местоположении изображения в соответствии с запросами пользователя. Крупномасштабного набора данных, позволяющего обучать такую модель, не существует. Поэтому мы предлагаем всеобъемлющий набор данных GAEA, содержащий 800 тыс. изображений и около 1,6 млн пар вопросов и ответов, созданных с использованием атрибутов OpenStreetMap (OSM) и географических контекстных подсказок. Для количественной оценки мы предлагаем разнообразный бенчмарк, включающий 4 тыс. пар изображение-текст, чтобы оценить диалоговые возможности модели с учетом различных типов вопросов. Мы рассматриваем 11 современных открытых и проприетарных LMMs и демонстрируем, что GAEA значительно превосходит лучшую открытую модель LLaVA-OneVision на 25,69% и лучшую проприетарную модель GPT-4o на 8,28%. Наш набор данных, модель и код доступны.

Когда предпочтения расходятся: согласование диффузионных моделей с адаптивным DPO, учитывающим меньшинства
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO

Mar 21

ByLingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao

В последние годы область генерации изображений достигла значительных успехов, особенно в методах тонкой настройки, которые согласуют модели с универсальными человеческими предпочтениями. В данной статье исследуется ключевая роль данных о предпочтениях в процессе обучения диффузионных моделей, в частности, в контексте Diffusion-DPO и его последующих адаптаций. Мы рассматриваем сложности, связанные с универсальными человеческими предпочтениями в генерации изображений, подчеркивая субъективный характер этих предпочтений и проблемы, возникающие из-за миноритарных образцов в наборах данных о предпочтениях. В ходе пилотных экспериментов мы демонстрируем наличие миноритарных образцов и их негативное влияние на производительность модели. Мы предлагаем Adaptive-DPO — новый подход, который включает метрику, учитывающую миноритарные образцы, в целевую функцию DPO. Эта метрика, включающая внутрианнотаторскую уверенность и межаннотаторскую стабильность, позволяет различать миноритарные и мажоритарные образцы. Мы вводим функцию потерь Adaptive-DPO, которая улучшает функцию потерь DPO двумя способами: усиливает обучение модели на мажоритарных метках и смягчает негативное влияние миноритарных образцов. Наши эксперименты показывают, что этот метод эффективно справляется как с синтетическими миноритарными данными, так и с реальными данными о предпочтениях, прокладывая путь к более эффективным методикам обучения в задачах генерации изображений.

Обобщённая сегментация 3D-облаков точек с малым количеством примеров с использованием визуально-языковой модели
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

Mar 20

ByZhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie

Обобщённая сегментация 3D облаков точек с малым количеством примеров (GFS-PCS) адаптирует модели к новым классам с использованием небольшого числа опорных образцов, сохраняя при этом сегментацию базовых классов. Существующие методы GFS-PCS улучшают прототипы за счёт взаимодействия с признаками опорных или запросных данных, но остаются ограниченными из-за скудности знаний, полученных из малого числа примеров. В то же время 3D модели, объединяющие визуальные и языковые данные (3D VLMs), обобщают знания для новых классов в открытом мире, содержат богатую, но зашумлённую информацию о новых классах. В данной работе мы представляем фреймворк GFS-PCS, который объединяет плотные, но зашумлённые псевдо-метки из 3D VLMs с точными, но редкими примерами с малым количеством образцов, чтобы максимально использовать сильные стороны обоих подходов, названный GFS-VL. В частности, мы предлагаем метод выбора псевдо-меток на основе прототипов для фильтрации низкокачественных областей, за которым следует стратегия адаптивного заполнения, объединяющая знания из контекстов псевдо-меток и примеров с малым количеством образцов для адаптивной маркировки отфильтрованных, немаркированных областей. Кроме того, мы разрабатываем стратегию смешивания новых и базовых классов для встраивания примеров с малым количеством образцов в обучающие сцены, сохраняя важный контекст для улучшения обучения новым классам. Более того, учитывая ограниченное разнообразие в текущих бенчмарках GFS-PCS, мы вводим два сложных бенчмарка с разнообразными новыми классами для всесторонней оценки обобщения. Эксперименты подтверждают эффективность нашего фреймворка на различных моделях и наборах данных. Наш подход и бенчмарки предоставляют прочную основу для продвижения GFS-PCS в реальных условиях. Код доступен по адресу: https://github.com/ZhaochongAn/GFS-VL.

FFaceNeRF: Редактирование лиц с использованием нейронных полей излучения на основе малого числа примеров
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields

Mar 21

ByKwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh

Современные методы редактирования 3D-лиц с использованием масок демонстрируют высокое качество редактированных изображений благодаря применению нейронных полей излучения (NeRF). Несмотря на впечатляющие результаты, существующие подходы часто ограничивают контроль пользователя из-за использования предварительно обученных сегментационных масок. Для работы с масками желаемой компоновки требуется обширный набор данных для обучения, который сложно собрать. Мы представляем FFaceNeRF — метод редактирования лиц на основе NeRF, который преодолевает ограничения в контроле пользователя, связанные с использованием фиксированных компоновок масок. Наш метод использует геометрический адаптер с инъекцией признаков, что позволяет эффективно манипулировать геометрическими атрибутами. Кроме того, мы применяем латентное смешивание для аугментации три-плоскостей, что позволяет обучать модель на небольшом количестве образцов. Это способствует быстрой адаптации модели к желаемым компоновкам масок, что особенно важно для таких областей, как персонализированная медицинская визуализация или творческое редактирование лиц. Сравнительные оценки показывают, что FFaceNeRF превосходит существующие методы редактирования лиц на основе масок по гибкости, контролю и качеству генерируемых изображений, прокладывая путь для будущих достижений в области кастомизированного и высококачественного 3D-редактирования лиц. Код доступен на {https://kwanyun.github.io/FFaceNeRF_page/{странице проекта}}.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Когда меньше — достаточно: адаптивное сокращение токенов для эффективного представления изображений
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

Mar 20

ByEduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov

MAPS: Многоагентная структура, основанная на модели "Большой семерки" личностных черт и сократовском наставничестве для решения мультимодальных научных задач
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Mar 21

ByJian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu

Всесторонний обзор моделирования языка с длинным контекстом
A Comprehensive Survey on Long Context Language Modeling

Mar 20

MARS: Многоагентная структура с использованием сократовского подхода для автоматической оптимизации промптов
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

Mar 21

ByJian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria

RoboFactory: Исследование взаимодействия воплощенных агентов с композиционными ограничениями
RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Mar 20

ByYiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai

Модификация крупных языковых моделей после обучения для разнообразного творческого письма
Modifying Large Language Model Post-Training for Diverse Creative Writing

Mar 21

ByJohn Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski

Соединение непрерывных и дискретных токенов для авторегрессивной генерации визуальных данных
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Mar 20

ByYuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu

TaoAvatar: Реалистичные аватары с полным телом для дополненной реальности в реальном времени с использованием 3D-гауссовского сплайтинга
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Mar 21

ByJianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv

OpenVLThinker: Первые шаги в сложном визуально-языковом рассуждении через итеративное самоусовершенствование
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

Mar 21

ByYihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

MathFlow: Улучшение перцептивного потока MLLM для визуальных математических задач
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

Mar 19

ByFelix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang

Обеспечение универсального управления моделями диффузии видео
Enabling Versatile Controls for Video Diffusion Models

Mar 21

ByXu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu

Итеративная генерация и редактирование на основе одного изображения с учетом объекта
Single Image Iterative Subject-driven Generation and Editing

Mar 20

ByYair Shpitzer, Gal Chechik, Idan Schwartz

ETVA: Оценка согласованности текста и видео через генерацию и ответы на детализированные вопросы
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Mar 21

ByKaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song

FastCuRL: Обучение с подкреплением на основе учебного плана с прогрессивным расширением контекста для эффективного обучения моделей рассуждений, подобных R1
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

Mar 21

ByMingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang

Могут ли крупные визуально-языковые модели читать карты как человек?
Can Large Vision Language Models Read Maps Like a Human?

Mar 18

ByShuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu

От начала до конца: к сбалансированному представлению в крупных моделях обработки зрения и языка через адаптивную калибровку данных
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mar 17

ByMingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Скрытые предубеждения в моделях рассуждений
Implicit Bias-Like Patterns in Reasoning Models

Mar 14

ByMessi H. J. Lee, Calvin K. Lai

PVChat: Персонализированный видеозвонок с обучением на одном примере
PVChat: Personalized Video Chat with One-Shot Learning

Mar 21

ByYufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo

GAEA: Геолокационно-ориентированная диалоговая модель
GAEA: A Geolocation Aware Conversational Model

Mar 20

ByRon Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah

Когда предпочтения расходятся: согласование диффузионных моделей с адаптивным DPO, учитывающим меньшинства
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO

Mar 21

ByLingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao

Обобщённая сегментация 3D-облаков точек с малым количеством примеров с использованием визуально-языковой модели
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

Mar 20

ByZhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie

FFaceNeRF: Редактирование лиц с использованием нейронных полей излучения на основе малого числа примеров
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields

Mar 21

ByKwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh