Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

BLIP3-o: Семейство полностью открытых унифицированных мультимодальных моделей — архитектура, обучение и набор данных
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025

Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

943

Объединение задач понимания и генерации изображений привлекает все больше внимания в современных исследованиях мультимодальных моделей. Хотя архитектурные решения для понимания изображений были тщательно изучены, оптимальная архитектура модели и стратегия обучения для унифицированного подхода с генерацией изображений остаются недостаточно исследованными. Вдохновленные значительным потенциалом авторегрессивных и диффузионных моделей для создания высококачественных изображений и их масштабируемости, мы проводим всестороннее исследование их применения в унифицированных мультимодальных настройках, уделяя особое внимание представлениям изображений, целям моделирования и стратегиям обучения. Основываясь на этих исследованиях, мы предлагаем новый подход, который использует диффузионный трансформер для генерации семантически насыщенных CLIP-признаков изображений, в отличие от традиционных представлений на основе VAE. Такая архитектура обеспечивает как более высокую эффективность обучения, так и улучшенное качество генерации. Кроме того, мы показываем, что последовательная стратегия предварительного обучения для унифицированных моделей — сначала на задачах понимания изображений, а затем на генерации — предлагает практические преимущества, сохраняя способность к пониманию изображений при развитии сильных навыков генерации. Наконец, мы тщательно создаем высококачественный набор данных для тонкой настройки BLIP3o-60k, предназначенный для генерации изображений, путем запроса GPT-4o с использованием разнообразных подписей, охватывающих различные сцены, объекты, жесты людей и многое другое. Опираясь на нашу инновационную архитектуру модели, стратегию обучения и наборы данных, мы разрабатываем BLIP3-o — набор передовых унифицированных мультимодальных моделей. BLIP3-o демонстрирует превосходную производительность на большинстве популярных бенчмарков, охватывающих как задачи понимания, так и генерации изображений. Для содействия будущим исследованиям мы полностью открываем исходный код наших моделей, включая код, веса моделей, скрипты обучения, а также наборы данных для предварительного обучения и тонкой настройки.

Исследование DeepSeek-V3: Проблемы масштабирования и размышления о аппаратном обеспечении для архитектур ИИ
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14, 2025

Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

655

Быстрое масштабирование крупных языковых моделей (LLM) выявило ключевые ограничения в современных аппаратных архитектурах, включая ограничения по объёму памяти, вычислительной эффективности и пропускной способности межсоединений. DeepSeek-V3, обученная на 2048 GPU NVIDIA H800, демонстрирует, как совместная разработка моделей с учётом аппаратных особенностей может эффективно решать эти проблемы, обеспечивая экономически эффективное обучение и вывод на масштабе. В данной статье представлен детальный анализ архитектуры модели DeepSeek-V3/R1 и её инфраструктуры для ИИ, с акцентом на ключевые инновации, такие как Multi-head Latent Attention (MLA) для повышения эффективности использования памяти, архитектуры Mixture of Experts (MoE) для оптимизации баланса между вычислениями и коммуникациями, обучение с использованием смешанной точности FP8 для полного раскрытия потенциала аппаратных возможностей, а также Multi-Plane Network Topology для минимизации сетевых накладных расходов на уровне кластера. Основываясь на аппаратных узких местах, выявленных в процессе разработки DeepSeek-V3, мы ведём широкую дискуссию с академическими и индустриальными коллегами о потенциальных направлениях развития аппаратного обеспечения, включая точные вычислительные блоки с низкой точностью, конвергенцию масштабирования вверх и вширь, а также инновации в низколатентных коммуникационных структурах. Эти идеи подчёркивают критическую роль совместной разработки аппаратного обеспечения и моделей для удовлетворения растущих требований ИИ-нагрузок, предлагая практический план для инноваций в системах ИИ следующего поколения.

MathCoder-VL: Соединение зрения и кода для улучшенного мультимодального математического мышления
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15, 2025

Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

462

Наборы данных с изображениями и подписями на естественном языке, широко используемые для обучения крупных мультимодальных моделей (LMM), в основном сосредоточены на естественных сценах и упускают сложные детали математических графиков, которые критически важны для решения задач, что сдерживает прогресс современных LMM в области мультимодального математического мышления. Для решения этой проблемы мы предлагаем использовать код в качестве средства для кросс-модального согласования, поскольку код по своей природе кодирует всю информацию, необходимую для генерации соответствующих графиков, устанавливая точную связь между двумя модальностями. В частности, мы совместно разрабатываем нашу модель преобразования изображений в код и набор данных с использованием подхода "модель в цикле", что приводит к созданию модели FigCodifier и набора данных ImgCode-8.6M, крупнейшего на сегодняшний день набора данных "изображение-код". Кроме того, мы используем FigCodifier для синтеза новых математических графиков и затем создаем MM-MathInstruct-3M, высококачественный набор данных для тонкой настройки мультимодальных математических инструкций. Наконец, мы представляем MathCoder-VL, обученный на ImgCode-8.6M для кросс-модального согласования и затем доработанный на MM-MathInstruct-3M для решения мультимодальных математических задач. Наша модель достигает нового открытого SOTA по всем шести метрикам. Примечательно, что она превосходит GPT-4o и Claude 3.5 Sonnet в подмножестве задач по геометрии в MathVista, демонстрируя улучшения на 8,9% и 9,2% соответственно. Наборы данных и модели будут опубликованы по адресу https://github.com/mathllm/MathCoder.

DeCLIP: Раздельное обучение для плотного восприятия с открытым словарём
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7, 2025

Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

443

Задачи плотного визуального прогнозирования были ограничены своей зависимостью от предопределенных категорий, что сужает их применимость в реальных сценариях, где визуальные концепции не имеют четких границ. Хотя модели, объединяющие зрение и язык (Vision-Language Models, VLMs), такие как CLIP, показали перспективность в задачах с открытым словарем, их прямое применение к плотному прогнозированию часто приводит к неоптимальной производительности из-за ограничений в представлении локальных признаков. В данной работе мы представляем наше наблюдение, что токены изображений CLIP не способны эффективно агрегировать информацию из пространственно или семантически связанных областей, что приводит к признакам, лишенным локальной различимости и пространственной согласованности. Для решения этой проблемы мы предлагаем DeCLIP — новый фреймворк, который улучшает CLIP, разделяя модуль самовнимания для получения признаков «содержания» и «контекста» соответственно. Признаки «содержания» согласуются с представлениями фрагментов изображения для улучшения локальной различимости, в то время как признаки «контекста» учатся сохранять пространственные корреляции под руководством фундаментальных моделей зрения, таких как DINO. Многочисленные эксперименты демонстрируют, что DeCLIP значительно превосходит существующие методы в различных задачах плотного прогнозирования с открытым словарем, включая обнаружение объектов и семантическую сегментацию. Код доступен по адресу magenta{https://github.com/xiaomoguhz/DeCLIP}.

LightLab: Управление источниками света на изображениях с использованием диффузионных моделей
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14, 2025

Nadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

323

Мы представляем простой, но эффективный метод на основе диффузии для детализированного параметрического управления источниками света на изображении. Существующие методы переосвещения либо полагаются на несколько входных изображений для выполнения обратной визуализации на этапе вывода, либо не обеспечивают явного контроля над изменениями освещения. Наш метод дообучает модель диффузии на небольшом наборе пар реальных необработанных фотографий, дополненных синтетически отрендеренными изображениями в большом масштабе, чтобы активировать её фотореалистичный априор для переосвещения. Мы используем линейность света для синтеза пар изображений, демонстрирующих контролируемые изменения освещения либо целевого источника света, либо окружающей подсветки. Используя эти данные и подходящую схему дообучения, мы обучаем модель для точного изменения освещения с явным контролем над интенсивностью и цветом света. Наконец, мы показываем, как наш метод может достигать впечатляющих результатов редактирования освещения и превосходит существующие методы на основе предпочтений пользователей.

Marigold: Экономичная адаптация генераторов изображений на основе диффузии для анализа изображений
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14, 2025

Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

252

Успех глубокого обучения в компьютерном зрении за последнее десятилетие во многом зависел от больших размеченных наборов данных и мощных предобученных моделей. В условиях ограниченного количества данных качество этих предобученных моделей становится критически важным для эффективного трансферного обучения. Традиционно основными методами предобучения сверточных нейронных сетей (CNN) и трансформерных архитектур были классификация изображений и обучение с самоконтролем. В последнее время появление генеративных моделей, преобразующих текст в изображение, особенно тех, которые используют денойзинг-диффузию в латентном пространстве, привело к созданию нового класса фундаментальных моделей, обученных на огромных наборах данных с подписанными изображениями. Способность этих моделей генерировать реалистичные изображения неизвестного содержания свидетельствует о глубоком понимании ими визуального мира. В данной работе мы представляем Marigold — семейство условных генеративных моделей и протокол тонкой настройки, который извлекает знания из предобученных латентных диффузионных моделей, таких как Stable Diffusion, и адаптирует их для задач плотного анализа изображений, включая оценку глубины по одному изображению, предсказание нормалей поверхности и декомпозицию внутренних свойств. Marigold требует минимальных изменений архитектуры предобученной латентной диффузионной модели, обучается на небольших синтетических наборах данных на одном GPU в течение нескольких дней и демонстрирует передовую обобщающую способность в условиях zero-shot. Страница проекта: https://marigoldcomputervision.github.io

CAST: Трехмерная реконструкция сцены с выравниванием компонентов по RGB-изображению
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18, 2025

Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

153

Восстановление высококачественных 3D-сцен из одного RGB-изображения является сложной задачей в области компьютерной графики. Современные методы часто сталкиваются с ограничениями, специфичными для конкретных областей, или генерируют объекты низкого качества. Для решения этих проблем мы предлагаем CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) — новый метод реконструкции и восстановления 3D-сцен. CAST начинается с извлечения объектно-ориентированной 2D-сегментации и информации об относительной глубине из входного изображения, после чего использует модель на основе GPT для анализа пространственных взаимосвязей между объектами. Это позволяет понять, как объекты соотносятся друг с другом в сцене, обеспечивая более согласованную реконструкцию. Затем CAST применяет модель крупномасштабной 3D-генерации, учитывающую окклюзии, для независимого создания полной геометрии каждого объекта, используя MAE и кондиционирование на основе облака точек для минимизации влияния окклюзий и частичной информации об объектах, что гарантирует точное соответствие геометрии и текстуры исходного изображения. Для согласования каждого объекта со сценой модель генерации выравнивания вычисляет необходимые преобразования, позволяя точно размещать и интегрировать сгенерированные меши в облако точек сцены. Наконец, CAST включает этап коррекции, учитывающий физику, который использует детализированный граф отношений для создания графа ограничений. Этот граф направляет оптимизацию поз объектов, обеспечивая физическую согласованность и пространственную когерентность. Используя поля знаковых расстояний (Signed Distance Fields, SDF), модель эффективно решает проблемы, такие как окклюзии, пересечение объектов и плавающие объекты, гарантируя, что сгенерированная сцена точно отражает реальные физические взаимодействия. CAST может быть использован в робототехнике, обеспечивая эффективные рабочие процессы от реального мира к симуляции и предоставляя реалистичные, масштабируемые среды симуляции для роботизированных систем.

UniSkill: Имитация человеческих видео через кросс-эмбодиментные представления навыков
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13, 2025

Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

132

Мимезис является фундаментальным механизмом обучения у людей, позволяющим осваивать новые задачи через наблюдение и подражание экспертам. Однако применение этой способности к роботам сопряжено со значительными трудностями из-за принципиальных различий между человеческим и роботизированным воплощением, как в визуальном облике, так и в физических возможностях. Хотя предыдущие методы преодолевают этот разрыв с использованием кросс-воплощенных наборов данных с общими сценами и задачами, сбор таких согласованных данных между людьми и роботами в больших масштабах является нетривиальной задачей. В данной работе мы предлагаем UniSkill — новый фреймворк, который обучает воплощенно-независимые представления навыков на основе крупномасштабных кросс-воплощенных видеоданных без каких-либо меток, что позволяет эффективно переносить навыки, извлеченные из видеоподсказок человека, на политики роботов, обученные только на данных роботов. Наши эксперименты как в симуляции, так и в реальных условиях показывают, что кросс-воплощенные навыки успешно направляют роботов в выборе подходящих действий, даже с использованием ранее не встречавшихся видеоподсказок. Проектный веб-сайт доступен по адресу: https://kimhanjung.github.io/UniSkill.

WavReward: Модели разговорной речи с универсальными системами оценки вознаграждения
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14, 2025

Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Модели сквозного речевого диалога, такие как GPT-4o-audio, недавно привлекли значительное внимание в области обработки речи. Однако оценка качества диалоговых речевых моделей в значительной степени оставалась без внимания. Это связано в первую очередь с тем, что интеллектуальные чат-боты передают множество невербальной информации, которую сложно измерить с помощью текстовых языковых моделей, таких как ChatGPT. Чтобы устранить этот пробел, мы предлагаем WavReward — модель обратной связи на основе аудио-языковых моделей, которая может оценивать как IQ, так и EQ речевых диалоговых систем с использованием речевого ввода. В частности: 1) WavReward, основанная на аудио-языковых моделях, включает глубокий процесс рассуждений и нелинейный механизм вознаграждения для пост-обучения. Используя многообразную обратную связь через алгоритм обучения с подкреплением, мы создаем специализированного оценщика, адаптированного для речевых диалоговых моделей. 2) Мы представляем ChatReward-30K — набор данных предпочтений, используемый для обучения WavReward. ChatReward-30K охватывает как аспекты понимания, так и генерации речевых диалоговых моделей. Эти сценарии включают различные задачи, такие как текстовые чаты, девять акустических атрибутов инструктивных чатов и неявные чаты. WavReward превосходит предыдущие передовые модели оценки в различных сценариях речевого диалога, демонстрируя значительное улучшение объективной точности по сравнению с Qwen2.5-Omni — с 55,1% до 91,5%. В субъективном A/B-тестировании WavReward также лидирует с отрывом в 83%. Всесторонние исследования подтверждают необходимость каждого компонента WavReward. Все данные и код будут доступны по адресу https://github.com/jishengpeng/WavReward после принятия статьи.

Omni-R1: Действительно ли вам нужен звук для тонкой настройки вашей аудио-языковой модели?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14, 2025

Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

Мы представляем Omni-R1, который дообучает недавнюю мультимодальную языковую модель Qwen2.5-Omni на наборе данных для ответов на вопросы по аудио с использованием метода обучения с подкреплением GRPO. Это приводит к новому рекордному результату на недавнем бенчмарке MMAU. Omni-R1 достигает наивысшей точности в категориях звуков, музыки, речи и общего среднего значения как на подмножествах Test-mini, так и на Test-full. Чтобы понять причины улучшения производительности, мы протестировали модели как с аудио, так и без него, и обнаружили, что значительная часть улучшения от GRPO может быть связана с более качественным текстовым рассуждением. Мы также сделали неожиданное открытие: дообучение без аудио на текстовом наборе данных оказалось эффективным для улучшения производительности на аудио-задачах.

SweRank: Локализация проблем в программном обеспечении с ранжированием кода
SweRank: Software Issue Localization with Code Ranking

May 7, 2025

Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

Локализация программных проблем — задача определения точных мест в коде (файлы, классы или функции), связанных с описанием проблемы на естественном языке (например, отчёт об ошибке или запрос на новую функцию), — является важным, но трудоёмким аспектом разработки программного обеспечения. Хотя современные подходы на основе крупных языковых моделей (LLM) демонстрируют перспективные результаты, они часто сопровождаются значительными задержками и затратами из-за сложного многошагового рассуждения и использования закрытых LLM. С другой стороны, традиционные модели ранжирования кода, обычно оптимизированные для задач поиска "запрос-код" или "код-код", плохо справляются с многословными и описательными запросами, характерными для локализации проблем. Чтобы устранить этот разрыв, мы представляем SweRank — эффективную и производительную систему извлечения и повторного ранжирования для локализации программных проблем. Для облегчения обучения мы создали SweLoc — крупномасштабный набор данных, собранный из публичных репозиториев GitHub, содержащий реальные описания проблем, сопоставленные с соответствующими изменениями кода. Экспериментальные результаты на SWE-Bench-Lite и LocBench показывают, что SweRank достигает наилучших результатов, превосходя как предыдущие модели ранжирования, так и дорогостоящие системы на основе закрытых LLM, такие как Claude-3.5. Кроме того, мы демонстрируем полезность SweLoc для улучшения различных существующих моделей извлечения и повторного ранжирования в задачах локализации проблем, подтверждая ценность этого набора данных для сообщества.

VCRBench: Исследование способностей крупных видеоязыковых моделей к длинному причинно-следственному рассуждению
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025

Pritam Sarkar, Ali Etemad

Несмотря на недавние достижения в области понимания видео, способности крупных языковых моделей для видео (LVLMs) выполнять причинно-следственные рассуждения на основе видео остаются недостаточно изученными, в основном из-за отсутствия соответствующих и специализированных тестовых наборов для оценки причинно-следственных рассуждений в визуально обоснованных и целевых контекстах. Чтобы заполнить этот пробел, мы представляем новый тестовый набор под названием Video-based long-form Causal Reasoning (VCRBench). Мы создали VCRBench, используя процедурные видео простых повседневных действий, где шаги намеренно перемешаны, а каждый клип фиксирует ключевое причинно-следственное событие, чтобы проверить, могут ли LVLMs идентифицировать, анализировать и правильно упорядочивать события, необходимые для достижения конкретной цели. Кроме того, тестовый набор тщательно разработан, чтобы предотвратить использование LVLMs лингвистических уловок, как это наблюдается в форматах множественного выбора или бинарных вопросов-ответов, а также избежать сложностей, связанных с оценкой открытых вопросов. Наша оценка современных LVLMs на VCRBench показывает, что эти модели испытывают трудности с длинными причинно-следственными рассуждениями на основе видео, в основном из-за их неспособности моделировать долгосрочные причинно-следственные зависимости непосредственно из визуальных наблюдений. В качестве простого шага к развитию таких способностей мы предлагаем Recognition-Reasoning Decomposition (RRD), модульный подход, который разделяет причинно-следственные рассуждения на основе видео на две подзадачи: распознавание видео и причинно-следственные рассуждения. Наши эксперименты на VCRBench показывают, что RRD значительно повышает точность на этом тестовом наборе, с улучшением до 25,2%. Наконец, наш тщательный анализ выявляет интересные инсайты, например, что LVLMs в основном полагаются на языковые знания для выполнения сложных задач длинных причинно-следственных рассуждений на основе видео.

Понимание и снижение токсичности в наборах данных для предварительного обучения на изображениях и текстах: пример исследования на LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9, 2025

Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Предобучающие наборы данных являются основой для разработки мультимодальных моделей, однако они часто содержат присущие им предубеждения и токсичный контент из веб-масштабных корпусов, из которых они берутся. В данной статье мы исследуем распространенность токсичности в предобучающем наборе данных LLaVA, состоящем из изображений и текста, изучая, как вредоносный контент проявляется в различных модальностях. Мы представляем всесторонний анализ распространенных категорий токсичности и предлагаем целевые стратегии для ее смягчения, что приводит к созданию улучшенного набора данных с уменьшенной токсичностью. Этот набор данных удаляет 7 531 токсичную пару изображение-текст из предобучающего набора данных LLaVA. Мы предлагаем рекомендации по реализации надежных конвейеров для обнаружения токсичности. Наши результаты подчеркивают необходимость активного выявления и фильтрации токсичного контента, такого как разжигание ненависти, откровенные изображения и целенаправленные оскорбления, для создания более ответственных и справедливых мультимодальных систем. Набор данных с уменьшенной токсичностью является открытым и доступен для дальнейших исследований.

DetReIDX: Набор данных для стресс-тестирования распознавания людей в реальных условиях с использованием БПЛА
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7, 2025

Kailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

Технология повторной идентификации личности (ReID) традиционно демонстрирует относительно хорошие результаты в контролируемых условиях на уровне земли, но её эффективность резко снижается при использовании в сложных реальных условиях. Это связано с экстремальной изменчивостью данных, включая разрешение, изменение ракурса, вариации масштаба, окклюзии и изменения внешнего вида из-за смены одежды или временных промежутков. Более того, общедоступные наборы данных не учитывают такие виды и масштабы изменчивости, что ограничивает прогресс в этой области. В данной статье представлен DetReIDX — крупномасштабный набор данных для идентификации личности с воздуха и с земли, специально разработанный для стресс-тестирования ReID в реальных условиях. DetReIDX представляет собой мультисессионный набор, включающий более 13 миллионов ограничивающих рамок для 509 идентификаторов, собранных на территории семи университетских кампусов на трёх континентах, с высотой полёта дронов от 5,8 до 120 метров. Важно отметить, что в качестве ключевой новизны субъекты DetReIDX были зафиксированы как минимум в двух сессиях в разные дни, с изменениями в одежде, освещении и местоположении, что делает набор данных подходящим для оценки долгосрочной ReID. Кроме того, данные аннотированы по 16 мягким биометрическим атрибутам и содержат многозадачные метки для обнаружения, отслеживания, ReID и распознавания действий. Чтобы продемонстрировать практическую полезность DetReIDX, мы рассмотрели задачи обнаружения людей и ReID, где современные методы демонстрируют катастрофическое снижение производительности (до 80% в точности обнаружения и более 70% в Rank-1 ReID) при работе с условиями DetReIDX. Набор данных, аннотации и официальные протоколы оценки доступны по адресу: https://www.it.ubi.pt/DetReIDX/

За кулисами Maya: создание многоязычной визуально-языковой модели
Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025

Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

В последнее время мы наблюдаем стремительное развитие крупных моделей для обработки зрения и языка (Vision-Language Models, VLMs). Эти модели демонстрируют впечатляющие результаты на академических тестах, в основном для широко распространённых языков, но их производительность оставляет желать лучшего для языков с ограниченными ресурсами и в различных культурных контекстах. Чтобы устранить эти ограничения, мы представляем Maya — открытую многоязычную модель VLM. Наши основные вклады: 1) многоязычный набор данных для предварительного обучения на изображениях и текстах на восьми языках, основанный на наборе данных LLaVA; и 2) многоязычная модель для обработки изображений и текстов, поддерживающая эти языки, что улучшает понимание культурных и лингвистических аспектов в задачах, связанных с обработкой зрения и языка. Код доступен по адресу https://github.com/nahidalam/maya.

Визуально интерпретируемое рассуждение на основе подзадач для визуального ответа на вопросы
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12, 2025

Yu Cheng, Arushi Goel, Hakan Bilen

Ответы на сложные визуальные вопросы, такие как `Какая красная мебель подходит для сидения?`, требуют многошагового рассуждения, включающего распознавание объектов, фильтрацию атрибутов и понимание отношений. Недавние исследования улучшают интерпретируемость в мультимодальных больших языковых моделях (MLLMs) за счет декомпозиции задач на подзадачи, но эти методы являются вычислительно затратными и менее точными из-за плохой адаптации к целевым данным. Для решения этой проблемы мы представляем VISTAR (Visually Interpretable Subtask-Aware Reasoning Model) — фреймворк для обучения, ориентированный на подзадачи, который повышает как интерпретируемость, так и качество рассуждений за счет генерации текстовых и визуальных объяснений внутри MLLMs. Вместо использования внешних моделей VISTAR дообучает MLLMs для создания структурированных обоснований в формате "Subtask-of-Thought" (последовательности шагов рассуждений). Эксперименты на двух бенчмарках показывают, что VISTAR стабильно улучшает точность рассуждений, сохраняя интерпретируемость. Наш код и набор данных будут доступны по адресу https://github.com/ChengJade/VISTAR.

Управление плотностью методом наискорейшего спуска для компактного 3D-сплайттинга на основе гауссовых функций
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8, 2025

Peihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan

3D Gaussian Splatting (3DGS) зарекомендовал себя как мощная техника для синтеза новых видов в реальном времени с высоким разрешением. Представляя сцены как смесь гауссовых примитивов, 3DGS использует конвейеры растеризации GPU для эффективного рендеринга и реконструкции. Для оптимизации покрытия сцены и захвата мелких деталей 3DGS применяет алгоритм уплотнения, генерирующий дополнительные точки. Однако этот процесс часто приводит к избыточным облакам точек, что вызывает чрезмерное использование памяти, замедление производительности и значительные требования к хранению данных, создавая серьезные проблемы для развертывания на устройствах с ограниченными ресурсами. Чтобы устранить это ограничение, мы предлагаем теоретическую основу, которая проясняет и улучшает управление плотностью в 3DGS. Наш анализ показывает, что разделение точек критически важно для выхода из седловых точек. Используя оптимизационно-теоретический подход, мы устанавливаем необходимые условия для уплотнения, определяем минимальное количество дочерних гауссовых распределений, находим оптимальное направление обновления параметров и предоставляем аналитическое решение для нормализации прозрачности дочерних элементов. На основе этих инсайтов мы представляем SteepGS, который включает в себя управление плотностью по наискорейшему спуску — принципиальную стратегию, минимизирующую потери при сохранении компактного облака точек. SteepGS позволяет сократить количество гауссовых точек примерно на 50% без ущерба для качества рендеринга, значительно повышая как эффективность, так и масштабируемость.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

BLIP3-o: Семейство полностью открытых унифицированных мультимодальных моделей — архитектура, обучение и набор данных
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025

Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

943

Исследование DeepSeek-V3: Проблемы масштабирования и размышления о аппаратном обеспечении для архитектур ИИ
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14, 2025

Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

655

MathCoder-VL: Соединение зрения и кода для улучшенного мультимодального математического мышления
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15, 2025

Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

462

DeCLIP: Раздельное обучение для плотного восприятия с открытым словарём
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7, 2025

Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

443

LightLab: Управление источниками света на изображениях с использованием диффузионных моделей
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14, 2025

Nadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

323

Marigold: Экономичная адаптация генераторов изображений на основе диффузии для анализа изображений
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14, 2025

Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

252

CAST: Трехмерная реконструкция сцены с выравниванием компонентов по RGB-изображению
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18, 2025

Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

153

UniSkill: Имитация человеческих видео через кросс-эмбодиментные представления навыков
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13, 2025

Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

132

WavReward: Модели разговорной речи с универсальными системами оценки вознаграждения
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14, 2025

Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Omni-R1: Действительно ли вам нужен звук для тонкой настройки вашей аудио-языковой модели?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14, 2025

Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

SweRank: Локализация проблем в программном обеспечении с ранжированием кода
SweRank: Software Issue Localization with Code Ranking

May 7, 2025

Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

VCRBench: Исследование способностей крупных видеоязыковых моделей к длинному причинно-следственному рассуждению
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13, 2025

Pritam Sarkar, Ali Etemad

Понимание и снижение токсичности в наборах данных для предварительного обучения на изображениях и текстах: пример исследования на LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9, 2025

Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

DetReIDX: Набор данных для стресс-тестирования распознавания людей в реальных условиях с использованием БПЛА
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7, 2025

Kailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

За кулисами Maya: создание многоязычной визуально-языковой модели
Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025

Визуально интерпретируемое рассуждение на основе подзадач для визуального ответа на вопросы
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12, 2025

Yu Cheng, Arushi Goel, Hakan Bilen

Управление плотностью методом наискорейшего спуска для компактного 3D-сплайттинга на основе гауссовых функций
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8, 2025

Peihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan