Ежедневно отобранные исследовательские статьи по ИИ с переводами
Объединение задач понимания и генерации изображений привлекает все больше внимания в современных исследованиях мультимодальных моделей. Хотя архитектурные решения для понимания изображений были тщательно изучены, оптимальная архитектура модели и стратегия обучения для унифицированного подхода с генерацией изображений остаются недостаточно исследованными. Вдохновленные значительным потенциалом авторегрессивных и диффузионных моделей для создания высококачественных изображений и их масштабируемости, мы проводим всестороннее исследование их применения в унифицированных мультимодальных настройках, уделяя особое внимание представлениям изображений, целям моделирования и стратегиям обучения. Основываясь на этих исследованиях, мы предлагаем новый подход, который использует диффузионный трансформер для генерации семантически насыщенных CLIP-признаков изображений, в отличие от традиционных представлений на основе VAE. Такая архитектура обеспечивает как более высокую эффективность обучения, так и улучшенное качество генерации. Кроме того, мы показываем, что последовательная стратегия предварительного обучения для унифицированных моделей — сначала на задачах понимания изображений, а затем на генерации — предлагает практические преимущества, сохраняя способность к пониманию изображений при развитии сильных навыков генерации. Наконец, мы тщательно создаем высококачественный набор данных для тонкой настройки BLIP3o-60k, предназначенный для генерации изображений, путем запроса GPT-4o с использованием разнообразных подписей, охватывающих различные сцены, объекты, жесты людей и многое другое. Опираясь на нашу инновационную архитектуру модели, стратегию обучения и наборы данных, мы разрабатываем BLIP3-o — набор передовых унифицированных мультимодальных моделей. BLIP3-o демонстрирует превосходную производительность на большинстве популярных бенчмарков, охватывающих как задачи понимания, так и генерации изображений. Для содействия будущим исследованиям мы полностью открываем исходный код наших моделей, включая код, веса моделей, скрипты обучения, а также наборы данных для предварительного обучения и тонкой настройки.
Быстрое масштабирование крупных языковых моделей (LLM) выявило ключевые ограничения в современных аппаратных архитектурах, включая ограничения по объёму памяти, вычислительной эффективности и пропускной способности межсоединений. DeepSeek-V3, обученная на 2048 GPU NVIDIA H800, демонстрирует, как совместная разработка моделей с учётом аппаратных особенностей может эффективно решать эти проблемы, обеспечивая экономически эффективное обучение и вывод на масштабе. В данной статье представлен детальный анализ архитектуры модели DeepSeek-V3/R1 и её инфраструктуры для ИИ, с акцентом на ключевые инновации, такие как Multi-head Latent Attention (MLA) для повышения эффективности использования памяти, архитектуры Mixture of Experts (MoE) для оптимизации баланса между вычислениями и коммуникациями, обучение с использованием смешанной точности FP8 для полного раскрытия потенциала аппаратных возможностей, а также Multi-Plane Network Topology для минимизации сетевых накладных расходов на уровне кластера. Основываясь на аппаратных узких местах, выявленных в процессе разработки DeepSeek-V3, мы ведём широкую дискуссию с академическими и индустриальными коллегами о потенциальных направлениях развития аппаратного обеспечения, включая точные вычислительные блоки с низкой точностью, конвергенцию масштабирования вверх и вширь, а также инновации в низколатентных коммуникационных структурах. Эти идеи подчёркивают критическую роль совместной разработки аппаратного обеспечения и моделей для удовлетворения растущих требований ИИ-нагрузок, предлагая практический план для инноваций в системах ИИ следующего поколения.
Наборы данных с изображениями и подписями на естественном языке, широко используемые для обучения крупных мультимодальных моделей (LMM), в основном сосредоточены на естественных сценах и упускают сложные детали математических графиков, которые критически важны для решения задач, что сдерживает прогресс современных LMM в области мультимодального математического мышления. Для решения этой проблемы мы предлагаем использовать код в качестве средства для кросс-модального согласования, поскольку код по своей природе кодирует всю информацию, необходимую для генерации соответствующих графиков, устанавливая точную связь между двумя модальностями. В частности, мы совместно разрабатываем нашу модель преобразования изображений в код и набор данных с использованием подхода "модель в цикле", что приводит к созданию модели FigCodifier и набора данных ImgCode-8.6M, крупнейшего на сегодняшний день набора данных "изображение-код". Кроме того, мы используем FigCodifier для синтеза новых математических графиков и затем создаем MM-MathInstruct-3M, высококачественный набор данных для тонкой настройки мультимодальных математических инструкций. Наконец, мы представляем MathCoder-VL, обученный на ImgCode-8.6M для кросс-модального согласования и затем доработанный на MM-MathInstruct-3M для решения мультимодальных математических задач. Наша модель достигает нового открытого SOTA по всем шести метрикам. Примечательно, что она превосходит GPT-4o и Claude 3.5 Sonnet в подмножестве задач по геометрии в MathVista, демонстрируя улучшения на 8,9% и 9,2% соответственно. Наборы данных и модели будут опубликованы по адресу https://github.com/mathllm/MathCoder.
Задачи плотного визуального прогнозирования были ограничены своей зависимостью от предопределенных категорий, что сужает их применимость в реальных сценариях, где визуальные концепции не имеют четких границ. Хотя модели, объединяющие зрение и язык (Vision-Language Models, VLMs), такие как CLIP, показали перспективность в задачах с открытым словарем, их прямое применение к плотному прогнозированию часто приводит к неоптимальной производительности из-за ограничений в представлении локальных признаков. В данной работе мы представляем наше наблюдение, что токены изображений CLIP не способны эффективно агрегировать информацию из пространственно или семантически связанных областей, что приводит к признакам, лишенным локальной различимости и пространственной согласованности. Для решения этой проблемы мы предлагаем DeCLIP — новый фреймворк, который улучшает CLIP, разделяя модуль самовнимания для получения признаков «содержания» и «контекста» соответственно. Признаки «содержания» согласуются с представлениями фрагментов изображения для улучшения локальной различимости, в то время как признаки «контекста» учатся сохранять пространственные корреляции под руководством фундаментальных моделей зрения, таких как DINO. Многочисленные эксперименты демонстрируют, что DeCLIP значительно превосходит существующие методы в различных задачах плотного прогнозирования с открытым словарем, включая обнаружение объектов и семантическую сегментацию. Код доступен по адресу magenta{https://github.com/xiaomoguhz/DeCLIP}.
Мы представляем простой, но эффективный метод на основе диффузии для детализированного параметрического управления источниками света на изображении. Существующие методы переосвещения либо полагаются на несколько входных изображений для выполнения обратной визуализации на этапе вывода, либо не обеспечивают явного контроля над изменениями освещения. Наш метод дообучает модель диффузии на небольшом наборе пар реальных необработанных фотографий, дополненных синтетически отрендеренными изображениями в большом масштабе, чтобы активировать её фотореалистичный априор для переосвещения. Мы используем линейность света для синтеза пар изображений, демонстрирующих контролируемые изменения освещения либо целевого источника света, либо окружающей подсветки. Используя эти данные и подходящую схему дообучения, мы обучаем модель для точного изменения освещения с явным контролем над интенсивностью и цветом света. Наконец, мы показываем, как наш метод может достигать впечатляющих результатов редактирования освещения и превосходит существующие методы на основе предпочтений пользователей.
Успех глубокого обучения в компьютерном зрении за последнее десятилетие во многом зависел от больших размеченных наборов данных и мощных предобученных моделей. В условиях ограниченного количества данных качество этих предобученных моделей становится критически важным для эффективного трансферного обучения. Традиционно основными методами предобучения сверточных нейронных сетей (CNN) и трансформерных архитектур были классификация изображений и обучение с самоконтролем. В последнее время появление генеративных моделей, преобразующих текст в изображение, особенно тех, которые используют денойзинг-диффузию в латентном пространстве, привело к созданию нового класса фундаментальных моделей, обученных на огромных наборах данных с подписанными изображениями. Способность этих моделей генерировать реалистичные изображения неизвестного содержания свидетельствует о глубоком понимании ими визуального мира. В данной работе мы представляем Marigold — семейство условных генеративных моделей и протокол тонкой настройки, который извлекает знания из предобученных латентных диффузионных моделей, таких как Stable Diffusion, и адаптирует их для задач плотного анализа изображений, включая оценку глубины по одному изображению, предсказание нормалей поверхности и декомпозицию внутренних свойств. Marigold требует минимальных изменений архитектуры предобученной латентной диффузионной модели, обучается на небольших синтетических наборах данных на одном GPU в течение нескольких дней и демонстрирует передовую обобщающую способность в условиях zero-shot. Страница проекта: https://marigoldcomputervision.github.io
Мимезис является фундаментальным механизмом обучения у людей, позволяющим осваивать новые задачи через наблюдение и подражание экспертам. Однако применение этой способности к роботам сопряжено со значительными трудностями из-за принципиальных различий между человеческим и роботизированным воплощением, как в визуальном облике, так и в физических возможностях. Хотя предыдущие методы преодолевают этот разрыв с использованием кросс-воплощенных наборов данных с общими сценами и задачами, сбор таких согласованных данных между людьми и роботами в больших масштабах является нетривиальной задачей. В данной работе мы предлагаем UniSkill — новый фреймворк, который обучает воплощенно-независимые представления навыков на основе крупномасштабных кросс-воплощенных видеоданных без каких-либо меток, что позволяет эффективно переносить навыки, извлеченные из видеоподсказок человека, на политики роботов, обученные только на данных роботов. Наши эксперименты как в симуляции, так и в реальных условиях показывают, что кросс-воплощенные навыки успешно направляют роботов в выборе подходящих действий, даже с использованием ранее не встречавшихся видеоподсказок. Проектный веб-сайт доступен по адресу: https://kimhanjung.github.io/UniSkill.
Восстановление высококачественных 3D-сцен из одного RGB-изображения является сложной задачей в области компьютерной графики. Современные методы часто сталкиваются с ограничениями, специфичными для конкретных областей, или генерируют объекты низкого качества. Для решения этих проблем мы предлагаем CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) — новый метод реконструкции и восстановления 3D-сцен. CAST начинается с извлечения объектно-ориентированной 2D-сегментации и информации об относительной глубине из входного изображения, после чего использует модель на основе GPT для анализа пространственных взаимосвязей между объектами. Это позволяет понять, как объекты соотносятся друг с другом в сцене, обеспечивая более согласованную реконструкцию. Затем CAST применяет модель крупномасштабной 3D-генерации, учитывающую окклюзии, для независимого создания полной геометрии каждого объекта, используя MAE и кондиционирование на основе облака точек для минимизации влияния окклюзий и частичной информации об объектах, что гарантирует точное соответствие геометрии и текстуры исходного изображения. Для согласования каждого объекта со сценой модель генерации выравнивания вычисляет необходимые преобразования, позволяя точно размещать и интегрировать сгенерированные меши в облако точек сцены. Наконец, CAST включает этап коррекции, учитывающий физику, который использует детализированный граф отношений для создания графа ограничений. Этот граф направляет оптимизацию поз объектов, обеспечивая физическую согласованность и пространственную когерентность. Используя поля знаковых расстояний (Signed Distance Fields, SDF), модель эффективно решает проблемы, такие как окклюзии, пересечение объектов и плавающие объекты, гарантируя, что сгенерированная сцена точно отражает реальные физические взаимодействия. CAST может быть использован в робототехнике, обеспечивая эффективные рабочие процессы от реального мира к симуляции и предоставляя реалистичные, масштабируемые среды симуляции для роботизированных систем.
Модели сквозного речевого диалога, такие как GPT-4o-audio, недавно привлекли значительное внимание в области обработки речи. Однако оценка качества диалоговых речевых моделей в значительной степени оставалась без внимания. Это связано в первую очередь с тем, что интеллектуальные чат-боты передают множество невербальной информации, которую сложно измерить с помощью текстовых языковых моделей, таких как ChatGPT. Чтобы устранить этот пробел, мы предлагаем WavReward — модель обратной связи на основе аудио-языковых моделей, которая может оценивать как IQ, так и EQ речевых диалоговых систем с использованием речевого ввода. В частности: 1) WavReward, основанная на аудио-языковых моделях, включает глубокий процесс рассуждений и нелинейный механизм вознаграждения для пост-обучения. Используя многообразную обратную связь через алгоритм обучения с подкреплением, мы создаем специализированного оценщика, адаптированного для речевых диалоговых моделей. 2) Мы представляем ChatReward-30K — набор данных предпочтений, используемый для обучения WavReward. ChatReward-30K охватывает как аспекты понимания, так и генерации речевых диалоговых моделей. Эти сценарии включают различные задачи, такие как текстовые чаты, девять акустических атрибутов инструктивных чатов и неявные чаты. WavReward превосходит предыдущие передовые модели оценки в различных сценариях речевого диалога, демонстрируя значительное улучшение объективной точности по сравнению с Qwen2.5-Omni — с 55,1% до 91,5%. В субъективном A/B-тестировании WavReward также лидирует с отрывом в 83%. Всесторонние исследования подтверждают необходимость каждого компонента WavReward. Все данные и код будут доступны по адресу https://github.com/jishengpeng/WavReward после принятия статьи.
Мы представляем Omni-R1, который дообучает недавнюю мультимодальную языковую модель Qwen2.5-Omni на наборе данных для ответов на вопросы по аудио с использованием метода обучения с подкреплением GRPO. Это приводит к новому рекордному результату на недавнем бенчмарке MMAU. Omni-R1 достигает наивысшей точности в категориях звуков, музыки, речи и общего среднего значения как на подмножествах Test-mini, так и на Test-full. Чтобы понять причины улучшения производительности, мы протестировали модели как с аудио, так и без него, и обнаружили, что значительная часть улучшения от GRPO может быть связана с более качественным текстовым рассуждением. Мы также сделали неожиданное открытие: дообучение без аудио на текстовом наборе данных оказалось эффективным для улучшения производительности на аудио-задачах.
Локализация программных проблем — задача определения точных мест в коде (файлы, классы или функции), связанных с описанием проблемы на естественном языке (например, отчёт об ошибке или запрос на новую функцию), — является важным, но трудоёмким аспектом разработки программного обеспечения. Хотя современные подходы на основе крупных языковых моделей (LLM) демонстрируют перспективные результаты, они часто сопровождаются значительными задержками и затратами из-за сложного многошагового рассуждения и использования закрытых LLM. С другой стороны, традиционные модели ранжирования кода, обычно оптимизированные для задач поиска "запрос-код" или "код-код", плохо справляются с многословными и описательными запросами, характерными для локализации проблем. Чтобы устранить этот разрыв, мы представляем SweRank — эффективную и производительную систему извлечения и повторного ранжирования для локализации программных проблем. Для облегчения обучения мы создали SweLoc — крупномасштабный набор данных, собранный из публичных репозиториев GitHub, содержащий реальные описания проблем, сопоставленные с соответствующими изменениями кода. Экспериментальные результаты на SWE-Bench-Lite и LocBench показывают, что SweRank достигает наилучших результатов, превосходя как предыдущие модели ранжирования, так и дорогостоящие системы на основе закрытых LLM, такие как Claude-3.5. Кроме того, мы демонстрируем полезность SweLoc для улучшения различных существующих моделей извлечения и повторного ранжирования в задачах локализации проблем, подтверждая ценность этого набора данных для сообщества.
Несмотря на недавние достижения в области понимания видео, способности крупных языковых моделей для видео (LVLMs) выполнять причинно-следственные рассуждения на основе видео остаются недостаточно изученными, в основном из-за отсутствия соответствующих и специализированных тестовых наборов для оценки причинно-следственных рассуждений в визуально обоснованных и целевых контекстах. Чтобы заполнить этот пробел, мы представляем новый тестовый набор под названием Video-based long-form Causal Reasoning (VCRBench). Мы создали VCRBench, используя процедурные видео простых повседневных действий, где шаги намеренно перемешаны, а каждый клип фиксирует ключевое причинно-следственное событие, чтобы проверить, могут ли LVLMs идентифицировать, анализировать и правильно упорядочивать события, необходимые для достижения конкретной цели. Кроме того, тестовый набор тщательно разработан, чтобы предотвратить использование LVLMs лингвистических уловок, как это наблюдается в форматах множественного выбора или бинарных вопросов-ответов, а также избежать сложностей, связанных с оценкой открытых вопросов. Наша оценка современных LVLMs на VCRBench показывает, что эти модели испытывают трудности с длинными причинно-следственными рассуждениями на основе видео, в основном из-за их неспособности моделировать долгосрочные причинно-следственные зависимости непосредственно из визуальных наблюдений. В качестве простого шага к развитию таких способностей мы предлагаем Recognition-Reasoning Decomposition (RRD), модульный подход, который разделяет причинно-следственные рассуждения на основе видео на две подзадачи: распознавание видео и причинно-следственные рассуждения. Наши эксперименты на VCRBench показывают, что RRD значительно повышает точность на этом тестовом наборе, с улучшением до 25,2%. Наконец, наш тщательный анализ выявляет интересные инсайты, например, что LVLMs в основном полагаются на языковые знания для выполнения сложных задач длинных причинно-следственных рассуждений на основе видео.
Предобучающие наборы данных являются основой для разработки мультимодальных моделей, однако они часто содержат присущие им предубеждения и токсичный контент из веб-масштабных корпусов, из которых они берутся. В данной статье мы исследуем распространенность токсичности в предобучающем наборе данных LLaVA, состоящем из изображений и текста, изучая, как вредоносный контент проявляется в различных модальностях. Мы представляем всесторонний анализ распространенных категорий токсичности и предлагаем целевые стратегии для ее смягчения, что приводит к созданию улучшенного набора данных с уменьшенной токсичностью. Этот набор данных удаляет 7 531 токсичную пару изображение-текст из предобучающего набора данных LLaVA. Мы предлагаем рекомендации по реализации надежных конвейеров для обнаружения токсичности. Наши результаты подчеркивают необходимость активного выявления и фильтрации токсичного контента, такого как разжигание ненависти, откровенные изображения и целенаправленные оскорбления, для создания более ответственных и справедливых мультимодальных систем. Набор данных с уменьшенной токсичностью является открытым и доступен для дальнейших исследований.
Технология повторной идентификации личности (ReID) традиционно демонстрирует относительно хорошие результаты в контролируемых условиях на уровне земли, но её эффективность резко снижается при использовании в сложных реальных условиях. Это связано с экстремальной изменчивостью данных, включая разрешение, изменение ракурса, вариации масштаба, окклюзии и изменения внешнего вида из-за смены одежды или временных промежутков. Более того, общедоступные наборы данных не учитывают такие виды и масштабы изменчивости, что ограничивает прогресс в этой области. В данной статье представлен DetReIDX — крупномасштабный набор данных для идентификации личности с воздуха и с земли, специально разработанный для стресс-тестирования ReID в реальных условиях. DetReIDX представляет собой мультисессионный набор, включающий более 13 миллионов ограничивающих рамок для 509 идентификаторов, собранных на территории семи университетских кампусов на трёх континентах, с высотой полёта дронов от 5,8 до 120 метров. Важно отметить, что в качестве ключевой новизны субъекты DetReIDX были зафиксированы как минимум в двух сессиях в разные дни, с изменениями в одежде, освещении и местоположении, что делает набор данных подходящим для оценки долгосрочной ReID. Кроме того, данные аннотированы по 16 мягким биометрическим атрибутам и содержат многозадачные метки для обнаружения, отслеживания, ReID и распознавания действий. Чтобы продемонстрировать практическую полезность DetReIDX, мы рассмотрели задачи обнаружения людей и ReID, где современные методы демонстрируют катастрофическое снижение производительности (до 80% в точности обнаружения и более 70% в Rank-1 ReID) при работе с условиями DetReIDX. Набор данных, аннотации и официальные протоколы оценки доступны по адресу: https://www.it.ubi.pt/DetReIDX/
В последнее время мы наблюдаем стремительное развитие крупных моделей для обработки зрения и языка (Vision-Language Models, VLMs). Эти модели демонстрируют впечатляющие результаты на академических тестах, в основном для широко распространённых языков, но их производительность оставляет желать лучшего для языков с ограниченными ресурсами и в различных культурных контекстах. Чтобы устранить эти ограничения, мы представляем Maya — открытую многоязычную модель VLM. Наши основные вклады: 1) многоязычный набор данных для предварительного обучения на изображениях и текстах на восьми языках, основанный на наборе данных LLaVA; и 2) многоязычная модель для обработки изображений и текстов, поддерживающая эти языки, что улучшает понимание культурных и лингвистических аспектов в задачах, связанных с обработкой зрения и языка. Код доступен по адресу https://github.com/nahidalam/maya.
Ответы на сложные визуальные вопросы, такие как `Какая красная мебель подходит для сидения?`, требуют многошагового рассуждения, включающего распознавание объектов, фильтрацию атрибутов и понимание отношений. Недавние исследования улучшают интерпретируемость в мультимодальных больших языковых моделях (MLLMs) за счет декомпозиции задач на подзадачи, но эти методы являются вычислительно затратными и менее точными из-за плохой адаптации к целевым данным. Для решения этой проблемы мы представляем VISTAR (Visually Interpretable Subtask-Aware Reasoning Model) — фреймворк для обучения, ориентированный на подзадачи, который повышает как интерпретируемость, так и качество рассуждений за счет генерации текстовых и визуальных объяснений внутри MLLMs. Вместо использования внешних моделей VISTAR дообучает MLLMs для создания структурированных обоснований в формате "Subtask-of-Thought" (последовательности шагов рассуждений). Эксперименты на двух бенчмарках показывают, что VISTAR стабильно улучшает точность рассуждений, сохраняя интерпретируемость. Наш код и набор данных будут доступны по адресу https://github.com/ChengJade/VISTAR.
3D Gaussian Splatting (3DGS) зарекомендовал себя как мощная техника для синтеза новых видов в реальном времени с высоким разрешением. Представляя сцены как смесь гауссовых примитивов, 3DGS использует конвейеры растеризации GPU для эффективного рендеринга и реконструкции. Для оптимизации покрытия сцены и захвата мелких деталей 3DGS применяет алгоритм уплотнения, генерирующий дополнительные точки. Однако этот процесс часто приводит к избыточным облакам точек, что вызывает чрезмерное использование памяти, замедление производительности и значительные требования к хранению данных, создавая серьезные проблемы для развертывания на устройствах с ограниченными ресурсами. Чтобы устранить это ограничение, мы предлагаем теоретическую основу, которая проясняет и улучшает управление плотностью в 3DGS. Наш анализ показывает, что разделение точек критически важно для выхода из седловых точек. Используя оптимизационно-теоретический подход, мы устанавливаем необходимые условия для уплотнения, определяем минимальное количество дочерних гауссовых распределений, находим оптимальное направление обновления параметров и предоставляем аналитическое решение для нормализации прозрачности дочерних элементов. На основе этих инсайтов мы представляем SteepGS, который включает в себя управление плотностью по наискорейшему спуску — принципиальную стратегию, минимизирующую потери при сохранении компактного облака точек. SteepGS позволяет сократить количество гауссовых точек примерно на 50% без ущерба для качества рендеринга, значительно повышая как эффективность, так и масштабируемость.