HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

18 papers found

Прогнозирующий отбор данных: данные, которые предсказывают, — это данные, которые обучают
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Mar 2

ByKashun Shum, Yuzhen Huang, Hongjian Zou, Ding Qi, Yixuan Liao, Xiaoxin Chen, Qian Liu, Junxian He

Предварительное обучение языковых моделей предполагает обучение на обширных корпусах текстов, где качество данных играет ключевую роль. В данной работе мы стремимся напрямую оценить вклад данных в процессе предварительного обучения и выбрать данные для обучения эффективным способом. В частности, мы вдохновляемся недавними исследованиями, которые показывают, что эффективность сжатия (т.е. нормализованная ошибка) различных моделей на определённых текстах сильно коррелирует с их производительностью на последующих задачах, если домен текста соответствует целевому бенчмарку (Huang et al., 2024). Опираясь на это наблюдение, мы выдвигаем гипотезу, что данные, на которых ошибки модели предсказывают её способности на последующих задачах, также эффективно способствуют обучению. Чтобы использовать это понимание, мы представляем метод выбора данных на основе их предсказательной силы (PreSelect) — лёгкий и эффективный метод выбора данных, который требует обучения и использования только быстрого классификатора на основе fastText. В ходе всесторонних экспериментов с моделями на 1 млрд и 3 млрд параметров мы демонстрируем, что модели, обученные на 30 млрд токенов, отобранных с помощью PreSelect, превосходят по производительности базовую модель, обученную на 300 млрд токенов, достигая 10-кратного сокращения вычислительных затрат. Более того, PreSelect значительно превосходит другие конкурентоспособные методы выбора данных, такие как DCLM и FineWeb-Edu, на уровне моделей с 3 млрд параметров, обученных на 100 млрд токенов. Мы открываем исходный код нашего обученного классификатора для выбора данных вместе с отобранными наборами данных по адресу https://github.com/hkust-nlp/PreSelect.

Цепочка черновиков: Думать быстрее, записывая меньше
Chain of Draft: Thinking Faster by Writing Less

Feb 25

BySilei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He

Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в решении сложных задач на рассуждение благодаря таким механизмам, как Chain-of-Thought (CoT) prompting, который делает акцент на подробном, пошаговом рассуждении. Однако люди обычно используют более эффективную стратегию: создание кратких промежуточных мыслей, фиксирующих только ключевую информацию. В данной работе мы предлагаем Chain of Draft (CoD) — новую парадигму, вдохновлённую когнитивными процессами человека, в рамках которой LLM генерируют минималистичные, но информативные промежуточные результаты рассуждений при решении задач. Снижая избыточность и фокусируясь на ключевых инсайтах, CoD достигает или превосходит точность CoT, используя всего 7,6% токенов, что значительно сокращает затраты и задержки при выполнении различных задач на рассуждение.

DeepSolution: Ускорение проектирования сложных инженерных решений с помощью древовидного исследования и двухточечного мышления
DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

Feb 28

ByZhuoqun Li, Haiyang Yu, Xuanang Chen, Hongyu Lin, Yaojie Lu, Fei Huang, Xianpei Han, Yongbin Li, Le Sun

Разработка решений для сложных инженерных задач играет ключевую роль в производственной деятельности человека. Однако предыдущие исследования в области генерации, дополненной поиском (RAG), недостаточно охватывали задачи, связанные с проектированием сложных инженерных решений. Чтобы восполнить этот пробел, мы представляем новый бенчмарк, SolutionBench, для оценки способности системы генерировать полные и реализуемые решения для инженерных задач с множеством сложных ограничений. Для дальнейшего продвижения в проектировании сложных инженерных решений мы предлагаем новую систему, SolutionRAG, которая использует механизм древовидного исследования и бинарного мышления для генерации надежных решений. Результаты масштабных экспериментов демонстрируют, что SolutionRAG достигает наилучших показателей (SOTA) на SolutionBench, подчеркивая её потенциал для повышения автоматизации и надежности проектирования сложных инженерных решений в реальных приложениях.

Многократная генерация кода через одношаговые вознаграждения
Multi-Turn Code Generation Through Single-Step Rewards

Feb 27

ByArnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury

Мы рассматриваем задачу генерации кода на основе многошаговой обратной связи по выполнению. Существующие методы либо генерируют код без учета обратной связи, либо используют сложное иерархическое обучение с подкреплением для оптимизации многошаговых наград. Мы предлагаем простой, но масштабируемый подход, muCode, который решает задачу многошаговой генерации кода, используя только одношаговые награды. Наше ключевое наблюдение заключается в том, что генерация кода представляет собой одношаговый восстанавливаемый марковский процесс принятия решений (MDP), где правильный код может быть восстановлен из любого промежуточного состояния кода за один шаг. muCode итеративно обучает как генератор, предоставляющий решения по коду с учетом многошаговой обратной связи по выполнению, так и верификатор, оценивающий вновь сгенерированный код. Экспериментальные оценки показывают, что наш подход достигает значительных улучшений по сравнению с современными базовыми методами. Мы предоставляем анализ выбора моделей наград и политики, а также демонстрируем эффективность muCode в использовании обратной связи по выполнению. Наш код доступен по адресу https://github.com/portal-cornell/muCode.

Насколько далеко мы можем продвинуться с использованием ImageNet для генерации изображений из текста?
How far can we go with ImageNet for Text-to-Image generation?

Feb 28

ByL. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton

Последние модели генерации изображений по тексту (T2I) достигли впечатляющих результатов, обучаясь на наборах данных масштаба миллиардов, следуя парадигме «чем больше, тем лучше», которая ставит количество данных выше их качества. Мы оспариваем эту устоявшуюся парадигму, демонстрируя, что стратегическое расширение небольших, тщательно отобранных наборов данных может сравниться или превзойти модели, обученные на огромных коллекциях, собранных из интернета. Используя только ImageNet, дополненный продуманными текстовыми и визуальными аугментациями, мы достигаем улучшения на +2 балла по сравнению с SD-XL на GenEval и на +5 на DPGBench, при этом используя лишь 1/10 параметров и 1/1000 обучающих изображений. Наши результаты показывают, что стратегическое расширение данных, а не огромные наборы данных, может предложить более устойчивый путь развития для генерации изображений по тексту.

SoS1: Модели O1 и R1-Like Reasoning LLM являются решателями метода сумм квадратов.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

Feb 27

ByKechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu

Крупные языковые модели (LLM) достигли уровня, сопоставимого с человеческим, в решении разнообразных задач, однако их способность выполнять строгие математические вычисления остается открытой проблемой. В данной работе мы исследуем фундаментальную, но вычислительно сложную задачу: определение неотрицательности заданного многомерного полинома. Эта задача, тесно связанная с семнадцатой проблемой Гильберта, играет ключевую роль в глобальной оптимизации полиномов и имеет приложения в различных областях. Сначала мы представляем SoS-1K — тщательно отобранный набор данных, содержащий около 1000 полиномов, а также экспертно разработанные инструкции для рассуждений, основанные на пяти постепенно усложняющихся критериях. Оценивая несколько современных LLM, мы обнаруживаем, что без структурированного руководства все модели показывают результат лишь немного выше базового уровня случайного угадывания в 50%. Однако высококачественные инструкции для рассуждений значительно повышают точность, увеличивая производительность до 81%. Более того, наша модель SoS-7B, дообученная на SoS-1K всего за 4 часа, превосходит по точности 671B DeepSeek-V3 и GPT-4o-mini, при этом требуя лишь 1,8% и 5% от времени вычислений, необходимого для этих моделей, соответственно. Наши результаты подчеркивают потенциал LLM для расширения границ математических рассуждений и решения NP-трудных задач.

ViDoRAG: Визуальное извлечение документов с расширенной генерацией через динамические итеративные агенты рассуждения
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Feb 25

ByQiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao

Понимание информации из визуально насыщенных документов остается серьезной проблемой для традиционных методов Retrieval-Augmented Generation (RAG). Существующие бенчмарки в основном сосредоточены на вопросах и ответах на основе изображений (QA), упуская из виду фундаментальные задачи эффективного поиска, понимания и рассуждений в плотных визуальных документах. Чтобы устранить этот пробел, мы представляем ViDoSeek — новый набор данных, предназначенный для оценки производительности RAG на визуально насыщенных документах, требующих сложных рассуждений. На его основе мы выявляем ключевые ограничения современных подходов RAG: (i) чисто визуальные методы поиска не могут эффективно интегрировать текстовые и визуальные признаки, и (ii) предыдущие подходы часто выделяют недостаточно токенов для рассуждений, что ограничивает их эффективность. Для решения этих задач мы предлагаем ViDoRAG — новый мультиагентный фреймворк RAG, адаптированный для сложных рассуждений в визуальных документах. ViDoRAG использует гибридную стратегию на основе Гауссовской смеси моделей (GMM) для эффективной обработки мультимодального поиска. Чтобы дополнительно раскрыть способности модели к рассуждениям, мы вводим итеративный рабочий процесс агента, включающий исследование, суммирование и рефлексию, предоставляя основу для изучения масштабирования на этапе тестирования в областях RAG. Масштабные эксперименты на ViDoSeek подтверждают эффективность и обобщаемость нашего подхода. В частности, ViDoRAG превосходит существующие методы более чем на 10% на конкурентном бенчмарке ViDoSeek.

Симуляционно-реальное обучение с подкреплением для зрительно управляемой точной манипуляции на гуманоидных роботах
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

Feb 27

ByToru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu

Обучение с подкреплением демонстрирует впечатляющие результаты в достижении человеческого или даже сверхчеловеческого уровня в различных проблемных областях, однако успехи в области точного манипулирования роботами остаются ограниченными. В данной работе исследуются ключевые проблемы применения обучения с подкреплением для решения набора задач по манипулированию с интенсивным контактом на антропоморфном роботе. Мы представляем новые методы для преодоления выявленных проблем с эмпирической проверкой. Наши основные вклады включают автоматизированный модуль настройки "реальность-симуляция", который приближает симулированную среду к реальному миру, обобщенную схему проектирования вознаграждений, упрощающую разработку вознаграждений для задач манипулирования с длительным горизонтом и интенсивным контактом, процесс разделения и объединения, повышающий эффективность использования данных для сложных задач исследования при сохранении производительности в условиях "симуляция-реальность", а также смесь разреженных и плотных представлений объектов для преодоления разрыва в восприятии между симуляцией и реальностью. Мы демонстрируем перспективные результаты на трех задачах точного манипулирования антропоморфным роботом, включая исследования по каждому из предложенных методов. Наша работа представляет успешный подход к обучению точному манипулированию антропоморфным роботом с использованием обучения с подкреплением в условиях "симуляция-реальность", достигая устойчивого обобщения и высокой производительности без необходимости демонстраций человеком.

LiteASR: Эффективное автоматическое распознавание речи с использованием низкоранговой аппроксимации
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Feb 27

ByKeisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci

Современные модели автоматического распознавания речи (ASR), такие как Whisper от OpenAI, основаны на глубоких архитектурах типа "кодировщик-декодировщик", причем кодировщики являются критическим узким местом для эффективного развертывания из-за высокой вычислительной сложности. Мы представляем LiteASR — схему низкорангового сжатия для кодировщиков ASR, которая значительно снижает затраты на вывод, сохраняя при этом точность транскрипции. Наш подход использует сильные низкоранговые свойства, наблюдаемые в промежуточных активациях: применяя метод главных компонент (PCA) с небольшим калибровочным набором данных, мы аппроксимируем линейные преобразования цепочкой низкоранговых матричных умножений и дополнительно оптимизируем механизм самовнимания для работы в уменьшенной размерности. Результаты оценки показывают, что наш метод может сжать размер кодировщика Whisper large-v3 более чем на 50%, достигая размера Whisper medium с более высокой точностью транскрипции, тем самым устанавливая новый Парето-оптимальный баланс между эффективностью и производительностью. Код LiteASR доступен по адресу https://github.com/efeslab/LiteASR.

LettuceDetect: Фреймворк для обнаружения галлюцинаций в приложениях на основе RAG
LettuceDetect: A Hallucination Detection Framework for RAG Applications

Feb 24

ByÁdám Kovács, Gábor Recski

Системы генерации с использованием извлечения информации (Retrieval Augmented Generation, RAG) остаются уязвимыми к галлюцинациям в ответах, несмотря на использование внешних источников знаний. Мы представляем LettuceDetect — фреймворк, который устраняет два ключевых ограничения существующих методов обнаружения галлюцинаций: (1) ограничения контекстного окна традиционных методов на основе кодировщиков и (2) вычислительную неэффективность подходов, основанных на больших языковых моделях (LLM). Используя расширенные возможности контекста ModernBERT (до 8 тысяч токенов) и обучение на наборе данных RAGTruth, наш подход превосходит все предыдущие модели на основе кодировщиков и большинство моделей, основанных на промптах, при этом будучи примерно в 30 раз меньше лучших моделей. LettuceDetect представляет собой модель классификации токенов, которая обрабатывает тройки контекст-вопрос-ответ, что позволяет выявлять неподтвержденные утверждения на уровне токенов. Оценки на корпусе RAGTruth демонстрируют показатель F1 в 79,22% для обнаружения на уровне примеров, что на 14,8% лучше, чем у Luna — предыдущей передовой архитектуры на основе кодировщиков. Кроме того, система способна обрабатывать от 30 до 60 примеров в секунду на одном GPU, что делает её более практичной для реальных приложений RAG.

Расскажи почему: Визуальные базовые модели как самодостаточные объясняемые классификаторы
Tell me why: Visual foundation models as self-explainable classifiers

Feb 26

ByHugues Turbé, Mina Bjelogrlic, Gianmarco Mengaldo, Christian Lovis

Визуальные базовые модели (VFMs) становятся все более популярными благодаря их передовой производительности. Однако интерпретируемость остается критически важной для ответственных приложений. В этом контексте самопоясняемые модели (SEM) направлены на предоставление интерпретируемых классификаторов, которые разлагают предсказания на взвешенную сумму интерпретируемых концепций. Несмотря на их перспективность, недавние исследования показали, что такие объяснения часто недостаточно достоверны. В данной работе мы объединяем VFMs с новой прототипической архитектурой и специализированными целевыми функциями обучения. Обучая только легковесный верхний слой (примерно 1 млн параметров) поверх замороженных VFMs, наш подход (ProtoFM) предлагает эффективное и интерпретируемое решение. Оценки показывают, что наш подход достигает конкурентоспособной производительности в классификации, превосходя существующие модели по ряду метрик интерпретируемости, основанных на литературе. Код доступен по адресу https://github.com/hturbe/proto-fm.

TeleRAG: Эффективный вывод с использованием генерации, дополненной поиском, и предварительного поиска
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

Feb 28

ByChien-Yu Lin, Keisuke Kamahori, Yiyu Liu, Xiaoxiang Shi, Madhav Kashyap, Yile Gu, Rulin Shao, Zihao Ye, Kan Zhu, Stephanie Wang, Arvind Krishnamurthy, Rohan Kadekodi, Luis Ceze, Baris Kasikci

Генерация, дополненная поиском (RAG), расширяет возможности крупных языковых моделей (LLM) за счет использования внешних источников данных для повышения фактической точности и охвата предметной области. Современные RAG-конвейеры опираются на крупные хранилища данных, что создает системные проблемы в развертываниях, чувствительных к задержкам, особенно при ограниченной доступной памяти GPU. Для решения этих проблем мы предлагаем TeleRAG — эффективную систему вывода, которая снижает задержки RAG при минимальных требованиях к памяти GPU. Ключевым нововведением TeleRAG является опережающий поиск — механизм предварительной выборки, который предугадывает необходимые данные и передает их с CPU на GPU параллельно с генерацией LLM. Используя модульность RAG-конвейеров, алгоритм поиска по инвертированному файловому индексу (IVF) и сходства между запросами, TeleRAG оптимально совмещает перемещение данных и вычисления. Экспериментальные результаты показывают, что TeleRAG снижает задержку сквозного вывода RAG в среднем до 1,72 раза по сравнению с современными системами, обеспечивая более быстрые и энергоэффективные развертывания продвинутых RAG-приложений.

Оптимальный апоптоз мозга
Optimal Brain Apoptosis

Feb 25

ByMingyuan Sun, Zheng Fang, Jiaxu Wang, Junjie Jiang, Delei Kong, Chenming Hu, Yuetong Fang, Renjing Xu

Растущая сложность и количество параметров в сверточных нейронных сетях (CNN) и трансформерах создают проблемы с точки зрения вычислительной эффективности и требований к ресурсам. Обрезка была признана эффективной стратегией для решения этих проблем путем удаления избыточных элементов, таких как нейроны, каналы или соединения, что повышает вычислительную эффективность без значительного ущерба для производительности. Данная работа основывается на фундаментальных исследованиях метода Optimal Brain Damage (OBD), развивая методологию оценки важности параметров с использованием матрицы Гессе. В отличие от предыдущих подходов, которые полагаются на аппроксимации, мы представляем Optimal Brain Apoptosis (OBA) — новый метод обрезки, который напрямую вычисляет произведение Гессе-вектор для каждого параметра. Разлагая матрицу Гессе по слоям сети и определяя условия, при которых межслойные подматрицы Гессе не равны нулю, мы предлагаем высокоэффективную технику для вычисления разложения Тейлора второго порядка параметров. Этот подход позволяет проводить более точную обрезку, особенно в контексте CNN и трансформеров, что подтверждается нашими экспериментами с моделями VGG19, ResNet32, ResNet50 и ViT-B/16 на наборах данных CIFAR10, CIFAR100 и Imagenet. Наш код доступен по адресу https://github.com/NEU-REAL/OBA.

DexGraspVLA: Визионно-языково-действенная структура для достижения универсального точного захвата
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

Feb 28

ByYifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen

Ловкое захватывание остается фундаментальной, но сложной задачей в робототехнике. Универсальный робот должен быть способен захватывать разнообразные объекты в произвольных сценариях. Однако существующие исследования обычно полагаются на специфические допущения, такие как настройки с одним объектом или ограниченные среды, что приводит к ограниченной обобщаемости. Наше решение — DexGraspVLA, иерархическая структура, которая использует предварительно обученную модель Vision-Language в качестве высокоуровневого планировщика задач и обучает политику на основе диффузии в качестве низкоуровневого контроллера действий. Ключевая идея заключается в итеративном преобразовании разнообразных языковых и визуальных входных данных в инвариантные к домену представления, где обучение с подражанием может быть эффективно применено благодаря смягчению сдвига домена. Таким образом, это обеспечивает устойчивую обобщаемость в широком диапазоне реальных сценариев. Примечательно, что наш метод достигает успешности более 90% в условиях тысяч комбинаций невидимых объектов, освещения и фона в среде с «нулевым обучением». Эмпирический анализ дополнительно подтверждает согласованность внутреннего поведения модели при изменении окружающей среды, тем самым подтверждая наш дизайн и объясняя его обобщающую производительность. Мы надеемся, что наша работа станет шагом вперед в достижении универсального ловкого захватывания. Наш демо-пример и код можно найти по адресу https://dexgraspvla.github.io/.

Обучение предпочтениям раскрывает психо-консультационные навыки больших языковых моделей
Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Feb 27

ByMian Zhang, Shaun M. Eack, Zhiyu Zoey Chen

Применение больших языковых моделей (LLM) для оказания помощи в психологическом консультировании является перспективным и значимым подходом, обусловленным существенным разрывом между потребностями пациентов и доступностью психиатрической поддержки. Однако современные LLM сталкиваются с трудностями в обеспечении стабильно эффективных ответов на высказывания клиентов, что во многом связано с отсутствием надзора на основе высококачественных данных реальных психотерапевтических сессий, доступ к которым обычно ограничен из-за соображений конфиденциальности клиентов. Кроме того, качество ответов терапевтов в доступных сессиях может значительно варьироваться в зависимости от их профессиональной подготовки и опыта. Оценка качества ответов терапевтов остается открытой проблемой. В данной работе мы решаем эти задачи, сначала предлагая набор профессиональных и всеобъемлющих принципов для оценки ответов терапевтов на высказывания клиентов. Используя эти принципы, мы создаем набор данных предпочтений PsychoCounsel-Preference, который содержит 36 тысяч высококачественных пар сравнений предпочтений. Этот набор данных соответствует предпочтениям профессиональных психотерапевтов, предоставляя надежную основу для оценки и улучшения LLM в психологическом консультировании. Эксперименты по моделированию вознаграждения и обучению на основе предпочтений демонстрируют, что PsychoCounsel-Preference является отличным ресурсом для LLM, чтобы приобрести необходимые навыки для ответов клиентам в ходе консультации. Наша наиболее согласованная модель, PsychoCounsel-Llama3-8B, достигает впечатляющего уровня успешности в 87% по сравнению с GPT-4o. Мы публикуем PsychoCounsel-Preference, PsychoCounsel-Llama3-8B и модель вознаграждения PsychoCounsel Llama3-8B-Reward для содействия исследованиям в области психологического консультирования с использованием LLM по адресу: https://hf.co/Psychotherapy-LLM.

EgoNormia: Бенчмаркинг понимания физических социальных норм
EgoNormia: Benchmarking Physical Social Norm Understanding

Feb 27

ByMohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

Человеческая деятельность регулируется нормами. При совершении действий в реальном мире люди не только следуют нормам, но и учитывают компромиссы между различными нормами. Однако машины часто обучаются без явного контроля за пониманием и рассуждением о нормах, особенно когда нормы основаны на физическом и социальном контексте. Для улучшения и оценки способности к нормативному рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), мы представляем EgoNormia |epsilon|, состоящий из 1,853 эгоцентричных видео человеческих взаимодействий, каждое из которых содержит два связанных вопроса, оценивающих как предсказание, так и обоснование нормативных действий. Нормативные действия охватывают семь категорий: безопасность, приватность, проксемика, вежливость, сотрудничество, координация/проактивность и коммуникация/понятность. Для создания этого набора данных в масштабе мы предлагаем новый подход, включающий выборку видео, автоматическую генерацию ответов, фильтрацию и проверку людьми. Наша работа демонстрирует, что современные модели VLMs не обладают устойчивым пониманием норм, достигая максимум 45% на EgoNormia (по сравнению с человеческим эталоном в 92%). Анализ производительности по каждому измерению подчеркивает значительные риски в области безопасности, приватности, а также недостаток способности к сотрудничеству и коммуникации при применении к реальным агентам. Мы также показываем, что с помощью метода генерации на основе поиска возможно использовать EgoNormia для улучшения нормативного рассуждения в VLMs.

MIGE: Унифицированная платформа для мультимодальной генерации и редактирования изображений на основе инструкций
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

Feb 28

ByXueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen

Несмотря на значительный прогресс в генерации изображений на основе диффузии, задачи, связанные с генерацией на основе объекта и редактированием по инструкциям, остаются сложными. Существующие методы обычно рассматривают их отдельно, сталкиваясь с ограниченным количеством высококачественных данных и плохой обобщаемостью. Однако обе задачи требуют учета сложных визуальных вариаций при сохранении согласованности между входными и выходными данными. Поэтому мы предлагаем MIGE — унифицированную структуру, которая стандартизирует представление задач с использованием мультимодальных инструкций. Она рассматривает генерацию на основе объекта как создание на чистом холсте, а редактирование по инструкциям — как модификацию существующего изображения, устанавливая общую формулировку "вход-выход". MIGE представляет новый мультимодальный кодировщик, который отображает свободные мультимодальные инструкции в единое визуально-языковое пространство, интегрируя визуальные и семантические признаки через механизм слияния признаков. Эта унификация позволяет совместное обучение для обеих задач, предоставляя два ключевых преимущества: (1) Улучшение за счет кросс-задачности: Используя общие визуальные и семантические представления, совместное обучение повышает соответствие инструкциям и визуальную согласованность как в генерации на основе объекта, так и в редактировании по инструкциям. (2) Обобщаемость: Обучение в унифицированном формате способствует переносу знаний между задачами, позволяя MIGE обобщать на новые композиционные задачи, включая редактирование на основе объекта по инструкциям. Эксперименты показывают, что MIGE превосходит в генерации на основе объекта и редактировании по инструкциям, устанавливая новый стандарт в новой задаче редактирования на основе объекта по инструкциям. Код и модель доступны по адресу: https://github.com/Eureka-Maggie/MIGE.

HAIC: Улучшение понимания и генерации человеческих действий с помощью более качественных подписей для мультимодальных больших языковых моделей
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

Feb 28

ByXiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie

Современные мультимодальные большие языковые модели (MLLMs) достигли значительного прогресса в понимании видео. Однако их производительность на видео, содержащих действия людей, по-прежнему ограничена из-за недостатка качественных данных. Для решения этой проблемы мы представляем двухэтапный процесс аннотирования данных. Сначала мы разрабатываем стратегии для сбора видео с четко выраженными действиями людей из Интернета. Затем видео аннотируются в стандартизированном формате описания, который использует атрибуты человека для идентификации индивидуумов и хронологически детализирует их действия и взаимодействия. С помощью этого процесса мы создали два набора данных: HAICTrain и HAICBench. HAICTrain включает 126 тысяч пар видео-описание, сгенерированных моделью Gemini-Pro и проверенных для целей обучения. В то же время HAICBench содержит 500 вручную аннотированных пар видео-описание и 1400 пар вопрос-ответ для всесторонней оценки понимания действий человека. Экспериментальные результаты показывают, что обучение на HAICTrain не только значительно улучшает способности к пониманию действий человека на 4 тестовых наборах, но также может улучшить результаты генерации видео из текста. Оба набора данных, HAICTrain и HAICBench, доступны по адресу https://huggingface.co/datasets/KuaishouHAIC/HAIC.