Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчёт Qwen2.5
Qwen2.5 Technical Report

Dec 19

ByQwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu

376

В данном отчете мы представляем Qwen2.5, обширную серию крупных языковых моделей (LLM), разработанных для удовлетворения различных потребностей. По сравнению с предыдущими версиями, Qwen 2.5 был значительно улучшен как на этапе предварительного обучения, так и после него. Что касается предварительного обучения, мы увеличили объем высококачественных наборов данных для предварительного обучения с предыдущих 7 трлн токенов до 18 трлн токенов. Это обеспечивает прочную основу для здравого смысла, экспертных знаний и способностей к рассуждениям. Что касается послеобучения, мы реализуем сложное обучение с учителем с более чем 1 миллионом образцов, а также многоступенчатое обучение с подкреплением. Техники послеобучения улучшают предпочтения человека и значительно повышают качество генерации длинных текстов, анализ структурных данных и следование инструкциям. Для эффективной работы с разнообразными и различными сценариями использования мы представляем серию LLM Qwen2.5 в различных размерах. Открытые модели включают базовые и модели, настроенные на инструкции, а также доступны квантованные версии. Кроме того, для хостинговых решений проприетарные модели включают два варианта смеси экспертов (MoE): Qwen2.5-Turbo и Qwen2.5-Plus, оба доступны из Alibaba Cloud Model Studio. Qwen2.5 продемонстрировал высокую производительность на широком спектре показателей, оценивающих понимание языка, рассуждения, математику, программирование, соответствие предпочтениям человека и т. д. В частности, открытая флагманская модель Qwen2.5-72B-Instruct превосходит ряд открытых и проприетарных моделей и демонстрирует конкурентоспособную производительность по сравнению с передовой открытой моделью весом Llama-3-405B-Instruct, которая примерно в 5 раз больше. Qwen2.5-Turbo и Qwen2.5-Plus предлагают превосходную эффективность по стоимости, обеспечивая конкурентоспособность по сравнению с GPT-4o-mini и GPT-4o соответственно. Кроме того, в качестве основы модели Qwen2.5 сыграли ключевую роль в обучении специализированных моделей, таких как Qwen2.5-Math, Qwen2.5-Coder, QwQ и мультимодальные модели.

Прогрессивное мультимодальное рассуждение с помощью активного извлечения.
Progressive Multimodal Reasoning via Active Retrieval

Dec 19

ByGuanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen

Многоэтапные мультимодальные задачи рассуждения представляют существенные вызовы для мультимодальных моделей больших языков (MLLM), и поиск эффективных способов улучшения их производительности в таких сценариях остается нерешенной проблемой. В данной статье мы предлагаем AR-MCTS, универсальную структуру, разработанную для постепенного улучшения способностей рассуждения MLLM через активное извлечение (AR) и поиск по дереву Монте-Карло (MCTS). Наш подход начинается с разработки объединенного модуля извлечения, который извлекает ключевые поддерживающие идеи для решения сложных проблем рассуждения из гибридно-модального корпуса извлечения. Для устранения разрыва в автоматизированной верификации мультимодального рассуждения мы используем алгоритм MCTS в сочетании с механизмом активного извлечения, что позволяет автоматически генерировать аннотации пошагово. Эта стратегия динамически извлекает ключевые идеи для каждого шага рассуждения, выходя за пределы традиционного поиска лучевым методом для улучшения разнообразия и надежности пространства рассуждения. Кроме того, мы представляем модель вознаграждения процесса, которая постепенно выравнивается для поддержки автоматической верификации мультимодальных задач рассуждения. Экспериментальные результаты на трех сложных бенчмарках мультимодального рассуждения подтверждают эффективность структуры AR-MCTS в улучшении производительности различных мультимодальных моделей. Дополнительный анализ показывает, что AR-MCTS может оптимизировать разнообразие и точность выборки, обеспечивая надежное мультимодальное рассуждение.

MegaPairs: Массивная синтез данных для универсального мультимодального поиска
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Dec 19

ByJunjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong

Несмотря на быстро растущий спрос на мультимодальный поиск, прогресс в этой области по-прежнему сильно ограничен недостатком обучающих данных. В данной статье мы представляем MegaPairs, новый метод синтеза данных, который использует модели видео-языка (VLM) и изображения из открытых источников, вместе с огромным синтетическим набором данных, сгенерированным с помощью этого метода. Наш анализ показывает, что MegaPairs создает данные высокого качества, позволяя мультимодальному поисковику значительно превзойти базовую модель, обученную на 70 раз большем объеме данных из существующих наборов данных. Более того, поскольку MegaPairs полностью зависит от общих корпусов изображений и открытых источников VLM, его можно легко масштабировать, обеспечивая непрерывное улучшение производительности поиска. На данном этапе мы создали более 26 миллионов обучающих примеров и обучили несколько моделей различного размера с использованием этих данных. Эти новые модели достигают современной производительности на нулевом этапе на 4 популярных бенчмарках составного поиска изображений (CIR) и лучшей общей производительности на 36 наборах данных, предоставленных MMEB. Они также демонстрируют заметное улучшение производительности с дополнительной донастройкой. Наш созданный набор данных, хорошо обученные модели и процесс синтеза данных будут общедоступны для содействия будущему развитию этой области.

Как синтезировать текстовые данные без коллапса модели?
How to Synthesize Text Data without Model Collapse?

Dec 19

ByXuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou

Модельный коллапс в синтетических данных указывает на то, что итеративное обучение на самостоятельно созданных данных приводит к постепенному снижению производительности. С увеличением количества моделей искусственного интеллекта синтетические данные фундаментально изменят экосистему веб-данных. Будущие модели GPT-{n} будут неизбежно обучаться на смеси синтетических и человечески созданных данных. В данной статье мы сосредотачиваемся на двух вопросах: каково влияние синтетических данных на обучение языковых моделей и как синтезировать данные, избегая коллапса модели? Сначала мы предварительно обучаем языковые модели на различных пропорциях синтетических данных, выявляя отрицательную корреляцию между долей синтетических данных и производительностью модели. Далее мы проводим статистический анализ синтетических данных, чтобы выявить явление сдвига распределения и переизбыток n-граммных признаков. Вдохновленные вышеуказанными результатами, мы предлагаем редактирование токенов в человечески созданных данных для получения полусинтетических данных. В качестве доказательства концепции мы теоретически демонстрируем, что редактирование на уровне токенов может предотвратить коллапс модели, так как ошибка тестирования ограничена конечной верхней границей. Мы проводим обширные эксперименты по предварительному обучению с нуля, непрерывному предварительному обучению и надзорному дообучению. Результаты подтверждают наше теоретическое доказательство того, что редактирование на уровне токенов улучшает качество данных и повышает производительность модели.

LongBench v2: К более глубокому пониманию и рассуждениям о реалистичных многозадачных задачах с длинным контекстом.
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

Dec 19

ByYushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Данный документ представляет LongBench v2, бенчмарк, разработанный для оценки способности LLMs решать проблемы с длинным контекстом, требующие глубокого понимания и рассуждений по реальным мультитаскам. LongBench v2 состоит из 503 сложных вопросов с выбором ответа, с контекстами от 8 тыс. до 2 млн слов, в шести основных категориях задач: вопросы-ответы на основе одного документа, вопросы-ответы на основе нескольких документов, долгосрочное обучение в контексте, понимание длинной истории диалога, понимание репозитория кода и понимание длинных структурированных данных. Для обеспечения широты и практичности мы собрали данные от почти 100 высокообразованных лиц с разнообразным профессиональным опытом. Мы используем как автоматизированные, так и ручные процессы рецензирования для поддержания высокого качества и сложности, что приводит к тому, что эксперты-люди достигают лишь 53,7% точности при ограничении времени в 15 минут. Наша оценка показывает, что лучшая модель, отвечающая непосредственно на вопросы, достигает лишь 50,1% точности. В отличие от этого, модель o1-preview, включающая более длинные рассуждения, достигает 57,7%, превосходя базовый уровень человека на 4%. Эти результаты подчеркивают важность улучшенной способности к рассуждениям и масштабирования вычислений во время вывода для решения проблем с длинным контекстом в LongBench v2. Проект доступен по адресу https://longbench2.github.io.

Переход от слов к пикселям: Фреймворк для эволюции кросс-модальности
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

Dec 19

ByQihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh

Модели диффузии и их обобщение, сопоставление потоков, оказали заметное влияние на область генерации медиа. Здесь традиционным подходом является изучение сложного отображения от простого исходного распределения гауссовского шума к целевому распределению медиа. Для кросс-модальных задач, таких как генерация текста в изображение, это же отображение от шума к изображению изучается с учетом механизма условий в модели. Одной из ключевых и до сих пор относительно неисследованных особенностей сопоставления потоков является то, что, в отличие от моделей диффузии, они не ограничены тем, чтобы исходное распределение было шумом. Поэтому в данной статье мы предлагаем парадигмальный сдвиг и задаем вопрос о том, можно ли вместо этого обучить модели сопоставления потоков изучать прямое отображение от распределения одной модальности к распределению другой, тем самым избежав необходимости как в распределении шума, так и в механизме условий. Мы представляем общую и простую структуру, CrossFlow, для кросс-модального сопоставления потоков. Мы показываем важность применения вариационных кодировщиков к входным данным и представляем метод, позволяющий обеспечить руководство без классификатора. Удивительным образом для текста в изображение CrossFlow с обычным трансформером без кросс-внимания немного превосходит стандартное сопоставление потоков, и мы показываем, что он лучше масштабируется с увеличением количества шагов обучения и размером модели, позволяя также интересные латентные арифметические операции, приводящие к семантически значимым изменениям в пространстве вывода. Для демонстрации обобщаемости нашего подхода мы также показываем, что CrossFlow на уровне или превосходит современные методы для различных кросс-модальных / внутримодальных задач сопоставления, таких как описание изображения, оценка глубины и суперразрешение изображения. Мы надеемся, что данная статья способствует ускорению прогресса в области кросс-модальной генерации медиа.

LeviTor: Синтез изображения в видео на основе трехмерной траектории
LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Dec 19

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang

Интуитивная природа взаимодействия на основе перетаскивания привела к его все более широкому применению для управления траекториями объектов в синтезе изображений в видео. Тем не менее, существующие методы, осуществляющие перетаскивание в 2D пространстве, обычно сталкиваются с неоднозначностью при обработке движений вне плоскости. В данной работе мы расширяем взаимодействие новым измерением, а именно, глубинным измерением, позволяя пользователям назначать относительную глубину для каждой точки на траектории. Таким образом, наш новый парадигма взаимодействия не только наследует удобство 2D перетаскивания, но также облегчает управление траекториями в 3D пространстве, расширяя возможности творчества. Мы предлагаем первоначальный метод управления 3D траекториями в синтезе изображений в видео, абстрагируя маски объектов в несколько кластерных точек. Эти точки, сопровождаемые информацией о глубине и информацией об экземпляре, в конечном итоге подаются в модель видеодиффузии в качестве сигнала управления. Обширные эксперименты подтверждают эффективность нашего подхода, названного LeviTor, в точном управлении движениями объектов при создании фотореалистичных видео из статических изображений. Страница проекта: https://ppetrichor.github.io/levitor.github.io/

Вставка объекта с учетом возможностей через двойное диффузное распространение с учетом маски.
Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

Dec 19

ByJixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister

В качестве обычной операции по редактированию изображений, композиция изображения включает интеграцию передних объектов в фоновые сцены. В данной статье мы расширяем применение концепции Affordance из задач композиции изображений, ориентированных на человека, к более общей рамке композиции объект-сцена, рассматривая сложное взаимодействие между передними объектами и фоновыми сценами. Следуя принципу Affordance, мы определяем задачу вставки объекта с учетом affordance, которая направлена на бесшовную вставку любого объекта в любую сцену с различными подсказками по позиции. Для решения проблемы ограниченных данных и включения этой задачи мы создали набор данных SAM-FB, содержащий более 3 миллионов примеров по более чем 3 000 категориям объектов. Кроме того, мы предлагаем модель Mask-Aware Dual Diffusion (MADD), которая использует двухпоточную архитектуру для одновременного удаления шума из RGB-изображения и маски вставки. Эффективно учитывая маску вставки в процессе диффузии, MADD эффективно облегчает понятие affordance. Обширные экспериментальные результаты показывают, что наш метод превосходит современные методы и обладает сильной обобщающей способностью на изображениях "в дикой природе". Пожалуйста, обратитесь к нашему коду на https://github.com/KaKituken/affordance-aware-any.

AceMath: Развитие передового математического рассуждения с помощью пост-тренировки и моделирования вознаграждения
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Dec 19

ByZihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

В данной статье мы представляем AceMath, набор передовых математических моделей, которые отлично справляются с решением сложных математических задач, а также высокоэффективные модели вознаграждения, способные оценивать созданные решения и надежно идентифицировать правильные. Для разработки математических моделей, настроенных на инструкции, мы предлагаем процесс надзорного дообучения (SFT), который сначала достигает конкурентоспособной производительности в общих областях, а затем направленно донастраивается для математической области с использованием тщательно отобранного набора подсказок и синтетически сгенерированных ответов. Полученная модель, AceMath-72B-Instruct, значительно превосходит Qwen2.5-Math-72B-Instruct, GPT-4o и Claude-3.5 Sonnet. Для разработки математической модели вознаграждения, специализированной на математике, мы сначала создаем AceMath-RewardBench, всеобъемлющую и надежную платформу для оценки математических моделей вознаграждения на различных задачах и уровнях сложности. Затем мы представляем систематический подход к построению наших математических моделей вознаграждения. Полученная модель, AceMath-72B-RM, последовательно превосходит современные модели вознаграждения. Более того, при объединении AceMath-72B-Instruct с AceMath-72B-RM мы достигаем самого высокого среднего показателя rm@8 по математическим бенчмаркам рассуждения. Мы предоставим веса модели, обучающие данные и оценочные бенчмарки по адресу: https://research.nvidia.com/labs/adlr/acemath

DI-PCG: Диффузионно-основанная эффективная обратная процедурная генерация контента для создания трехмерных активов высокого качества
DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

Dec 19

ByWang Zhao, Yan-Pei Cao, Jiale Xu, Yuejiang Dong, Ying Shan

Процедурное генерирование контента (PCG) является мощным средством для создания трехмерных контентов высокого качества, однако управление им для получения желаемых форм является сложным и часто требует обширной настройки параметров. Обратное процедурное генерирование контента направлено на автоматическое определение лучших параметров в условиях ввода. Однако существующие методы на основе выборки и нейронных сетей по-прежнему страдают от многочисленных итераций выборки или ограниченной управляемости. В данной работе мы представляем DI-PCG, новый и эффективный метод для обратного PCG из общих изображений. В его основе лежит легкая модель трансформера диффузии, где параметры PCG непосредственно рассматриваются как цель денойзинга, а наблюдаемые изображения - как условия для управления генерацией параметров. DI-PCG эффективен и эффективен. С всего 7,6 миллионами параметров сети и 30 часами обучения на GPU он демонстрирует превосходную производительность в точном восстановлении параметров и хорошей обобщающей способности к изображениям "на природе". Количественные и качественные результаты экспериментов подтверждают эффективность DI-PCG в задачах обратного PCG и генерации трехмерных изображений. DI-PCG предлагает многообещающий подход для эффективного обратного PCG и представляет собой ценный шаг в исследовании пути генерации трехмерных моделей, которые моделируют, как создавать трехмерный объект с использованием параметрических моделей.

Улучшение описательного заголовка с помощью визуальных специалистов для мультимодального восприятия.
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

Dec 18

ByYanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang

Обучение больших мультимодельных моделей (LMMs) основано на описательном изображении, которое соединяет изображение и язык. Существующие методы либо извлекают подпись из моделей LMM, либо создают подписи из интернет-изображений или с помощью человека. Мы предлагаем использовать готовых визуальных специалистов, которые были обучены на аннотированных изображениях изначально не для подписывания изображений, для улучшения подписи изображения. Наш подход, названный DCE, исследует низкоуровневые и детализированные атрибуты объектов (например, глубину, эмоции и детализированные категории) и отношения между объектами (например, относительное расположение и взаимодействие человек-объект (HOI)), и объединяет атрибуты в описательную подпись. Эксперименты показывают, что такие визуальные специалисты способны улучшить производительность для задач визуального понимания, а также рассуждения, которые выигрывают от более точного визуального понимания. Мы выпустим исходный код и конвейер, чтобы другие визуальные специалисты могли легко включаться в конвейер. Полный исходный код конвейера DCE и наборы данных будут доступны на https://github.com/syp2ysy/DCE.

AV-связь: Временно-выровненные диффузионные признаки для кросс-модальной генерации аудио-видео.
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Dec 19

ByMoayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov

Мы предлагаем AV-Link, унифицированную структуру для генерации видео в аудио и аудио в видео, использующую активации замороженных моделей диффузии видео и аудио для взаимосвязи модальностей с соблюдением временной согласованности. Ключевым элементом нашей структуры является блок слияния, обеспечивающий двусторонний обмен информацией между нашими основными моделями диффузии видео и аудио через операцию внимания к себе с соблюдением временной согласованности. В отличие от предыдущих работ, использующих предварительно обученные извлекатели признаков для условного сигнала, AV-Link может напрямую использовать признаки, полученные с помощью дополнительной модальности, в рамках единой структуры, то есть признаки видео для генерации аудио или признаки аудио для генерации видео. Мы подробно оцениваем наши выборы дизайна и демонстрируем способность нашего метода достигать синхронизированного и высококачественного аудиовизуального контента, показывая его потенциал для применения в генерации иммерсивных медиа. Страница проекта: snap-research.github.io/AVLink/

UIP2P: Неуправляемое редактирование изображений на основе инструкций с помощью циклического редактирования для обеспечения согласованности.
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

Dec 19

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

Мы предлагаем модель без учителя для редактирования изображений на основе инструкций, которая исключает необходимость в реальных отредактированных изображениях во время обучения. Существующие методы обучения с учителем зависят от наборов данных, содержащих тройки: исходное изображение, отредактированное изображение и инструкцию по редактированию. Они создаются либо с использованием существующих методов редактирования, либо с помощью аннотаций людей, что вводит предвзятость и ограничивает их способность к обобщению. Наш метод решает эти проблемы путем введения нового механизма редактирования под названием Циклическая Согласованность Редактирования (CEC), который применяет прямые и обратные редактирования на одном этапе обучения и обеспечивает согласованность в пространствах изображения и внимания. Это позволяет нам обойти необходимость в реальных отредактированных изображениях и впервые обучиться на наборах данных, включающих либо реальные пары изображение-подпись, либо тройки изображение-подпись-редакция. Мы эмпирически показываем, что наш метод без учителя лучше справляется с широким спектром редактирований с высокой точностью и достоверностью. Избавляясь от необходимости в существующих наборах данных троек, уменьшая предвзятость, связанную с методами обучения с учителем, и предлагая CEC, наша работа представляет собой значительный прогресс в разблокировании масштабирования редактирования изображений на основе инструкций.

TOMG-Bench: Оценка LLM на генерации молекул на основе текста
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

Dec 19

ByJiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li

В данной статье мы предлагаем Бенчмарк генерации молекул на основе текста (TOMG-Bench), первый бенчмарк для оценки способности моделей языковых мощностей к генерации молекул в открытом домене. TOMG-Bench включает в себя набор данных из трех основных задач: редактирование молекул (MolEdit), оптимизация молекул (MolOpt) и настраиваемая генерация молекул (MolCustom). Каждая задача также содержит три подзадачи, причем каждая из них включает 5 000 тестовых образцов. Учитывая врожденную сложность генерации молекул в открытом домене, мы также разработали автоматизированную систему оценки, которая помогает измерить как качество, так и точность сгенерированных молекул. Наше всестороннее тестирование 25 моделей языковых мощностей позволяет выявить текущие ограничения и потенциальные области улучшения в области открытого поиска молекул с помощью текста. Более того, с помощью OpenMolIns, специализированного набора данных для настройки инструкций, предложенного для решения задач, поставленных в TOMG-Bench, модель Llama3.1-8B смогла превзойти все общедоступные общие модели языковых мощностей, даже превзойдя GPT-3.5-turbo на 46,5\% в рамках TOMG-Bench. Наши коды и наборы данных доступны по ссылке https://github.com/phenixace/TOMG-Bench.

PixelMan: Согласованное редактирование объектов с моделями диффузии через манипуляцию и генерацию пикселей
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

Dec 18

ByLiyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu

Недавние исследования исследуют потенциал моделей диффузии (DM) для последовательного редактирования объектов, которое направлено на изменение позиции объекта, его размера, композиции и т. д., сохраняя при этом согласованность объектов и фона без изменения текстуры и атрибутов. Текущие методы времени вывода часто полагаются на инверсию DDIM, что в свою очередь снижает эффективность и достижимую согласованность отредактированных изображений. Недавние методы также используют энергетическое направление, которое итеративно обновляет предсказанный шум и может отводить латентные переменные от исходного изображения, что приводит к искажениям. В данной статье мы предлагаем PixelMan, метод без инверсии и обучения, для достижения последовательного редактирования объектов с помощью Пиксельной Манипуляции и генерации, где мы непосредственно создаем дубликат исходного объекта в целевом местоположении в пространстве пикселей, и вводим эффективный метод выборки для итеративного гармонизирования отредактированного объекта в целевом местоположении и заполнения его исходного местоположения, обеспечивая при этом согласованность изображения путем привязки генерируемого отредактированного изображения к пиксельно-отредактированному изображению, а также путем введения различных техник оптимизации, сохраняющих согласованность во время вывода. Экспериментальные оценки на основе наборов данных для сравнения, а также обширные визуальные сравнения показывают, что уже после 16 шагов вывода PixelMan превосходит ряд современных методов на основе обучения и без обучения (которые обычно требуют 50 шагов) по нескольким задачам последовательного редактирования объектов.

DateLogicQA: Сравнение временных искажений в крупных языковых моделях
DateLogicQA: Benchmarking Temporal Biases in Large Language Models

Dec 17

ByGagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi

В данной статье представлен DateLogicQA, набор тестов с 190 вопросами, охватывающими различные форматы дат, временные контексты и типы рассуждений. Мы предлагаем метрику семантической целостности для оценки качества токенизации и анализируем два типа предвзятостей: Предвзятость на уровне представления, влияющая на вложения, и Предвзятость на логическом уровне, влияющая на результаты рассуждений. Наши результаты обеспечивают всестороннюю оценку возможностей и ограничений LLM в области временного рассуждения, выделяя ключевые вызовы в точной обработке временных данных. Репозиторий нашей работы доступен на GitHub по адресу https://github.com/gagan3012/EAIS-Temporal-Bias

Генерация движения человека с учетом 2D: Move-in-2D
Move-in-2D: 2D-Conditioned Human Motion Generation

Dec 17

ByHsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu

Генерация реалистичных видеороликов с участием людей остается сложной задачей, причем наиболее эффективные методы в настоящее время основаны на последовательности движений человека в качестве сигнала управления. Существующие подходы часто используют существующие движения, извлеченные из других видеороликов, что ограничивает применение определенными типами движений и глобальным соответствием сцен. Мы предлагаем подход Move-in-2D, новый метод генерации последовательностей движений человека, зависящий от изображения сцены, что позволяет получать разнообразные движения, адаптирующиеся к различным сценам. Наш подход использует модель диффузии, принимающую на вход как изображение сцены, так и текстовую подсказку, и генерирующую последовательность движения, адаптированную к сцене. Для обучения этой модели мы собрали крупномасштабный набор видеороликов с одиночными действиями людей, аннотируя каждое видео с соответствующим движением человека в качестве целевого выхода. Эксперименты показывают, что наш метод эффективно предсказывает движения человека, соответствующие изображению сцены после проекции. Более того, мы демонстрируем, что сгенерированная последовательность движения улучшает качество движения человека в задачах синтеза видеороликов.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчёт Qwen2.5
Qwen2.5 Technical Report

Dec 19

376

Прогрессивное мультимодальное рассуждение с помощью активного извлечения.
Progressive Multimodal Reasoning via Active Retrieval

Dec 19

ByGuanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen

MegaPairs: Массивная синтез данных для универсального мультимодального поиска
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Dec 19

ByJunjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong

Как синтезировать текстовые данные без коллапса модели?
How to Synthesize Text Data without Model Collapse?

Dec 19

ByXuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou

LongBench v2: К более глубокому пониманию и рассуждениям о реалистичных многозадачных задачах с длинным контекстом.
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

Dec 19

ByYushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Переход от слов к пикселям: Фреймворк для эволюции кросс-модальности
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

Dec 19

ByQihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh

LeviTor: Синтез изображения в видео на основе трехмерной траектории
LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Dec 19

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang

Вставка объекта с учетом возможностей через двойное диффузное распространение с учетом маски.
Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

Dec 19

ByJixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister

AceMath: Развитие передового математического рассуждения с помощью пост-тренировки и моделирования вознаграждения
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Dec 19

ByZihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

DI-PCG: Диффузионно-основанная эффективная обратная процедурная генерация контента для создания трехмерных активов высокого качества
DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

Dec 19

ByWang Zhao, Yan-Pei Cao, Jiale Xu, Yuejiang Dong, Ying Shan

Улучшение описательного заголовка с помощью визуальных специалистов для мультимодального восприятия.
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

Dec 18

ByYanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang

AV-связь: Временно-выровненные диффузионные признаки для кросс-модальной генерации аудио-видео.
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Dec 19

ByMoayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov

UIP2P: Неуправляемое редактирование изображений на основе инструкций с помощью циклического редактирования для обеспечения согласованности.
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

Dec 19

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

TOMG-Bench: Оценка LLM на генерации молекул на основе текста
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

Dec 19

ByJiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li

PixelMan: Согласованное редактирование объектов с моделями диффузии через манипуляцию и генерацию пикселей
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

Dec 18

ByLiyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu

DateLogicQA: Сравнение временных искажений в крупных языковых моделях
DateLogicQA: Benchmarking Temporal Biases in Large Language Models

Dec 17

ByGagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi

Генерация движения человека с учетом 2D: Move-in-2D
Move-in-2D: 2D-Conditioned Human Motion Generation

Dec 17

ByHsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu