Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем Qwen2.5, обширную серию крупных языковых моделей (LLM), разработанных для удовлетворения различных потребностей. По сравнению с предыдущими версиями, Qwen 2.5 был значительно улучшен как на этапе предварительного обучения, так и после него. Что касается предварительного обучения, мы увеличили объем высококачественных наборов данных для предварительного обучения с предыдущих 7 трлн токенов до 18 трлн токенов. Это обеспечивает прочную основу для здравого смысла, экспертных знаний и способностей к рассуждениям. Что касается послеобучения, мы реализуем сложное обучение с учителем с более чем 1 миллионом образцов, а также многоступенчатое обучение с подкреплением. Техники послеобучения улучшают предпочтения человека и значительно повышают качество генерации длинных текстов, анализ структурных данных и следование инструкциям. Для эффективной работы с разнообразными и различными сценариями использования мы представляем серию LLM Qwen2.5 в различных размерах. Открытые модели включают базовые и модели, настроенные на инструкции, а также доступны квантованные версии. Кроме того, для хостинговых решений проприетарные модели включают два варианта смеси экспертов (MoE): Qwen2.5-Turbo и Qwen2.5-Plus, оба доступны из Alibaba Cloud Model Studio. Qwen2.5 продемонстрировал высокую производительность на широком спектре показателей, оценивающих понимание языка, рассуждения, математику, программирование, соответствие предпочтениям человека и т. д. В частности, открытая флагманская модель Qwen2.5-72B-Instruct превосходит ряд открытых и проприетарных моделей и демонстрирует конкурентоспособную производительность по сравнению с передовой открытой моделью весом Llama-3-405B-Instruct, которая примерно в 5 раз больше. Qwen2.5-Turbo и Qwen2.5-Plus предлагают превосходную эффективность по стоимости, обеспечивая конкурентоспособность по сравнению с GPT-4o-mini и GPT-4o соответственно. Кроме того, в качестве основы модели Qwen2.5 сыграли ключевую роль в обучении специализированных моделей, таких как Qwen2.5-Math, Qwen2.5-Coder, QwQ и мультимодальные модели.
Многоэтапные мультимодальные задачи рассуждения представляют существенные вызовы для мультимодальных моделей больших языков (MLLM), и поиск эффективных способов улучшения их производительности в таких сценариях остается нерешенной проблемой. В данной статье мы предлагаем AR-MCTS, универсальную структуру, разработанную для постепенного улучшения способностей рассуждения MLLM через активное извлечение (AR) и поиск по дереву Монте-Карло (MCTS). Наш подход начинается с разработки объединенного модуля извлечения, который извлекает ключевые поддерживающие идеи для решения сложных проблем рассуждения из гибридно-модального корпуса извлечения. Для устранения разрыва в автоматизированной верификации мультимодального рассуждения мы используем алгоритм MCTS в сочетании с механизмом активного извлечения, что позволяет автоматически генерировать аннотации пошагово. Эта стратегия динамически извлекает ключевые идеи для каждого шага рассуждения, выходя за пределы традиционного поиска лучевым методом для улучшения разнообразия и надежности пространства рассуждения. Кроме того, мы представляем модель вознаграждения процесса, которая постепенно выравнивается для поддержки автоматической верификации мультимодальных задач рассуждения. Экспериментальные результаты на трех сложных бенчмарках мультимодального рассуждения подтверждают эффективность структуры AR-MCTS в улучшении производительности различных мультимодальных моделей. Дополнительный анализ показывает, что AR-MCTS может оптимизировать разнообразие и точность выборки, обеспечивая надежное мультимодальное рассуждение.
Несмотря на быстро растущий спрос на мультимодальный поиск, прогресс в этой области по-прежнему сильно ограничен недостатком обучающих данных. В данной статье мы представляем MegaPairs, новый метод синтеза данных, который использует модели видео-языка (VLM) и изображения из открытых источников, вместе с огромным синтетическим набором данных, сгенерированным с помощью этого метода. Наш анализ показывает, что MegaPairs создает данные высокого качества, позволяя мультимодальному поисковику значительно превзойти базовую модель, обученную на 70 раз большем объеме данных из существующих наборов данных. Более того, поскольку MegaPairs полностью зависит от общих корпусов изображений и открытых источников VLM, его можно легко масштабировать, обеспечивая непрерывное улучшение производительности поиска. На данном этапе мы создали более 26 миллионов обучающих примеров и обучили несколько моделей различного размера с использованием этих данных. Эти новые модели достигают современной производительности на нулевом этапе на 4 популярных бенчмарках составного поиска изображений (CIR) и лучшей общей производительности на 36 наборах данных, предоставленных MMEB. Они также демонстрируют заметное улучшение производительности с дополнительной донастройкой. Наш созданный набор данных, хорошо обученные модели и процесс синтеза данных будут общедоступны для содействия будущему развитию этой области.
Модельный коллапс в синтетических данных указывает на то, что итеративное обучение на самостоятельно созданных данных приводит к постепенному снижению производительности. С увеличением количества моделей искусственного интеллекта синтетические данные фундаментально изменят экосистему веб-данных. Будущие модели GPT-{n} будут неизбежно обучаться на смеси синтетических и человечески созданных данных. В данной статье мы сосредотачиваемся на двух вопросах: каково влияние синтетических данных на обучение языковых моделей и как синтезировать данные, избегая коллапса модели? Сначала мы предварительно обучаем языковые модели на различных пропорциях синтетических данных, выявляя отрицательную корреляцию между долей синтетических данных и производительностью модели. Далее мы проводим статистический анализ синтетических данных, чтобы выявить явление сдвига распределения и переизбыток n-граммных признаков. Вдохновленные вышеуказанными результатами, мы предлагаем редактирование токенов в человечески созданных данных для получения полусинтетических данных. В качестве доказательства концепции мы теоретически демонстрируем, что редактирование на уровне токенов может предотвратить коллапс модели, так как ошибка тестирования ограничена конечной верхней границей. Мы проводим обширные эксперименты по предварительному обучению с нуля, непрерывному предварительному обучению и надзорному дообучению. Результаты подтверждают наше теоретическое доказательство того, что редактирование на уровне токенов улучшает качество данных и повышает производительность модели.
Данный документ представляет LongBench v2, бенчмарк, разработанный для оценки способности LLMs решать проблемы с длинным контекстом, требующие глубокого понимания и рассуждений по реальным мультитаскам. LongBench v2 состоит из 503 сложных вопросов с выбором ответа, с контекстами от 8 тыс. до 2 млн слов, в шести основных категориях задач: вопросы-ответы на основе одного документа, вопросы-ответы на основе нескольких документов, долгосрочное обучение в контексте, понимание длинной истории диалога, понимание репозитория кода и понимание длинных структурированных данных. Для обеспечения широты и практичности мы собрали данные от почти 100 высокообразованных лиц с разнообразным профессиональным опытом. Мы используем как автоматизированные, так и ручные процессы рецензирования для поддержания высокого качества и сложности, что приводит к тому, что эксперты-люди достигают лишь 53,7% точности при ограничении времени в 15 минут. Наша оценка показывает, что лучшая модель, отвечающая непосредственно на вопросы, достигает лишь 50,1% точности. В отличие от этого, модель o1-preview, включающая более длинные рассуждения, достигает 57,7%, превосходя базовый уровень человека на 4%. Эти результаты подчеркивают важность улучшенной способности к рассуждениям и масштабирования вычислений во время вывода для решения проблем с длинным контекстом в LongBench v2. Проект доступен по адресу https://longbench2.github.io.
Модели диффузии и их обобщение, сопоставление потоков, оказали заметное влияние на область генерации медиа. Здесь традиционным подходом является изучение сложного отображения от простого исходного распределения гауссовского шума к целевому распределению медиа. Для кросс-модальных задач, таких как генерация текста в изображение, это же отображение от шума к изображению изучается с учетом механизма условий в модели. Одной из ключевых и до сих пор относительно неисследованных особенностей сопоставления потоков является то, что, в отличие от моделей диффузии, они не ограничены тем, чтобы исходное распределение было шумом. Поэтому в данной статье мы предлагаем парадигмальный сдвиг и задаем вопрос о том, можно ли вместо этого обучить модели сопоставления потоков изучать прямое отображение от распределения одной модальности к распределению другой, тем самым избежав необходимости как в распределении шума, так и в механизме условий. Мы представляем общую и простую структуру, CrossFlow, для кросс-модального сопоставления потоков. Мы показываем важность применения вариационных кодировщиков к входным данным и представляем метод, позволяющий обеспечить руководство без классификатора. Удивительным образом для текста в изображение CrossFlow с обычным трансформером без кросс-внимания немного превосходит стандартное сопоставление потоков, и мы показываем, что он лучше масштабируется с увеличением количества шагов обучения и размером модели, позволяя также интересные латентные арифметические операции, приводящие к семантически значимым изменениям в пространстве вывода. Для демонстрации обобщаемости нашего подхода мы также показываем, что CrossFlow на уровне или превосходит современные методы для различных кросс-модальных / внутримодальных задач сопоставления, таких как описание изображения, оценка глубины и суперразрешение изображения. Мы надеемся, что данная статья способствует ускорению прогресса в области кросс-модальной генерации медиа.
Интуитивная природа взаимодействия на основе перетаскивания привела к его все более широкому применению для управления траекториями объектов в синтезе изображений в видео. Тем не менее, существующие методы, осуществляющие перетаскивание в 2D пространстве, обычно сталкиваются с неоднозначностью при обработке движений вне плоскости. В данной работе мы расширяем взаимодействие новым измерением, а именно, глубинным измерением, позволяя пользователям назначать относительную глубину для каждой точки на траектории. Таким образом, наш новый парадигма взаимодействия не только наследует удобство 2D перетаскивания, но также облегчает управление траекториями в 3D пространстве, расширяя возможности творчества. Мы предлагаем первоначальный метод управления 3D траекториями в синтезе изображений в видео, абстрагируя маски объектов в несколько кластерных точек. Эти точки, сопровождаемые информацией о глубине и информацией об экземпляре, в конечном итоге подаются в модель видеодиффузии в качестве сигнала управления. Обширные эксперименты подтверждают эффективность нашего подхода, названного LeviTor, в точном управлении движениями объектов при создании фотореалистичных видео из статических изображений. Страница проекта: https://ppetrichor.github.io/levitor.github.io/
В качестве обычной операции по редактированию изображений, композиция изображения включает интеграцию передних объектов в фоновые сцены. В данной статье мы расширяем применение концепции Affordance из задач композиции изображений, ориентированных на человека, к более общей рамке композиции объект-сцена, рассматривая сложное взаимодействие между передними объектами и фоновыми сценами. Следуя принципу Affordance, мы определяем задачу вставки объекта с учетом affordance, которая направлена на бесшовную вставку любого объекта в любую сцену с различными подсказками по позиции. Для решения проблемы ограниченных данных и включения этой задачи мы создали набор данных SAM-FB, содержащий более 3 миллионов примеров по более чем 3 000 категориям объектов. Кроме того, мы предлагаем модель Mask-Aware Dual Diffusion (MADD), которая использует двухпоточную архитектуру для одновременного удаления шума из RGB-изображения и маски вставки. Эффективно учитывая маску вставки в процессе диффузии, MADD эффективно облегчает понятие affordance. Обширные экспериментальные результаты показывают, что наш метод превосходит современные методы и обладает сильной обобщающей способностью на изображениях "в дикой природе". Пожалуйста, обратитесь к нашему коду на https://github.com/KaKituken/affordance-aware-any.
В данной статье мы представляем AceMath, набор передовых математических моделей, которые отлично справляются с решением сложных математических задач, а также высокоэффективные модели вознаграждения, способные оценивать созданные решения и надежно идентифицировать правильные. Для разработки математических моделей, настроенных на инструкции, мы предлагаем процесс надзорного дообучения (SFT), который сначала достигает конкурентоспособной производительности в общих областях, а затем направленно донастраивается для математической области с использованием тщательно отобранного набора подсказок и синтетически сгенерированных ответов. Полученная модель, AceMath-72B-Instruct, значительно превосходит Qwen2.5-Math-72B-Instruct, GPT-4o и Claude-3.5 Sonnet. Для разработки математической модели вознаграждения, специализированной на математике, мы сначала создаем AceMath-RewardBench, всеобъемлющую и надежную платформу для оценки математических моделей вознаграждения на различных задачах и уровнях сложности. Затем мы представляем систематический подход к построению наших математических моделей вознаграждения. Полученная модель, AceMath-72B-RM, последовательно превосходит современные модели вознаграждения. Более того, при объединении AceMath-72B-Instruct с AceMath-72B-RM мы достигаем самого высокого среднего показателя rm@8 по математическим бенчмаркам рассуждения. Мы предоставим веса модели, обучающие данные и оценочные бенчмарки по адресу: https://research.nvidia.com/labs/adlr/acemath
Процедурное генерирование контента (PCG) является мощным средством для создания трехмерных контентов высокого качества, однако управление им для получения желаемых форм является сложным и часто требует обширной настройки параметров. Обратное процедурное генерирование контента направлено на автоматическое определение лучших параметров в условиях ввода. Однако существующие методы на основе выборки и нейронных сетей по-прежнему страдают от многочисленных итераций выборки или ограниченной управляемости. В данной работе мы представляем DI-PCG, новый и эффективный метод для обратного PCG из общих изображений. В его основе лежит легкая модель трансформера диффузии, где параметры PCG непосредственно рассматриваются как цель денойзинга, а наблюдаемые изображения - как условия для управления генерацией параметров. DI-PCG эффективен и эффективен. С всего 7,6 миллионами параметров сети и 30 часами обучения на GPU он демонстрирует превосходную производительность в точном восстановлении параметров и хорошей обобщающей способности к изображениям "на природе". Количественные и качественные результаты экспериментов подтверждают эффективность DI-PCG в задачах обратного PCG и генерации трехмерных изображений. DI-PCG предлагает многообещающий подход для эффективного обратного PCG и представляет собой ценный шаг в исследовании пути генерации трехмерных моделей, которые моделируют, как создавать трехмерный объект с использованием параметрических моделей.
Обучение больших мультимодельных моделей (LMMs) основано на описательном изображении, которое соединяет изображение и язык. Существующие методы либо извлекают подпись из моделей LMM, либо создают подписи из интернет-изображений или с помощью человека. Мы предлагаем использовать готовых визуальных специалистов, которые были обучены на аннотированных изображениях изначально не для подписывания изображений, для улучшения подписи изображения. Наш подход, названный DCE, исследует низкоуровневые и детализированные атрибуты объектов (например, глубину, эмоции и детализированные категории) и отношения между объектами (например, относительное расположение и взаимодействие человек-объект (HOI)), и объединяет атрибуты в описательную подпись. Эксперименты показывают, что такие визуальные специалисты способны улучшить производительность для задач визуального понимания, а также рассуждения, которые выигрывают от более точного визуального понимания. Мы выпустим исходный код и конвейер, чтобы другие визуальные специалисты могли легко включаться в конвейер. Полный исходный код конвейера DCE и наборы данных будут доступны на https://github.com/syp2ysy/DCE.
Мы предлагаем модель без учителя для редактирования изображений на основе инструкций, которая исключает необходимость в реальных отредактированных изображениях во время обучения. Существующие методы обучения с учителем зависят от наборов данных, содержащих тройки: исходное изображение, отредактированное изображение и инструкцию по редактированию. Они создаются либо с использованием существующих методов редактирования, либо с помощью аннотаций людей, что вводит предвзятость и ограничивает их способность к обобщению. Наш метод решает эти проблемы путем введения нового механизма редактирования под названием Циклическая Согласованность Редактирования (CEC), который применяет прямые и обратные редактирования на одном этапе обучения и обеспечивает согласованность в пространствах изображения и внимания. Это позволяет нам обойти необходимость в реальных отредактированных изображениях и впервые обучиться на наборах данных, включающих либо реальные пары изображение-подпись, либо тройки изображение-подпись-редакция. Мы эмпирически показываем, что наш метод без учителя лучше справляется с широким спектром редактирований с высокой точностью и достоверностью. Избавляясь от необходимости в существующих наборах данных троек, уменьшая предвзятость, связанную с методами обучения с учителем, и предлагая CEC, наша работа представляет собой значительный прогресс в разблокировании масштабирования редактирования изображений на основе инструкций.
Мы предлагаем AV-Link, унифицированную структуру для генерации видео в аудио и аудио в видео, использующую активации замороженных моделей диффузии видео и аудио для взаимосвязи модальностей с соблюдением временной согласованности. Ключевым элементом нашей структуры является блок слияния, обеспечивающий двусторонний обмен информацией между нашими основными моделями диффузии видео и аудио через операцию внимания к себе с соблюдением временной согласованности. В отличие от предыдущих работ, использующих предварительно обученные извлекатели признаков для условного сигнала, AV-Link может напрямую использовать признаки, полученные с помощью дополнительной модальности, в рамках единой структуры, то есть признаки видео для генерации аудио или признаки аудио для генерации видео. Мы подробно оцениваем наши выборы дизайна и демонстрируем способность нашего метода достигать синхронизированного и высококачественного аудиовизуального контента, показывая его потенциал для применения в генерации иммерсивных медиа. Страница проекта: snap-research.github.io/AVLink/
В данной статье мы предлагаем Бенчмарк генерации молекул на основе текста (TOMG-Bench), первый бенчмарк для оценки способности моделей языковых мощностей к генерации молекул в открытом домене. TOMG-Bench включает в себя набор данных из трех основных задач: редактирование молекул (MolEdit), оптимизация молекул (MolOpt) и настраиваемая генерация молекул (MolCustom). Каждая задача также содержит три подзадачи, причем каждая из них включает 5 000 тестовых образцов. Учитывая врожденную сложность генерации молекул в открытом домене, мы также разработали автоматизированную систему оценки, которая помогает измерить как качество, так и точность сгенерированных молекул. Наше всестороннее тестирование 25 моделей языковых мощностей позволяет выявить текущие ограничения и потенциальные области улучшения в области открытого поиска молекул с помощью текста. Более того, с помощью OpenMolIns, специализированного набора данных для настройки инструкций, предложенного для решения задач, поставленных в TOMG-Bench, модель Llama3.1-8B смогла превзойти все общедоступные общие модели языковых мощностей, даже превзойдя GPT-3.5-turbo на 46,5\% в рамках TOMG-Bench. Наши коды и наборы данных доступны по ссылке https://github.com/phenixace/TOMG-Bench.
Недавние исследования исследуют потенциал моделей диффузии (DM) для последовательного редактирования объектов, которое направлено на изменение позиции объекта, его размера, композиции и т. д., сохраняя при этом согласованность объектов и фона без изменения текстуры и атрибутов. Текущие методы времени вывода часто полагаются на инверсию DDIM, что в свою очередь снижает эффективность и достижимую согласованность отредактированных изображений. Недавние методы также используют энергетическое направление, которое итеративно обновляет предсказанный шум и может отводить латентные переменные от исходного изображения, что приводит к искажениям. В данной статье мы предлагаем PixelMan, метод без инверсии и обучения, для достижения последовательного редактирования объектов с помощью Пиксельной Манипуляции и генерации, где мы непосредственно создаем дубликат исходного объекта в целевом местоположении в пространстве пикселей, и вводим эффективный метод выборки для итеративного гармонизирования отредактированного объекта в целевом местоположении и заполнения его исходного местоположения, обеспечивая при этом согласованность изображения путем привязки генерируемого отредактированного изображения к пиксельно-отредактированному изображению, а также путем введения различных техник оптимизации, сохраняющих согласованность во время вывода. Экспериментальные оценки на основе наборов данных для сравнения, а также обширные визуальные сравнения показывают, что уже после 16 шагов вывода PixelMan превосходит ряд современных методов на основе обучения и без обучения (которые обычно требуют 50 шагов) по нескольким задачам последовательного редактирования объектов.
В данной статье представлен DateLogicQA, набор тестов с 190 вопросами, охватывающими различные форматы дат, временные контексты и типы рассуждений. Мы предлагаем метрику семантической целостности для оценки качества токенизации и анализируем два типа предвзятостей: Предвзятость на уровне представления, влияющая на вложения, и Предвзятость на логическом уровне, влияющая на результаты рассуждений. Наши результаты обеспечивают всестороннюю оценку возможностей и ограничений LLM в области временного рассуждения, выделяя ключевые вызовы в точной обработке временных данных. Репозиторий нашей работы доступен на GitHub по адресу https://github.com/gagan3012/EAIS-Temporal-Bias
Генерация реалистичных видеороликов с участием людей остается сложной задачей, причем наиболее эффективные методы в настоящее время основаны на последовательности движений человека в качестве сигнала управления. Существующие подходы часто используют существующие движения, извлеченные из других видеороликов, что ограничивает применение определенными типами движений и глобальным соответствием сцен. Мы предлагаем подход Move-in-2D, новый метод генерации последовательностей движений человека, зависящий от изображения сцены, что позволяет получать разнообразные движения, адаптирующиеся к различным сценам. Наш подход использует модель диффузии, принимающую на вход как изображение сцены, так и текстовую подсказку, и генерирующую последовательность движения, адаптированную к сцене. Для обучения этой модели мы собрали крупномасштабный набор видеороликов с одиночными действиями людей, аннотируя каждое видео с соответствующим движением человека в качестве целевого выхода. Эксперименты показывают, что наш метод эффективно предсказывает движения человека, соответствующие изображению сцены после проекции. Более того, мы демонстрируем, что сгенерированная последовательность движения улучшает качество движения человека в задачах синтеза видеороликов.