Ежедневно отобранные исследовательские статьи по ИИ с переводами
Контрастное предварительное обучение языково-изображенческих моделей (CLIP) широко используется для обучения моделей, выравнивающих изображения и тексты в общем векторном пространстве путем отображения их в векторы фиксированного размера. Эти модели являются ключевыми для мультимодального поиска информации и смежных задач. Однако модели CLIP обычно показывают более низкую производительность в задачах только с текстом по сравнению с специализированными текстовыми моделями. Это приводит к неэффективности для систем поиска информации, которые используют отдельные векторные представления и модели для задач только с текстом и мультимодальных задач. Мы предлагаем новый метод контрастного многозадачного обучения для решения этой проблемы, который мы используем для обучения модели jina-clip-v1 с целью достижения передового уровня производительности как в задачах поиска текста и изображений, так и в задачах поиска текста.
В последние годы большие языковые модели (LLM) достигли значительных успехов в различных областях. Однако неактуальность и стоимость обновлений знаний, а также проблемы галлюцинаций у LLM ограничили их применение в задачах, требующих большого объема знаний, где может пригодиться поиск с увеличением генерации (RAG). Тем не менее существующие модели с увеличением поиска обычно используют сходство в качестве связи между запросами и документами и следуют процедуре извлечения, а затем чтения. В данной работе мы утверждаем, что сходство не всегда является панацеей, и полное полагание на сходство иногда может снизить производительность поиска с увеличением генерации. Для этого мы предлагаем MetRag, многоуровневую модель с улучшенным мышлением для поиска с увеличением генерации. Во-первых, помимо существующего сходство-ориентированного мышления, мы принимаем модель малого масштаба, которая получает наблюдения от LLM для мышления, ориентированного на полезность, и затем создаем более интеллектуальную модель, комбинируя сходство и мышление, ориентированное на полезность. Кроме того, учитывая тот факт, что полученный набор документов обычно огромен, и использование их в изоляции затрудняет выявление общих черт и характеристик среди них, мы предлагаем использовать LLM в качестве адаптивного краткого извлекателя для придания поиску с увеличением генерации мышления, ориентированного на компактность. Наконец, с многоуровневым мышлением из предшествующих этапов, LLM вызывается для генерации знаний с увеличением. Обширные эксперименты в задачах, требующих большого объема знаний, продемонстрировали превосходство MetRag.
Данное исследование затрагивает область понимания человеческого поведения с использованием мульти-модальности (т.е. видео и модальности движения) с помощью мощных возможностей Больших Языковых Моделей (LLM). Отличаясь от недавних LLM, разработанных для понимания только видео или только движения, мы утверждаем, что понимание человеческого поведения требует совместного моделирования как видео, так и последовательностей движения (например, последовательностей SMPL), чтобы эффективно уловить тонкую динамику и семантику частей тела. В свете этого мы представляем MotionLLM, простую, но эффективную структуру для понимания, описания и рассуждения о человеческом движении. Конкретно, MotionLLM принимает унифицированную стратегию обучения видео-движение, использующую дополняющие преимущества существующих грубых видео-текстовых данных и мелкозернистых движение-текстовых данных для извлечения богатых пространственно-временных идей. Кроме того, мы собрали обширный набор данных, MoVid, включающий разнообразные видео, движения, описания и инструкции. Дополнительно мы предлагаем MoVid-Bench с тщательными ручными аннотациями для более качественной оценки понимания человеческого поведения на видео и в движении. Обширные эксперименты показывают превосходство MotionLLM в описании, пространственно-временном понимании и способности к рассуждениям.
В данной работе мы представляем Xwin-LM, комплексный набор методик выравнивания для крупных языковых моделей (LLM). Этот набор включает в себя несколько ключевых техник, включая надзорное донастройку (SFT), моделирование вознаграждения (RM), донастройку методом отбора (RS) и прямую оптимизацию предпочтений (DPO). Ключевые компоненты следующие: (1) Xwin-LM-SFT, модели изначально донастраиваются с использованием данных высокого качества; (2) Xwin-Pair, крупномасштабный многоповоротный набор данных предпочтений, тщательно аннотированный с помощью GPT-4; (3) Xwin-RM, модели вознаграждения, обученные на Xwin-Pair, разработанные в масштабах 7 млрд, 13 млрд и 70 млрд параметров; (4) Xwin-Set, многопредпочтительный набор данных, в котором каждое подсказывание связано с 64 уникальными ответами, сгенерированными Xwin-LM-SFT и оцененными Xwin-RM; (5) Xwin-LM-RS, модели донастраиваются с использованием ответов с наивысшими баллами из Xwin-Set; (6) Xwin-LM-DPO, модели дополнительно оптимизируются на Xwin-Set с использованием алгоритма DPO. Наши оценки на AlpacaEval и MT-bench демонстрируют последовательные и значительные улучшения по всему процессу, подтверждая силу и масштабируемость Xwin-LM. Репозиторий https://github.com/Xwin-LM/Xwin-LM будет постоянно обновляться для содействия исследованиям сообщества.
Контролируемые методы генерации музыки критически важны для создания музыки на основе ИИ, ориентированной на человека, но в настоящее время ограничены скоростью, качеством и компромиссами в проектировании управления. Диффузионная оптимизация времени вывода T (DITTO) в частности предлагает передовые результаты, но более чем в 10 раз медленнее реального времени, что ограничивает практическое использование. Мы предлагаем Дистиллированную диффузионную оптимизацию времени вывода T (или DITTO-2), новый метод для ускорения оптимизации времени вывода на основе контроля и разблокирования генерации быстрее реального времени для широкого спектра приложений, таких как восполнение музыки, вывод музыки, интенсивность, мелодия и управление музыкальной структурой. Наш метод работает путем (1) дистилляции предварительно обученной модели диффузии для быстрого сэмплирования с помощью эффективного модифицированного процесса дистилляции согласованности или траектории согласованности (2) выполнения оптимизации времени вывода с использованием нашей дистиллированной модели с одношаговым сэмплированием в качестве эффективной задачи замещения оптимизации и (3) выполнения окончательной многошаговой генерации сэмплирования (декодирования) с использованием наших оцененных шумовых латентов для генерации наилучшего качества, быстрой и управляемой генерации. Проведя тщательное оценивание, мы обнаружили, что наш метод не только ускоряет генерацию более чем в 10-20 раз, но одновременно улучшает соблюдение управления и качество генерации одновременно. Более того, мы применяем наш подход к новому приложению максимизации соблюдения текста (оценка CLAP) и показываем, что мы можем преобразовать безусловную модель диффузии без текстовых входов в модель, которая обеспечивает передовое управление текстом. Примеры звука можно найти по адресу https://ditto-music.github.io/ditto2/.
Мы представляем MOFA-Video, передовой метод управляемой анимации изображений, который генерирует видео из заданного изображения с использованием различных дополнительных управляемых сигналов (таких как точки опоры человека, ручные траектории и другое предоставленное видео) или их комбинаций. Этот метод отличается от предыдущих, которые могут работать только в определенной области движения или обладают слабыми возможностями управления с диффузионным приором. Для достижения нашей цели мы разрабатываем несколько адаптеров движения, осознанных в области (\т.е. MOFA-Adapters), для управления сгенерированными движениями в процессе генерации видео. Для MOFA-Adapters мы учитываем временную согласованность движения видео и генерируем плотный поток движения из заданных разреженных условий управления сначала, а затем многомасштабные особенности заданного изображения оборачиваются в виде направляющей особенности для стабильной генерации видеодиффузии. Мы обучаем два адаптера движения для ручных траекторий и точек опоры человека отдельно, поскольку они оба содержат разреженную информацию об управлении. После обучения адаптеры MOFA в различных областях также могут работать вместе для более управляемой генерации видео.
В последние годы наблюдается замечательный прогресс в области генерации 3D-изображений. Существующие методы, такие как методы дистилляции оценок, достигают значительных результатов, но требуют обширной оптимизации для каждой сцены, что сказывается на эффективности времени. В отличие от них, подходы на основе реконструкции приоритизируют эффективность, но жертвуют качеством из-за ограниченной обработки неопределенности. Мы представляем GECO - новый метод высококачественного генеративного моделирования 3D-изображений, работающий за секунду. Наш подход решает актуальные проблемы неопределенности и неэффективности существующих методов через двухэтапный процесс. На первом этапе мы обучаем многовидовую генеративную модель с дистилляцией оценок. Затем применяется дистилляция на втором этапе для решения проблемы несогласованности видов из многовидового предсказания. Этот двухэтапный процесс обеспечивает сбалансированный подход к генерации 3D-изображений, оптимизируя как качество, так и эффективность. Наши комплексные эксперименты демонстрируют, что GECO достигает высококачественной генерации изображений в 3D с беспрецедентным уровнем эффективности.
Поскольку модели диффузии, зависящие от текста (DMs), достигли прорыва в генерации изображений, видео и 3D, внимание исследовательского сообщества переключилось на более сложную задачу синтеза текста в 4D, которая вводит временное измерение для создания динамических 3D объектов. В этом контексте мы выявляем Score Distillation Sampling (SDS), широко используемую технику для синтеза текста в 3D, как значительное препятствие для производительности текста в 4D из-за проблем двойственности и нереалистичности текстуры, связанных с высокими вычислительными затратами. В данной статье мы предлагаем Pixel-Level Alignments для сглаживания текста в 4D методом Gaussian Splatting (PLA4D), новый метод, который использует кадры текста в видео в качестве явных целевых точек выравнивания пикселей для создания статических 3D объектов и внедрения в них движения. В частности, мы представляем Focal Alignment для калибровки поз камеры для рендеринга и GS-Mesh Contrastive Learning для усвоения геометрических априорных знаний изображений, полученных на уровне пикселей. Кроме того, мы разрабатываем Motion Alignment с использованием сети деформации для управления изменениями в гауссианах и реализуем Reference Refinement для плавных поверхностей объектов в 4D. Эти техники позволяют сглаживанию гауссиана в 4D выравнивать геометрию, текстуру и движение с созданными видео на уровне пикселей. По сравнению с предыдущими методами PLA4D производит синтезированные результаты с лучшими деталями текстуры за меньшее время и эффективно смягчает проблему двойственности. PLA4D полностью реализован с использованием моделей с открытым исходным кодом, предлагая доступное, удобное в использовании и многообещающее направление для создания 4D цифрового контента. Наша страница проекта: https://github.com/MiaoQiaowei/PLA4D.github.io.
Оценка способностей к кодированию крупных языковых моделей (LLM) остается открытым вопросом. Мы обнаружили, что существующие бенчмарки плохо соответствуют реальным репозиториям кода и недостаточны для оценки способностей LLM к кодированию. Для заполнения пробела в знаниях мы предлагаем новый бенчмарк под названием DevEval, который имеет три преимущества. (1) DevEval соответствует реальным репозиториям по нескольким измерениям, например, по распределению кода и зависимостей. (2) DevEval аннотирован 13 разработчиками и содержит полные аннотации (например, требования, оригинальные репозитории, ссылочный код и ссылочные зависимости). (3) DevEval включает 1 874 тестовых образцов из 117 репозиториев, охватывая 10 популярных областей (например, Интернет, Базы данных). Основываясь на DevEval, мы предлагаем генерацию кода на уровне репозитория и оцениваем 8 популярных LLM на DevEval (например, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Наши эксперименты раскрывают способности этих LLM к кодированию в реальных репозиториях кода. Например, в наших экспериментах самый высокий показатель Pass@1 для gpt-4-turbo составляет всего 53,04%. Мы также анализируем неудачные случаи LLM и подводим итоги их недостатков. Мы надеемся, что DevEval сможет способствовать развитию LLM в реальных репозиториях кода. DevEval, подсказки и прогнозы LLM были опубликованы.
Возникновение больших языковых моделей (LLM) позволило создание приложений на основе LLM (также известных как искусственный интеллект или совместные пилоты), новой парадигмы программного обеспечения, объединяющей мощь LLM и традиционное программное обеспечение. Разнообразные приложения на основе LLM от разных арендаторов могут разрабатывать сложные рабочие процессы, используя несколько запросов LLM для выполнения одной задачи. Однако им приходится использовать слишком упрощенный API на уровне запроса, предоставленный сегодняшними общедоступными службами LLM, теряя важную информацию на уровне приложения. Общедоступные службы LLM должны слепо оптимизировать отдельные запросы LLM, что приводит к субоптимальной производительности конечного результата приложений на основе LLM. В данной статье представлена Parrot, система службы LLM, сосредотачивающаяся на конечном опыте приложений на основе LLM. Parrot предлагает Семантическую Переменную, унифицированную абстракцию для предоставления информации на уровне приложения общедоступным службам LLM. Семантическая Переменная аннотирует переменную ввода/вывода в запросе и создает конвейер данных при соединении нескольких запросов LLM, обеспечивая естественный способ программирования приложений на основе LLM. Предоставление Семантических Переменных общедоступной службе LLM позволяет ей выполнять традиционный анализ потока данных для выявления корреляции между несколькими запросами LLM. Эта корреляция открывает совершенно новое пространство оптимизации для конечной производительности приложений на основе LLM. Обширные оценки показывают, что Parrot может достичь улучшения до порядка величины для популярных и практических случаев использования приложений на основе LLM.
В последнее время техники генерации видео стремительно развиваются. Учитывая популярность видеоконтента на платформах социальных сетей, эти модели усиливают опасения относительно распространения ложной информации. Поэтому возрастает спрос на детекторы, способные отличать ложные видео, созданные с использованием искусственного интеллекта, и смягчать потенциальный вред, причиняемый ложной информацией. Однако отсутствие крупномасштабных наборов данных от самых передовых генераторов видео ставит препятствие перед разработкой таких детекторов. Для решения этой проблемы мы представляем первый набор данных для обнаружения AI-сгенерированных видео, GenVideo. Он обладает следующими характеристиками: (1) большой объем видео, включая более миллиона AI-сгенерированных и реальных видео; (2) богатое разнообразие созданного контента и методологий, охватывающее широкий спектр категорий видео и техник генерации. Мы провели обширные исследования набора данных и предложили два метода оценки, адаптированных для сценариев, близких к реальным, для оценки производительности детекторов: задача классификации видео между генераторами оценивает обобщаемость обученных детекторов на генераторах; задача классификации видео с ухудшенным качеством оценивает устойчивость детекторов к обработке видео, качество которых ухудшилось во время распространения. Более того, мы представили модуль "Подробный Мамба" (DeMamba), разработанный для улучшения детекторов путем идентификации AI-сгенерированных видео путем анализа несоответствий во временных и пространственных измерениях. Наши обширные эксперименты демонстрируют превосходную обобщаемость и устойчивость DeMamba на наборе данных GenVideo по сравнению с существующими детекторами. Мы уверены, что набор данных GenVideo и модуль DeMamba значительно продвинут область обнаружения AI-сгенерированных видео. Наш код и набор данных будут доступны по адресу https://github.com/chenhaoxing/DeMamba.