Ежедневно отобранные исследовательские статьи по ИИ с переводами
Область генерации видео сделала замечательные прорывы, однако остается настоятельная необходимость в четком и систематическом рецепте, который мог бы направлять разработку надежных и масштабируемых моделей. В данной работе мы представляем всестороннее исследование, которое систематически исследует взаимодействие архитектур моделей, рецептов обучения и стратегий курирования данных, что приводит к простому и масштабируемому методу генерации видео с условием текста и изображения, названному STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадра, в то время как включает текстовое условие через совместный классификатор-бесплатное руководство по изображению и тексту. Этот дизайн позволяет STIV выполнять одновременно задачи от текста к видео (T2V) и от текста и изображения к видео (TI2V). Кроме того, STIV может легко расширяться до различных приложений, таких как предсказание видео, интерполяция кадров, генерация множества видов и генерация длинных видео и т. д. Проведя всесторонние исследования по абляции на T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на свой простой дизайн. Модель 8.7B с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Та же модель того же размера также достигает передового результата 90.1 на задаче VBench I2V при разрешении 512. Предоставляя прозрачный и расширяемый рецепт для создания передовых моделей генерации видео, мы стремимся усилить будущие исследования и ускорить прогресс к более универсальным и надежным решениям генерации видео.
Большие языковые модели кода (codeLLM) сделали значительные успехи в генерации кода. Большинство предыдущих бенчмарков, связанных с кодом и состоящих из различных программных упражнений вместе с соответствующими тестовыми случаями, используются в качестве общей меры для оценки производительности и возможностей моделей codeLLM. Однако текущие модели codeLLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя соответствие человеческим предпочтениям, где запрос должен быть выбран из практических сценариев применения, а ответы, сгенерированные моделью, должны удовлетворять человеческие предпочтения. Для сокращения разрыва между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строго отобранный бенчмарк CodeArena для имитации сложности и разнообразия задач реального мира, где 397 высококачественных образцов, охватывающих 40 категорий и 44 языка программирования, тщательно подобраны из запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (почти 20 млрд токенов), масштабируя инструкции с веб-сайта для проверки эффективности настройки крупномасштабной синтетической инструкции, где Qwen2.5-SynCoder, полностью обученный на данных синтетических инструкций, может достичь высокой производительности среди открытых моделей codeLLM. Результаты показывают различия в производительности между бенчмарками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на 40+ моделях codeLLM выявляют значительный разрыв в производительности между открытыми передовыми моделями codeLLM (например, Qwen2.5-Coder) и закрытыми моделями codeLLM (например, OpenAI o1), подчеркивая важность соответствия человеческим предпочтениям. [Ссылка](https://codearenaeval.github.io/)
Визуализация историй, задача создания визуальных повествований по текстовым описаниям, продвинулась благодаря моделям генерации изображений по тексту. Однако эти модели часто не обладают эффективным контролем над внешностью персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Для решения этих ограничений мы предлагаем новую задачу: генерацию персонализированных манга и представляем DiffSensei, инновационную структуру, специально разработанную для создания манги с динамическим контролем над несколькими персонажами. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной крупной языковой моделью (MLLM), действующей как адаптер идентичности, совместимый с текстом. Наш подход использует маскированное кросс-внимание для плавного включения характеристик персонажей, обеспечивая точный контроль макета без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует характеристики персонажей, чтобы соответствовать панельным текстовым подсказкам, позволяя гибкие корректировки в выражениях, позах и действиях персонажей. Мы также представляем MangaZero, крупномасштабный набор данных, адаптированный для этой задачи, содержащий 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающий визуализацию разнообразных взаимодействий персонажей и движений в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, являясь значительным прорывом в генерации манги за счет возможности персонализации персонажей, адаптируемой к тексту. Страница проекта находится по адресу https://jianzongwu.github.io/projects/diffsensei/.
Недавний всплеск интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако это объединение страдает от различных методологий. Непрерывная визуальная генерация требует подхода на основе диффузии по полной последовательности, несмотря на его расхождение с авторегрессивным моделированием в текстовой области. Мы полагаем, что авторегрессивное моделирование, т.е. предсказание будущего на основе прошлого детерминированного опыта, остается ключевым при разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В данной статье мы исследуем интерполяцию между авторегрессивным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В центре этого лежит ACDiT, Autoregressive блочный Conditional Diffusion Transformer, где размер блока диффузии, т.е. размер авторегрессивных блоков, может быть гибко настроен для интерполяции между авторегрессией по токенам и диффузией по полной последовательности. ACDiT легко реализуется, так же просто, как создание маски внимания Skip-Causal Attention Mask (SCAM) во время обучения. Во время вывода процесс перемещается между диффузионным шумоподавлением и авторегрессивным декодированием, что позволяет полностью использовать KV-Cache. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что благодаря авторегрессивному моделированию ACDiT может быть легко использован в задачах визуального понимания, несмотря на то, что он обучен на цели диффузии. Анализ компромисса между авторегрессивным моделированием и диффузией показывает потенциал ACDiT для использования в задачах долгосрочной визуальной генерации. Эти преимущества делают его многообещающим в качестве основы будущих объединенных моделей.
Мы представляем UniReal - унифицированную структуру, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входными данными и результатами, улавливание визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют согласованность и вариацию между кадрами, мы предлагаем объединенный подход, который рассматривает задачи на уровне изображения как дискретную генерацию видео. Конкретно, мы рассматриваем различное количество входных и выходных изображений как кадры, обеспечивая безупречную поддержку для задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя разработанная для задач на уровне изображения, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе масштабных видео, демонстрируя продвинутые возможности в обработке теней, отражений, изменения позы и взаимодействия объектов, а также проявляя возникновение способностей для новых приложений.
По мере улучшения качества генераторов изображений, deepfakes становятся предметом значительного общественного дебаты. Водяные знаки для изображений позволяют ответственным владельцам моделей обнаруживать и помечать свои контенты, созданные с использованием искусственного интеллекта, что может смягчить негативные последствия. Однако существующие передовые методы водяных знаков для изображений остаются уязвимыми к подделке и атакам на удаление. Эта уязвимость частично обусловлена тем, что водяные знаки искажают распределение созданных изображений, нечаянно раскрывая информацию о методах водяных знаков. В данной работе мы в первую очередь демонстрируем метод водяных знаков для изображений без искажений, основанный на начальном шуме модели диффузии. Однако для обнаружения водяного знака требуется сравнение восстановленного начального шума для изображения со всеми ранее использованными начальными шумами. Для решения этих проблем мы предлагаем двухэтапную структуру водяных знаков для эффективного обнаружения. Во время генерации мы дополняем начальный шум сгенерированными Фурье-паттернами для встраивания информации о группе начальных шумов, которые мы использовали. Для обнаружения мы (i) извлекаем соответствующую группу шумов и (ii) ищем в данной группе начальный шум, который может соответствовать нашему изображению. Этот подход к водяным знакам обеспечивает передовую устойчивость к подделке и удалению от широкого спектра атак.
Недавние достижения в генерации текста в изображение позволили создавать изображения высокого качества с разнообразными применениями. Однако точное описание желаемых визуальных атрибутов может быть сложным, особенно для неспециалистов в области искусства и фотографии. Интуитивным решением является принятие благоприятных атрибутов из исходных изображений. Нынешние методы пытаются извлечь идентичность и стиль из исходных изображений. Однако "стиль" - это широкое понятие, которое включает в себя текстуру, цвет и художественные элементы, но не охватывает другие важные атрибуты, такие как освещение и динамика. Кроме того, упрощенная "стилевая" адаптация препятствует объединению нескольких атрибутов из разных источников в одно созданное изображение. В данной работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные атрибуты, позволяя пользователям применять характеристики, такие как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы создали первый датасет тонких визуальных атрибутов (FiVA), насколько нам известно. Этот датасет FiVA содержит хорошо организованную таксономию визуальных атрибутов и включает около 1 млн высококачественных сгенерированных изображений с аннотациями визуальных атрибутов. Используя этот датасет, мы предлагаем рамочный механизм адаптации тонких визуальных атрибутов (FiVA-Adapter), который разделяет и адаптирует визуальные атрибуты из одного или нескольких исходных изображений в созданное изображение. Этот подход повышает удобство настройки, позволяя пользователям выборочно применять желаемые атрибуты для создания изображений, отвечающих их уникальным предпочтениям и конкретным требованиям контента.
Модели видеодиффузии достигли впечатляющей реалистичности и управляемости, но ограничены высокими вычислительными требованиями, что ограничивает их использование на мобильных устройствах. В данной статье представлена первая оптимизированная для мобильных устройств модель видеодиффузии. Начиная с пространственно-временной сети UNet из Stable Video Diffusion (SVD), мы снизили объем памяти и вычислительные затраты путем уменьшения разрешения кадра, внедрения многомасштабных временных представлений и введения двух новых схем обрезки для уменьшения количества каналов и временных блоков. Кроме того, мы используем адверсарное донастройку для сведения шумоподавления к одному шагу. Наша модель, названная MobileVD, работает в 523 раза эффективнее (1817,2 против 4,34 TFLOPs) с незначительным снижением качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1,7 секунды на устройстве Xiaomi-14 Pro. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Данная статья направлена на управление многокомпонентными 3D движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипулирования движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления имеют врожденные ограничения в выражении 3D характера движений объектов. Для преодоления этой проблемы мы представляем 3DTrajMaster, надежный контроллер, регулирующий динамику многокомпонентных объектов в 3D пространстве, учитывая желаемые пользователем последовательности 6DoF позы (положения и поворота) объектов. В основе нашего подхода лежит модульный инжектор объектов, основанный на 3D движении, который объединяет несколько входных объектов с их соответствующими 3D траекториями через механизм внимания само-внимания. Кроме того, мы используем архитектуру инжектора для сохранения предварительного распространения видео, что критично для обобщающей способности. Для смягчения деградации качества видео мы представляем доменный адаптер во время обучения и используем стратегию отжига во время вывода. Для решения проблемы отсутствия подходящих данных для обучения мы создаем набор данных 360-Motion, который сначала коррелирует собранные 3D человеческие и животные ресурсы с траекториями, сгенерированными GPT, а затем захватывает их движение с помощью 12 камер, равномерно распределенных на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень качества как в точности, так и в обобщении для управления многокомпонентными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster
Мы представляем модели Granite Guardian - набор средств защиты, разработанный для обнаружения рисков в запросах и ответах, обеспечивая безопасное и ответственное использование в сочетании с любой крупной моделью языка (LLM). Эти модели предлагают всестороннее покрытие по различным измерениям риска, включая социальный предвзятость, непристойные выражения, насилие, сексуальный контент, недобросовестное поведение, обход защиты и риски, связанные с галлюцинациями, такие как соответствие контексту, обоснованность и актуальность ответа для генерации с увеличением поиска (RAG). Обученные на уникальном наборе данных, объединяющем аннотации людей из различных источников и синтетические данные, модели Granite Guardian решают риски, обычно игнорируемые традиционными моделями обнаружения рисков, такие как обход защиты и проблемы, специфичные для RAG. С показателями AUC 0,871 и 0,854 соответственно по вредному контенту и бенчмаркам, связанным с галлюцинациями RAG, Granite Guardian является наиболее обобщенной и конкурентоспособной моделью, доступной в данной области. Выпущенный в открытый доступ, Granite Guardian нацелен на поощрение ответственного развития искусственного интеллекта в сообществе.
Недавние успехи в области редактирования видео на основе диффузии показали выдающийся потенциал для практических применений. Однако эти методы остаются чрезмерно дорогостоящими и сложными для применения на мобильных устройствах. В данном исследовании мы представляем серию оптимизаций, которые делают редактирование видео на мобильных устройствах возможным. На основе существующей модели редактирования изображений, мы сначала оптимизируем ее архитектуру и внедряем легкий автокодировщик. Затем мы расширяем метод обучения без классификатора для направляющей дистилляции на несколько модальностей, что приводит к увеличению скорости на устройстве в три раза. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему адверсариальной дистилляции, которая сохраняет управляемость процесса редактирования. В совокупности эти оптимизации позволяют выполнять редактирование видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по ссылке https://qualcomm-ai-research.github.io/mobile-video-editing/
Мы предлагаем DiTFlow, метод для передачи движения из видео-референса на вновь синтезированное видео, разработанный специально для Диффузионных Трансформеров (DiT). Сначала мы обрабатываем видео-референс с предварительно обученным DiT для анализа карт взаимного внимания между кадрами и извлечения сигнала движения патчами, называемого Потоком Движения Внимания (AMF). Мы направляем процесс латентного шумоподавления оптимизационным способом без обучения, оптимизируя латенты с нашей AMF функцией потерь для создания видео, воспроизводящих движение референсного видео. Мы также применяем нашу стратегию оптимизации к позиционным вложениям трансформера, что дает нам улучшение в возможностях передачи движения без обучения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя все по нескольким метрикам и оценке людей.
Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с вызовами в фундаментальных задачах визуального восприятия, где специализированные модели проявляют себя наилучшим образом. Задачи, требующие рассуждений о трехмерных структурах, выигрывают от оценки глубины, а рассуждения о двумерных объектах выигрывают от детектирования объектов. Тем не менее, MLM не способны создавать промежуточные данные о глубине или рамках для рассмотрения. Донастройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам зрения требует слишком много вычислительных ресурсов и неэффективна с точки зрения памяти. Для решения этой проблемы мы представляем Перцептивные Токены, внутренние представления изображений, разработанные для помощи в задачах рассуждения, где язык недостаточен. Перцептивные токены действуют как вспомогательные токены для рассуждений, аналогично подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная перцептивными токенами, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM перцептивными токенами для улучшения рассуждений над визуальными данными. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многофункциональной системе обучения. AURORA достигает значительных улучшений на бенчмарках по подсчету: +10.8% на BLINK, +11.3% на CVBench и +8.3% на SEED-Bench, превосходя подходы донастройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С перцептивными токенами AURORA расширяет область применения MLM за пределы рассуждений на основе языка, укладывая дорогу для более эффективных возможностей визуального рассуждения.
Интерпретируемость является ключевым вызовом в поощрении доверия к большим языковым моделям (LLM), который проистекает из сложности извлечения рассуждений из параметров модели. Мы представляем Гипотезу о Представлении Кадра, теоретически надежную концепцию, основанную на Гипотезе Линейного Представления (LRH) для интерпретации и управления LLM путем моделирования многотокенных слов. Предыдущие исследования исследовали LRH для связи представлений LLM с лингвистическими концепциями, но ограничивались анализом одиночных токенов. Поскольку большинство слов состоят из нескольких токенов, мы расширяем LRH на многотокенные слова, тем самым позволяя использование на любых текстовых данных с тысячами концепций. Для этого мы предлагаем интерпретировать слова как кадры, упорядоченные последовательности векторов, лучше захватывающие отношения между токенами и словами. Затем концепции могут быть представлены как среднее значение кадров слов, разделяющих общую концепцию. Мы продемонстрировали эти инструменты через декодирование с управлением концепцией Top-k, которое интуитивно направляет генерацию текста с использованием выбранных концепций. Мы проверили эти идеи на семействах Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также потенциал для их устранения, что приводит к безопасным и более прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git
Данная работа сосредотачивается на разработке параметрически эффективных и легких моделей для плотных прогнозов, обеспечивая баланс между параметрами, операциями с плавающей запятой и производительностью. Наша цель - установить новую границу легких моделей масштаба 5M для различных последующих задач. Инвертированный блок остатков (IRB) служит инфраструктурой для легких сверточных нейронных сетей, но не было признано аналогов на основе внимания. Наша работа переосмысливает легкую инфраструктуру эффективного IRB и практические компоненты в Трансформере с объединенной перспективы, расширяя сверточные IRB на основе CNN до моделей на основе внимания и абстрагируя один блок Meta Mobile (MMBlock) с одним остаточным элементом для проектирования легких моделей. Следуя аккуратным, но эффективным критериям дизайна, мы выводим современный Улучшенный Инвертированный Мобильный Блок (i2RMB) и улучшаем иерархическую Эффективную Модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей под 4G/5G пропускной способности и обеспечивая производительность модели, мы исследуем верхний предел производительности легких моделей масштаба 5M. Обширные эксперименты на различных задачах распознавания изображений, плотных прогнозов и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами, например, EMOv2-1M/2M/5M достигают 72,3, 75,8 и 79,4 Top-1, что значительно превосходит равнозначные модели на основе CNN/внимания. В то же время, EMOv2-5M с RetinaNet достигает 41,5 mAP для задач обнаружения объектов, что превосходит предыдущий EMO-5M на +2,6. Применяя более надежный рецепт обучения, наш EMOv2-5M в конечном итоге достигает точности Top-1 в 82,9, что поднимает производительность моделей масштаба 5M на новый уровень. Код доступен по ссылке https://github.com/zhangzjn/EMOv2.
Недавние достижения в моделях генерации изображений позволили создавать персонализированные изображения с определенными пользователем объектами (контентом) и стилями. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRAs) с помощью методов на основе оптимизации, которые требуют значительных вычислительных ресурсов и не подходят для использования в реальном времени на ресурсоемких устройствах, таких как смартфоны. Для решения этой проблемы мы представляем метод LoRA.rar, который не только улучшает качество изображения, но также достигает значительного ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар LoRA контента и стиля, изучая эффективную стратегию объединения, которая обобщается на новые, невиданные ранее пары контента и стиля, обеспечивая быструю и качественную персонализацию. Более того, мы выявляем ограничения существующих метрик оценки качества контента и стиля и предлагаем новый протокол с использованием мультимодальных больших языковых моделей (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как по достоверности контента, так и стиля, что подтверждается оценками MLLM и оценками людей.
В данной статье мы представляем ILLUME - объединенную мультимодальную крупномасштабную языковую модель (MLLM), которая плавно интегрирует возможности мультимодального понимания и генерации в рамках одной крупной языковой модели через унифицированную формулировку предсказания следующего токена. Для решения проблемы большого размера набора данных, обычно требуемого для выравнивания изображений и текста, мы предлагаем увеличить эффективность данных путем разработки визионного токенизатора, который интегрирует семантическую информацию, и прогрессивной многоступенчатой процедуры обучения. Этот подход сокращает размер набора данных до всего 15 млн для предварительного обучения - более четырех раз меньше, чем обычно требуется, при достижении конкурентоспособной или даже более высокой производительности по сравнению с существующими объединенными MLLM, такими как Janus. Кроме того, для поощрения синергетического усиления между возможностями понимания и генерации, что недостаточно исследовалось в предыдущих работах, мы представляем новую схему самоусиления мультимодального выравнивания. Эта схема наблюдает за MLLM, чтобы самооценивать согласованность между текстовыми описаниями и самостоятельно созданными изображениями, облегчая модели интерпретацию изображений более точно и избегая нереалистичных и неправильных прогнозов, вызванных несоответствием в генерации изображений. На основе обширных экспериментов наш предложенный ILLUME выделяется и конкурирует с передовыми объединенными MLLM и специализированными моделями на различных показателях для мультимодального понимания, генерации и редактирования.
В последнее время большие языковые модели (LLM) претерпели значительное преобразование, отмеченное стремительным ростом как их популярности, так и возможностей. Во главе этой эволюции стоят собственные LLM, такие как GPT-4 и GPT-o1, которые привлекли широкое внимание в сообществе исследователей в области искусственного интеллекта благодаря своему выдающемуся качеству и универсальности. Одновременно с этим открытые LLM, такие как LLaMA и Mistral, внесли значительный вклад в постоянно растущую популярность LLM благодаря простоте настройки и развертывания моделей в различных приложениях. Хотя открытые LLM представляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения относительно прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют фундаментальным требованиям прозрачности, утаивая важные компоненты, такие как код обучения и данные, а некоторые используют ограничительные лицензии, при этом утверждая, что они "открытые", что может затруднить дальнейшие инновации в области LLM. Для устранения этой проблемы мы представляем Moxin 7B, полностью открытую LLM, разработанную в соответствии с Модельным Фреймворком Открытости (MOF), ранжированной системой классификации, оценивающей ИИ-модели на основе полноты и открытости модели, придерживаясь принципов открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря полному выпуску кода и конфигураций предварительного обучения, наборов данных для обучения и донастройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель достигает превосходных результатов при оценке без обучения по сравнению с популярными моделями 7B и конкурентоспособна при оценке с небольшим обучением.
Недавние достижения в области крупных мультимодальных моделей (LMM) подчеркивают важность масштабирования путем увеличения данных, состоящих из изображений и текста, что позволяет достичь впечатляющих результатов на общих задачах. Несмотря на их эффективность в широком спектре приложений, общие модели в основном обучаются на веб-масштабных наборах данных, где преобладают естественные изображения, что приводит к утрате специализированных возможностей для задач, требующих обширных знаний в предметной области. Более того, прямое интегрирование экспертных моделей, разработанных для конкретных областей, представляет трудности из-за разрыва в представлении и дисбаланса в оптимизации между общей моделью и экспертами. Для решения этих проблем мы представляем Chimera - масштабируемую и недорогую мультимодальную платформу, разработанную для улучшения способностей существующих LMM с помощью экспертов в конкретных областях. Конкретно, мы разрабатываем стратегию поэтапного обучения для интеграции признаков из экспертных моделей во вход общей LMM. Для решения проблемы дисбаланса в оптимизации, вызванной хорошо согласованным общим визуальным кодировщиком, мы предлагаем новый механизм маскирования сотрудничества общего и специализированного моделей (GSCM). Это приводит к универсальной модели, которая превосходит в области диаграмм, таблиц, математики и документов, достигая передовых результатов в задачах мультимодального рассуждения и извлечения визуального контента, обе из которых являются сложными для оценки задачами для существующих LMM.
Данное исследование направлено на достижение более точного и гибкого управления объектами в генерации изображения в видео (I2V). В настоящее время методы обычно представляют пространственное движение целевых объектов с помощью 2D траекторий, что часто не удается уловить намерения пользователя и часто приводит к неестественным результатам. Для улучшения управления мы представляем ObjCtrl-2.5D, подход к управлению объектами без обучения, который использует 3D траекторию, расширенную из 2D траектории с информацией о глубине, в качестве сигнала управления. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D траекторию как последовательность поз камеры, обеспечивая управление движением объекта с использованием существующей модели генерации I2V с управлением движением камеры (CMC-I2V) без обучения. Для адаптации модели CMC-I2V, изначально разработанной для глобального управления движением, к управлению локальным движением объекта, мы вводим модуль для выделения целевого объекта из фона, обеспечивая независимое локальное управление. Кроме того, мы разрабатываем эффективный способ достижения более точного управления объектом путем обмена низкочастотным искаженным латентным внутри области объекта между кадрами. Обширные эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность управления объектами по сравнению с методами без обучения и предлагает более разнообразные возможности управления, чем подходы, использующие 2D траектории с обучением, позволяя реализовать сложные эффекты, такие как вращение объекта. Код и результаты доступны по адресу https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
Данная статья направлена на улучшение производительности больших языковых моделей путем учета переменного вычислительного спроса на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP, простое изменение "готового к использованию" прохода Transformer. Исходя из колебаний и эффекта формулирования в принятии решений, HARP выборочно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь на сложных точках принятия решений и переформулируя входы для другой перспективы. В отличие от других подходов, HARP не зависит от модели, не требует обучения и легко реализуем. Мы тщательно оцениваем наш метод на различных задачах и размерах моделей, демонстрируя улучшение производительности до +5,16%. Следует отметить, что HARP достигает этих улучшений, сохраняя времена вывода вдвое быстрее, чем поиск луча. Простой, но с значительными улучшениями, HARP предлагает практическое решение для повышения производительности языковых моделей на основе Transformer с минимальным вычислительным воздействием.
Генерация изображений по тексту (T2I) продемонстрировала значительный прогресс с помощью моделей диффузии, позволяющих создавать фотореалистичные изображения по текстовым подсказкам. Несмотря на этот прогресс, существующие методы по-прежнему сталкиваются с вызовами в следовании сложным текстовым подсказкам, особенно тем, которые требуют композиционного и многоэтапного рассуждения. При таких сложных инструкциях модели SOTA часто допускают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В данной работе мы представляем альтернативную парадигму для синтеза T2I, разбивая задачу сложной многоэтапной генерации на три шага: (a) Генерация: сначала мы создаем изображение с использованием существующих моделей диффузии; (b) Планирование: мы используем Мульти-Модальные LLMs (MLLMs) для выявления ошибок в созданном изображении, выраженных в терминах отдельных объектов и их свойств, и создаем последовательность корректирующих шагов в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений под управлением текста для последовательного выполнения нашего плана редактирования над созданным изображением, чтобы получить желаемое изображение, которое верно передает исходную инструкцию. Наш подход получает свою силу от модульной природы, отсутствия необходимости в обучении и возможности применения к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко обменивается временем вывода и вычислениями с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку по 3 бенчмаркам и 10 моделям T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA на до 3 пунктов, но также уменьшает разрыв в производительности между слабыми и сильными моделями.
Федеративное обучение (FL) направлено на защиту конфиденциальности данных, позволяя клиентам совместно обучать модели машинного обучения, не раскрывая их исходные данные. Однако недавние исследования показывают, что информация, обмениваемая во время FL, подвержена атакам градиентного инвертирования (GIA), и в связи с этим было интегрировано множество методов, сохраняющих конфиденциальность, в FL для предотвращения таких атак, таких как безопасные многосторонние вычисления (SMC), гомоморфное шифрование (HE) и дифференциальная конфиденциальность (DP). Несмотря на их способность защищать конфиденциальность данных, эти подходы неизбежно включают значительные компромиссы между конфиденциальностью и полезностью. Переосмыслив ключевую проблему утечки конфиденциальности в FL под GIA, заключающуюся в частом обмене градиентами модели, содержащими конфиденциальные данные, мы предлагаем новый подход, разработав новую рамку FL для сохранения конфиденциальности, которая эффективно "разрывает прямую связь" между общими параметрами и локальными конфиденциальными данными для защиты от GIA. Конкретно, мы предлагаем рамку Федеративного обучения с гиперсетями (HyperFL), которая использует гиперсети для генерации параметров локальной модели, и только параметры гиперсети загружаются на сервер для агрегации. Теоретический анализ демонстрирует скорость сходимости предложенного HyperFL, в то время как обширные экспериментальные результаты показывают способность сохранения конфиденциальности и сопоставимую производительность HyperFL. Код доступен по ссылке https://github.com/Pengxin-Guo/HyperFL.
Генерация контрречи от искусственного интеллекта предлагает многообещающую и масштабируемую стратегию для сдерживания онлайн токсичности через прямые ответы, способствующие гражданскому диалогу. Однако текущая контрречь представляет собой универсальное решение, не адаптированное к контексту модерации и пользователям, участвующим в общении. Мы предлагаем и оцениваем несколько стратегий генерации индивидуализированной контрречи, адаптированной к контексту модерации и персонализированной для модерируемого пользователя. Мы обучаем модель LLaMA2-13B генерировать контрречи, экспериментируя с различными конфигурациями на основе различной контекстной информации и стратегий донастройки. Мы выявляем конфигурации, генерирующие убедительную контрречь, через комбинацию количественных показателей и оценок людей, собранных с помощью предварительно зарегистрированного многоуровневого краудсорсингового эксперимента. Результаты показывают, что контекстуализированная контрречь может значительно превзойти современную универсальную контрречь по соответствию и убедительности, не ущемляя другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и оценками людей, что указывает на то, что эти методы оценивают различные аспекты и подчеркивает необходимость тонких методологий оценки. Эффективность контекстуализированной генерации контрречи от искусственного интеллекта и расхождение между оценками людей и алгоритмическими подчеркивают важность увеличения сотрудничества между человеком и искусственным интеллектом в модерации контента.
Политики визуомоторных роботов, все чаще предварительно обученные на масштабных наборах данных, обещают значительные прорывы в различных областях робототехники. Однако выравнивание этих политик с предпочтениями конечного пользователя остается вызовом, особенно когда эти предпочтения сложно специфицировать. В то время как обучение с подкреплением на основе обратной связи от человека (RLHF) стало преобладающим механизмом для выравнивания в не-воплощенных областях, таких как большие языковые модели, оно не достигло такого же успеха в выравнивании визуомоторных политик из-за огромного количества необходимой обратной связи для изучения визуальных функций вознаграждения. Для преодоления этого ограничения мы предлагаем метод обучения на основе предпочтений, выровненных по представлению (RAPL), метод, использующий только наблюдения для изучения визуальных вознаграждений с помощью значительно меньшего количества обратной связи от человека. В отличие от традиционного RLHF, RAPL сосредотачивает обратную связь от человека на точной настройке предварительно обученных кодировщиков зрения для выравнивания с визуальным представлением конечного пользователя, а затем создает плотное визуальное вознаграждение путем сопоставления признаков в этом выровненном пространстве представления. Сначала мы проверяем RAPL через симуляционные эксперименты в бенчмарке X-Magical и робототехнике по манипулированию роботом Franka Panda, демонстрируя, что он может изучать вознаграждения, выровненные с предпочтениями человека, более эффективно использовать данные о предпочтениях и обобщать на различные воплощения роботов. Наконец, наши аппаратные эксперименты выравнивают предварительно обученные Политики Диффузии для трех задач манипулирования объектами. Мы обнаруживаем, что RAPL может точно настраивать эти политики с 5 раз меньшим количеством реальных данных обратной связи от человека, делая первый шаг к минимизации обратной связи от человека при максимизации выравнивания политики визуомоторных роботов.