Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация в контексте является ключевым компонентом способности к обобщению открытых задач больших моделей языка (LLM) на различные задачи. Используя несколько примеров в качестве контекста, LLM могут выполнять как задачи в предметной области, так и задачи вне предметной области. Недавние достижения в авторегрессионных моделях видео-языка (VLM), построенных на основе LLM, продемонстрировали впечатляющую производительность в генерации текста к изображению. Однако потенциал обучения в контексте для общих задач генерации изображений остается в значительной степени неисследованным. Для решения этой проблемы мы представляем X-Prompt, чисто авторегрессионную крупномасштабную модель языка видения, разработанную для достижения конкурентоспособной производительности на широком спектре как видимых, так и невидимых задач генерации изображений, все в рамках унифицированной системы обучения в контексте. X-Prompt включает специализированный дизайн, который эффективно сжимает ценные характеристики из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая его способность к обобщению на невидимые задачи. Унифицированная обучающая задача как для предсказания текста, так и для изображения позволяет X-Prompt обрабатывать общие задачи генерации изображений с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты подтверждают производительность модели на различных видимых задачах генерации изображений и ее способность к обобщению на ранее невидимые задачи.
Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 от OpenAI с упором на задачи программирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло поиска по дереву (MCTS) для улучшения когнитивных способностей модели System-2. Фреймворк включает в себя обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, использование MCTS для генерации данных кода с процессами рассуждения, и итеративное настройку политики модели для начального создания псевдокода, за которым следует генерация полного кода. В отчете также рассматриваются возможности и вызовы в развертывании моделей подобных o1 в прикладных областях, предлагается переход к парадигме System-2 и выделяется необходимость обновлений состояния окружения. Обновленный прогресс модели и результаты экспериментов будут представлены в последующих версиях. Весь исходный код, отобранные наборы данных, а также полученные модели будут опубликованы на https://github.com/ADaM-BJTU/O1-CODER.
Данная работа представляет Switti, масштабно-ориентированный трансформер для генерации текста в изображение. Начиная с существующих моделей AR для предсказания следующего масштаба, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации для улучшения их сходимости и общей производительности. Затем мы замечаем, что карты самовнимания нашей предварительно обученной масштабно-ориентированной модели AR проявляют слабую зависимость от предыдущих масштабов. Исходя из этого наблюдения, мы предлагаем немасштабный аналог, обеспечивающий приблизительно на 11% более быструю выборку и более низкое использование памяти, сохраняя при этом немного лучшее качество генерации. Кроме того, мы выявляем, что отсутствие руководства классификатором на масштабах высокого разрешения часто не нужно и даже может ухудшить производительность. Отключив руководство на этих масштабах, мы добиваемся дополнительного ускорения выборки примерно на 20% и улучшаем генерацию мелких деталей. Обширные исследования предпочтений людей и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с передовыми моделями диффузии T2I, при этом работая в 7 раз быстрее.
Мы представляем Open-Sora Plan, проект с открытым исходным кодом, который направлен на создание крупной модели генерации для генерации желаемых видеороликов высокого разрешения с длительным временем работы на основе различных пользовательских входных данных. Наш проект включает несколько компонентов для всего процесса генерации видео, включая вариационный авокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse и различные контроллеры условий. Более того, разработано множество вспомогательных стратегий для эффективного обучения и вывода, а также предложена многомерная конвейерная обработка данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт могут вдохновить исследовательское сообщество по генерации видео. Все наши коды и модельные веса доступны публично на https://github.com/PKU-YuanGroup/Open-Sora-Plan.
С быстрым развитием моделей генерации изображений на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами в генерации видео с временной согласованностью и быстрой выборки из-за своей итеративной природы выборки. В данной статье представлена FLOAT, метод генерации видео с анимированным портретом, управляемый аудио, основанный на модели генерации сопоставления потоков. Мы переносим генеративное моделирование из пиксельного латентного пространства в изученное латентное пространство движения, обеспечивая эффективное проектирование временно согласованного движения. Для этого мы представляем предиктор векторного поля на основе трансформера с простым, но эффективным механизмом условий на уровне кадра. Кроме того, наш метод поддерживает улучшение эмоций, управляемых речью, обеспечивая естественное включение выразительных движений. Обширные эксперименты демонстрируют, что наш метод превосходит современные методы аудио-управляемых анимированных портретов по качеству изображения, достоверности движения и эффективности.
В настоящее время перед крупными мультимодальными моделями (LMMs) стоят значительные вызовы в обработке и понимании видеороликов длительного или высокого разрешения, что в основном обусловлено отсутствием качественных наборов данных. Для решения этой проблемы с точки зрения данных мы предлагаем VISTA, простую, но эффективную структуру аугментации видео в пространстве и времени, которая синтезирует пары видеоинструкций и следования из существующих наборов данных видео-описаний. VISTA пространственно и временно объединяет видеоролики для создания новых синтетических видео с увеличенной длительностью и улучшенным разрешением, а затем генерирует пары вопрос-ответ, относящиеся к этим вновь синтезированным видеороликам. Основываясь на этой парадигме, мы разработали семь методов аугментации видео и создали VISTA-400K, набор данных видеоинструкций и следования, направленный на улучшение понимания видеороликов длительного и высокого разрешения. Настройка различных видео LMMs на наших данных привела к среднему улучшению на 3.3% по четырем сложным бенчмаркам для понимания длинных видеороликов. Более того, мы представляем первый всесторонний бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши настроенные модели достигли улучшения производительности на 6.5%. Эти результаты подчеркивают эффективность нашей структуры.
Человек - социальное животное. Как оборудовать трехмерных автономных персонажей с аналогичным социальным интеллектом, способных воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной проблемой. В этой статье мы представляем SOLAMI - первую полную модель социального видео-языково-действенного (VLA) моделирования для иммерсивного взаимодействия с трехмерными автономными персонажами. Конкретно, SOLAMI создает трехмерных автономных персонажей с трех точек зрения: (1) Архитектура социального VLA: Мы предлагаем унифицированную социальную VLA структуру для генерации мультимодального ответа (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социального взаимодействия, созданный автоматическим конвейером с использованием только существующих наборов данных о движениях, чтобы решить проблему нехватки данных. (3) Иммерсивный интерфейс виртуальной реальности: Мы разрабатываем интерфейс виртуальной реальности, позволяющий пользователям иммерсивно взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и пользовательские исследования демонстрируют, что наша структура приводит к более точным и естественным ответам персонажей (как в речи, так и в движении), соответствующим ожиданиям пользователя с более низкой задержкой.
В данной статье мы представляем TAPTRv3, который основан на TAPTRv2 с целью улучшения его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, способную точно отслеживать любую точку в видео из реального мира без необходимости использования объемно-стоимостных данных. TAPTRv3 улучшает TAPTRv2, решая его недостаток в запросе высококачественных признаков из длинных видео, где отслеживаемые точки обычно подвержены увеличивающемуся изменению со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запроса признаков вдоль пространственных и временных измерений для более надежного отслеживания в длинных видео. Для улучшения пространственного запроса признаков мы представляем Межвнимательность с Учетом Контекста (CCA), которая использует окружающий пространственный контекст для улучшения качества оценок внимания при запросе признаков изображения. Для улучшения временного запроса признаков мы вводим Долговременное Внимание с Учетом Видимости (VLTA) для проведения временного внимания ко всем прошлым кадрам с учетом их соответствующей видимости, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его долговременным моделированием, аналогичным RNN. TAPTRv3 превосходит TAPTRv2 с большим отрывом на большинстве сложных наборов данных и достигает передовых показателей. Даже в сравнении с методами, обученными на большом объеме дополнительных внутренних данных, TAPTRv3 остается конкурентоспособным.
Многомодельные модели с большим языковым объемом (MLLM) сделали значительные шаги в задачах визуального понимания и генерации. Однако генерация переплетенного контента изображений и текста остается вызовом, требующим интегрированного многомодального понимания и генерации. Хотя прогресс в единых моделях предлагает новые решения, существующие бенчмарки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Для устранения этого разрыва мы представляем GATE OpenING (OpenING), обширный бенчмарк, включающий 5 400 высококачественных аннотированных человеком примеров по 56 задачам реального мира. OpenING охватывает разнообразные повседневные сценарии, такие как путеводитель, дизайн и мозговой штурм, предлагая надежную платформу для вызова методов генерации с переплетением. Кроме того, мы представляем IntJudge, модель-судью для оценки открытых многомодальных методов генерации. Обученный с помощью новой конвейерной системы данных, наш IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщиков на основе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы генерации с переплетением все еще имеют значительный потенциал для улучшения. Ключевые результаты по генерации переплетенного изображения и текста дополнительно представлены для направления развития моделей следующего поколения. OpenING доступен в открытом доступе на https://opening.github.io.
Суррогатные модели на основе машинного обучения предоставляют исследователям мощные инструменты для ускорения рабочих процессов на основе симуляций. Однако, поскольку стандартные наборы данных в этой области часто охватывают небольшие классы физического поведения, может быть сложно оценить эффективность новых подходов. Для решения этого пробела мы представляем Well: крупномасштабную коллекцию наборов данных, содержащих числовые симуляции широкого спектра пространственно-временных физических систем. Well использует знания экспертов в области и разработчиков численного программного обеспечения для предоставления 15 ТБ данных по 16 наборам, охватывающих разнообразные области, такие как биологические системы, динамика жидкостей, акустическое рассеяние, а также магнитогидродинамические симуляции экстрагалактических жидкостей или взрывы сверхновых. Эти наборы данных могут использоваться как индивидуально, так и в рамках более широкого набора тестов. Для облегчения использования Well мы предоставляем унифицированный интерфейс PyTorch для обучения и оценки моделей. Мы демонстрируем функционал этой библиотеки, представляя примеры базовых уровней, которые выделяют новые вызовы, представленные сложной динамикой Well. Код и данные доступны по ссылке https://github.com/PolymathicAI/the_well.
Модель Segment Anything Model 2 (SAM 2) стала мощным инструментом для сегментации объектов на видео и отслеживания всего. Ключевые компоненты SAM 2, обеспечивающие впечатляющую производительность сегментации объектов на видео, включают в себя большой многоуровневый кодировщик изображений для извлечения признаков кадра и механизм памяти, который сохраняет контексты памяти из прошлых кадров для помощи в сегментации текущего кадра. Высокая вычислительная сложность многоуровневого кодировщика изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации объектов на видео на мобильных устройствах. Для преодоления этого ограничения мы предлагаем EfficientTAMs, легкие модели отслеживания объектов, которые производят качественные результаты с низкой задержкой и размером модели. Наша идея основана на повторном рассмотрении обычного, неиерархического Vision Transformer (ViT) в качестве кодировщика изображений для сегментации объектов на видео и введении эффективного модуля памяти, который уменьшает сложность как извлечения признаков кадра, так и вычисления памяти для сегментации текущего кадра. Мы используем обычные легкие ViT и эффективный модуль памяти для создания EfficientTAMs и обучаем модели на наборах данных SA-1B и SA-V для сегментации объектов на видео и задач отслеживания объектов. Мы оцениваем на нескольких бенчмарках сегментации видео, включая полу-надзорный VOS и сегментацию видео по запросу, и обнаруживаем, что наша предложенная EfficientTAM с обычным ViT работает сопоставимо с моделью SAM 2 (HieraB+SAM 2) с ускорением в ~2 раза на A100 и сокращением параметров в ~2.4 раза. В задачах сегментации изображений на все, наши EfficientTAMs также проявляют себя лучше, чем оригинальная SAM с ускорением в ~20 раз на A100 и сокращением параметров в ~20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAMs могут работать с частотой ~10 кадров в секунду для выполнения сегментации объектов на видео с приемлемым качеством, подчеркивая возможности небольших моделей для приложений сегментации объектов на видео на устройствах.
Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, благодаря отсутствию классификаторов и техникам инверсии изображений. Однако модели прямого потока (RFM) остаются малоисследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением на предварительно обученные латентные модели, показывают низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В данной работе мы в первую очередь разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM для эффективного управления траекторией удаления шума. Наши результаты показывают, что мы можем навигировать векторное поле детерминированным и безградиентным способом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией удаления шума для контролируемых задач генерации изображений, с помощью пропуска градиента. FlowChef - это единая структура для контролируемой генерации изображений, которая впервые одновременно решает задачи классификации, линейных обратных задач и редактирования изображений без необходимости дополнительного обучения, инверсии или интенсивного обратного распространения. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным затратам, достигая новых результатов, являющихся лучшими в своем классе. Страница проекта: https://flowchef.github.io.
Недавний всплеск высококачественных образцов настройки визуальных инструкций от моделей видео-языкового восприятия (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей представляет существенные вычислительные вызовы, особенно для развертывания на ресурсоемких устройствах, таких как мобильные платформы и роботы. Для решения этой проблемы мы предлагаем VLsI: Вербализованные Слои-взаимодействия, новое семейство VLM размеров моделей 2B и 7B, которое приоритизирует эффективность, не жертвуя точностью. VLsI использует уникальный процесс дистилляции слоев, вводя промежуточные "вербализаторы", которые отображают признаки с каждого слоя в пространство естественного языка, позволяя более маленьким VLM гибко выравниваться с процессами рассуждения более крупных VLM. Этот подход смягчает нестабильность обучения, часто встречающуюся при имитации вывода, и выходит за рамки типичной настройки финального слоя, выравнивая прогрессирование слоев маленьких VLM с прогрессированием больших. Мы проверяем VLsI на десяти сложных бенчмарках видео-языкового восприятия, достигая значительного увеличения производительности (11,0% для 2B и 17,4% для 7B) по сравнению с GPT-4V без необходимости масштабирования, слияния или изменения архитектуры модели.
Диффузионные трансформеры продемонстрировали выдающиеся возможности в генерации изображений, но часто имеют избыточное параметризацию, что приводит к значительным накладным расходам при выводе в реальных приложениях. В данной работе мы представляем TinyFusion, метод обрезки глубины, разработанный для удаления избыточных слоев из диффузионных трансформеров с помощью обучения с применением конечных точек. Основным принципом нашего подхода является создание обрезанной модели с высокой восстанавливаемостью, позволяющей ей достичь высокой производительности после тонкой настройки. Для достижения этой цели мы вводим дифференцируемую технику выборки для обучения обрезки, совмещенную с кооптимизированным параметром для имитации будущей тонкой настройки. В то время как предыдущие работы сосредотачивались на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после тонкой настройки. Экспериментальные результаты показывают, что этот обучаемый парадигма приносит существенные преимущества для обрезки слоев диффузионных трансформеров, превосходящих существующие методы на основе важности и ошибок. Кроме того, TinyFusion проявляет сильное обобщение на различных архитектурах, таких как DiTs, MARs и SiTs. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформер менее чем за 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с оценкой FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.
Дифференциальная производительность больших языковых моделей (LLM) между языками затрудняет их эффективное внедрение во многих регионах, препятствуя потенциальной экономической и общественной ценности генеративных инструментов искусственного интеллекта во многих сообществах. Однако разработка функциональных LLM на многих языках (т.е. мультиязычных LLM) сталкивается с проблемой отсутствия ресурсов высокого качества для оценки на языках, отличных от английского. Более того, текущие практики по созданию мультиязычных бенчмарков часто переводят англоязычные ресурсы, игнорируя региональные и культурные знания среды, в которой мультиязычные системы будут использоваться. В данной работе мы создаем набор оценочных вопросов в объеме 197 243 пар вопрос-ответ из местных источников экзаменов для измерения возможностей мультиязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, представляет собой комплексный бенчмарк, ориентированный на знания и рассуждения, на 44 письменных языках, который оценивает производительность мультиязычных LLM в фактических языковых средах, где они будут использоваться.
Видео вариационный автоэнкодер (VAE) кодирует видео в пространство низкой размерности, становясь ключевым компонентом большинства моделей латентной диффузии видео (LVDM), направленных на снижение затрат на обучение модели. Однако с увеличением разрешения и продолжительности создаваемых видео стоимость кодирования видео VAE становится ограничивающим фактором при обучении LVDM. Более того, метод блочного вывода, принятый в большинстве LVDM, может привести к разрывам в латентном пространстве при обработке видео большой продолжительности. Ключ к преодолению вычислительного узкого места заключается в разложении видео на отдельные компоненты и эффективном кодировании важной информации. Вейвлет-преобразование может разложить видео на несколько компонентов в частотной области и значительно повысить эффективность. Мы предлагаем Вейвлет-потоковый вариационный автоэнкодер (WF-VAE), автоэнкодер, использующий многоуровневое вейвлет-преобразование для облегчения потока энергии низкой частоты в латентное представление. Кроме того, мы представляем метод, названный "Причинный кэш", который поддерживает целостность латентного пространства во время блочного вывода. По сравнению с передовыми видео VAE, WF-VAE демонстрирует превосходную производительность как по метрикам PSNR, так и LPIPS, достигая удвоенного уровня пропускной способности и вчетверо меньшего потребления памяти при сохранении конкурентоспособного качества восстановления. Наш код и модели доступны по адресу https://github.com/PKU-YuanGroup/WF-VAE.
Проблемы безопасности мультимодальных моделей крупного размера (MLLM) постепенно стали важной проблемой в различных областях применения. Удивительно, что предыдущие работы указывают на контринтуитивное явление, что использование текстового забывания для выравнивания MLLM достигает сравнимых показателей безопасности с MLLM, обученными с парами изображение-текст. Для объяснения такого контринтуитивного явления мы обнаружили проблему утечки визуальной информации о безопасности (VSIL) в существующих мультимодальных бенчмарках безопасности, то есть потенциально рискованный и чувствительный контент на изображении был раскрыт в текстовом запросе. Таким образом, MLLM могут легко отклонять эти чувствительные текстово-изображенческие запросы в соответствии с текстовыми запросами. Однако пары изображение-текст без VSIL распространены в реальных сценариях и игнорируются существующими мультимодальными бенчмарками безопасности. Для этого мы создали мультимодальный визуальный бенчмарк без утечки безопасности (VLSBench), предотвращающий утечку визуальной безопасности от изображения к текстовому запросу с 2,4 тыс. парами изображение-текст. Экспериментальные результаты показывают, что VLSBench представляет собой значительное испытание как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование демонстрирует, что текстовое выравнивание достаточно для мультимодальных сценариев безопасности с VSIL, в то время как мультимодальное выравнивание является более перспективным решением для мультимодальных сценариев без VSIL. Пожалуйста, ознакомьтесь с нашим кодом и данными по ссылке: http://hxhcreate.github.io/VLSBench
Мы представляем Presto, новую модель видеодиффузии, разработанную для создания видеороликов продолжительностью 15 секунд с долгосрочной связностью и насыщенным содержанием. Расширение методов генерации видео для поддержания разнообразия сценариев на протяжении длительного времени представляет существенные вызовы. Для решения этой проблемы мы предлагаем стратегию Сегментированного Перекрестного Внимания (SCA), которая разделяет скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно взаимодействовать с соответствующим подзаголовком. SCA не требует дополнительных параметров, обеспечивая бесшовное внедрение в существующие архитектуры на основе DiT. Для облегчения генерации долгих видеороликов высокого качества мы создали набор данных LongTake-HD, состоящий из 261 тыс. видеороликов с насыщенным содержанием, обладающих сценарной связностью, аннотированных общим видео-заголовком и пятью постепенными подзаголовками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по Динамической Степени, превосходя существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает насыщенность контента, поддерживает долгосрочную связность и улавливает тонкие текстовые детали. Более подробная информация доступна на нашей странице проекта: https://presto-video.github.io/.
Мы исследуем вопрос: "Как много предварительных знаний о произведениях искусства необходимо для создания искусства?" Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы представляем простой, но эффективный метод обучения адаптера искусства, используя лишь несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с использованием нашего метода, воспринимается пользователями как сравнимое с искусством, созданным моделями, обученными на больших, содержащих много искусства, наборах данных. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры из художественных и нехудожественных наборов данных способствовали созданию новых художественных стилей.
Ошибки в понимании визуальной информации на изображениях (т.е. ошибки в визуальном восприятии) остаются основным источником ошибок в больших моделях языка и зрения (LVLMs). Хотя дальнейший анализ необходим, существует недостаток наборов данных для оценки визуального восприятия LVLMs. В данной работе мы представляем VisOnlyQA, новый набор данных, разработанный для прямой оценки возможностей визуального восприятия LVLMs на вопросы о геометрической и числовой информации в научных фигурах. Наш набор данных позволяет нам анализировать визуальное восприятие LVLMs для детализированной визуальной информации, независимо от других способностей, таких как рассуждение. Оценочный набор VisOnlyQA включает 1,200 вопросов с выбором ответа по 12 задачам в четырех категориях фигур. Мы также предоставляем синтетические обучающие данные, состоящие из 70 тыс. экземпляров. Наши эксперименты на VisOnlyQA выявляют следующие результаты: (i) 20 LVLMs, которые мы оцениваем, включая GPT-4o и Gemini 1.5 Pro, плохо справляются с задачами визуального восприятия в VisOnlyQA, в то время как человеческая производительность практически идеальна. (ii) Настройка на синтетических обучающих данных демонстрирует потенциал для улучшения визуального восприятия LVLMs, однако наблюдаемые улучшения ограничены определенными задачами и конкретными моделями. (iii) Более сильные языковые модели улучшают визуальное восприятие LVLMs. В заключение, наши эксперименты подтверждают, что как данные для обучения, так и архитектуры моделей следует улучшить для повышения возможностей визуального восприятия LVLMs. Наборы данных, код и ответы моделей предоставлены на https://github.com/psunlpgroup/VisOnlyQA.
Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) привели к появлению разнообразных возможностей для рассуждения и интерпретации динамического визуального контента. Среди них видеоролики игрового процесса выделяются как характерный источник данных, часто содержащий ошибки, которые противоречат физическому здравому смыслу. Эта особенность делает их эффективным бенчмарком для оценки недостаточно изученной способности понимания физического здравого смысла в видео LLMs. В данной статье мы предлагаем PhysGame в качестве первоначального бенчмарка для оценки нарушений физического здравого смысла в видеороликах игрового процесса. PhysGame включает 880 видеороликов с ошибками, охватывающими четыре основных области (механику, кинематику, оптику и свойства материалов) и 12 различных аспектов физического здравого смысла. После тщательной оценки различных передовых видео LLMs наши результаты показывают, что производительность текущих открытых видео LLMs значительно отстает от закрытых аналогов. Для устранения этой разницы мы создаем набор данных для настройки инструкций PhysInstruct с 140 057 вопросами-ответами для облегчения обучения физическому здравому смыслу. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются на основе вводных заголовков (т.е. взлом метаинформации), меньшего количества кадров (т.е. временной взлом) и более низких пространственных разрешений (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, обогащенную физическими знаниями. Обширные эксперименты как на физически ориентированном бенчмарке PhysGame, так и на общих бенчмарках понимания видео демонстрируют передовую производительность PhysVLM.
Мы предлагаем общий двухэтапный алгоритм, который обладает доказуемым законом масштабирования для вычислений на этапе тестирования больших языковых моделей (LLM). Учитывая входную проблему, предлагаемый алгоритм сначала генерирует N кандидатских решений, а затем выбирает лучшее из них с помощью многораундового турнира, где каждая пара кандидатов сравнивается K раз, и только победители переходят на следующий раунд. В минималистической реализации оба этапа могут быть выполнены только с помощью черного ящика LLM и ничего более (например, без внешнего верификатора или модели вознаграждения), и для решения входной проблемы требуется всего N раз (K + 1) параллельных вызовов LLM. Предполагая, что сгенерированное кандидатское решение верно с вероятностью p_{gen} > 0, а сравнение между парой правильных и неправильных решений идентифицирует правильного победителя с вероятностью p_{comp} > 0.5 (т.е. лучше случайного угадывания), мы теоретически доказываем, что вероятность ошибки предложенного алгоритма экспоненциально убывает с увеличением N и K: $P(финальный вывод неверен) \leq (1 - p_{gen})^N + \lceil log_2 N \rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Наши эмпирические результаты с трудным бенчмарком MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и выгоды от масштабирования его вычислений на этапе тестирования.
Существующие задачи навигации к цели на основе воплощенных экземпляров, управляемые естественным языком, предполагают, что человеческие пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и двусмысленными. Для устранения этого разрыва мы предлагаем новую задачу, Коллаборативную Навигацию по Экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, без шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод, Взаимодействие Агента с Пользователем с Учетом Неопределенности (AIUTA), использующий возможности восприятия моделей Визуального Языка (VLMs) и возможности Больших Языковых Моделей (LLMs). Сначала, после обнаружения объекта, модель Само-Вопрошающего начинает самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности смягчает неточное восприятие VLM. Затем модуль Триггера Взаимодействия определяет, стоит ли задать вопрос пользователю, продолжить или прекратить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, бенчмарк, поддерживающий как реальных, так и симулированных людей. AIUTA достигает конкурентоспособной производительности в навигации по экземплярам по сравнению с передовыми методами, демонстрируя большую гибкость в обработке ввода пользователя.
Недавние достижения в моделях диффузии установили новые стандарты в генерации изображений и видео, обеспечивая реалистичный визуальный синтез как в однокадровых, так и в многокадровых контекстах. Однако эти модели все еще испытывают трудности с эффективной и явной генерацией содержимого, согласованного в 3D. Для решения этой проблемы мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явное 3D-наблюдение с использованием изображений XYZ, кодирующих глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем трансформер диффузии для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность через гибкую стратегию заполнения пропусков. Например, WVD может оценивать кадры XYZ из исходных RGB или генерировать новые RGB кадры, используя проекции XYZ вдоль указанной траектории камеры. Таким образом, WVD объединяет задачи, такие как генерация 3D из одного изображения, многоплановая стереоскопия и генерация видео под управлением камеры. Наш подход продемонстрировал конкурентоспособную производительность на нескольких платформах, предоставляя масштабируемое решение для генерации 3D-согласованных видео и изображений с использованием одной предварительно обученной модели.
Аналогии играют фундаментальную роль в когнитивных процессах. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки лингвистических и когнитивных способностей. Например, заполнение аналогий вроде "Кислород относится к Газу как <пусто> относится к <пусто>" требует определения семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В данной работе мы представляем набор данных для многовариантного вопросно-ответного теста на 15 тыс. пропорциональных аналогий и оцениваем производительность современных моделей больших языков (LLM) в различных настройках запросов с улучшенными знаниями. Конкретно, мы дополняем запросы тремя типами знаний: образцовым, структурированным и целевым. Наши результаты показывают, что несмотря на обширные данные для обучения, решение пропорциональных аналогий остается сложной задачей для текущих LLM, лучшая модель достигает точности 55%. Особенно мы обнаружили, что предоставление целевых знаний может лучше помочь моделям в заполнении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.
За последние несколько десятилетий алгоритмы автономного вождения сделали значительные успехи в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает производительность всей системы, что подчеркивает необходимость более всесторонних методов оценки. Это мотивирует разработку HUGSIM - замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого путем преобразования захваченных 2D RGB изображений в трехмерное пространство с помощью трехмерного гауссова сплетения, улучшая качество визуализации для сцен с замкнутым циклом и создавая среду замкнутого цикла. В части визуализации мы решаем проблемы нового синтеза видов в сценариях с замкнутым циклом, включая экстраполяцию точки зрения и визуализацию транспортных средств на 360 градусов. Помимо нового синтеза видов, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния и наблюдения эго и актеров на основе управляющих команд. Более того, HUGSIM предлагает всеобъемлющий бенчмарк по более чем 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более чем 400 разнообразных сценариев, обеспечивая справедливую и реалистичную платформу оценки для существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком оценки, но также открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной среде с замкнутым циклом.
Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации текста в изображение представляет собой значительное вызов, особенно в отображении письменного текста на изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным изображением текста, что приводит к опечаткам или несогласованному тексту. Мы представляем метод обучения без обучения с минимальной вычислительной нагрузкой, который значительно улучшает качество отображения текста. Конкретно, мы вводим сэмплер с перестрелкой для предварительно обученных моделей прямого потока (RF), чередуя перестрелку изученного обыкновенного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, сэмплер с перестрелкой эффективно вводит дополнительный термин динамики Ланжевена, который может помочь исправить накапливающуюся ошибку от последовательных шагов Эйлера и, следовательно, улучшить отображение текста. Однако при высокой силе перестрелки мы наблюдаем артефакты излишнего сглаживания на сгенерированных изображениях. Для решения этой проблемы мы предлагаем сэмплер с модулированием внимания и перестрелкой (AMO), который адаптивно контролирует силу перестрелки для каждого патча изображения в соответствии с их оценкой внимания к содержанию текста. AMO демонстрирует улучшение точности отображения текста на 32,3% и 35,9% на моделях SD3 и Flux без ущерба для общего качества изображения или увеличения стоимости вывода.
Обнаружение онлайн-контента с оскорблениями, особенно в условиях ограниченных ресурсов и в аудио-модальности, остается мало исследованным. Мы исследуем потенциал предварительно обученных аудио-представлений для обнаружения оскорбительной речи на языках с ограниченными ресурсами, в данном случае, на индийских языках с использованием обучения на небольшом количестве примеров (Few Shot Learning, FSL). Используя мощные представления из моделей, таких как Wav2Vec и Whisper, мы исследуем кросс-языковое обнаружение оскорблений с использованием набора данных ADIMA с помощью FSL. Наш подход интегрирует эти представления в рамках модели-агностического мета-обучения (Model-Agnostic Meta-Learning, MAML) для классификации оскорбительной речи на 10 языках. Мы экспериментируем с различными размерами выборки (50-200), оценивая влияние ограниченных данных на производительность. Кроме того, было проведено исследование визуализации признаков для лучшего понимания поведения модели. Это исследование подчеркивает способность к обобщению предварительно обученных моделей в условиях ограниченных ресурсов и предлагает ценные идеи для обнаружения оскорбительной речи в мультиязычных контекстах.
Система верификации диктора (SV) предоставляет сервис аутентификации, разработанный для подтверждения того, что данная речевая выборка происходит от определенного диктора. Эта технология открыла путь для различных персонализированных приложений, учитывающих индивидуальные предпочтения. Заметным вызовом, стоящим перед системами SV, является их способность к последовательной работе в различных эмоциональных спектрах. Большинство существующих моделей показывают высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. Следовательно, это явление часто приводит к упущению интересной речи. Эта проблема в основном обусловлена ограниченной доступностью размеченных данных эмоциональной речи, затрудняющей разработку надежных представлений диктора, охватывающих разнообразные эмоциональные состояния. Для решения этой проблемы мы предлагаем новый подход, используя фреймворк CycleGAN в качестве метода аугментации данных. Эта техника синтезирует эмоциональные речевые сегменты для каждого конкретного диктора, сохраняя уникальную голосовую идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого расширенного набора данных, последовательно превосходят базовые модели в задаче верификации дикторов в сценариях эмоциональной речи, снижая равную ошибку до 3,64% относительно.