Ежедневно отобранные исследовательские статьи по ИИ с переводами
В сравнении с данными пар изображение-текст, переплетенные корпуса позволяют моделям видео-языка (VLM) понимать мир более естественно, как люди. Однако такие существующие наборы данных извлекаются из веб-страниц, сталкиваясь с проблемами, такими как низкая плотность знаний, слабые связи между изображениями и текстом, а также плохая логическая связность между изображениями. С другой стороны, в интернете существует огромное количество обучающих видеороликов (например, онлайн-курсы по геометрии), которые широко используются людьми для изучения фундаментальных предметов, однако эти ценные ресурсы остаются недостаточно исследованными в области предварительного обучения VLM. В данной статье мы представляем высококачественный мультимодальный учебный корпус с более богатыми фундаментальными знаниями для предварительного обучения VLM. Он собирает более 2,5 лет обучающих видеороликов, общей продолжительностью 22 000 часов. Сначала мы используем таксономию, предложенную LLM, для систематического сбора обучающих видеороликов. Затем мы поэтапно извлекаем и уточняем визуальные (ключевые кадры), аудио (ASR) и текстовые знания (OCR) из видеороликов, и организуем их как переплетенный корпус изображений и текста на основе временного порядка. По сравнению с аналогами, наш учебник, сосредоточенный на видео, предлагает более последовательный контекст, более богатые знания и лучшее соответствие изображения-текст. Эксперименты демонстрируют его превосходную производительность в предварительном обучении, особенно в задачах, требующих знаний и рассуждений, таких как ScienceQA и MathVista. Более того, модели VLM, предварительно обученные на нашем учебнике, проявляют выдающееся осознание переплетенного контекста, используя визуальные и текстовые подсказки в своем контексте с небольшим количеством примеров для решения задач. Наш код доступен по ссылке: \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
Несмотря на значительные достижения в области генерации видео, вставка определенного объекта в видео остается сложной задачей. Сложность заключается в сохранении деталей внешнего вида и точном моделировании согласованных движений одновременно. В данной статье мы предлагаем VideoAnydoor, фреймворк вставки объектов в видео с нулевым обучением, обеспечивающий высококачественное сохранение деталей и точное управление движением. Начиная с модели текста-видео, мы используем извлекатель ID для внедрения глобальной идентичности и используем последовательность прямоугольников для управления общим движением. Для сохранения детального внешнего вида и поддержки детального управления движением мы разрабатываем пиксельный варпер. Он принимает изображение-эталон с произвольными ключевыми точками и соответствующие траектории ключевых точек в качестве входных данных. Он искажает детали пикселей в соответствии с траекториями и объединяет их с искаженными признаками с помощью диффузионной U-Net, тем самым улучшая сохранение деталей и поддерживая пользователей в управлении траекториями движения. Кроме того, мы предлагаем стратегию обучения, включающую как видео, так и статические изображения с потерей реконструкции для улучшения качества вставки. VideoAnydoor демонстрирует значительное превосходство над существующими методами и естественно поддерживает различные прикладные задачи (например, генерацию разговорной головы, виртуальную примерку одежды в видео, редактирование нескольких областей) без специфической настройки.
С увеличением возможностей кодового рассуждения существующих крупных языковых моделей (LLM) и прорывов в моделях рассуждения, таких как OpenAI o1 и o3, возникает растущая потребность в разработке более сложных и всесторонних бенчмарков, которые эффективно проверяли бы их сложные способности к кодированию на уровне соревнований. Существующие бенчмарки, такие как LiveCodeBench и USACO, не соответствуют из-за отсутствия частных тестовых случаев, отсутствия поддержки специальных судей и несовпадения сред выполнения. Для устранения этого разрыва мы представляем CodeElo, стандартизированный бенчмарк генерации кода на уровне соревнований, который эффективно решает все эти проблемы впервые. Бенчмарк CodeElo в основном основан на официальной платформе CodeForces и стремится максимально согласовываться с этой платформой. Мы компилируем последние шесть месяцев задач соревнований на CodeForces с подробной информацией, такой как уровни соревнований, рейтинги сложности задач и теги алгоритмов задач. Мы представляем уникальный метод судейства, при котором задачи подаются непосредственно на платформу, и разрабатываем надежную систему расчета рейтинга Elo, которая соответствует платформе и сравнима с участниками-людьми, но имеет меньшую дисперсию. Проведя тестирование нашего CodeElo, мы предоставляем рейтинги Elo 30 существующих популярных открытых и 3 закрытых LLM впервые. Результаты показывают, что модели o1-mini и QwQ-32B-Preview значительно выделяются, достигая рейтингов Elo 1578 и 1261 соответственно, в то время как другие модели борются даже с самыми легкими задачами, занимая места в нижних 20 процентах среди всех участников-людей. Также проводятся детальные анализы экспериментов для предоставления понимания производительности по алгоритмам и сравнений между использованием C++ и Python, что может указать на направления для будущих исследований.
Видео Большие Языковые Модели (Video LLMs) недавно продемонстрировали замечательные возможности в общем понимании видео. Однако они в основном сосредотачиваются на голистическом понимании и испытывают трудности с захватом детализированных пространственных и временных деталей. Кроме того, отсутствие высококачественных данных по объектам на уровне видео и комплексной точки отсчета дополнительно затрудняет их развитие. Для преодоления этих препятствий мы представляем набор VideoRefer Suite для усиления Video LLM для более детального пространственно-временного понимания видео, то есть обеспечивая восприятие и рассуждения о любых объектах на протяжении видео. В частности, мы тщательно разрабатываем VideoRefer Suite по трем основным аспектам: набор данных, модель и точка отсчета. Во-первых, мы представляем мультиагентный движок данных для тщательного составления крупномасштабного, высококачественного набора данных по объектам на уровне видео, названного VideoRefer-700K. Затем мы представляем модель VideoRefer, которая оснащает универсальный пространственно-временной объектный кодер для захвата точных региональных и последовательных представлений. Наконец, мы тщательно создаем VideoRefer-Bench для всесторонней оценки способности пространственно-временного понимания Video LLM, оценивая его по различным аспектам. Обширные эксперименты и анализы демонстрируют, что наша модель VideoRefer не только достигает многообещающих результатов на точках отсчета по ссылкам в видео, но также способствует общим возможностям понимания видео.
Мы представляем LTX-Video, модель латентной диффузии на основе трансформера, которая принимает голистический подход к генерации видео, путем плавного интегрирования функций Video-VAE и денойзинг-трансформера. В отличие от существующих методов, которые рассматривают эти компоненты как независимые, LTX-Video нацелен на оптимизацию их взаимодействия для повышения эффективности и качества. В центре модели находится тщательно разработанный Video-VAE, достигающий высокого коэффициента сжатия 1:192, с пространственно-временным уменьшением размера 32 x 32 x 8 пикселей на токен, обеспечиваемым перемещением операции патчификации из входных данных трансформера во входные данные VAE. Работа в этом сильно сжатом латентном пространстве позволяет трансформеру эффективно выполнять полное пространственно-временное самовнимание, что необходимо для генерации видео высокого разрешения с временной последовательностью. Однако высокое сжатие внутренне ограничивает представление мелких деталей. Для решения этой проблемы наш декодер VAE отвечает как за преобразование латентного пространства в пиксели, так и за завершающий шаг денойзинга, производя чистый результат непосредственно в пространстве пикселей. Этот подход сохраняет возможность генерации мелких деталей без дополнительных затрат времени выполнения на отдельный модуль повышения разрешения. Наша модель поддерживает различные сценарии использования, включая генерацию видео из текста и изображений, обученных одновременно обеими способностями. Она достигает генерации быстрее реального времени, создавая видео длительностью 5 секунд с частотой кадров 24 кадра в секунду и разрешением 768x512 всего за 2 секунды на графическом процессоре Nvidia H100, превосходя все существующие модели схожего масштаба. Исходный код и предварительно обученные модели доступны публично, устанавливая новый стандарт доступной и масштабируемой генерации видео.
Модели латентной диффузии с архитектурами Трансформера отличаются в создании изображений высокой точности. Однако недавние исследования выявляют дилемму оптимизации в этом двухэтапном дизайне: увеличение размерности признаков на токен визуальных токенизаторов улучшает качество восстановления, но требует значительно более крупных моделей диффузии и большего числа итераций обучения для достижения сопоставимой производительности генерации. В результате существующие системы часто останавливаются на субоптимальных решениях, либо порождают визуальные артефакты из-за потери информации в токенизаторах, либо не могут полностью сойтись из-за высоких вычислительных затрат. Мы считаем, что эта дилемма проистекает из врожденной сложности обучения неограниченных высокоразмерных латентных пространств. Для решения этой проблемы мы предлагаем выравнивание латентного пространства с предварительно обученными моделями визуальных основ при обучении визуальных токенизаторов. Наш предложенный VA-VAE (Выравненный вариационный автокодировщик с моделью визуальных основ) значительно расширяет границу восстановления-генерации латентных моделей диффузии, обеспечивая более быструю сходимость Диффузионных Трансформеров (DiT) в высокоразмерных латентных пространствах. Для полного использования потенциала VA-VAE мы создаем улучшенную базовую модель DiT с улучшенными стратегиями обучения и архитектурными конструкциями, названную LightningDiT. Интегрированная система достигает передовой производительности на генерации ImageNet 256x256 со значением FID 1.35, продемонстрировав замечательную эффективность обучения, достигнув значения FID 2.11 всего за 64 эпохи - представляя более чем в 21 раз ускоренную сходимость по сравнению с оригинальным DiT. Модели и код доступны по ссылке: https://github.com/hustvl/LightningDiT.
Безопасность контента изображений стала значительным вызовом с появлением визуальных материалов на онлайн-платформах. Тем временем, в эпоху генерации контента с использованием искусственного интеллекта (AIGC) многие модели генерации изображений способны создавать вредный контент, такой как изображения, содержащие сексуальный или насильственный материал. Поэтому становится критически важным идентифицировать такие небезопасные изображения на основе установленных правил безопасности. Предварительно обученные мультимодальные модели с большим языковым объемом (MLLM) предлагают потенциал в этом отношении, учитывая их сильные способности распознавания шаблонов. Существующие подходы обычно настраивают MLLM с помощью наборов данных, размеченных людьми, что однако приносит ряд недостатков. Во-первых, полагаться на человеческих аннотаторов для разметки данных в соответствии с тонкими и детальными руководствами является как дорогостоящим, так и трудоемким. Кроме того, пользователям систем оценки безопасности может потребоваться частое обновление правил безопасности, что делает настройку на основе аннотации, выполненной людьми, более сложной. Это порождает исследовательский вопрос: можем ли мы обнаружить небезопасные изображения, обращаясь к MLLM в нулевой ситуации использования с заранее определенной конституцией безопасности (набор правил безопасности)? Наши исследования показали, что простое обращение к предварительно обученным MLLM не дает удовлетворительных результатов. Этот недостаток эффективности обусловлен такими факторами, как субъективность правил безопасности, сложность длинных конституций и врожденные предвзятости моделей. Для преодоления этих вызовов мы предлагаем метод на основе MLLM, который включает объективизацию правил безопасности, оценку соответствия между правилами и изображениями, быстрые оценки на основе вероятностей дебиасированных токенов с логически полными, но упрощенными цепочками предусловий для правил безопасности, а также проведение более глубокого рассуждения с помощью каскадных цепочек мыслей при необходимости. Результаты экспериментов показывают, что наш метод является очень эффективным для задач оценки безопасности изображений в нулевой ситуации.
Самокоррекция направлена на то, чтобы позволить большим языковым моделям (LLM) самостоятельно проверять и улучшать свои первоначальные ответы без внешней обратной связи. Однако LLM часто не могут эффективно самопроверяться и генерировать правильную обратную связь, что дальше вводит в заблуждение улучшение и приводит к неудаче самокоррекции, особенно в сложных задачах рассуждения. В данной статье мы предлагаем Программно-управляемую Самокоррекцию (ProgCo). Сначала программа-управляемая проверка (ProgVe) достигает сложной логики проверки и обширной валидации через самогенерируемые, самовыполняющиеся псевдопрограммы проверки. Затем программа-управляемое улучшение (ProgRe) получает обратную связь от ProgVe, проводит двойное отражение и улучшение как ответов, так и программ проверки для смягчения введения в заблуждение неправильной обратной связью в сложных задачах рассуждения. Эксперименты на трех бенчмарках по следованию инструкциям и математике показывают, что ProgCo достигает эффективной самокоррекции и может дополнительно улучшить производительность при комбинировании с реальными программными инструментами.
Искусственные интеллектуальные агенты стали все более распространенными в последние годы, благодаря значительным достижениям в области крупных языковых моделей (LLM). Мобильные GUI-агенты, подмножество искусственных интеллектуальных агентов, разработаны для автономного выполнения задач на мобильных устройствах. Хотя множество исследований представили агентов, наборы данных и бенчмарки для продвижения исследований мобильных GUI-агентов, многие существующие наборы данных сосредоточены на оценках статических кадров и не предоставляют всесторонней платформы для оценки производительности на реальных, в дикой природе задачах. Для решения этого пробела мы представляем Android Agent Arena (A3), новую платформу оценки. В отличие от существующих систем в дикой природе, A3 предлагает: (1) значимые и практические задачи, такие как получение информации онлайн в реальном времени и операционные инструкции; (2) более крупное, более гибкое пространство действий, обеспечивающее совместимость с агентами, обученными на любом наборе данных; и (3) автоматизированный процесс оценки на уровне бизнеса на основе LLM. A3 включает 21 широко используемое общее стороннее приложение и 201 задачу, представляющую типичные сценарии использования пользователей, обеспечивая прочную основу для оценки мобильных GUI-агентов в реальных ситуациях и новый автономный процесс оценки для уменьшения человеческого труда и экспертизы в области кодирования. Проект доступен по адресу https://yuxiangchai.github.io/Android-Agent-Arena/.
Недавние достижения в области фундаментальных моделей улучшили возможности искусственного интеллекта в автономном использовании инструментов и рассуждениях. Однако их способность в рассуждениях на основе местоположения или карт - что улучшает повседневную жизнь путем оптимизации навигации, облегчения поиска ресурсов и оптимизации логистики - не была систематически изучена. Для заполнения этого разрыва мы представляем MapEval, бенчмарк, разработанный для оценки разнообразных и сложных запросов пользователей на основе карт с гео-пространственным рассуждением. MapEval включает три типа задач (текстовые, основанные на API и визуальные), требующие сбора информации о мире с помощью картографических инструментов, обработки гетерогенных гео-пространственных контекстов (например, именованные сущности, расстояния путешествий, отзывы или рейтинги пользователей, изображения) и композиционного рассуждения, что все современные фундаментальные модели считают сложным. Включающий 700 уникальных вопросов с выбором ответа о местоположениях в 180 городах и 54 странах, MapEval оценивает способность фундаментальных моделей обрабатывать пространственные отношения, картографическую информацию, планирование путешествий и навигационные задачи. С использованием MapEval мы провели всестороннюю оценку 28 ведущих фундаментальных моделей. Хотя ни одна модель не превзошла другие во всех задачах, Claude-3.5-Sonnet, GPT-4o и Gemini-1.5-Pro достигли конкурентоспособной производительности в целом. Однако существенные различия в производительности проявились, особенно в MapEval, где агенты с Claude-3.5-Sonnet превзошли GPT-4o и Gemini-1.5-Pro на 16% и 21% соответственно, и разрывы стали еще более усиленными при сравнении с открытыми LLM. Наши подробные анализы предоставляют понимание сильных и слабых сторон текущих моделей, хотя все модели все еще уступают человеческой производительности в среднем более чем на 20%, испытывая трудности с комплексными картами и строгим гео-пространственным рассуждением. Этот разрыв подчеркивает критическую роль MapEval в продвижении универсальных фундаментальных моделей с более сильным пониманием гео-пространственных данных.
Недавнее появление больших языковых моделей (LLM) привнесло сложные способности рассуждения в область видео через модели больших языковых моделей для видео (VideoLLM). Однако VideoLLM в настоящее время полагается на один видео-кодировщик для всей визуальной обработки, что ограничивает количество и тип визуальной информации, которую можно передать LLM. Наш метод, MERV, Мульти-кодирование представления видео, вместо этого использует несколько замороженных визуальных кодировщиков для создания объединенного представления видео, обеспечивая VideoLLM полный набор специализированных визуальных знаний. Пространственно-временное выравнивание признаков из каждого кодировщика позволяет нам решать более широкий спектр вопросов понимания видео с открытым ответом и множественного выбора и превосходить предыдущие передовые работы. MERV на 3.7% точнее, чем Video-LLaVA по стандартному набору тестов понимания видео, а также имеет лучший показатель Video-ChatGPT. Мы также улучшаем SeViLA, предыдущий лучший показатель точности теста восприятия на нулевом этапе, на 2.2%. MERV вводит минимальное количество дополнительных параметров и обучается быстрее, чем эквивалентные методы с одним кодировщиком, параллельно обрабатывая визуальные данные. Наконец, мы предоставляем качественные доказательства того, что MERV успешно улавливает доменные знания из каждого из своих кодировщиков. Наши результаты предлагают многообещающие направления в использовании нескольких визионных кодировщиков для полного понимания видео.
Современные большие языковые модели (LLM) часто испытывают затруднения с точностью ответов с первой попытки для сложных задач рассуждения, таких как генерация кода. Предыдущие исследования решают эту проблему путем генерации нескольких вариантов решений и их проверки с помощью моделью LLM созданных модульных тестов. Результаты выполнения модульных тестов служат сигналами вознаграждения для определения правильных решений. Поскольку LLM всегда уверенно допускают ошибки, эти модульные тесты не являются надежными, что ухудшает качество сигналов вознаграждения. Вдохновленные наблюдением, что увеличение числа решений улучшает производительность LLM, мы исследуем влияние увеличения модульных тестов для улучшения качества сигналов вознаграждения. Наш пионерский эксперимент показывает положительную корреляцию между числом модульных тестов и качеством сигналов вознаграждения, с более значительными преимуществами, наблюдаемыми в более сложных задачах. Основываясь на этих наблюдениях, мы предлагаем CodeRM-8B, легковесный, но эффективный генератор модульных тестов, который обеспечивает эффективное и высококачественное увеличение количества модульных тестов. Кроме того, мы реализуем динамический механизм масштабирования, который адаптирует количество модульных тестов в зависимости от сложности задачи, дополнительно улучшая эффективность. Экспериментальные результаты показывают, что наш подход значительно улучшает производительность на различных моделях на трех тестовых наборах (например, с приростом в 18,43% для Llama3-8B и 3,42% для GPT-4o-mini на HumanEval Plus).
Персонализация моделей текст-к-изображению для создания изображений конкретных объектов в различных сценах и стилях является быстро развивающейся областью. Существующие подходы часто сталкиваются с проблемами балансировки между сохранением идентичности и соответствием входному текстовому запросу. Некоторые методы полагаются на одиночный текстовый токен для представления объекта, что ограничивает выразительность, в то время как другие используют более богатые представления, но нарушают предыдущую модель, уменьшая соответствие запросу. В данной работе мы представляем Многоуровневое Внимание, новый механизм, который внедряет богатое и выразительное изображение в существующие слои кросс-внимания модели. Наш ключевой идеей является генерация зависящих от запроса значений объекта, происходящих из многоуровневых слоев внимания, которые учатся выбирать соответствующие характеристики объекта для каждой области в созданном изображении. Мы интегрируем эти многоуровневые слои в метод персонализации на основе кодировщика и показываем, что они обеспечивают высокое сохранение идентичности, придерживаясь входных текстовых запросов. Наш подход универсален и может быть обучен в различных областях. Кроме того, его предыдущее сохранение позволяет нам объединять несколько персонализированных объектов из разных областей в одном изображении.
Восстановление видео представляет собой нетривиальную задачу в поддержании достоверности при восстановлении временно согласованных деталей из неизвестных искажений в дикой природе. Несмотря на недавние успехи в восстановлении на основе диффузии, эти методы часто сталкиваются с ограничениями в возможностях генерации и эффективности выборки. В данной работе мы представляем SeedVR, диффузионный трансформер, разработанный для обработки восстановления видео в реальном мире произвольной длины и разрешения. Основное преимущество SeedVR заключается в сдвинутом оконном внимании, способствующем эффективному восстановлению на длинных видео последовательностях. SeedVR также поддерживает окна переменного размера у границ как пространственных, так и временных измерений, преодолевая ограничения разрешения традиционного оконного внимания. Оборудованный современными практиками, включая причинный видео автокодировщик, смешанное обучение изображений и видео, и поэтапное обучение, SeedVR достигает высококонкурентоспособной производительности как на синтетических и реальных тестах, так и на видео, созданных искусственным интеллектом. Обширные эксперименты демонстрируют превосходство SeedVR над существующими методами для общего восстановления видео.
Службы картографирования и навигации, такие как Google Maps, Apple Maps, Openstreet Maps, являются неотъемлемыми для доступа к различным данным, основанным на местоположении, однако они часто испытывают трудности с обработкой естественноязыковых геопространственных запросов. Недавние достижения в области больших языковых моделей (LLM) показывают потенциал в вопросно-ответных системах (QA), однако создание надежных геопространственных наборов данных для QA из картографических служб остается сложной задачей. Мы представляем MapQaTor, веб-приложение, которое упрощает создание воспроизводимых, прослеживаемых наборов данных для вопросно-ответных систем на основе карт. Благодаря своей модульной архитектуре, MapQaTor обеспечивает безпрепятственную интеграцию с любым API карт, позволяя пользователям собирать и визуализировать данные из различных источников с минимальной настройкой. Путем кэширования ответов API платформа обеспечивает постоянное основание истинных данных, улучшая надежность данных даже при изменении информации в реальном мире. MapQaTor централизует получение данных, аннотацию и визуализацию в рамках единой платформы, предлагая уникальную возможность оценить текущее состояние геопространственного рассуждения на основе LLM и развивать их возможности для улучшенного понимания геопространственных данных. Метрики оценки показывают, что MapQaTor ускоряет процесс аннотации как минимум в 30 раз по сравнению с ручными методами, подчеркивая его потенциал для развития геопространственных ресурсов, таких как сложные наборы данных для картографических рассуждений. Веб-сайт доступен по адресу: https://mapqator.github.io/, а демонстрационное видео доступно по ссылке: https://youtu.be/7_aV9Wmhs6Q.
Структурированные модели пространства состояний (SSM) стали альтернативой трансформерам. В то время как SSM часто считаются эффективными в улавливании зависимостей в длинных последовательностях, мы строго демонстрируем, что они имеют врожденное ограничение из-за сильного биаса к недавним событиям. Наши эмпирические исследования также показывают, что этот биас ухудшает способность моделей к воспоминанию дальней информации и вносит проблемы устойчивости. Наши масштабируемые эксперименты затем выявили, что более глубокие структуры в SSM могут облегчить изучение длинных контекстов. Однако последующий теоретический анализ показывает, что по мере увеличения глубины SSM они проявляют еще одну неизбежную тенденцию к излишнему сглаживанию, например, представления токенов становятся все более неотличимыми. Эта фундаментальная дилемма между биасом к недавним событиям и излишним сглаживанием препятствует масштабируемости существующих SSM. Вдохновленные нашими теоретическими результатами, мы предлагаем поляризовать два канала матриц перехода состояний в SSM, устанавливая их в ноль и единицу соответственно, одновременно решая проблемы биаса к недавним событиям и излишнего сглаживания. Эксперименты показывают, что наша техника поляризации последовательно улучшает точность ассоциативного воспоминания токенов на больших расстояниях и открывает для SSM возможность дальнейшего извлечения пользы из более глубоких архитектур. Все исходные коды доступны по ссылке https://github.com/VITA-Group/SSM-Bottleneck.
Модели диффузии показали многообещающую способность в генерации высококачественных временных рядов (TS) данных. Несмотря на первоначальный успех, существующие работы в основном сосредотачиваются на подлинности данных на индивидуальном уровне, но уделяют меньше внимания сохранению свойств на уровне популяции для всего набора данных. Такие свойства на уровне популяции включают распределения значений для каждого измерения и распределения определенных функциональных зависимостей (например, кросс-корреляция, CC) между различными измерениями. Например, при генерации временных рядов данных о потреблении энергии в доме должны сохраняться распределения значений внешней температуры и температуры на кухне, а также распределение CC между ними. Сохранение таких свойств временных рядов на уровне популяции критично для поддержания статистических исследований наборов данных, смягчения смещения модели и улучшения последующих задач, таких как прогнозирование временных рядов. Тем не менее, это часто игнорируется существующими моделями. Поэтому данные, сгенерированные существующими моделями, часто имеют сдвиги распределения относительно исходных данных. Мы предлагаем модель Генерации временных рядов, учитывающую популяцию (PaD-TS), новую модель генерации временных рядов, которая лучше сохраняет свойства на уровне популяции. Основные новшества PaD-TS включают 1) новый метод обучения, явно включающий сохранение свойств временных рядов на уровне популяции, и 2) новую архитектуру модели двухканального энкодера, которая лучше улавливает структуру данных временных рядов. Эмпирические результаты на основных наборах данных показывают, что PaD-TS может улучшить средний показатель сдвига распределения CC между реальными и синтетическими данными в 5,9 раз, сохраняя при этом производительность, сравнимую с передовыми моделями по подлинности на индивидуальном уровне.
Трансформеры полагаются как на механизмы адресации на основе содержания, так и на механизмы адресации на основе позиции для прогнозирования, однако существующие техники позиционного кодирования часто уменьшают эффективность позиционной адресации. Многие текущие методы накладывают жесткие шаблоны на карты внимания, что ограничивает возможность моделирования долгосрочных зависимостей и адаптации к различным задачам. Кроме того, большинство позиционных кодирований изучаются как общие смещения, лишены специализации, необходимой для различных экземпляров в наборе данных. Для решения этой проблемы мы предлагаем контекстуализированное эквивариантное позиционное вложение (TAPE), новую структуру, улучшающую позиционные вложения за счет включения содержания последовательности на различных уровнях. TAPE вводит динамические, осведомленные о контексте позиционные кодирования, преодолевая ограничения традиционных фиксированных шаблонов. Обеспечивая перестановочную и ортогональную эквивариантность, TAPE гарантирует стабильность позиционных кодирований во время обновлений, улучшая устойчивость и адаптивность. Наш метод легко интегрируется в предварительно обученные трансформеры, предлагая эффективное настройку параметров с минимальными накладными расходами. Обширные эксперименты показывают, что TAPE достигает более высокой производительности в задачах языкового моделирования, арифметического рассуждения и поиска долгих контекстов по сравнению с существующими техниками позиционного вложения.
Понимание человеческих действий критически важно для развития мультимодальных систем. В то время как недавние достижения, поддерживаемые мощными крупномасштабными языковыми моделями (LLM), стремятся быть достаточно общими, чтобы охватывать широкий спектр категорий, они часто не учитывают необходимость более специфических возможностей. В данной работе мы занимаемся более сложной задачей распознавания действий Fein-grained (FAR), которая фокусируется на детальных семантических метках в более коротких временных интервалах (например, "сальто назад с одним оборотом"). Учитывая высокие затраты на разметку Fein-grained меток и значительный объем данных, необходимый для настройки LLM, мы предлагаем использовать полу-надзорное обучение (SSL). Наша структура, SeFAR, включает несколько инновационных решений для решения этих проблем. Конкретно, для захвата достаточного количества визуальных деталей мы создаем двухуровневые временные элементы как более эффективные представления, на основе которых мы разрабатываем новую стратегию сильного увеличения для парадигмы обучения Учитель-Студент, включая умеренные временные возмущения. Кроме того, чтобы справиться с высокой неопределенностью в предсказаниях учителя для FAR, мы предлагаем Адаптивное Регулирование для стабилизации процесса обучения. Эксперименты показывают, что SeFAR достигает передового уровня производительности на двух наборах данных FAR, FineGym и FineDiving, в различных областях данных. Он также превосходит другие методы полу-надзорного обучения на двух классических грубо-зернистых наборах данных, UCF101 и HMDB51. Дополнительный анализ и исследования абляции подтверждают эффективность наших решений. Кроме того, мы показываем, что признаки, извлеченные нашим SeFAR, в значительной степени способствуют способности мультимодальных базовых моделей понимать Fein-grained и доменно-специфическую семантику.