Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем SaulLM-54B и SaulLM-141B, две большие языковые модели (LLM), разработанные специально для юридического сектора. Эти модели, с архитектурами на 54 миллиарда и 141 миллиард параметров соответственно, основаны на архитектуре Mixtral. Разработка SaulLM-54B и SaulLM-141B основана на масштабной доменной адаптации, разделенной на три стратегии: (1) использование продолжающегося предварительного обучения на базовом корпусе, включающем более 540 миллиардов юридических токенов, (2) внедрение специализированного протокола следования юридическим инструкциям и (3) согласование результатов модели с предпочтениями человека в юридических интерпретациях. Интеграция синтетически сгенерированных данных на втором и третьем этапах улучшает способности моделей в интерпретации и обработке юридических текстов, достигая эффективного уровня производительности и превосходя предыдущие модели с открытым исходным кодом на LegalBench-Instruct. Эта работа исследует компромиссы, связанные с доменно-специфической адаптацией на данном уровне, предлагая идеи, которые могут быть полезны для будущих исследований по адаптации домена с использованием мощных декодерных моделей. Основываясь на SaulLM-7B, данное исследование улучшает подход для создания LLM, более подготовленной для юридических задач. Мы выпускаем базовые, инструктивные и согласованные версии поверх SaulLM-54B и SaulLM-141B под лицензией MIT для облегчения повторного использования и совместных исследований.
Мажорное депрессивное расстройство (MDD) - это распространенное психическое заболевание, затрагивающее 300 миллионов людей по всему миру. В данной работе представлена новая архитектура трехмодальной модели на основе BiLSTM для бинарной классификации депрессии по записям клинических интервью. Предложенная архитектура включает в себя коэффициенты мел-частотных кепстральных коэффициентов, единицы активности лица и использует модель GPT-4 на основе обучения с двумя примерами для обработки текстовых данных. Это первая работа, которая включает в себя большие языковые модели в мультимодальную архитектуру для данной задачи. Она достигает впечатляющих результатов на кросс-валидации DAIC-WOZ AVEC 2016 Challenge и кросс-валидации "Один субъект за пределами", превосходя все базовые модели и несколько передовых моделей. На тестировании "Один субъект за пределами" достигается точность 91,01%, F1-мера 85,95%, точность 80% и полнота 92,86%.
Большие языковые модели (LLM) продемонстрировали выдающиеся способности в различных задачах, однако их развитие в основном сосредоточено на языках с высокими ресурсами, таких как английский и китайский, что приводит к недостаточной поддержке языков с низкими ресурсами. Для решения этого неравенства мы представляем SeaLLMs 3, последнюю версию семейства моделей SeaLLMs, разработанную для языков Юго-Восточной Азии. Этот регион, отличающийся богатым языковым разнообразием, испытывает недостаток поддержки языковых технологий. SeaLLMs 3 нацелена на устранение этой проблемы, охватывая широкий спектр языков, используемых в этом регионе, включая английский, китайский, индонезийский, вьетнамский, тайский, тагальский, малайский, бирманский, кхмерский, лаосский, тамильский и яванский. Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность. Наша модель выделяется в таких задачах, как мировые знания, математическое мышление, перевод и следование инструкциям, достигая передовой производительности среди моделей схожего размера. Кроме того, мы уделили приоритет безопасности и надежности, учитывая как общие, так и культурно-специфические аспекты, и внедрили механизмы для снижения галлюцинаций. Эта работа подчеркивает важность инклюзивного искусственного интеллекта, демонстрируя, что продвинутые возможности LLM могут быть полезны для недооцененных языковых и культурных сообществ.
Модели диффузии видео значительно продвинулись в различных приложениях по генерации видео. Однако обучение моделей для задач генерации длинных видео требует значительных вычислительных и данных ресурсов, что представляет собой вызов для разработки длинных моделей диффузии видео. В данной статье исследуется простой и не требующий обучения подход к расширению существующей модели диффузии коротких видео (например, предварительно обученной на видео из 16 кадров) для последовательной генерации длинных видео (например, 128 кадров). Наши предварительные наблюдения показали, что прямое применение короткой модели диффузии видео для генерации длинных видео может привести к серьезному снижению качества видео. Дальнейшее исследование показало, что это снижение в основном обусловлено искажением высокочастотных компонентов в длинных видео, характеризующимся уменьшением пространственных высокочастотных компонентов и увеличением временных высокочастотных компонентов. Вдохновленные этим, мы предлагаем новое решение под названием FreeLong для балансировки частотного распределения признаков длинного видео в процессе удаления шума. FreeLong объединяет низкочастотные компоненты глобальных видеопризнаков, охватывающих всю последовательность видео, с высокочастотными компонентами локальных видеопризнаков, сосредотачивающихся на более коротких последовательностях кадров. Этот подход поддерживает глобальную согласованность, в то время как включает разнообразные и высококачественные пространственно-временные детали из локальных видео, улучшая как согласованность, так и достоверность генерации длинных видео. Мы оценили FreeLong на нескольких базовых моделях диффузии видео и обнаружили значительные улучшения. Кроме того, наш метод поддерживает согласованную многозадачную генерацию, обеспечивая как визуальную согласованность, так и плавные переходы между сценами.
Обучение политики робота на основе зрительных данных, которое отображает визуальные входы на действия, требует всестороннего понимания разнообразных визуальных задач за пределами отдельных потребностей, таких как классификация или сегментация. Вдохновленные этим, мы представляем Theia, модель видового фундамента для обучения роботов, которая усваивает несколько готовых моделей видового фундамента, обученных на различных визуальных задачах. Богатые визуальные представления Theia кодируют разнообразные визуальные знания, улучшая последующее обучение роботов. Обширные эксперименты показывают, что Theia превосходит свои учителя-модели и предыдущие модели обучения роботов, используя меньше обучающих данных и более компактные размеры моделей. Кроме того, мы количественно оцениваем качество предварительно обученных визуальных представлений и предполагаем, что более высокая энтропия в распределениях норм признаков приводит к улучшению производительности обучения роботов. Код и модели доступны на https://github.com/bdaiinstitute/theia.
Поиск и интеграция информации - это сложная когнитивная задача, требующая огромного времени и усилий. Вдохновленные замечательным прогрессом в области крупных языковых моделей, недавние работы пытаются решить эту задачу, объединяя LLM и поисковые системы. Однако эти методы до сих пор не обеспечивают удовлетворительную производительность из-за трех проблем: (1) сложные запросы часто не могут быть точно и полностью извлечены поисковой системой сразу, (2) соответствующая информация для интеграции разбросана по нескольким веб-страницам вместе с огромным шумом, и (3) большое количество веб-страниц с длинным содержанием может быстро превысить максимальную длину контекста LLM. Вдохновленные когнитивным процессом, когда люди решают эти проблемы, мы представляем MindSearch для имитации человеческого мышления в поиске и интеграции информации в Интернете, которое может быть реализовано с помощью простой, но эффективной многоагентной структуры на основе LLM. WebPlanner моделирует человеческий процесс многошагового поиска информации как процесс динамического построения графа: он декомпозирует запрос пользователя на атомарные подзапросы как узлы в графе и пошагово расширяет граф на основе результатов поиска от WebSearcher. Задача каждого подзапроса заключается в том, что WebSearcher выполняет иерархическое информационное извлечение с помощью поисковых систем и собирает ценную информацию для WebPlanner. Многоагентное проектирование MindSearch позволяет всей структуре параллельно искать и интегрировать информацию с более крупных масштабов (например, более 300) веб-страниц за 3 минуты, что эквивалентно 3 часам человеческого труда. MindSearch демонстрирует значительное улучшение качества ответов в терминах глубины и ширины как на задачах близких, так и открытых вопросно-ответных систем. Кроме того, ответы от MindSearch на основе InternLM2.5-7B предпочтительны людьми по сравнению с приложениями ChatGPT-Web и Perplexity.ai, что подразумевает, что MindSearch уже может предложить конкурентоспособное решение для собственной искусственной поисковой системы.
Недавние достижения в области крупных языковых моделей (LLM) увеличили спрос на комплексные бенчмарки для оценки их способностей как агентов, приближенных к человеку. Существующие бенчмарки, хотя и полезны, часто сосредотачиваются на конкретных сценариях применения, акцентируя внимание на завершении задач, но не анализируя базовые навыки, которые определяют эти результаты. Этот недостаток детализации затрудняет глубокое понимание причин сбоев. Кроме того, создание таких сред обитания требует значительных усилий, и иногда возникают проблемы ненадежности и воспроизводимости, особенно в интерактивных задачах. Для преодоления этих ограничений мы представляем бенчмарк Massive Multitask Agent Understanding (MMAU), включающий в себя обширные офлайн-задачи, исключающие необходимость в сложной настройке среды. Он оценивает модели в пяти областях, включая teal{Использование инструментов}, teal{Направленный ациклический граф (DAG) QA}, teal{Кодирование в области науки о данных и машинного обучения}, teal{Программирование на уровне соревнования} и teal{Математика}, и охватывает пять основных способностей: orange{Понимание}, orange{Мышление}, orange{Планирование}, orange{Решение проблем} и orange{Самокоррекция}. С общим числом 20 тщательно разработанных задач, включающих более 3 тыс. различных подсказок, MMAU предоставляет обширную рамку для оценки сильных и слабых сторон агентов LLM. Проведя тестирование 18 представительных моделей на MMAU, мы предоставляем глубокий и содержательный анализ. В конечном итоге, MMAU не только проливает свет на способности и ограничения агентов LLM, но и повышает интерпретируемость их производительности. Наборы данных и скрипты оценки MMAU доступны по ссылке https://github.com/apple/axlearn/docs/research/mmau.
Контрастное предварительное обучение язык-изображение (CLIP), которое превосходит в абстрагировании представлений открытого мира в различных областях и модальностях, стало основой для множества задач зрения и мультимодальности. Однако недавние исследования показывают, что у CLIP есть серьезные визуальные недостатки, такие как затруднения в различении ориентации, количества, цвета, структуры и т. д. Эти визуальные недостатки также ограничивают способности восприятия мультимодальных больших языковых моделей (MLLM), построенных на CLIP. Основной причиной может быть то, что используемые для обучения CLIP пары изображение-текст имеют врожденные предвзятости из-за отсутствия отличительности текста и разнообразия изображений. В данной работе мы представляем простой подход к пост-обучению моделей CLIP, который в значительной степени преодолевает ее визуальные недостатки с помощью процесса самообучения диффузии. Мы представляем DIVA, который использует модель диффузии как визуального помощника для CLIP. Конкретно, DIVA использует генеративную обратную связь от моделей диффузии текста к изображению для оптимизации представлений CLIP, используя только изображения (без соответствующего текста). Мы демонстрируем, что DIVA улучшает производительность CLIP на сложном бенчмарке MMVP-VLM, который оценивает тонкие визуальные способности в значительной степени (например, на 3-7%) и улучшает производительность MLLM и моделей зрения на задачах мультимодального понимания и сегментации. Обширная оценка на 29 бенчмарках классификации и поиска изображений подтверждает, что наша структура сохраняет сильные возможности CLIP в нулевом режиме. Код будет доступен по адресу https://github.com/baaivision/DIVA.
Визуальное средство (изображения и видео) естественным образом содержит большое количество избыточной информации, что предоставляет отличную возможность для повышения эффективности обработки. В то время как модели на основе трансформера видения (ViT) эффективно масштабируются до больших объемов данных, они не используют эту врожденную избыточность, что приводит к более высоким вычислительным затратам. Сети Mixture of Experts (MoE) демонстрируют масштабируемость, сохраняя при этом одинаковые затраты времени вывода, но они имеют более крупный объем параметров. Мы представляем Mixture of Nested Experts (MoNE), который использует вложенную структуру для экспертов, где отдельные эксперты располагаются на возрастающей кривой вычисления-точности. Учитывая вычислительный бюджет, MoNE учится динамически выбирать токены в порядке приоритета, и таким образом избыточные токены обрабатываются через более дешевых вложенных экспертов. Используя эту структуру, мы достигаем эквивалентной производительности по сравнению с базовыми моделями, снижая вычислительные затраты времени вывода более чем в два раза. Мы проверяем наш подход на стандартных наборах данных изображений и видео - ImageNet-21K, Kinetics400 и Something-Something-v2. Мы также подчеркиваем адаптивность MoNE, демонстрируя его способность поддерживать высокую производительность при различных бюджетах вычислений времени вывода на видео, используя только одну обученную модель.
Эффективное обучение языковых моделей (LM) для математических задач требует высококачественных данных для надзорного дообучения. Помимо получения аннотаций от человеческих экспертов, распространенной альтернативой является выборка из более крупных и мощных языковых моделей. Однако этот подход дистилляции знаний может быть дорогостоящим и нестабильным, особенно при использовании закрытых исходных кодов, собственных языковых моделей, таких как GPT-4, поведение которых часто непредсказуемо. В данной работе мы демонстрируем, что способности к рассуждению масштабных языковых моделей можно улучшить через самообучение, процесс, при котором модели учатся на основе своих собственных результатов. Мы также показываем, что традиционное самообучение может быть дополнено алгоритмом обучения предпочтений под названием Прямая Оптимизация Предпочтений (DPO). Интегрируя DPO в самообучение, мы используем данные предпочтений для направления языковых моделей к более точному и разнообразному рассуждению по цепочке. Мы оцениваем наш метод на различных математических задачах рассуждения с использованием различных базовых моделей. Наши эксперименты показывают, что этот подход не только улучшает производительность рассуждения языковых моделей, но также предлагает более эффективное с точки зрения затрат и масштабируемое решение по сравнению с использованием крупных собственных языковых моделей.
Современные модели крупномасштабной трехмерной реконструкции обычно используют двухэтапный процесс, включающий сначала создание многозрительных изображений с помощью модели многозрительного диффузионного процесса, а затем использование модели прямого распространения для реконструкции изображений в трехмерное содержимое. Однако модели многозрительного диффузионного процесса часто производят изображения низкого качества и несогласованные, что негативно сказывается на качестве окончательной трехмерной реконструкции. Для решения этой проблемы мы предлагаем унифицированную 3D-структуру генерации под названием Cycle3D, которая циклически использует модуль генерации на основе диффузии в 2D и модуль реконструкции в 3D с прямым распространением во время многоэтапного процесса диффузии. Конкретно, модель диффузии в 2D применяется для создания текстуры высокого качества, а модель реконструкции гарантирует согласованность многозрительных изображений. Более того, модель диффузии в 2D может дополнительно контролировать создаваемое содержимое и вводить информацию о ссылочном изображении для невидимых видов, тем самым улучшая разнообразие и согласованность текстуры трехмерной генерации во время процесса подавления шума. Обширные эксперименты демонстрируют превосходные возможности нашего метода в создании трехмерного содержимого высокого качества и согласованности по сравнению с передовыми базовыми моделями.
Представьте, что вы видите, как кто-то чешет себе руку; чтобы понять причину этого, требуется дополнительный контекст. Однако замечание находящегося поблизости комара сразу же предложит вероятное объяснение для дискомфорта человека, тем самым уменьшая необходимость в дополнительной информации. Этот пример иллюстрирует, как тонкие визуальные подсказки могут вызвать вызов нашим когнитивным способностям и демонстрируют сложность интерпретации визуальных сценариев. Для изучения этих навыков мы представляем Visual Riddles, бенчмарк, направленный на тестирование моделей зрения и языка на визуальных загадках, требующих здравого смысла и мировых знаний. Бенчмарк включает 400 визуальных загадок, каждая из которых содержит уникальное изображение, созданное различными моделями текст-в-изображение, вопрос, правильный ответ, текстовую подсказку и атрибуцию. Человеческая оценка показывает, что существующие модели значительно отстают от человеческой производительности, которая составляет 82% точности, причем Gemini-Pro-1.5 лидирует с 40% точности. Наш бенчмарк сопровождается автоматическими заданиями оценки для обеспечения масштабируемости оценки. Эти результаты подчеркивают потенциал Visual Riddles как ценного ресурса для улучшения возможностей моделей зрения и языка в интерпретации сложных визуальных сценариев.
3D мультимодальное вопросно-ответное моделирование (MQA) играет решающую роль в понимании сцен, позволяя интеллектуальным агентам понимать окружающую среду в 3D-пространствах. В то время как существующие исследования в основном сосредоточены на задачах внутри помещений и автономном вождении на улицах, ограниченно исследованы задачи понимания сцен на уровне города. Более того, существующие исследования сталкиваются с проблемами в понимании городских сцен из-за отсутствия пространственной семантической информации и информации обо взаимодействии человека с окружающей средой на уровне города. Для решения этих проблем мы исследуем 3D MQA с точки зрения набора данных и методов. С точки зрения набора данных мы представляем новый набор данных 3D MQA под названием City-3DQA для понимания сцен на уровне города, который является первым набором данных, включающим сценарные семантические и задачи взаимодействия человека с окружающей средой в городе. С точки зрения методов мы предлагаем метод понимания города на уровне сцен, улучшенный сценарным графом (Sg-CityU), который использует сценарный граф для введения пространственной семантики. Докладывается о новом эталоне, и наш предложенный метод Sg-CityU достигает точности 63,94 % и 63,76 % в различных настройках City-3DQA. По сравнению с методами внутри помещений 3D MQA и нулевым обучением с использованием передовых крупных языковых моделей (LLM), Sg-CityU демонстрирует передовую производительность в устойчивости и обобщении.
Классический арабский язык представляет собой значительную эпоху, охватывающую золотой век арабской культуры, философии и научной литературы. Существует широкое согласие на важности перевода этих текстов для обогащения распространения знаний среди сообществ, и появление больших языковых моделей (LLM) и систем перевода предлагает многообещающие инструменты для достижения этой цели. Однако мы выявили дефицит наборов данных для перевода на классический арабский язык, которые часто ограничены в объеме и тематике, что затрудняет разработку высококачественных систем перевода. В ответ на это мы представляем набор данных ATHAR, включающий 66 000 высококачественных образцов перевода с классического арабского на английский язык, охватывающих широкий спектр тем, включая науку, культуру и философию. Кроме того, мы оцениваем производительность текущих передовых LLM в различных настройках, приходя к выводу о необходимости таких наборов данных в существующих системах. Наши результаты подчеркивают, как модели могут извлечь пользу из настройки или включения этого набора данных в свои предварительные конвейеры. Набор данных общедоступен на платформе HuggingFace Data Hub по адресу https://huggingface.co/datasets/mohamed-khalil/ATHAR.
Большие языковые модели (LLM) быстро превосходят человеческие знания во многих областях. В то время как улучшение этих моделей традиционно зависит от дорогостоящих данных, недавние механизмы самовознаграждения (Yuan et al., 2024) показали, что LLM могут улучшаться, оценивая свои собственные ответы, вместо полаганиясь на человеческих разметчиков. Однако существующие методы в основном сосредоточены на улучшении ответов модели, а не на способностях оценки, что приводит к быстрой насыщенности во время итеративного обучения. Для решения этой проблемы мы представляем новый шаг Мета-Вознаграждения в процесс самоусовершенствования, где модель оценивает свои собственные оценки и использует эту обратную связь для совершенствования своих навыков оценки. Удивительно, что этот ненадзорный подход улучшает способность модели оценивать {\em и} следовать инструкциям, как продемонстрировано увеличением победного процента Llama-3-8B-Instruct с 22.9% до 39.4% на AlpacaEval 2, и с 20.6% до 29.1% на Arena-Hard. Эти результаты крепко указывают на потенциал для самоусовершенствующихся моделей без человеческого наблюдения.
Генеративные модели, такие как модели диффузии (DM), вариационные автокодировщики (VAE) и генеративно-состязательные сети (GAN), создают изображения с уровнем подлинности, делающим их практически неотличимыми от реальных фотографий и произведений искусства. Хотя эта способность полезна для многих отраслей, сложность идентификации синтетических изображений делает онлайн-платформы уязвимыми к попыткам подделки и распространения дезинформации. Для поддержки разработки методов защиты мы представляем ImagiNet - набор данных высокого разрешения и сбалансированный для обнаружения синтетических изображений, разработанный для смягчения потенциальных предвзятостей в существующих ресурсах. Он содержит 200 тыс. примеров, охватывающих четыре категории контента: фотографии, картины, лица и неопределенное. Синтетические изображения создаются с использованием генераторов с открытым и закрытым исходным кодом, в то время как реальные аналоги того же типа контента собираются из общедоступных наборов данных. Структура ImagiNet позволяет использовать двухдорожечную систему оценки: i) классификацию как реальное или синтетическое и ii) идентификацию генеративной модели. Для установления базового уровня мы обучаем модель ResNet-50 с использованием самообучающейся контрастной цели (SelfCon) для каждой дорожки. Модель демонстрирует современные показатели производительности и высокую скорость вывода по установленным бенчмаркам, достигая AUC до 0,99 и сбалансированную точность в диапазоне от 86% до 95%, даже в условиях социальных сетей, включающих сжатие и изменение размера. Наши данные и код доступны по адресу https://github.com/delyan-boychev/imaginet.
Анализ тональности - широко исследуемая область в рамках обработки естественного языка (Natural Language Processing, NLP), привлекающая значительный интерес благодаря появлению автоматизированных решений. Тем не менее, задача остается сложной из-за врожденной сложности языков и субъективной природы эмоций. Она становится еще более сложной для менее изученных и менее ресурсных языков, таких как литовский. Наш обзор существующих исследований в области NLP на литовском языке показывает, что традиционные методы машинного обучения и алгоритмы классификации оказывают ограниченное воздействие на задачу. В данной работе мы занимаемся анализом тональности литовских онлайн-отзывов на основе пятизвездочной шкалы из различных областей, которые мы собираем и очищаем. Впервые мы применяем модели трансформера к этой задаче, исследуя возможности предварительно обученных многоязычных крупных языковых моделей (Large Language Models, LLMs), сосредотачиваясь на настройке моделей BERT и T5. Учитывая врожденную сложность задачи, настроенные модели показывают довольно хорошие результаты, особенно когда сами эмоции менее двусмысленны: точность распознавания на тестовых данных составляет 80.74% и 89.61% для отзывов с одной и пятью звездами соответственно. Они значительно превосходят текущую коммерческую передовую общего назначения LLM GPT-4. Мы открыто делимся нашими настроенными LLMs онлайн.
Создание фотореалистичных аватаров для отдельных лиц традиционно включает в себя обширные сеансы захвата с использованием сложного и дорогостоящего оборудования студии, такого как система LightStage. В то время как последние достижения в нейронных представлениях позволили генерировать фотореалистичные и анимируемые 3D аватары из быстрых сканирований телефона, они имеют заложенное освещение на момент захвата, отсутствуют детали лица и имеют пропущенные области, такие как задняя часть ушей. Таким образом, они уступают по качеству студийно захваченным аватарам. В данной статье мы предлагаем метод, который сокращает этот разрыв, генерируя текстурные карты с освещением, аналогичным студийному, из коротких монокулярных снимков телефона. Мы делаем это, параметризуя текстурные карты телефона с использованием пространства W^+ StyleGAN2, обеспечивая практически идеальную реконструкцию. Затем мы донастраиваем StyleGAN2, выбирая образцы в параметризованном пространстве W^+ с использованием очень небольшого набора текстур, захваченных в студии, в качестве сигнала для адверсарного обучения. Для дальнейшего улучшения реализма и точности деталей лица мы увеличиваем разрешение вывода StyleGAN2, используя тщательно разработанную модель диффузии, которая направляется градиентами изображения текстурной карты, захваченной телефоном. После обучения наш метод отлично справляется с созданием текстурных карт лица, аналогичных студийным, из обычных монокулярных видеозаписей смартфона. Демонстрируя его возможности, мы показываем генерацию фотореалистичных, равномерно освещенных, полных аватаров из монокулярных снимков телефона. {Страница проекта доступна по ссылке: http://shahrukhathar.github.io/2024/07/22/Bridging.html}
Мы представляем новый подход к пониманию структуры периодичности и семантики наборов данных о движениях, независимо от морфологии и скелетной структуры персонажей. В отличие от существующих методов, использующих избыточно разреженное высокоразмерное скрытое пространство, мы предлагаем фазовое многообразие, состоящее из нескольких замкнутых кривых, каждая из которых соответствует скрытой амплитуде. С помощью предложенного нами векторизованного периодического автоэнкодера мы обучаем общее фазовое многообразие для нескольких персонажей, таких как человек и собака, без какого-либо надзора. Это достигается за счет использования дискретной структуры и неглубокой сети в качестве узких мест, таким образом, что семантически похожие движения объединяются в одну и ту же кривую многообразия, а движения в пределах одного компонента выравниваются временно с помощью фазовой переменной. В сочетании с улучшенной рамкой сопоставления движений мы демонстрируем способность многообразия к выравниванию времени и семантики в нескольких приложениях, включая поиск движения, передачу и стилизацию. Код и предварительно обученные модели для этой статьи доступны по адресу https://peizhuoli.github.io/walkthedog.
Обобщаемость области является ключевым аспектом модели глубокого обучения, поскольку она определяет способность модели хорошо работать на данных из невидимых областей. Однако исследования обобщаемости области моделей глубокого обучения для задач видео-языков остаются ограниченными, в основном из-за недостатка необходимых наборов данных. Для решения этих проблем мы предлагаем VolDoGer: Набор данных видео-языков для обобщения области, специально разработанный набор данных, предназначенный для обобщения области, который решает три задачи видео-языков: описание изображения, визуальный ответ на вопрос и визуальное следствие. Мы создали VolDoGer, расширив техники аннотации данных на основе LLM на задачи видео-языков, тем самым снимая бремя найма человеческих аннотаторов. Мы оценили обобщаемость области различных моделей, начиная от моделей с тонкой настройкой до недавней мультимодальной крупной языковой модели, через VolDoGer.
В данной статье мы представляем TAPTRv2, подход на основе трансформера, разработанный на основе TAPTR для решения задачи отслеживания любой точки (TAP). TAPTR заимствует концепции из DEtection TRansformer (DETR) и формулирует каждую отслеживаемую точку как точечный запрос, что позволяет использовать хорошо изученные операции в алгоритмах, подобных DETR. TAPTRv2 улучшает TAPTR, решая критическую проблему, связанную с его зависимостью от объема затрат, который загрязняет содержательные характеристики точечного запроса и негативно влияет как на предсказание видимости, так и на вычисление объема затрат. В TAPTRv2 мы предлагаем новую операцию обновления позиции на основе внимания (APU) и используем ключевое деформируемое внимание для реализации. Для каждого запроса эта операция использует веса внимания, зависящие от ключей, для объединения соответствующих деформируемых позиций выборки с целью предсказания новой позиции запроса. Этот дизайн основан на наблюдении, что локальное внимание по сути то же самое, что и объем затрат, которые вычисляются путем скалярного произведения между запросом и окружающими характеристиками. Внедрение этой новой операции позволяет TAPTRv2 не только избавиться от дополнительной нагрузки вычисления объема затрат, но и приводит к значительному улучшению производительности. TAPTRv2 превосходит TAPTR и достигает передовых показателей производительности на многих сложных наборах данных, демонстрируя превосходство.