Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обнаружение искусственного текста (ATD) становится все более важным с развитием современных крупных языковых моделей (LLMs). Несмотря на многочисленные усилия, ни один алгоритм не демонстрирует стабильно высокую эффективность на различных типах неизвестного текста или не гарантирует успешного обобщения для новых LLM. Интерпретируемость играет ключевую роль в достижении этой цели. В данном исследовании мы улучшаем интерпретируемость ATD, используя разреженные автокодировщики (SAE) для извлечения признаков из остаточного потока модели Gemma-2-2b. Мы выявляем как интерпретируемые, так и эффективные признаки, анализируя их семантику и значимость с помощью статистики, специфичной для домена и модели, метода управления (steering), а также ручной или LLM-опосредованной интерпретации. Наши методы предоставляют ценные инсайты о том, чем тексты, созданные различными моделями, отличаются от написанных человеком. Мы показываем, что современные LLM обладают уникальным стилем письма, особенно в информационно насыщенных областях, даже несмотря на то, что они могут генерировать человеко-подобные тексты с персонализированными запросами.
Крупные языковые модели достигли впечатляющих успехов в различных задачах обработки естественного языка, однако их высокая вычислительная стоимость на этапе вывода остается серьезным ограничением. В данной статье представлен метод Sparse Expert Activation Pruning (SEAP) — подход к обрезке, не требующий дополнительного обучения, который избирательно сохраняет параметры, релевантные задаче, для снижения вычислительных затрат. Вдохновленный кластерными паттернами скрытых состояний и активаций в языковых моделях, SEAP идентифицирует специфичные для задачи паттерны активации экспертов и обрезает модель, сохраняя производительность на задаче и повышая вычислительную эффективность. Экспериментальные результаты показывают, что SEAP значительно снижает вычислительные затраты, сохраняя при этом конкурентоспособную точность. В частности, при обрезке на 50% SEAP превосходит WandA и FLAP более чем на 20%, а при обрезке на 20% демонстрирует снижение производительности всего на 2,2% по сравнению с плотной моделью. Эти результаты подчеркивают масштабируемость и эффективность SEAP, делая его перспективным подходом для оптимизации крупномасштабных языковых моделей.
Мы представляем MM-Eureka, мультимодальную модель рассуждений, которая успешно расширяет крупномасштабное правило-ориентированное обучение с подкреплением (RL) на мультимодальные рассуждения. Хотя правило-ориентированное RL продемонстрировало впечатляющие успехи в улучшении способностей языковых моделей (LLM) к рассуждениям в текстовых областях, его применение в мультимодальных условиях оставалось сложной задачей. Наша работа воспроизводит ключевые характеристики текстовых RL-систем, таких как DeepSeek-R1, в мультимодальном пространстве, включая устойчивое увеличение награды за точность и длины ответов, а также появление рефлексивного поведения. Мы показываем, что как инструктивно-настроенные, так и предварительно обученные модели могут развивать сильные мультимодальные способности к рассуждениям через правило-ориентированное RL без контролируемого тонкого настройки, демонстрируя превосходную эффективность использования данных по сравнению с альтернативными подходами. Мы открываем наш полный конвейер для стимулирования дальнейших исследований в этой области. Все наши коды, модели, данные и т.д. доступны по адресу https://github.com/ModalMinds/MM-EUREKA.
Diffusion Transformer продемонстрировал мощные возможности и масштабируемость в генерации высококачественных изображений и видео. Дальнейшее стремление к унификации задач генерации и редактирования привело к значительному прогрессу в области создания контента изображений. Однако из-за внутренних требований к согласованности как временных, так и пространственных динамик, достижение унифицированного подхода к синтезу видео остается сложной задачей. Мы представляем VACE, который позволяет пользователям выполнять задачи, связанные с видео, в рамках универсальной платформы для создания и редактирования. Эти задачи включают генерацию видео на основе референса, редактирование видео и редактирование видео с использованием масок. В частности, мы эффективно интегрируем требования различных задач, организуя входные данные для видео-задач, такие как редактирование, референс и маскирование, в унифицированный интерфейс, называемый Video Condition Unit (VCU). Кроме того, используя структуру Context Adapter, мы внедряем различные концепции задач в модель с помощью формализованных представлений временных и пространственных измерений, что позволяет ей гибко справляться с произвольными задачами синтеза видео. Многочисленные эксперименты демонстрируют, что унифицированная модель VACE достигает производительности, сопоставимой с моделями, специализированными на конкретных задачах, в различных подзадачах. Одновременно она позволяет реализовывать разнообразные приложения благодаря универсальным комбинациям задач. Страница проекта: https://ali-vilab.github.io/VACE-Page/.
Существующие фреймворки для генерации длинных видеороликов не обладают автоматизированным планированием, требуя ручного ввода для создания сюжетных линий, сцен, операторской работы и взаимодействия персонажей, что приводит к высоким затратам и неэффективности. Для решения этих проблем мы представляем MovieAgent — систему автоматизированной генерации фильмов с использованием многоагентного планирования на основе цепочки рассуждений (Chain of Thought, CoT). MovieAgent предлагает два ключевых преимущества: 1) Мы впервые исследуем и определяем парадигму автоматизированной генерации фильмов/длинных видеороликов. Получив сценарий и базу персонажей, MovieAgent может создавать многосценовые, многокадровые длинные видеоролики с последовательным повествованием, обеспечивая при этом согласованность персонажей, синхронизированные субтитры и стабильный звук на протяжении всего фильма. 2) MovieAgent внедряет иерархический процесс рассуждений на основе CoT для автоматического структурирования сцен, настроек камеры и операторской работы, значительно сокращая усилия человека. Используя несколько агентов на основе больших языковых моделей (LLM) для имитации ролей режиссера, сценариста, художника раскадровки и менеджера по локациям, MovieAgent оптимизирует производственный процесс. Эксперименты показывают, что MovieAgent достигает новых передовых результатов в точности сценария, согласованности персонажей и связности повествования. Наш иерархический фреймворк делает шаг вперед и предоставляет новые идеи для полностью автоматизированной генерации фильмов. Код и проект доступны по адресам: https://github.com/showlab/MovieAgent и https://weijiawu.github.io/MovieAgent.
Мультимодальные большие языковые модели (MLLMs), построенные на основе масштабно предобученных визуальных и языковых моделей, продемонстрировали значительные возможности в мультимодальном понимании. Однако большинство существующих MLLMs обучаются на задачах одношагового визуального вопроса-ответа, что не точно отражает реальные человеческие диалоги. В данной работе мы представляем MMDiag — набор данных для многошагового мультимодального диалога. Этот набор данных совместно создан с использованием тщательно разработанных правил и помощи GPT, характеризуясь сильными корреляциями между вопросами, между вопросами и изображениями, а также между различными областями изображений, что более точно соответствует реальным сценариям. MMDiag служит надежным эталоном для обучения многошаговым мультимодальным диалогам и ставит дополнительные задачи перед способностями MLLMs к заземлению и рассуждению. Кроме того, вдохновленные человеческим зрительным восприятием, мы представляем DiagNote — MLLM, оснащенную возможностями мультимодального заземления и рассуждения. DiagNote состоит из двух модулей (Deliberate и Gaze), взаимодействующих друг с другом для выполнения цепочки рассуждений (Chain-of-Thought) и аннотаций соответственно в ходе многошаговых диалогов. Мы эмпирически демонстрируем преимущества DiagNote как в заземлении, так и в совместной обработке и рассуждении с использованием визуальной и языковой информации по сравнению с существующими MLLMs.
Федеративное обучение (FL) — это широко используемая структура для обучения моделей в децентрализованной манере, обеспечивающая, чтобы центральный сервер не имел прямого доступа к данным локальных клиентов. Однако этот подход может все же не полностью обеспечивать сохранение конфиденциальности данных, поскольку модели от локальных клиентов становятся доступны центральному серверу в процессе агрегации. Эта проблема становится еще более критичной при обучении моделей, работающих с визуальными и текстовыми данными (VLMs), с использованием FL, так как VLMs могут легко запоминать экземпляры обучающих данных, что делает их уязвимыми к атакам на вывод членства (MIAs). Для решения этой задачи мы предлагаем структуру FedRand, которая позволяет избежать раскрытия полного набора параметров клиентов. В этой структуре каждый клиент случайным образом выбирает подпараметры адаптации низкого ранга (LoRA) с сервера и сохраняет оставшиеся части весов LoRA как приватные параметры. После обучения обоих параметров на приватном наборе данных клиента только не приватные параметры клиента отправляются обратно на сервер для агрегации. Такой подход снижает риск раскрытия параметров VLMs на стороне клиента, тем самым повышая конфиденциальность данных. Мы эмпирически подтверждаем, что FedRand повышает устойчивость к MIAs по сравнению с соответствующими базовыми методами, достигая при этом точности, сопоставимой с методами, которые передают полные параметры LoRA на нескольких эталонных наборах данных.
Несмотря на успех дистилляции в крупных языковых моделях (LLM), большинство предыдущих работ применяют одинаковые функции потерь как к данным, сгенерированным учителем, так и к данным, сгенерированным учеником. Эти стратегии упускают из виду синергию между формулировками потерь и типами данных, что приводит к неоптимальному повышению производительности моделей-учеников. Чтобы решить эту проблему, мы предлагаем DistiLLM-2 — контрастный подход, который одновременно увеличивает вероятность ответов учителя и уменьшает вероятность ответов ученика, используя эту синергию. Наши обширные эксперименты показывают, что DistiLLM-2 не только создает высокопроизводительные модели-ученики для широкого спектра задач, включая выполнение инструкций и генерацию кода, но также поддерживает разнообразные приложения, такие как согласование предпочтений и расширения для работы с визуально-языковыми данными. Эти результаты подчеркивают потенциал контрастного подхода для повышения эффективности дистилляции LLM за счет эффективного согласования моделей учителя и ученика на различных типах данных.
DeepSeek-R1-Zero успешно продемонстрировал возникновение способностей к рассуждению в крупных языковых моделях (LLM) исключительно с помощью обучения с подкреплением (Reinforcement Learning, RL). Вдохновленные этим прорывом, мы исследуем, как RL может быть использован для улучшения способности к рассуждению в мультимодальных языковых моделях (MLLM). Однако прямое обучение с использованием RL сталкивается с трудностями в активации сложных способностей к рассуждению, таких как задавание вопросов и рефлексия, в MLLM из-за отсутствия значительного объема высококачественных мультимодальных данных для рассуждений. Для решения этой проблемы мы предлагаем мультимодальную модель рассуждений Vision-R1, направленную на улучшение способности к мультимодальным рассуждениям. В частности, мы сначала создаем высококачественный мультимодальный набор данных CoT (Chain-of-Thought) без человеческих аннотаций, используя существующую MLLM и DeepSeek-R1 через модальное связывание и фильтрацию данных, чтобы получить набор данных Vision-R1-cold, содержащий 200K мультимодальных CoT. Этот набор данных служит начальными данными для холодного старта Vision-R1. Чтобы смягчить проблемы оптимизации, вызванные чрезмерным усложнением после холодного старта, мы предлагаем стратегию Прогрессивного Подавления Мышления (Progressive Thinking Suppression Training, PTST) и используем Оптимизацию Относительной Политики Групп (Group Relative Policy Optimization, GRPO) с функцией вознаграждения за жесткое форматирование результатов, чтобы постепенно улучшать способность модели изучать правильные и сложные процессы рассуждений на наборе данных из 10K мультимодальных математических задач. Комплексные эксперименты показывают, что наша модель достигает среднего улучшения на ~6% в различных мультимодальных тестах на математические рассуждения. Vision-R1-7B достигает точности 73,5% на широко используемом бенчмарке MathVista, что всего на 0,4% ниже, чем у ведущей модели рассуждений OpenAI O1. Наборы данных и код будут опубликованы по адресу: https://github.com/Osilly/Vision-R1.
Недавние достижения в диффузионных моделях на основе Unet, такие как ControlNet и IP-Adapter, представили эффективные механизмы пространственного и предметного управления. Однако архитектура DiT (Diffusion Transformer) по-прежнему испытывает трудности с эффективным и гибким управлением. Для решения этой проблемы мы предлагаем EasyControl — новый фреймворк, предназначенный для объединения управляемых условиями диффузионных трансформеров с высокой эффективностью и гибкостью. Наш фреймворк основан на трех ключевых инновациях. Во-первых, мы представляем легковесный модуль Condition Injection LoRA. Этот модуль обрабатывает условные сигналы изолированно, выступая в качестве plug-and-play решения. Он избегает изменения весов базовой модели, обеспечивая совместимость с кастомизированными моделями и позволяя гибко внедрять разнообразные условия. Примечательно, что этот модуль также поддерживает гармоничную и устойчивую zero-shot генерализацию для множества условий, даже если обучение проводилось только на данных с одним условием. Во-вторых, мы предлагаем Position-Aware Training Paradigm. Этот подход стандартизирует входные условия до фиксированных разрешений, позволяя генерировать изображения с произвольными соотношениями сторон и гибкими разрешениями. Одновременно он оптимизирует вычислительную эффективность, делая фреймворк более практичным для реальных приложений. В-третьих, мы разработали Causal Attention Mechanism в сочетании с техникой KV Cache, адаптированной для задач условной генерации. Эта инновация значительно снижает задержку синтеза изображений, повышая общую эффективность фреймворка. Благодаря обширным экспериментам мы демонстрируем, что EasyControl достигает выдающейся производительности в различных сценариях применения. Эти инновации в совокупности делают наш фреймворк высокоэффективным, гибким и подходящим для широкого круга задач.
Интеграция внешних знаний в крупные языковые модели (LLM) повышает их полезность в различных приложениях, однако существующие методы имеют свои компромиссы. Метод Retrieval-Augmented Generation (RAG) извлекает доказательства с помощью поиска по сходству, но ключевая информация может оказаться за пределами топовых результатов. Модели с длинным контекстом способны обрабатывать несколько документов, но они требуют значительных вычислительных ресурсов и ограничены размером контекстного окна. Вдохновленные тем, как студенты сжимают учебные материалы для экзаменов с открытой книгой, мы предлагаем сжатие кэша ключ-значение (KV) с учетом задачи, которое сжимает внешние знания в условиях нулевого или малого числа примеров. Это позволяет LLM эффективно рассуждать на основе компактного представления всей релевантной информации. Эксперименты показывают, что наш подход превосходит как RAG, так и методы сжатия, не учитывающие задачу. На наборе данных LongBench v2 он повышает точность на до 7 абсолютных пунктов по сравнению с RAG при степени сжатия 30x, одновременно сокращая время вывода с 0,43 с до 0,16 с. Синтетический набор данных демонстрирует, что RAG хорошо работает, когда достаточно разреженных доказательств, тогда как сжатие с учетом задачи превосходит его в задачах, требующих широких знаний.
OpenAI o1 и DeepSeek R1 достигают или даже превосходят уровень экспертов-людей в сложных областях, таких как математика и наука, где ключевую роль играют обучение с подкреплением (RL) и рассуждения. В области автономного вождения современные end-to-end модели значительно улучшили производительность планирования, но по-прежнему сталкиваются с проблемами, связанными с редкими случаями, из-за ограниченного здравого смысла и способностей к рассуждению. Некоторые исследования интегрируют модели, объединяющие зрение и язык (VLMs), в автономное вождение, но они обычно полагаются на предварительно обученные модели с простой тонкой настройкой (SFT) на данных вождения, без дальнейшего изучения стратегий обучения или оптимизаций, специально адаптированных для планирования. В данной статье мы предлагаем AlphaDrive — фреймворк RL и рассуждений для VLMs в автономном вождении. AlphaDrive вводит четыре RL-награды на основе GRPO, адаптированные для планирования, и использует двухэтапную стратегию обучения рассуждений для планирования, которая сочетает SFT с RL. В результате AlphaDrive значительно улучшает как производительность планирования, так и эффективность обучения по сравнению с использованием только SFT или без рассуждений. Более того, мы также с радостью обнаружили, что после RL-обучения AlphaDrive демонстрирует некоторые возникающие мультимодальные способности к планированию, что критически важно для повышения безопасности и эффективности вождения. Насколько нам известно, AlphaDrive является первым, кто интегрирует RL на основе GRPO с рассуждениями для планирования в автономное вождение. Код будет опубликован для содействия будущим исследованиям.
Реализация новых функций в кодовых базах на уровне репозитория является важным применением моделей генерации кода. Однако в текущих бенчмарках отсутствует специализированная система оценки для этой возможности. Чтобы заполнить этот пробел, мы представляем FEA-Bench — бенчмарк, разработанный для оценки способности крупных языковых моделей (LLM) выполнять инкрементальную разработку в рамках кодовых репозиториев. Мы собираем пул-реквесты из 83 репозиториев GitHub и используем фильтрацию на основе правил и намерений для создания задач, сфокусированных на разработке новых функций. Каждая задача, содержащая изменения кода, сопровождается соответствующими файлами модульных тестов, чтобы обеспечить возможность проверки решения. Реализация функции требует от LLM одновременно обладать способностью к завершению кода для новых компонентов и навыками редактирования кода для других связанных частей репозитория, что предоставляет более комплексный метод оценки автоматизированных возможностей LLM в области разработки программного обеспечения. Результаты экспериментов показывают, что LLM значительно хуже справляются с задачами в FEA-Bench, что подчеркивает существенные трудности в такой инкрементальной разработке кода на уровне репозитория.
Последние достижения в области больших языковых моделей (LLM) значительно улучшили возможности генерации текста, однако оценка их производительности в задачах генеративного письма остается сложной задачей. Существующие тестовые наборы в основном сосредоточены на общей генерации текста или ограниченных задачах письма, не охватывая разнообразные требования к высококачественному контенту в различных областях. Чтобы устранить этот пробел, мы представляем WritingBench — комплексный тестовый набор, разработанный для оценки LLM в 6 основных областях письма и 100 поддоменах, включая творческое, убедительное, информативное и техническое письмо. Мы также предлагаем зависимую от запроса систему оценки, которая позволяет LLM динамически генерировать критерии оценки, специфичные для каждого примера. Эта система дополнена тонко настроенной моделью-критиком для оценки с учетом критериев, что позволяет проводить анализ стиля, формата и длины текста. Дополнительно демонстрируется валидность системы благодаря ее способности к курированию данных, что позволяет моделям с 7 миллиардами параметров приближаться к уровню современных передовых (SOTA) решений. Мы открываем доступ к тестовому набору, инструментам оценки и модульным компонентам системы, чтобы способствовать развитию LLM в области письма.
Традиционные агентные подходы полагаются на внешние подсказки для управления взаимодействиями с инструментами и окружающей средой, что ограничивает автономность моделей рассуждений. Мы предлагаем концепцию Больших Агентных Моделей (LAMs), которые интериоризируют генерацию Цепочки Действий (CoA), позволяя модели автономно решать, когда и как использовать внешние инструменты. Наша предложенная структура AutoCoA сочетает контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL), что позволяет модели плавно переключаться между рассуждениями и действиями, эффективно управляя взаимодействиями с окружающей средой. Основные компоненты включают триггеры действий на уровне шагов, оптимизацию CoA на уровне траекторий и внутреннюю модель мира для снижения затрат на взаимодействие с реальной средой. Оценки на задачах открытого домена вопросов и ответов демонстрируют, что модели, обученные с использованием AutoCoA, значительно превосходят подходы, основанные на ReAct, в выполнении задач, особенно в тех, которые требуют долгосрочных рассуждений и многошаговых действий. Код и набор данных доступны по адресу https://github.com/ADaM-BJTU/AutoCoA.
Обзорные статьи играют ключевую роль в научных исследованиях, особенно учитывая стремительный рост числа публикаций. В последнее время исследователи начали использовать крупные языковые модели (LLM) для автоматизации создания обзоров с целью повышения эффективности. Однако разрыв в качестве между обзорами, созданными LLM, и теми, что написаны людьми, остается значительным, особенно в отношении качества структуры и точности цитирования. Для устранения этих недостатков мы представляем SurveyForge, который сначала генерирует структуру, анализируя логическую структуру обзоров, написанных людьми, и ссылаясь на найденные статьи по соответствующей тематике. Затем, используя высококачественные статьи, извлеченные из памяти нашим агентом навигации по научным работам, SurveyForge автоматически создает и улучшает содержание статьи. Кроме того, для проведения всесторонней оценки мы создаем SurveyBench, который включает 100 обзорных статей, написанных людьми, для сравнения по критерию выигрышной частоты и оценивает обзорные статьи, созданные ИИ, по трем аспектам: качество ссылок, структуры и содержания. Эксперименты показывают, что SurveyForge превосходит предыдущие работы, такие как AutoSurvey.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие результаты на существующих тестах для ответов на медицинские вопросы. Такая высокая производительность делает всё более сложным осмысленное оценивание и дифференциацию передовых методов. Мы представляем MedAgentsBench — эталонный тест, который фокусируется на сложных медицинских вопросах, требующих многошагового клинического рассуждения, формулирования диагноза и планирования лечения — сценариях, в которых современные модели всё ещё испытывают трудности, несмотря на их сильные результаты в стандартных тестах. Используя данные из семи авторитетных медицинских наборов данных, наш тест устраняет три ключевых ограничения существующих оценок: (1) преобладание простых вопросов, на которых даже базовые модели показывают высокие результаты, (2) несогласованные протоколы выборки и оценки в различных исследованиях и (3) отсутствие систематического анализа взаимосвязи между производительностью, стоимостью и временем вывода. В экспериментах с различными базовыми моделями и методами рассуждения мы показываем, что последние модели мышления, DeepSeek R1 и OpenAI o3, демонстрируют исключительную производительность в сложных задачах медицинского рассуждения. Кроме того, передовые методы на основе поисковых агентов предлагают перспективные соотношения производительности к стоимости по сравнению с традиционными подходами. Наш анализ выявляет значительные разрывы в производительности между семействами моделей на сложных вопросах и определяет оптимальный выбор моделей для различных вычислительных ограничений. Наш эталонный тест и структура оценки доступны публично по адресу https://github.com/gersteinlab/medagents-benchmark.
Мы представляем Autoregressive Representation Alignment (ARRA) — новый фреймворк обучения, который обеспечивает глобально-согласованную генерацию изображений из текста в авторегрессионных языковых моделях (LLM) без изменения архитектуры. В отличие от предыдущих работ, требующих сложных архитектурных переделок, ARRA выравнивает скрытые состояния LLM с визуальными представлениями из внешних визуальных базовых моделей с помощью глобальной функции потерь визуального выравнивания и гибридного токена <HYBNEXT>. Этот токен накладывает двойные ограничения: локальное предсказание следующего токена и глобальную семантическую дистилляцию, позволяя LLM неявно изучать пространственную и контекстуальную согласованность, сохраняя при этом исходный авторегрессионный подход. Многочисленные эксперименты подтверждают универсальность ARRA в режиме "подключи и работай". При обучении LLM, изначально предназначенных только для генерации текста, или при случайной инициализации, ARRA снижает FID на 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) и 7,5% (ImageNet) для продвинутых авторегрессионных LLM, таких как Chameleon и LlamaGen, без изменений фреймворка. Для адаптации к домену ARRA выравнивает универсальные LLM со специализированными моделями (например, BioMedCLIP), достигая снижения FID на 18,6% по сравнению с прямой тонкой настройкой на медицинских изображениях (MIMIC-CXR). Показывая, что пересмотр целей обучения, а не только архитектурные инновации, может решить проблемы глобальной согласованности в кросс-модальных задачах, ARRA предлагает дополнительный подход для развития авторегрессионных моделей. Код и модели будут опубликованы для продвижения генерации изображений в авторегрессионных моделях.
Универсальные мультимодальные модели эмбеддингов играют ключевую роль в таких задачах, как перекрестный поиск изображений и текстов, мультимодальный RAG и мультимодальная кластеризация. Однако наши эмпирические результаты показывают, что существующие модели эмбеддингов на основе LMM, обученные с использованием стандартной функции потерь InfoNCE, демонстрируют высокую степень перекрытия в распределении сходства между положительными и отрицательными парами, что затрудняет эффективное различение сложных отрицательных пар. Для решения этой проблемы мы предлагаем простую, но эффективную структуру, которая динамически улучшает обучение представлений модели эмбеддингов для отрицательных пар на основе их различительной сложности. В рамках этой структуры мы обучаем серию моделей под названием LLaVE и оцениваем их на бенчмарке MMEB, который охватывает 4 метазадачи и 36 наборов данных. Экспериментальные результаты показывают, что LLaVE устанавливает более сильные базовые показатели, достигая наилучших (SOTA) результатов, одновременно демонстрируя высокую масштабируемость и эффективность. В частности, LLaVE-2B превосходит предыдущие SOTA модели с 7B параметров, а LLaVE-7B достигает дальнейшего улучшения производительности на 6,2 пункта. Хотя LLaVE обучена на данных изображений и текстов, она способна обобщать задачи поиска текст-видео в режиме zero-shot и демонстрирует высокую производительность, что подчеркивает её значительный потенциал для переноса на другие задачи эмбеддингов.
Реляционная персонализация видео относится к созданию персонализированных видеороликов, которые отображают заданные пользователем отношения между двумя объектами, что является важной задачей для понимания визуального контента реального мира. Хотя существующие методы могут персонализировать внешний вид и движения объектов, они всё ещё сталкиваются с трудностями при сложной реляционной персонализации видео, где необходимы точное моделирование отношений и высокая обобщаемость между категориями объектов. Основная проблема заключается в сложных пространственных расположениях, вариациях композиции и тонких временных динамиках, присущих отношениям; как следствие, текущие модели склонны чрезмерно акцентировать внимание на нерелевантных визуальных деталях, вместо того чтобы улавливать значимые взаимодействия. Для решения этих задач мы предлагаем DreamRelation, новый подход, который персонализирует отношения с помощью небольшого набора примеров видео, используя два ключевых компонента: Обучение с разделением отношений и Усиление реляционной динамики. Во-первых, в Обучении с разделением отношений мы разделяем отношения и внешний вид объектов с использованием триплета LoRA для отношений и стратегии обучения с гибридными масками, что обеспечивает лучшее обобщение для различных типов отношений. Кроме того, мы определяем оптимальную конструкцию триплета LoRA для отношений, анализируя различные роли признаков запроса, ключа и значения в механизме внимания MM-DiT, делая DreamRelation первой платформой для генерации реляционного видео с объяснимыми компонентами. Во-вторых, в Усилении реляционной динамики мы вводим пространственно-временной контрастный потери для отношений, который уделяет приоритетное внимание динамике отношений, минимизируя зависимость от детального внешнего вида объектов. Многочисленные эксперименты демонстрируют, что DreamRelation превосходит современные методы в реляционной персонализации видео. Код и модели будут доступны публично.
Хотя модели генерации изображений с маскированием и диффузионные модели с маскированием разработаны с разными мотивациями и целями, мы наблюдаем, что их можно объединить в рамках единой структуры. Опираясь на это понимание, мы тщательно исследуем пространство проектирования для обучения и сэмплирования, выявляя ключевые факторы, которые способствуют как производительности, так и эффективности. На основе улучшений, обнаруженных в ходе этого исследования, мы разрабатываем нашу модель, названную eMIGM. Эмпирически eMIGM демонстрирует высокую производительность в генерации изображений на наборе данных ImageNet, что измеряется с помощью расстояния Фреше (FID). В частности, на изображениях ImageNet 256x256, при схожем количестве вычислений функций (NFE) и параметров модели, eMIGM превосходит знаковую модель VAR. Более того, с увеличением NFE и параметров модели, eMIGM достигает производительности, сопоставимой с современными непрерывными диффузионными моделями, при этом требуя менее 40% от NFE. Кроме того, на изображениях ImageNet 512x512, используя лишь около 60% от NFE, eMIGM превосходит современные непрерывные диффузионные модели.
Традиционные методы для сегментации с рассуждениями полагаются на контролируемую тонкую настройку с использованием категориальных меток и простых описаний, что ограничивает их обобщаемость за пределами домена и не включает явные процессы рассуждений. Чтобы устранить эти ограничения, мы предлагаем Seg-Zero — новую структуру, которая демонстрирует выдающуюся обобщаемость и выводит явные цепочки рассуждений через когнитивное усиление. Seg-Zero представляет собой разделенную архитектуру, состоящую из модели рассуждений и модели сегментации. Модель рассуждений интерпретирует намерения пользователя, генерирует явные цепочки рассуждений и создает позиционные подсказки, которые затем используются моделью сегментации для создания точных масок на уровне пикселей. Мы разработали сложный механизм вознаграждения, который объединяет как формальные, так и точностные вознаграждения, чтобы эффективно направлять процесс оптимизации. Обучаясь исключительно с помощью обучения с подкреплением с использованием GRPO и без явных данных для рассуждений, Seg-Zero достигает устойчивой обобщаемости в условиях zero-shot и демонстрирует возникающие способности к рассуждениям во время тестирования. Эксперименты показывают, что Seg-Zero-7B достигает показателя zero-shot в 57,5 на бенчмарке ReasonSeg, превосходя предыдущий результат LISA-7B на 18\%. Это значительное улучшение подчеркивает способность Seg-Zero обобщать данные между доменами, предоставляя явный процесс рассуждений. Код доступен по адресу https://github.com/dvlab-research/Seg-Zero.
Последние достижения в области восприятия 2D-3D значительно улучшили понимание трехмерных сцен на основе двумерных изображений. Однако существующие методы сталкиваются с серьезными проблемами, включая ограниченную обобщаемость для различных сцен, неоптимальную точность восприятия и низкую скорость реконструкции. Для устранения этих ограничений мы предлагаем Perception-Efficient 3D Reconstruction (PE3R) — новый фреймворк, разработанный для повышения как точности, так и эффективности. PE3R использует прямую архитектуру для быстрого восстановления семантического поля 3D. Фреймворк демонстрирует устойчивую обобщаемость в условиях нулевого сэмплинга для разнообразных сцен и объектов, одновременно значительно повышая скорость реконструкции. Многочисленные эксперименты по сегментации с открытым словарем 2D-3D и трехмерной реконструкции подтверждают эффективность и универсальность PE3R. Фреймворк обеспечивает как минимум 9-кратное ускорение восстановления семантического поля 3D, а также существенное улучшение точности восприятия и реконструкции, устанавливая новые стандарты в этой области. Код доступен по адресу: https://github.com/hujiecpp/PE3R.
Обнаружение объектов и сегментация широко применяются в задачах компьютерного зрения, однако традиционные модели, такие как серия YOLO, несмотря на свою эффективность и точность, ограничены предопределенными категориями, что затрудняет их адаптацию в открытых сценариях. Современные методы с открытым набором используют текстовые подсказки, визуальные сигналы или подходы без подсказок, чтобы преодолеть это ограничение, но часто жертвуют производительностью или эффективностью из-за высоких вычислительных затрат или сложности развертывания. В данной работе мы представляем YOLOE — модель, которая объединяет обнаружение и сегментацию с использованием различных механизмов открытых подсказок в рамках единой высокоэффективной архитектуры, обеспечивая возможность "видеть что угодно" в реальном времени. Для текстовых подсказок мы предлагаем стратегию Re-parameterizable Region-Text Alignment (RepRTA), которая уточняет предобученные текстовые эмбеддинги с помощью перепараметризуемой легковесной вспомогательной сети и улучшает визуально-текстовое соответствие без дополнительных затрат на вывод и передачу. Для визуальных подсказок мы представляем Semantic-Activated Visual Prompt Encoder (SAVPE), который использует разделенные семантические и активационные ветви для улучшения визуальных эмбеддингов и точности при минимальной сложности. Для сценариев без подсказок мы вводим стратегию Lazy Region-Prompt Contrast (LRPC), которая использует встроенный большой словарь и специализированные эмбеддинги для идентификации всех объектов, избегая зависимости от дорогостоящих языковых моделей. Эксперименты демонстрируют исключительную производительность YOLOE в задачах zero-shot и ее переносимость при высокой эффективности вывода и низких затратах на обучение. В частности, на наборе данных LVIS при трехкратном снижении затрат на обучение и ускорении вывода в 1,4 раза YOLOE-v8-S превосходит YOLO-Worldv2-S на 3,5 AP. При переносе на COCO YOLOE-v8-L достигает прироста на 0,6 AP^b и 0,4 AP^m по сравнению с закрытым YOLOv8-L при почти четырехкратном сокращении времени обучения. Код и модели доступны по адресу https://github.com/THU-MIG/yoloe.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокую эффективность в интеграции визуальной и текстовой информации для задач, ориентированных на зрение, однако их способность справляться с несоответствиями между модальностями изучена недостаточно. Мы исследуем предпочтения VLMs в отношении модальностей при работе с визуальными данными и различными текстовыми входами в условиях, ориентированных на зрение. Вводя текстовые вариации в четыре задачи, связанные с обработкой изображений, и оценивая десять моделей VLMs, мы обнаруживаем явление «слепой веры в текст»: VLMs чрезмерно доверяют текстовым данным по сравнению с визуальными при возникновении несоответствий, что приводит к значительному снижению производительности при искажении текста и вызывает опасения с точки зрения безопасности. Мы анализируем факторы, влияющие на это предпочтение текста, включая инструктивные подсказки, размер языковой модели, релевантность текста, порядок токенов и взаимодействие между уверенностью в визуальных и текстовых данных. Хотя некоторые факторы, такие как увеличение размера языковой модели, незначительно снижают предпочтение текста, другие, например порядок токенов, могут усугублять его из-за позиционных предубеждений, унаследованных от языковых моделей. Для решения этой проблемы мы исследуем контролируемую тонкую настройку с текстовой аугментацией и демонстрируем её эффективность в снижении предпочтения текста. Кроме того, мы предлагаем теоретический анализ, который предполагает, что явление слепой веры в текст может быть связано с дисбалансом между чисто текстовыми и мультимодальными данными в процессе обучения. Наши результаты подчеркивают необходимость сбалансированного обучения и тщательного учета взаимодействия модальностей в VLMs для повышения их устойчивости и надежности при обработке несоответствий в мультимодальных данных.
Архитектуры смеси агентов на основе больших языковых моделей (Mixture of LLM Agents, MoA) достигают наилучших результатов на известных бенчмарках, таких как AlpacaEval 2.0, за счет совместной работы нескольких языковых моделей на этапе вывода. Несмотря на эти успехи, оценка безопасности и надежности MoA остается недостаточно изученной. Мы представляем первое всестороннее исследование устойчивости MoA к обманчивым агентам, которые намеренно предоставляют вводящую в заблуждение информацию. Мы изучаем такие факторы, как распространение ложной информации, размер модели и доступность данных, и выявляем критические уязвимости. На AlpacaEval 2.0 популярная модель LLaMA 3.1-70B в сочетании с трехслойной MoA (6 агентов) достигает длины-контролируемого показателя выигрыша (LC WR) в 49,2%. Однако мы показываем, что введение всего одного тщательно настроенного обманчивого агента в MoA снижает производительность до 37,9%, фактически сводя на нет все преимущества MoA. На задаче множественного выбора QuALITY влияние также оказывается значительным: точность падает на ошеломляющие 48,5%. Вдохновленные историческим процессом голосования Дожа Венеции, разработанным для минимизации влияния и обмана, мы предлагаем ряд неконтролируемых механизмов защиты, которые восстанавливают большую часть потерянной производительности.
Мы представляем DiffCLIP — новую модель для обработки визуальной и текстовой информации, которая расширяет механизм дифференциального внимания для архитектур CLIP. Дифференциальное внимание изначально было разработано для крупных языковых моделей с целью усиления релевантного контекста и подавления шумовой информации. В данной работе мы интегрируем этот механизм в двухкодировочную (изображение и текст) структуру CLIP. Благодаря минимальному количеству дополнительных параметров, DiffCLIP демонстрирует превосходную производительность в задачах понимания изображений и текста. В тестах на классификацию без обучения, поиск и устойчивость модель стабильно превосходит базовые версии CLIP. Примечательно, что эти улучшения достигаются с незначительными вычислительными затратами, что подтверждает способность дифференциального внимания значительно улучшать мультимодальные представления без ущерба для эффективности. Код доступен по адресу: https://github.com/hammoudhasan/DiffCLIP.
Мы исследуем новый подход к распознаванию аудиовизуальной речи (AVSR) в условиях нулевого сценария, названный Zero-AVSR, который позволяет распознавать речь на целевых языках без необходимости использования аудиовизуальных речевых данных на этих языках. В частности, мы представляем Аудиовизуальный Речевой Романизатор (AV-Romanizer), который изучает языково-независимые речевые представления, предсказывая текст в латинской транскрипции. Затем, используя мощные возможности многоязыкового моделирования крупных языковых моделей (LLM), мы предлагаем преобразовывать предсказанный латинский текст в языково-специфичные графемы, формируя предложенный Каскадный Zero-AVSR. Идя дальше, мы исследуем унифицированный подход Zero-AVSR, напрямую интегрируя аудиовизуальные речевые представления, закодированные AV-Romanizer, в LLM. Это достигается путем тонкой настройки адаптера и LLM с использованием предложенной нами схемы многозадачного обучения. Чтобы охватить широкий спектр фонетического и лингвистического разнообразия, мы также представляем Многоязычный Аудиовизуальный Романизированный Корпус (MARC), состоящий из 2 916 часов аудиовизуальных речевых данных на 82 языках, вместе с транскрипциями как в языково-специфичных графемах, так и в латинской транскрипции. Обширный анализ и эксперименты подтверждают, что предложенный подход Zero-AVSR имеет потенциал для расширения языковой поддержки за пределы языков, представленных при обучении AV-Romanizer.
Модели временных рядов сталкиваются с серьезными трудностями при масштабировании для обработки больших и сложных наборов данных, аналогично тому, как это достигается в крупных языковых моделях (LLM). Уникальные характеристики данных временных рядов и вычислительные требования масштабирования моделей требуют инновационных подходов. Хотя исследователи изучили различные архитектуры, такие как Transformers, LSTM и GRU, для решения этих задач, мы предлагаем новое решение с использованием RWKV-7, которое интегрирует метаобучение в механизм обновления состояний. Благодаря объединению компонентов временного и канального смешивания RWKV-7 в трансформерную модель временных рядов Timer, мы достигаем значительного улучшения производительности примерно в 1,13–43,3 раза и сокращения времени обучения в 4,5 раза при использовании в 23 раза меньшего числа параметров. Наш код и веса модели доступны для дальнейших исследований и разработок по адресу https://github.com/Alic-Li/BlackGoose_Rimer.
Модели пространства состояний (SSM) стали эффективной альтернативой трансформерам, устраняя их квадратичные вычислительные затраты. Однако применение методов параметрически-эффективной тонкой настройки (PEFT) к SSM остается малоизученным. В частности, методы на основе промптов, такие как Prompt Tuning и Prefix-Tuning, которые широко используются в трансформерах, показывают низкую эффективность на SSM. Для решения этой проблемы мы предлагаем методы на основе состояний как более эффективную альтернативу методам на основе промптов. Это новое семейство методов естественным образом вытекает из архитектурных особенностей SSM. Методы на основе состояний напрямую корректируют характеристики, связанные с состоянием, вместо того чтобы полагаться на внешние промпты. Кроме того, мы представляем новый метод PEFT на основе состояний: State-offset Tuning. На каждом временном шаге наш метод напрямую влияет на состояние на текущем шаге, что приводит к более эффективной адаптации. В ходе обширных экспериментов на различных наборах данных мы демонстрируем эффективность нашего метода. Код доступен по адресу https://github.com/furiosa-ai/ssm-state-tuning.
Растущая популярность крупных языковых моделей не только привела к их широкому использованию, но и породила различные риски, включая возможность систематического распространения фейковых новостей. В связи с этим разработка систем классификации, таких как DetectGPT, стала крайне важной. Однако эти детекторы уязвимы к методам обхода, что было продемонстрировано в серии экспериментов: систематическое изменение температуры генеративных моделей показало, что детекторы, основанные на поверхностном обучении, являются наименее надежными. Тонкая настройка генеративной модели с помощью обучения с подкреплением позволила обойти детекторы на основе BERT. Наконец, перефразирование привело к обходу более чем 90\% детекторов с нулевым обучением, таких как DetectGPT, хотя тексты оставались весьма схожими с оригинальными. Сравнение с существующими работами подчеркивает более высокую производительность представленных методов. Обсуждаются возможные последствия для общества и направления дальнейших исследований.
Хотя классификаторно-свободное управление (CFG) является важным для условных диффузионных моделей, оно удваивает количество вычислений нейронных функций (NFE) на каждый шаг вывода. Чтобы устранить эту неэффективность, мы представляем дистилляцию с адаптерным управлением (AGD) — новый подход, который моделирует CFG за один прямой проход. AGD использует легковесные адаптеры для аппроксимации CFG, эффективно удваивая скорость выборки при сохранении или даже улучшении качества образцов. В отличие от предыдущих методов дистилляции управления, которые настраивают всю модель, AGD оставляет базовую модель замороженной и обучает только минимальные дополнительные параметры (около 2%), что значительно снижает требования к ресурсам на этапе дистилляции. Кроме того, этот подход сохраняет исходные веса модели и позволяет адаптерам легко комбинироваться с другими контрольными точками, полученными из той же базовой модели. Мы также устраняем ключевое несоответствие между обучением и выводом в существующих методах дистилляции управления, обучая на траекториях, управляемых CFG, вместо стандартных диффузионных траекторий. В ходе обширных экспериментов мы показываем, что AGD достигает сопоставимого или превосходящего FID по сравнению с CFG на множестве архитектур, используя лишь половину NFE. Примечательно, что наш метод позволяет дистиллировать крупные модели (около 2,6 млрд параметров) на одной потребительской видеокарте с 24 ГБ видеопамяти, делая его более доступным, чем предыдущие подходы, требующие нескольких высокопроизводительных GPU. Мы опубликуем реализацию нашего метода в открытом доступе.
Модели преобразования текста в изображение (Text-to-Image, T2I) способны создавать высококачественные художественные произведения и визуальный контент. Однако существующие исследования и стандарты оценки в основном сосредоточены на реалистичности изображений и поверхностном соответствии текста и изображения, не предлагая всесторонней оценки сложного семантического понимания и интеграции знаний о мире в процессе генерации изображений. Для решения этой проблемы мы предлагаем WISE — первый бенчмарк, специально разработанный для семантической оценки с учетом знаний о мире. WISE выходит за рамки простого сопоставления слов и пикселей, предлагая моделям 1000 тщательно составленных запросов, охватывающих 25 поддоменов, включая культурные стереотипы, пространственно-временные рассуждения и естественные науки. Чтобы преодолеть ограничения традиционной метрики CLIP, мы представляем WiScore — новую количественную метрику для оценки соответствия знаний и изображений. В результате всестороннего тестирования 20 моделей (10 специализированных T2I-моделей и 10 унифицированных мультимодальных моделей) с использованием 1000 структурированных запросов, охватывающих 25 поддоменов, наши результаты выявили значительные ограничения в их способности эффективно интегрировать и применять знания о мире в процессе генерации изображений, что указывает на ключевые направления для улучшения интеграции и применения знаний в моделях T2I следующего поколения. Код и данные доступны по адресу https://github.com/PKU-YuanGroup/WISE.
Обобщение на новые домены (Domain Generalization) направлено на разработку моделей, способных обобщать данные на новые и неизвестные распределения. В данной работе мы исследуем, как архитектуры моделей и задачи предварительного обучения влияют на богатство признаков, и предлагаем метод для их эффективного использования в задачах обобщения на новые домены. В частности, для заданного пространства признаков, полученного в результате предварительного обучения, мы сначала обнаруживаем скрытые структуры доменов, называемые псевдодоменами, которые фиксируют доменно-специфичные вариации в неконтролируемом режиме. Затем мы дополняем существующие классификаторы этими дополнительными представлениями псевдодоменов, делая их более адаптивными к разнообразным неизвестным тестовым доменам. Мы анализируем, как различные пространства признаков, полученные в результате предварительного обучения, различаются по захватываемым доменно-специфичным вариациям. Наши эмпирические исследования показывают, что признаки, полученные из моделей диффузии, превосходно разделяют домены при отсутствии явных меток доменов и фиксируют тонкие доменно-специфичные особенности. На 5 наборах данных мы демонстрируем, что наш простой фреймворк улучшает обобщение на неизвестные домены, достигая максимального увеличения точности тестирования более чем на 4% по сравнению с базовым методом минимизации эмпирического риска (ERM). Важно отметить, что наш метод превосходит большинство алгоритмов, которые используют метки доменов во время обучения.
Предварительно обученные большие языковые модели (LLM), которые дополнительно обучаются на данных изображений, демонстрируют высокую производительность в задачах, связанных с обработкой визуальной и текстовой информации. Хотя добавление изображений на втором этапе обучения эффективно раскрывает эту способность, остается неясным, насколько выигрыш или проигрыш дает такой двухэтапный подход по сравнению с моделями, интегрирующими изображения на более ранних этапах обучения. Чтобы исследовать этот вопрос, мы обучаем модели на различных наборах данных, масштабах, соотношениях изображений и текста, а также с разным объемом предварительного обучения перед введением визуальных токенов. Затем мы дообучаем эти модели и оцениваем их производительность на наборе задач, включающих как обработку визуальной и текстовой информации, так и исключительно текстовые задачи. Мы обнаруживаем, что предварительное обучение на смеси изображений и текстовых данных позволяет моделям лучше справляться с задачами, связанными с визуальной и текстовой информацией, сохраняя при этом высокую производительность на текстовых задачах. В среднем на 6 разнообразных задачах мы выясняем, что для модели объемом 1 млрд параметров введение визуальных токенов на 80% этапа предварительного обучения приводит к улучшению на 2% по сравнению с введением визуальных токенов в полностью предварительно обученную модель.
Последние достижения в моделях диффузии для генерации изображений из текста позволяют создавать фотореалистичные изображения, но также несут риск генерации вредоносного контента, такого как NSFW-изображения. Для снижения этого риска изучаются методы стирания концепций, которые позволяют модели "разучивать" определённые концепции. Однако текущие исследования сталкиваются с трудностями в полном удалении вредоносных концепций, неявно встроенных в запросы (например, метафорические выражения или враждебные подсказки), при сохранении нормальной генеративной способности модели. Для решения этой задачи наше исследование предлагает TRCE, используя двухэтапную стратегию стирания концепций для достижения эффективного баланса между надёжным удалением и сохранением знаний. Во-первых, TRCE начинает с удаления вредоносной семантики, неявно встроенной в текстовые запросы. Определяя критическую цель отображения (т.е. вложение [EoT]), мы оптимизируем слои кросс-внимания для отображения вредоносных запросов на контекстуально схожие запросы, но с безопасными концепциями. Этот шаг предотвращает чрезмерное влияние вредоносной семантики на процесс денойзинга. Затем, учитывая детерминированные свойства траектории сэмплирования диффузионной модели, TRCE дополнительно направляет ранние предсказания денойзинга в безопасное направление и отдаляет их от небезопасного с помощью контрастного обучения, тем самым ещё больше избегая генерации вредоносного контента. Наконец, мы проводим всестороннюю оценку TRCE на нескольких бенчмарках для стирания вредоносных концепций, и результаты демонстрируют её эффективность в удалении вредоносных концепций при лучшем сохранении исходной генеративной способности модели. Код доступен по адресу: http://github.com/ddgoodgood/TRCE. ВНИМАНИЕ: Данная статья содержит контент, сгенерированный моделью, который может включать оскорбительные материалы.
Предобученные модели компьютерного зрения (PVMs) являются основой современной робототехники, однако их оптимальная конфигурация остается неясной. В ходе систематической оценки мы обнаружили, что, хотя DINO и iBOT превосходят MAE в задачах визомоторного управления и восприятия, они испытывают трудности при обучении на данных, не ориентированных на отдельные объекты (NOC), — ограничение, тесно связанное с их сниженной способностью изучать объектно-ориентированные представления. Это исследование показывает, что способность формировать объектно-ориентированные представления из необъектно-ориентированных наборов данных робототехники является ключом к успеху для PVMs. Вдохновленные этим открытием, мы разработали SlotMIM — метод, который индуцирует объектно-ориентированные представления, вводя семантическое узкое место для сокращения числа прототипов, чтобы стимулировать появление объектности, а также регуляризацию кросс-видовой согласованности для поощрения мультивью инвариантности. Наши эксперименты охватывают предобучение на объектно-ориентированных, сценарно-ориентированных, веб-собранных и эгоцентричных данных. Во всех настройках наш подход изучает переносимые представления и демонстрирует значительные улучшения по сравнению с предыдущими работами в задачах распознавания изображений, понимания сцен и оценки обучения роботов. При масштабировании с использованием наборов данных миллионного масштаба наш метод также демонстрирует превосходную эффективность данных и масштабируемость. Наш код и модели доступны по адресу https://github.com/CVMI-Lab/SlotMIM.
Решение экспертных мультимодальных задач является ключевым этапом на пути к достижению общего интеллекта. По мере того, как возможности мультимодальных больших языковых моделей (MLLMs) продолжают улучшаться, оценка такого продвинутого мультимодального интеллекта становится необходимой, но при этом сложной задачей. В данной работе мы представляем ProBench — эталонный набор открытых пользовательских запросов, требующих профессиональной экспертизы и сложного рассуждения. ProBench состоит из 4000 высококачественных образцов, независимо предоставленных профессионалами на основе их повседневных производственных потребностей. Он охватывает 10 областей и 56 подразделов, включая науку, искусство, гуманитарные науки, программирование, математику и творческое письмо. Экспериментально мы оцениваем и сравниваем 24 последние модели, используя подход MLLM-as-a-Judge. Наши результаты показывают, что хотя лучшие модели с открытым исходным кодом конкурируют с проприетарными, ProBench представляет значительные вызовы в области визуального восприятия, текстового понимания, предметных знаний и сложного рассуждения, тем самым предоставляя ценные направления для будущих исследований в области мультимодального искусственного интеллекта.
Аудиовизуальное распознавание речи (AVSR) использует как аудио, так и визуальные модальности для повышения устойчивости распознавания речи, особенно в условиях шума. Последние достижения в области больших языковых моделей (LLM) продемонстрировали их эффективность в распознавании речи, включая AVSR. Однако из-за значительной длины речевых представлений прямое интегрирование с LLM влечет за собой существенные вычислительные затраты. Предыдущие подходы решают эту проблему путем сжатия речевых представлений перед их подачей в LLM. Однако более высокие коэффициенты сжатия часто приводят к снижению производительности, что требует компромисса между вычислительной эффективностью и точностью распознавания. Для решения этой задачи мы предлагаем Llama-MTSK, первую мультимодальную LLM на основе матрешки для AVSR, которая позволяет гибко адаптировать распределение аудиовизуальных токенов в зависимости от конкретных вычислительных ограничений, сохраняя при этом высокую производительность. Наш подход, вдохновленный обучением представлений по принципу матрешки, кодирует аудиовизуальные представления на нескольких уровнях детализации в рамках одной модели, устраняя необходимость обучения отдельных моделей для разных уровней сжатия. Кроме того, для эффективной тонкой настройки LLM мы предлагаем три стратегии на основе LoRA с использованием глобальных и масштабно-специфичных модулей LoRA. Обширные оценки на двух крупнейших наборах данных AVSR показывают, что Llama-MTSK достигает наилучших результатов, сопоставимых или превосходящих модели, обученные независимо на фиксированных уровнях сжатия.
Быстрое расширение мобильного интернета привело к значительному увеличению количества пользовательского контента (UGC) в виде изображений, что делает тщательную оценку таких изображений как срочной, так и необходимой задачей. В последнее время мультимодальные большие языковые модели (MLLMs) продемонстрировали значительный потенциал в оценке качества изображений (IQA) и их эстетической оценки (IAA). Несмотря на этот прогресс, эффективное оценивание качества и эстетики UGC-изображений по-прежнему сталкивается с двумя основными проблемами: 1) Один балл недостаточен для отражения иерархического восприятия человека. 2) Вопрос о том, как использовать MLLMs для вывода числовых оценок, таких как средние мнения пользователей (MOS), остается открытым. Для решения этих проблем мы представляем новый набор данных под названием Realistic image Quality and Aesthetic (RealQA), включающий 14 715 UGC-изображений, каждое из которых аннотировано 10 детализированными атрибутами. Эти атрибуты охватывают три уровня: низкий (например, четкость изображения), средний (например, целостность объекта) и высокий (например, композиция). Кроме того, мы проводим серию углубленных и всесторонних исследований того, как эффективно предсказывать числовые оценки с использованием MLLMs. Удивительно, но предсказание всего двух дополнительных значащих цифр позволяет парадигме следующего токена достичь наилучших результатов (SOTA). Более того, с помощью цепочки рассуждений (CoT) в сочетании с изученными детализированными атрибутами предложенный метод превосходит SOTA-методы на пяти публичных наборах данных для IQA и IAA, демонстрируя превосходную интерпретируемость и сильную способность к обобщению в задачах оценки качества видео (VQA) в условиях нулевого обучения. Код и набор данных будут опубликованы.
Существующие методы оценки 6D-позиции новых объектов обычно полагаются на CAD-модели или плотные эталонные изображения, которые сложно получить. Использование всего одного эталонного изображения более масштабируемо, но представляет сложность из-за значительных расхождений в позах и ограниченной геометрической и пространственной информации. Для решения этих проблем мы предлагаем метод оценки 6D-позиции новых объектов на основе одного эталонного изображения (SinRef-6D). Наша ключевая идея заключается в итеративном установлении поточечного выравнивания в системе координат камеры на основе моделей пространства состояний (SSM). В частности, итеративное поточечное выравнивание в пространстве камеры эффективно справляется с большими расхождениями в позах, а предложенные нами SSM для RGB и точек позволяют захватывать долгосрочные зависимости и пространственную информацию из одного изображения, обеспечивая линейную сложность и превосходные возможности пространственного моделирования. После предварительного обучения на синтетических данных SinRef-6D может оценивать 6D-позицию нового объекта, используя только одно эталонное изображение, без необходимости повторного обучения или CAD-модели. Многочисленные эксперименты на шести популярных наборах данных и в реальных роботизированных сценах демонстрируют, что мы достигаем сопоставимой производительности с методами, основанными на CAD и плотных эталонных изображениях, несмотря на работу в более сложных условиях с одним эталонным изображением. Код будет доступен по адресу https://github.com/CNJianLiu/SinRef-6D.
Недавние исследования показали, что при обучении в больших масштабах унимодальные 2D-визуальные и текстовые энкодеры сходятся к изученным признакам, которые демонстрируют удивительные структурные сходства, несмотря на различия в исходных представлениях. Однако роль 3D-энкодеров по отношению к другим модальностям остается неисследованной. Более того, существующие базовые модели для 3D, использующие большие наборы данных, обычно обучаются с явными целями согласования относительно замороженных энкодеров из других представлений. В данной работе мы исследуем возможность апостериорного согласования представлений, полученных из унимодальных 3D-энкодеров, с текстовыми пространствами признаков. Мы показываем, что наивное согласование признаков унимодальных текстовых и 3D-энкодеров после обучения приводит к ограниченной производительности. Затем мы сосредотачиваемся на извлечении подпространств соответствующих пространств признаков и обнаруживаем, что проекция изученных представлений на хорошо выбранные низкоразмерные подпространства значительно повышает качество согласования, что приводит к улучшению точности в задачах сопоставления и поиска. Наш анализ также проливает свет на природу этих общих подпространств, которые примерно разделяют семантические и геометрические представления данных. В целом, наша работа является первой, которая помогает установить базовый уровень для апостериорного согласования унимодальных 3D и текстовых пространств признаков, а также подчеркивает как общие, так и уникальные свойства 3D-данных по сравнению с другими представлениями.
Для ответа на фактологические запросы типа "один ко многим" (например, перечисление городов страны) языковая модель (LM) должна одновременно извлекать знания и избегать повторения ранее данных ответов. Как эти две подзадачи реализованы и интегрированы внутри модели? На основе анализа нескольких наборов данных и моделей мы выявили механизм "продвижение-затем-подавление": модель сначала извлекает все возможные ответы, а затем подавляет уже сгенерированные. В частности, языковые модели используют как субъект запроса, так и токены предыдущих ответов для извлечения знаний, где механизм внимания распространяет информацию о субъекте, а многослойные перцептроны (MLP) способствуют активации ответов. Затем внимание фокусируется на токенах предыдущих ответов и подавляет их, в то время как MLP усиливают сигнал подавления. Наш механизм подтверждается обширными экспериментальными данными: помимо использования раннего декодирования и причинного трассирования, мы анализируем, как компоненты модели используют различные токены, вводя как Token Lens, который декодирует агрегированные обновления внимания от указанных токенов, так и метод "нокаута", который анализирует изменения в выходах MLP после удаления внимания к указанным токенам. В целом, мы предоставляем новые инсайты о том, как внутренние компоненты языковых моделей взаимодействуют с различными входными токенами для поддержки сложного фактологического извлечения. Код доступен по адресу https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
В данной статье мы представляем новую структуру, предназначенную для восстановления длинных последовательностей 3D-движений человека в мировых координатах на основе видеозаписей, сделанных в естественных условиях с множественными переходами между кадрами. Такие длинные последовательности движений, зафиксированные в реальных условиях, представляют большую ценность для приложений, таких как генерация движений и их анализ, однако их восстановление сопряжено с существенными трудностями из-за резких переходов между кадрами, частичных перекрытий и динамического фона, присутствующих в таких видеозаписях. Существующие методы в основном сосредоточены на видео с одним кадром, где непрерывность сохраняется в пределах одного угла съемки, или упрощают выравнивание между кадрами только в пространстве камеры. В данной работе мы решаем эти задачи путем интеграции улучшенной оценки положения камеры с восстановлением движений человека (HMR), включая детектор переходов между кадрами и надежный модуль выравнивания для обеспечения точной непрерывности позы и ориентации между кадрами. Используя специальный интегратор движений, мы эффективно устраняем проблему скольжения стоп и обеспечиваем временную согласованность позы человека. Обширные оценки на созданном нами наборе данных с множественными кадрами, основанном на публичных наборах данных 3D-движений человека, демонстрируют устойчивость нашего метода в восстановлении реалистичных движений человека в мировых координатах.
Согласование больших языковых моделей (LLM) с человеческими предпочтениями имеет критическое значение для их реального применения, однако существующие методы, такие как RLHF, сталкиваются с вычислительными и стабильностными проблемами. В то время как DPO устанавливает оффлайн-парадигму с единственным гиперпараметром beta, последующие методы, такие как SimPO, вновь вводят сложность через два параметра (beta, gamma). Мы предлагаем {ReLU-based Preference Optimization (RePO)}, упрощённый алгоритм, который устраняет beta благодаря двум улучшениям: (1) сохранение безреферентных отступов SimPO, но удаление beta через анализ градиентов, и (2) использование max-margin функции потерь на основе ReLU, которая естественным образом фильтрует тривиальные пары. Теоретически RePO характеризуется как предельный случай SimPO (beta стремится к бесконечности), где логистическое взвешивание сводится к бинарному пороговому значению, формируя выпуклую оболочку 0-1 функции потерь. Эмпирические результаты на AlpacaEval 2 и Arena-Hard показывают, что RePO превосходит DPO и SimPO на нескольких базовых моделях, требуя настройки только одного гиперпараметра.
Мультимодальные большие языковые модели (MLLMs) демонстрируют мощные возможности нулевого сэмплинга в разнообразных задачах, связанных с обработкой визуальной и текстовой информации, после обучения на мегамасштабных наборах данных. Однако задачи плотного предсказания, такие как семантическая сегментация и обнаружение ключевых точек, представляют значительные трудности для MLLMs, когда они представлены исключительно в виде текстовых выходов. В то же время современные MLLMs, использующие латентные эмбеддинги для декодирования визуальных задач, обычно демонстрируют ограниченную адаптируемость как к многозадачному обучению, так и к сценариям с множественной гранулярностью. В данной работе мы представляем REF-VLM, сквозную структуру для унифицированного обучения различным задачам визуального декодирования. Для решения сложных сценариев визуального декодирования мы вводим Триплетную Парадигму Референции (TRP), которая явно разделяет три критических измерения в задачах визуального декодирования через триплетную структуру: концепции, типы декодирования и цели. TRP использует символические разделители для обеспечения структурированного обучения представлений, повышая разбираемость и интерпретируемость выходов модели. Кроме того, мы создаем набор данных Visual-Task Instruction Following Dataset (VTInstruct), крупномасштабный многозадачный набор данных, содержащий более 100 миллионов мультимодальных диалоговых примеров для 25 типов задач. Помимо текстовых входов и выходов, VT-Instruct включает различные визуальные подсказки, такие как точки, рамки, штрихи и маски, и генерирует выходы, состоящие из текста и визуальных элементов, таких как рамки, ключевые точки, глубина и маски. Комбинация различных визуальных подсказок и визуальных элементов создает широкий спектр типов задач, значительно расширяя применимость REF-VLM. Качественные и количественные эксперименты показывают, что наш REF-VLM превосходит другие MLLMs на различных стандартных бенчмарках. Код, набор данных и демо доступны по адресу https://github.com/MacavityT/REF-VLM.
Объединение существующих предварительно обученных экспертных моделей языка (LLM) представляет собой перспективный подход для масштабируемого решения крупных и разнообразных задач. Однако выбор экспертов на уровне задачи часто оказывается слишком грубым, поскольку разнородные задачи могут требовать различных экспертных знаний для каждого отдельного случая. Чтобы обеспечить адаптивное смешение предварительно обученных экспертных LLM на уровне экземпляра, мы предлагаем Symbolic-MoE — символическую, текстовую и градиент-свободную структуру Mixture-of-Experts. Symbolic-MoE использует детализированный подход к выбору, акцентируя внимание на навыках, таких как алгебра в математике или молекулярная биология в биомедицинских рассуждениях. Мы предлагаем стратегию набора на основе навыков, которая динамически выбирает наиболее подходящий набор экспертных LLM для разнообразных задач рассуждения, основываясь на их сильных сторонах. Каждый выбранный эксперт генерирует собственное рассуждение, что приводит к k выходам от k экспертов, которые затем синтезируются в окончательный высококачественный ответ агрегатором, выбранным на основе его способности интегрировать разнообразные результаты рассуждений. Мы показываем, что выбор экспертов на уровне экземпляра в Symbolic-MoE значительно улучшает производительность, но при наивной реализации может привести к высоким вычислительным затратам из-за необходимости постоянной загрузки и выгрузки моделей. Чтобы решить эту проблему, мы реализуем стратегию пакетного вывода, которая группирует экземпляры на основе назначенных экспертов, загружая каждую модель только один раз. Это позволяет нам интегрировать 16 экспертных моделей на одном GPU с временными затратами, сопоставимыми или лучшими, чем у предыдущих мультиагентных базовых подходов, использующих 4 GPU. В ходе обширных оценок на различных тестовых наборах (MMLU-Pro, GPQA, AIME и MedMCQA) мы демонстрируем, что Symbolic-MoE превосходит мощные LLM, такие как GPT4o-mini, а также мультиагентные подходы, с абсолютным средним улучшением на 8,15% по сравнению с лучшим мультиагентным базовым подходом. Более того, Symbolic-MoE устраняет необходимость в дорогостоящих многораундовых обсуждениях, превосходя базовые подходы с обсуждениями при меньших вычислительных затратах.
Мы представляем PhiloBERTA, кросс-лингвальную трансформаторную модель, которая измеряет семантические связи между древнегреческим и латинским лексиконами. С помощью анализа выбранных пар терминов из классических текстов мы используем контекстуальные эмбеддинги и метрики углового сходства для выявления точных семантических соответствий. Наши результаты показывают, что этимологически связанные пары демонстрируют значительно более высокие показатели сходства, особенно для абстрактных философских концепций, таких как epist\=em\=e (scientia) и dikaiosyn\=e (iustitia). Статистический анализ выявляет устойчивые закономерности в этих связях (p = 0,012), причем этимологически связанные пары показывают заметно стабильное сохранение семантики по сравнению с контрольными парами. Эти результаты устанавливают количественную основу для изучения того, как философские концепции перемещались между греческой и латинской традициями, предлагая новые методы для классических филологических исследований.
Роботизированный захват в сценах с прозрачными и зеркальными объектами представляет значительные трудности для методов, полагающихся на точную информацию о глубине. В данной статье мы представляем NeuGrasp — метод нейронной реконструкции поверхностей, который использует априорные данные о фоне для обнаружения захвата, независимого от материала. NeuGrasp интегрирует трансформеры и глобальные априорные объемы для агрегирования признаков из нескольких ракурсов с пространственным кодированием, что позволяет добиться устойчивой реконструкции поверхностей в условиях узкого и разреженного обзора. Благодаря акценту на объекты переднего плана через усиление остаточных признаков и уточнению пространственного восприятия с использованием объема априорной занятости, NeuGrasp демонстрирует превосходство в работе с объектами, имеющими прозрачные и зеркальные поверхности. Многочисленные эксперименты в симулированных и реальных сценариях показывают, что NeuGrasp превосходит современные методы в задачах захвата, сохраняя при этом сопоставимое качество реконструкции. Дополнительные детали доступны на https://neugrasp.github.io/.
Хотя модели генерации на основе оценок являются предпочтительным выбором в различных областях, существует ограниченное количество инструментов для контролируемого управления поведением на этапе вывода в принципиальном ключе, например, для композиции нескольких предобученных моделей. Существующие методы без использования классификаторов применяют простую эвристику для смешивания условных и безусловных оценок с целью приближенной выборки из условных распределений. Однако такие методы не аппроксимируют промежуточные распределения, что требует дополнительных шагов "коррекции". В данной работе мы предлагаем эффективный и принципиальный метод для выборки из последовательности аннелированных, геометрически усредненных или произведенных распределений, полученных из предобученных моделей на основе оценок. Мы выводим взвешенную схему моделирования, которую называем Корректорами Фейнмана-Каца (FKC), основываясь на знаменитой формуле Фейнмана-Каца, тщательно учитывая члены соответствующих дифференциальных уравнений в частных производных (ДУЧП). Для моделирования этих ДУЧП мы предлагаем алгоритмы повторной выборки на основе метода последовательного Монте-Карло (SMC), которые используют масштабирование на этапе вывода для улучшения качества выборки. Мы эмпирически демонстрируем полезность наших методов, предлагая амортизированную выборку через аннелирование температуры на этапе вывода, улучшая генерацию молекул с несколькими целями с использованием предобученных моделей и повышая качество генерации изображений из текста без использования классификаторов. Наш код доступен по адресу https://github.com/martaskrt/fkc-diffusion.