Ежедневно отобранные исследовательские статьи по ИИ с переводами
Улучшение существующих моделей за счет новых знаний является важным аспектом развития искусственного интеллекта. В данной статье представлен новый метод интеграции нового языка в крупную языковую модель (LLM). Наш подход успешно внедряет ранее неизвестный целевой язык в существующую LLM, не нарушая ее предыдущих знаний. Мы обучили небольшую модель с 1,5 миллиардами параметров, названную Kuwain, путем внедрения арабского языка в небольшую модель с открытым исходным кодом, в основном обученную на английском языке. Наш метод демонстрирует значительное улучшение производительности в арабском языке, со средним улучшением на 8% по различным тестам, при этом сохраняя существующие знания модели с минимальным использованием данных исходной модели. Это предлагает экономически эффективную альтернативу обучению всеобъемлющей модели на английском и арабском языках. Результаты подчеркивают потенциал для эффективного и целенаправленного расширения языковых моделей без необходимости масштабного переобучения или ресурсоемких процессов.
В данной статье исследуется применение обучения с подкреплением (Reinforcement Learning, RL) на данных без явных меток для задач логического вывода в больших языковых моделях (Large Language Models, LLMs). Основная проблема заключается в оценке вознаграждения на этапе вывода при отсутствии доступа к эталонной информации. Хотя такая постановка задачи кажется сложной, мы обнаруживаем, что стандартные практики масштабирования на этапе тестирования (Test-Time Scaling, TTS), такие как мажоритарное голосование, позволяют получить удивительно эффективные вознаграждения, пригодные для обучения RL. В этой работе мы представляем Test-Time Reinforcement Learning (TTRL) — новый метод обучения LLMs с использованием RL на немаркированных данных. TTRL позволяет моделям саморазвиваться, используя априорные знания, заложенные в предобученных моделях. Наши эксперименты показывают, что TTRL стабильно улучшает производительность в различных задачах и моделях. В частности, TTRL повышает показатель pass@1 модели Qwen-2.5-Math-7B примерно на 159% на данных AIME 2024, используя только немаркированные тестовые данные. Более того, хотя TTRL контролируется только метрикой Maj@N, он демонстрирует производительность, которая стабильно превышает верхний предел исходной модели и приближается к результатам моделей, обученных непосредственно на тестовых данных с эталонными метками. Наши экспериментальные результаты подтверждают общую эффективность TTRL в различных задачах и подчеркивают его потенциал для более широкого круга задач и областей. GitHub: https://github.com/PRIME-RL/TTRL
По мере того как крупные языковые модели (LLM) продолжают совершенствовать свои лингвистические способности, надежная многоязычная оценка становится важным элементом для обеспечения справедливого технологического прогресса. В данной аналитической статье рассматривается более 2000 многоязычных (неанглоязычных) тестовых наборов из 148 стран, опубликованных в период с 2021 по 2024 год, с целью оценки прошлых, текущих и будущих практик в области многоязычного тестирования. Наши результаты показывают, что, несмотря на значительные инвестиции, исчисляемые десятками миллионов долларов, английский язык остается существенно перепредставленным в этих тестовых наборах. Кроме того, большинство наборов данных опираются на оригинальные тексты, а не на переводы, причем основная их часть поступает из стран с высоким уровнем ресурсов, таких как Китай, Индия, Германия, Великобритания и США. Более того, сравнение результатов тестовых наборов с оценками людей выявляет заметные расхождения. Задачи, связанные с STEM, демонстрируют сильную корреляцию с человеческими оценками (0,70–0,85), тогда как традиционные задачи NLP, такие как ответы на вопросы (например, XQuAD), показывают гораздо более слабую корреляцию (0,11–0,30). Кроме того, перевод англоязычных тестовых наборов на другие языки оказывается недостаточным, поскольку локализованные наборы данных демонстрируют значительно более высокое соответствие локальным человеческим оценкам (0,68) по сравнению с их переведенными аналогами (0,47). Это подчеркивает важность создания культурно и лингвистически адаптированных тестовых наборов вместо полного reliance на переводы. В рамках этого всестороннего анализа мы выделяем шесть ключевых ограничений текущих практик многоязычной оценки, предлагаем соответствующие руководящие принципы для эффективного многоязычного тестирования и намечаем пять критически важных направлений исследований для продвижения в этой области. Наконец, мы призываем к глобальному сотрудничеству в разработке тестовых наборов, ориентированных на человека и приоритизирующих реальные приложения.
Создание детальных и точных описаний для конкретных областей на изображениях и в видеороликах остается фундаментальной задачей для моделей, работающих на стыке зрения и языка. Мы представляем модель Describe Anything Model (DAM), разработанную для детального локализованного описания (DLC). DAM сохраняет как локальные детали, так и глобальный контекст благодаря двум ключевым инновациям: фокальному промпту, который обеспечивает высокоточное кодирование целевых областей, и локализованной визуальной основе, которая интегрирует точную локализацию с более широким контекстом. Для решения проблемы недостатка высококачественных данных DLC мы предлагаем полуавтоматический конвейер данных на основе полуконтролируемого обучения (SSL) — DLC-SDP. DLC-SDP начинается с существующих наборов данных для сегментации и расширяется на неразмеченные изображения из интернета с использованием SSL. Мы также представляем DLC-Bench — эталонный тест, предназначенный для оценки DLC без использования эталонных описаний. DAM устанавливает новый рекорд на 7 эталонных тестах, охватывающих ключевые слова, фразы и детальные многосложные описания для локализованных изображений и видеороликов.
Масштабирование вычислений на этапе вывода существенно улучшило способности языковых моделей к рассуждению. Однако существующие методы имеют значительные ограничения: последовательные подходы, такие как цепочка рассуждений, генерируют излишне длинные выходные данные, что приводит к увеличению задержек и исчерпанию контекстных окон, в то время как параллельные методы, такие как самосогласованность, страдают от недостаточной координации, что приводит к избыточным вычислениям и ограниченному повышению производительности. Для устранения этих недостатков мы предлагаем Adaptive Parallel Reasoning (APR) — новый фреймворк для рассуждений, который позволяет языковым моделям управлять как последовательными, так и параллельными вычислениями на сквозной основе. APR обобщает существующие методы рассуждений, позволяя адаптивное многопоточное выполнение выводов с использованием операций spawn() и join(). Ключевым нововведением является наша сквозная стратегия обучения с подкреплением, которая оптимизирует как родительские, так и дочерние потоки вывода для повышения успешности выполнения задач без необходимости предопределенных структур рассуждений. Эксперименты на задаче Countdown демонстрируют значительные преимущества APR: (1) более высокая производительность в рамках того же контекстного окна (83,4% против 60,0% при 4k контекста); (2) превосходная масштабируемость с увеличением объема вычислений (80,1% против 66,6% при 20k общих токенов); (3) улучшенная точность при эквивалентной задержке (75,2% против 57,3% при примерно 5000 мс). APR представляет собой шаг к тому, чтобы языковые модели могли автономно оптимизировать свои процессы рассуждений за счет адаптивного распределения вычислений.
Современные крупные языковые модели для видео (Video LLMs) часто зависят от дорогостоящих человеческих аннотаций или проприетарных API моделей (например, GPT-4o) для создания обучающих данных, что ограничивает их масштабируемое обучение. В данной работе мы исследуем крупномасштабное обучение Video LLM с использованием дешевых транскриптов автоматического распознавания речи (ASR). В частности, мы предлагаем новый подход к потоковому обучению, который плотно переплетает слова ASR и кадры видео в соответствии с их временными метками. По сравнению с предыдущими исследованиями в области представления "визуальный язык" с использованием ASR, наш метод естественным образом соответствует потоковым характеристикам ASR, что позволяет модели изучать временно согласованное, детализированное моделирование "визуальный язык". Для поддержки алгоритма обучения мы представляем конвейер обработки данных для обработки видео с YouTube и их субтитров (CC, аналогичных ASR), что приводит к созданию набора данных Live-CC-5M для предварительного обучения и набора данных Live-WhisperX-526K для высококачественного контролируемого тонкого настройки (SFT). Примечательно, что даже без SFT модель LiveCC-7B-Base, предварительно обученная только на ASR, демонстрирует конкурентоспособную производительность в общих задачах видео-QA и проявляет новую способность в реальном времени комментировать видео. Для оценки этого мы тщательно разработали новый бенчмарк LiveSports-3K, используя LLM-как-судью для измерения свободного комментария. Эксперименты показывают, что наша финальная модель LiveCC-7B-Instruct может превзойти продвинутые 72B модели (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) по качеству комментариев, даже работая в режиме реального времени. В то же время она достигает современных результатов на уровне 7B/8B на популярных бенчмарках видео-QA, таких как VideoMME и OVOBench, демонстрируя широкую обобщаемость нашего подхода. Все ресурсы данной работы опубликованы на https://showlab.github.io/livecc.
Последние достижения в области больших языковых моделей (LLM) позволили проводить социальное моделирование с помощью мультиагентных систем. Предыдущие усилия были сосредоточены на создании агентных обществ с нуля, где агентам присваивались новые, специально определенные персонажи. Однако моделирование устоявшихся вымышленных миров и персонажей остается в значительной степени неисследованным, несмотря на его важную практическую ценность. В данной статье мы представляем BookWorld — комплексную систему для создания и моделирования мультиагентных обществ, основанных на книгах. Дизайн BookWorld охватывает сложные аспекты реального мира, включая разнообразных и динамичных персонажей, вымышленные мировоззрения, географические ограничения и изменения и т.д. BookWorld позволяет реализовать различные приложения, такие как генерация историй, интерактивные игры и социальное моделирование, предлагая новые способы расширения и исследования любимых вымышленных произведений. В ходе обширных экспериментов мы демонстрируем, что BookWorld создает креативные и качественные истории, сохраняя верность исходным книгам, превосходя предыдущие методы с показателем успешности в 75,36%. Код данной статьи доступен на странице проекта: https://bookworld2025.github.io/.
Существующие системы оценки для мультимодальных больших языковых моделей (MLLMs) в основном сосредоточены на задачах анализа изображений или общего понимания видео, практически игнорируя важную роль контекста изображения в восприятии видео. Чтобы устранить этот пробел, мы предлагаем IV-Bench — первый всеобъемлющий бенчмарк для оценки восприятия и анализа видео, основанного на изображениях. IV-Bench включает 967 видео, сопровождаемых 2 585 тщательно аннотированных текстово-изобразительных запросов, охватывающих 13 задач (7 задач восприятия и 6 задач анализа) и 5 репрезентативных категорий. Обширные оценки современных открытых (например, InternVL2.5, Qwen2.5-VL) и закрытых (например, GPT-4o, Gemini2-Flash и Gemini2-Pro) MLLMs демонстрируют, что текущие модели значительно отстают в восприятии и анализе видео, основанном на изображениях, достигая точности не более 28,9%. Дополнительный анализ выявляет ключевые факторы, влияющие на производительность моделей на IV-Bench, включая шаблон вывода, количество кадров и разрешение. Кроме того, с помощью простого подхода к синтезу данных мы показываем, что задачи IV-Bench выходят за рамки простого согласования формата данных в процессе обучения. Эти результаты в совокупности предоставляют ценные инсайты для будущих исследований. Наши коды и данные доступны по адресу https://github.com/multimodal-art-projection/IV-Bench.
Успех крупных языковых моделей (LLM) вызвал интерес к различным агентным приложениям. Ключевая гипотеза заключается в том, что LLM, используя здравый смысл и рассуждения по цепочке мыслей (Chain-of-Thought, CoT), могут эффективно исследовать и решать сложные задачи. Однако было обнаружено, что LLM-агенты страдают от субоптимального исследования и разрыва между знанием и действием (knowing-doing gap), то есть неспособности эффективно применять знания, присутствующие в модели. В данной работе мы систематически изучаем, почему LLM демонстрируют субоптимальные результаты в сценариях принятия решений. В частности, мы подробно рассматриваем три распространённых типа сбоев: жадность, частотное смещение и разрыв между знанием и действием. Мы предлагаем устранить эти недостатки с помощью тонкой настройки методом обучения с подкреплением (Reinforcement Learning, RL) на основе самостоятельно сгенерированных CoT-рассуждений. Наши эксперименты с многорукими бандитами, контекстными бандитами и крестиками-ноликами демонстрируют, что тонкая настройка с помощью RL улучшает способность LLM принимать решения за счёт увеличения исследования и сокращения разрыва между знанием и действием. Наконец, мы изучаем как классические механизмы исследования, такие как эпсилон-жадность, так и специфические для LLM подходы, такие как самокоррекция и самосогласованность, чтобы обеспечить более эффективную тонкую настройку LLM для принятия решений.
Недавние достижения в области крупных языковых моделей продемонстрировали эффективность масштабирования длины в процессе посттренировки, однако его потенциал на этапе предтренировки остается недостаточно изученным. Мы представляем Parallel Hidden Decoding Transformer (PHD-Transformer) — новую архитектуру, которая обеспечивает эффективное масштабирование длины на этапе предтренировки, сохраняя при этом эффективность на этапе вывода. PHD-Transformer достигает этого за счет инновационной стратегии управления кэшем ключей и значений (KV), которая различает исходные токены и токены скрытого декодирования. Сохраняя кэш KV только для исходных токенов для учета долгосрочных зависимостей и немедленно удаляя токены скрытого декодирования после их использования, наш подход сохраняет тот же размер кэша KV, что и в классическом трансформере, обеспечивая при этом эффективное масштабирование длины. Для дальнейшего повышения производительности мы представляем две оптимизированные версии: PHD-SWA использует скользящее окно внимания для сохранения локальных зависимостей, а PHD-CSWA реализует чанковое скользящее окно внимания, чтобы устранить линейный рост времени предзаполнения. Многочисленные эксперименты демонстрируют стабильные улучшения на множестве бенчмарков.
Можем ли мы построить точные модели мира на основе больших языковых моделей (LLM)? Как модели мира могут улучшить агентов на основе LLM? Разрыв между априорными знаниями LLM и динамикой конкретной среды обычно ограничивает их производительность в качестве моделей мира. Чтобы преодолеть этот разрыв, мы предлагаем метод "выравнивания мира" без обучения, который извлекает символические знания о среде, дополняющие LLM. Эти символические знания включают правила действий, графы знаний и графы сцен, которые извлекаются LLM из траекторий исследования и кодируются в исполняемый код для регулирования политик агентов LLM. Мы также предлагаем агента "WALL-E 2.0", основанного на модели и не требующего обучения с подкреплением (RL), в рамках модели прогнозирующего управления (MPC). В отличие от классического MPC, требующего дорогостоящей оптимизации в реальном времени, мы используем агента LLM в качестве эффективного оптимизатора будущих шагов, взаимодействующего с нейросимволической моделью мира. Хотя сильные эвристики агента LLM делают его эффективным планировщиком в MPC, качество его запланированных действий также обеспечивается точными прогнозами выровненной модели мира. Вместе они значительно повышают эффективность обучения в новой среде. В открытых задачах в среде Mars (подобной Minecraft) и ALFWorld (воплощенные внутренние среды) WALL-E 2.0 значительно превосходит существующие методы, например, превышая базовые показатели в Mars на 16,1%-51,6% по успешности и как минимум на 61,7% по баллам. В ALFWorld он достигает нового рекорда — 98% успешности всего за 4 итерации.
Персонализированный синтез изображений стал ключевым приложением в области генерации изображений по текстовым описаниям, позволяя создавать изображения с определёнными объектами в различных контекстах. Хотя диффузионные модели доминируют в этой области, авторегрессивные модели, благодаря их унифицированной архитектуре для обработки текста и изображений, остаются недостаточно изученными для персонализированной генерации изображений. В данной статье исследуется потенциал оптимизации авторегрессивных моделей для персонализированного синтеза изображений, используя их встроенные мультимодальные возможности для выполнения этой задачи. Мы предлагаем двухэтапную стратегию обучения, которая сочетает оптимизацию текстовых эмбеддингов и тонкую настройку трансформерных слоёв. Наши эксперименты с авторегрессивной моделью демонстрируют, что этот метод достигает сопоставимой точности в воспроизведении объектов и следовании текстовым описаниям с ведущими методами персонализации на основе диффузии. Результаты подчеркивают эффективность авторегрессивных моделей в персонализированной генерации изображений, открывая новое направление для будущих исследований в этой области.
Люди способны формировать внутренние модели мира, которые кодируют знания здравого смысла, объясняя, как устроен мир, и предсказывая последствия их действий. Эта концепция стала перспективным направлением для создания универсальных моделей машинного обучения в последних предварительных работах, например, в обучении визуальных представлений. В данной статье мы представляем CheXWorld — первую попытку создания самообучаемой модели мира для рентгеновских изображений. В частности, наша работа разрабатывает унифицированную структуру, которая одновременно моделирует три аспекта медицинских знаний, необходимых для квалифицированных радиологов, включая: 1) локальные анатомические структуры, описывающие детальные характеристики локальных тканей (например, архитектуру, форму и текстуру); 2) глобальные анатомические схемы, описывающие общую организацию человеческого тела (например, расположение органов и скелета); и 3) вариации доменов, которые побуждают CheXWorld моделировать переходы между различными визуальными доменами рентгеновских снимков (например, различия в четкости, контрасте и экспозиции, вызванные сбором снимков в разных больницах, на разных устройствах или у разных пациентов). Эмпирически мы разработали специализированные качественные и количественные анализы, которые показывают, что CheXWorld успешно захватывает эти три измерения медицинских знаний. Более того, эксперименты по трансферному обучению на восьми эталонных задачах классификации и сегментации медицинских изображений демонстрируют, что CheXWorld значительно превосходит существующие методы самообучения (SSL) и крупномасштабные медицинские базовые модели. Код и предобученные модели доступны по адресу https://github.com/LeapLabTHU/CheXWorld.
Современные модели диффузии для генерации изображений по тексту достигают впечатляющего визуального качества благодаря масштабированию обучающих данных и параметров модели, однако часто испытывают трудности с обработкой сложных сцен и детализированных элементов. Вдохновленные способностью к саморефлексии, проявляющейся в крупных языковых моделях, мы предлагаем ReflectionFlow — фреймворк для этапа вывода, который позволяет моделям диффузии итеративно анализировать и улучшать свои результаты. ReflectionFlow вводит три взаимодополняющих оси масштабирования на этапе вывода: (1) масштабирование уровня шума для оптимизации инициализации латентного пространства; (2) масштабирование уровня подсказки для точного семантического управления; и, что наиболее важно, (3) масштабирование уровня рефлексии, которое явно предоставляет полезные отзывы для итеративной оценки и исправления предыдущих генераций. Для реализации масштабирования уровня рефлексии мы создали GenRef — крупномасштабный набор данных, содержащий 1 миллион триплетов, каждый из которых включает отзыв, изображение с недостатками и улучшенное изображение. Используя этот набор данных, мы эффективно выполняем настройку рефлексии для современного диффузионного трансформера FLUX.1-dev, совместно моделируя мультимодальные входные данные в рамках единого фреймворка. Экспериментальные результаты показывают, что ReflectionFlow значительно превосходит наивные методы масштабирования уровня шума, предлагая масштабируемое и вычислительно эффективное решение для синтеза изображений более высокого качества в сложных задачах.
Люди естественным образом делятся информацией с теми, с кем они связаны, и видео стало одним из основных средств коммуникации и самовыражения в Интернете. Для поддержки создания высококачественного крупномасштабного видеоконтента современный процесс требует глубокого понимания как исходных материалов (например, необработанных видеозаписей, снятых камерами), так и компонентов редактирования (например, визуальных эффектов). В сценариях редактирования видео модели должны обрабатывать несколько модальностей (например, визуальные данные, аудио, текст) с глубокими фоновыми знаниями и справляться с гибкой длиной входных данных (например, часовыми исходными видео), что представляет значительные трудности для традиционных моделей. В этом отчете мы представляем Vidi — семейство крупных мультимодальных моделей (LMM) для широкого спектра сценариев понимания и редактирования видео. Первый выпуск сосредоточен на временном поиске, то есть на определении временных диапазонов во входных видео, соответствующих заданному текстовому запросу, что играет ключевую роль в интеллектуальном редактировании. Модель способна обрабатывать часовые видео с высокой способностью к временному пониманию, например, находить временные диапазоны для определенных запросов. Для поддержки всесторонней оценки в реальных сценариях мы также представляем бенчмарк VUE-TR, который вводит пять ключевых улучшений: 1) Длительность видео: значительно больше, чем в существующих наборах данных для временного поиска, 2) Поддержка аудио: включает запросы на основе аудио, 3) Формат запроса: разнообразные длины и форматы запросов, 4) Качество аннотаций: временные диапазоны, соответствующие истине, аннотированы вручную, 5) Метрика оценки: уточненная метрика IoU для оценки по нескольким временным диапазонам. Примечательно, что Vidi значительно превосходит ведущие проприетарные модели, такие как GPT-4o и Gemini, в задаче временного поиска, что указывает на его превосходство в сценариях редактирования видео.
Управляемая анимация персонажей остается сложной задачей, особенно в обработке редких поз, стилизованных персонажей, взаимодействий персонажей с объектами, сложного освещения и динамических сцен. Для решения этих проблем предыдущие работы в основном сосредотачивались на внедрении руководства по позам и внешнему виду через сложные обходные сети, но часто сталкивались с трудностями в обобщении на сценарии открытого мира. В данной статье мы предлагаем новый подход, согласно которому, если базовая модель достаточно мощная, простые модификации модели с гибкими стратегиями тонкой настройки могут в значительной степени решить вышеуказанные проблемы, делая шаг к управляемой анимации персонажей в реальных условиях. В частности, мы представляем RealisDance-DiT, построенную на основе видео-модели Wan-2.1. Наш подробный анализ показывает, что широко используемый дизайн Reference Net не является оптимальным для крупномасштабных моделей DiT. Вместо этого мы демонстрируем, что минимальные модификации архитектуры базовой модели дают удивительно сильный базовый уровень. Мы также предлагаем стратегии "низкошумного разогрева" и "больших пакетов и малых итераций" для ускорения сходимости модели во время тонкой настройки, максимально сохраняя приоритеты базовой модели. Кроме того, мы представляем новый тестовый набор данных, который охватывает разнообразные реальные вызовы, дополняя существующие бенчмарки, такие как набор данных TikTok и набор данных UBC fashion video, для всесторонней оценки предложенного метода. Многочисленные эксперименты показывают, что RealisDance-DiT значительно превосходит существующие методы.
Агенты на основе больших языковых моделей (LLM) представляют собой новую форму ИИ-систем, где крупные языковые модели выступают в качестве центрального компонента, используя разнообразный набор инструментов для выполнения задач, поставленных пользователем. Несмотря на их огромный потенциал, такие агенты несут значительные риски для безопасности. При взаимодействии с внешним миром они могут столкнуться с вредоносными командами от злоумышленников, что может привести к выполнению опасных действий. Перспективным подходом к решению этой проблемы является применение принципа минимальных привилегий: разрешение только тех действий, которые необходимы для выполнения задачи, при блокировке всех остальных. Однако реализация этого принципа сложна, так как требует охвата разнообразных сценариев работы агентов при сохранении как безопасности, так и функциональности. Мы представляем Progent — первый механизм контроля привилегий для агентов на основе LLM. Его основой является специализированный язык для гибкого выражения политик контроля привилегий, применяемых во время выполнения агента. Эти политики обеспечивают детализированные ограничения на вызовы инструментов, определяя, когда такие вызовы допустимы, и указывая альтернативные действия в случае их запрета. Это позволяет разработчикам и пользователям агентов создавать подходящие политики для конкретных сценариев использования и применять их детерминированно для обеспечения безопасности. Благодаря модульной архитектуре, интеграция Progent не требует изменения внутренней структуры агента и предполагает лишь минимальные изменения в его реализации, что повышает практичность и потенциал для широкого внедрения. Для автоматизации написания политик мы используем LLM, которые генерируют политики на основе запросов пользователя, а затем динамически обновляют их для улучшения безопасности и функциональности. Наши обширные эксперименты показывают, что Progent обеспечивает высокий уровень безопасности при сохранении функциональности в трех различных сценариях или тестах: AgentDojo, ASB и AgentPoison. Кроме того, мы проводим детальный анализ, демонстрирующий эффективность его ключевых компонентов и устойчивость автоматической генерации политик к адаптивным атакам.
Мы представляем MR. Video — агентную систему для понимания длинных видео, которая демонстрирует простой, но эффективный принцип MapReduce для обработки длинных видео: (1) Map: независимое и плотное восприятие коротких видеоклипов и (2) Reduce: совместная агрегация информации из всех клипов. По сравнению с последовательными моделями "видео-текст" (VLMs), MR. Video выполняет детальное восприятие коротких видео без ограничений на длину контекста. В отличие от существующих видеоагентов, которые обычно полагаются на последовательный выбор ключевых сегментов, операция Map позволяет осуществлять более простое и масштабируемое параллельное восприятие коротких видеосегментов. Шаг Reduce обеспечивает более полную агрегацию и анализ контекста, превосходя явное извлечение ключевых сегментов. Этот принцип MapReduce применим как к VLMs, так и к видеоагентам, и мы используем LLM-агенты для подтверждения его эффективности. На практике MR. Video использует два этапа MapReduce: (A) Описание: генерация описаний для коротких видеоклипов (map), а затем стандартизация повторяющихся персонажей и объектов в общие имена (reduce); (B) Анализ: для каждого пользовательского вопроса анализ релевантной информации из отдельных коротких видео (map) и её интеграция в окончательный ответ (reduce). MR. Video демонстрирует улучшение точности более чем на 10% на сложном бенчмарке LVBench по сравнению с современными VLMs и видеоагентами. Код доступен по адресу: https://github.com/ziqipang/MR-Video
Распознавание и рассуждение о скрытых (частично или полностью) объектах имеет решающее значение для понимания визуальных сцен, поскольку окклюзии часто встречаются в реальных условиях и выступают препятствиями для пространственного восприятия. Чтобы проверить способность моделей рассуждать о множестве скрытых объектов, мы представляем новую задачу — Counting Amodally for Patterns Through Unseen REgions (CAPTURe), которая требует от модели подсчёта объектов, расположенных в определённом порядке, путём вывода того, как этот порядок продолжается за окклюдером (объектом, который блокирует части сцены). CAPTURe требует как распознавания визуальных паттернов, так и логического рассуждения, что делает её полезным инструментом для оценки моделей, работающих с визуальными и языковыми данными (VLMs), на предмет их способности понимать скрытые паттерны и обладать навыками пространственного понимания. Требуя от моделей рассуждать о скрытых объектах, CAPTURe также проверяет их способность формировать модели мира, которые позволили бы им восполнять недостающую информацию. CAPTURe состоит из двух частей: (1) CAPTURe-real, содержащего вручную отобранные изображения реальных объектов в паттернах, и (2) CAPTURe-synthetic, контролируемого диагностического теста с генерированными изображениями паттернов. Мы оцениваем четыре мощные VLMs (GPT-4o, Intern-VL2, Molmo и Qwen2-VL) на CAPTURe и обнаруживаем, что модели испытывают трудности с подсчётом как на скрытых, так и на нескрытых паттернах. Важно отметить, что модели показывают худшие результаты при наличии окклюзии, что свидетельствует о недостатке VLMs в выводе скрытых пространственных отношений: даже самые сильные модели, такие как GPT-4o, не справляются с подсчётом при окклюзии. В отличие от этого, люди демонстрируют минимальные ошибки на CAPTURe. Мы также обнаруживаем, что предоставление дополнительной информации о местоположении скрытых объектов повышает производительность моделей, подчёркивая, что ошибки моделей связаны как с неспособностью справляться с окклюзией, так и с трудностями подсчёта объектов на изображениях.
Интеллектуальная собственность (ИС) представляет собой уникальную область, которая объединяет технические и юридические знания, что делает её по своей природе сложной и насыщенной информацией. По мере развития крупных языковых моделей (LLM) они демонстрируют значительный потенциал для обработки задач, связанных с ИС, позволяя более эффективно анализировать, понимать и генерировать контент, связанный с интеллектуальной собственностью. Однако существующие наборы данных и тестовые системы либо сосредоточены исключительно на патентах, либо охватывают ограниченные аспекты области ИС, не соответствуя реальным сценариям. Чтобы устранить этот пробел, мы представляем первую всеобъемлющую таксономию задач ИС и крупный, разнообразный двуязычный тестовый набор IPBench, охватывающий 8 механизмов ИС и 20 задач. Этот тестовый набор предназначен для оценки LLM в реальных приложениях, связанных с интеллектуальной собственностью, включая как понимание, так и генерацию. Мы тестируем 16 LLM, начиная от универсальных моделей и заканчивая специализированными, и обнаруживаем, что даже лучшая модель достигает точности лишь 75,8%, что указывает на значительный потенциал для улучшения. Примечательно, что модели с открытым исходным кодом, ориентированные на ИС и право, отстают от закрытых универсальных моделей. Мы публикуем все данные и код IPBench и будем продолжать обновлять его, добавляя новые задачи, связанные с ИС, чтобы лучше отражать реальные вызовы в области интеллектуальной собственности.
В данном исследовании представлена новая интерпретируемая модель DiffVox для согласования вокальных эффектов в музыкальном производстве. DiffVox, сокращение от «Differentiable Vocal Fx», объединяет параметрическую эквализацию, управление динамическим диапазоном, задержку и реверберацию с эффективными дифференцируемыми реализациями, что позволяет использовать градиентную оптимизацию для оценки параметров. Вокальные пресеты извлекаются из двух наборов данных, включающих 70 треков из MedleyDB и 365 треков из частной коллекции. Анализ корреляций параметров выявляет сильные взаимосвязи между эффектами и параметрами, например, высокочастотный и низкочастотный фильтры часто работают вместе для формирования низких частот, а время задержки коррелирует с интенсивностью задержанных сигналов. Анализ главных компонент показывает связь с измерениями тембра МакАдамса, где наиболее важный компонент модулирует воспринимаемую пространственность, а второстепенные компоненты влияют на спектральную яркость. Статистическое тестирование подтверждает не-гауссову природу распределения параметров, подчеркивая сложность пространства вокальных эффектов. Эти первоначальные результаты по распределению параметров закладывают основу для будущих исследований в области моделирования вокальных эффектов и автоматического сведения. Наш исходный код и наборы данных доступны по адресу https://github.com/SonyResearch/diffvox.