Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем CameraBench — масштабный набор данных и эталонный тест, предназначенные для оценки и улучшения понимания движений камеры. CameraBench включает около 3000 разнообразных интернет-видео, аннотированных экспертами в рамках строгого многоэтапного процесса контроля качества. Одним из наших вкладов является таксономия базовых движений камеры, разработанная совместно с кинооператорами. Мы обнаружили, например, что некоторые движения, такие как "следование" (или трекинг), требуют понимания содержания сцены, например, движущихся объектов. Мы провели масштабное исследование с участием людей, чтобы количественно оценить качество аннотаций, и выяснили, что экспертные знания и обучение на основе обучающих материалов могут значительно повысить точность. Например, новичок может спутать увеличение (изменение внутренних параметров) с движением вперед (изменение внешних параметров), но может быть обучен различать их. Используя CameraBench, мы оценили модели Structure-from-Motion (SfM) и Video-Language Models (VLMs), обнаружив, что модели SfM испытывают трудности с захватом семантических базовых движений, зависящих от содержания сцены, в то время как VLMs плохо справляются с геометрическими базовыми движениями, требующими точного расчета траекторий. Затем мы дообучили генеративную VLM на CameraBench, чтобы объединить лучшие качества обеих моделей, и продемонстрировали её приложения, включая создание подписей с учетом движений камеры, ответы на вопросы по видео и поиск видео по тексту. Мы надеемся, что наша таксономия, эталонный тест и обучающие материалы будут способствовать дальнейшим усилиям в достижении конечной цели — понимания движений камеры в любом видео.
Представляем Skywork R1V2 — модель следующего поколения для мультимодального анализа, представляющую собой значительный шаг вперед по сравнению с её предшественницей, Skywork R1V. В основе R1V2 лежит гибридная парадигма обучения с подкреплением, которая гармонично сочетает управление на основе моделей вознаграждения с правилами, основанными на стратегиях, тем самым решая давнюю проблему баланса между сложными аналитическими способностями и широкой обобщаемостью. Для дальнейшего повышения эффективности обучения мы предлагаем механизм Selective Sample Buffer (SSB), который эффективно устраняет проблему "исчезающих преимуществ", присущую Group Relative Policy Optimization (GRPO), за счёт приоритизации высокоценных выборок на протяжении всего процесса оптимизации. Примечательно, что мы наблюдаем, что чрезмерные сигналы подкрепления могут вызывать визуальные галлюцинации — явление, которое мы систематически отслеживаем и смягчаем с помощью калиброванных порогов вознаграждения в процессе обучения. Эмпирические результаты подтверждают исключительные возможности R1V2, демонстрируя лидирующие показатели на бенчмарках: 62.6 на OlympiadBench, 79.0 на AIME2024, 63.6 на LiveCodeBench и 74.0 на MMMU. Эти результаты подчеркивают превосходство R1V2 над существующими открытыми моделями и демонстрируют значительный прогресс в сокращении разрыва в производительности с ведущими проприетарными системами, включая Gemini 2.5 и OpenAI o4-mini. Веса модели Skywork R1V2 были опубликованы в открытом доступе для содействия открытости и воспроизводимости: https://huggingface.co/Skywork/Skywork-R1V2-38B.
Эффективное развертывание 1-битных больших языковых моделей (LLM) затруднено из-за выбросов в активациях, что усложняет квантование до низкой битовой ширины. Мы представляем BitNet v2 — новую структуру, позволяющую использовать нативное 4-битное квантование активаций для 1-битных LLM. Для устранения выбросов в активациях внимания и прямого распространения сети мы предлагаем модуль H-BitLinear, который применяет онлайн-преобразование Адамара перед квантованием активаций. Это преобразование сглаживает резкие распределения активаций, приближая их к гауссовым формам, что подходит для низкобитового представления. Эксперименты показывают, что BitNet v2, обученная с нуля с 8-битными активациями, соответствует производительности BitNet b1.58. Важно отметить, что BitNet v2 демонстрирует минимальное снижение производительности при обучении с нативными 4-битными активациями, значительно уменьшая объем памяти и вычислительные затраты при пакетном выводе.
Оценка способностей мультимодальных ИИ-систем к пониманию видео может эффективно измерять их способности к пониманию и рассуждению. Большинство бенчмарков для оценки видео ограничены одним языком, обычно английским, и преимущественно включают видео, основанные на западных культурных контекстах. В данной статье мы представляем VideoVista-CulturalLingo — первый бенчмарк для оценки видео, разработанный для преодоления культурного, языкового и предметного разрыва в понимании видео. Наша работа отличается от существующих бенчмарков следующими аспектами: 1) Культурное разнообразие, включающее культуры Китая, Северной Америки и Европы; 2) Многоязычность, с вопросами, представленными на китайском и английском — двух наиболее распространённых языках; и 3) Широкий охват предметных областей, включающий видео из сотен созданных человеком доменов. VideoVista-CulturalLingo содержит 1 389 видео и 3 134 пары вопросов и ответов, и мы оценили 24 недавние открытые или проприетарные крупные модели для работы с видео. По результатам экспериментов мы наблюдаем следующее: 1) Существующие модели показывают худшие результаты на вопросах, связанных с китайской культурой, по сравнению с западными, особенно в вопросах, касающихся китайской истории; 2) Текущие открытые модели всё ещё демонстрируют ограничения в понимании временных аспектов, особенно в задаче локализации событий, достигая максимального результата всего в 45,2%; 3) Основные модели показывают сильные результаты в общих научных вопросах, в то время как открытые модели демонстрируют слабые результаты в математике.
Мы представляем Kimi-Audio, открытую аудио-модель, которая демонстрирует выдающиеся результаты в понимании, генерации и ведении диалогов на основе аудио. Мы подробно описываем подходы, использованные при создании Kimi-Audio, включая архитектуру модели, подготовку данных, рецепт обучения, развертывание для вывода и оценку. В частности, мы используем аудио-токенизатор с частотой 12,5 Гц, разрабатываем новую архитектуру на основе языковой модели (LLM), которая принимает на вход непрерывные признаки и выдает дискретные токены, а также создаем потоковый детокенизатор на основе chunk-wise подхода с использованием метода flow matching. Мы подготовили предобучающий набор данных, содержащий более 13 миллионов часов аудио, охватывающего широкий спектр модальностей, включая речь, звуки и музыку, и разработали конвейер для создания высококачественных и разнообразных данных для пост-обучения. Инициализированная на основе предобученной LLM, Kimi-Audio проходит дополнительное предобучение на аудио и текстовых данных с использованием нескольких тщательно разработанных задач, а затем дообучается для поддержки широкого спектра аудио-задач. Обширная оценка показывает, что Kimi-Audio достигает передовых результатов на ряде аудио-бенчмарков, включая распознавание речи, понимание аудио, ответы на вопросы по аудио и речевые диалоги. Мы публикуем исходный код, контрольные точки модели, а также инструменты для оценки на https://github.com/MoonshotAI/Kimi-Audio.
Мультимодальный анализ языка — это быстро развивающаяся область, которая использует несколько модальностей для улучшения понимания высокоуровневой семантики, лежащей в основе человеческих разговорных высказываний. Несмотря на её важность, мало исследований было посвящено изучению способности мультимодальных больших языковых моделей (MLLM) к пониманию семантики на когнитивном уровне. В данной статье мы представляем MMLA, комплексный бенчмарк, специально разработанный для устранения этого пробела. MMLA включает более 61 тыс. мультимодальных высказываний, взятых как из постановочных, так и из реальных сценариев, охватывая шесть ключевых аспектов мультимодальной семантики: намерение, эмоции, речевой акт, настроение, стиль речи и коммуникативное поведение. Мы оцениваем восемь основных ветвей языковых моделей (LLM) и MLLM с использованием трёх методов: инференции с нулевым обучением, контролируемого тонкого настройки и настройки с инструкциями. Обширные эксперименты показывают, что даже тонко настроенные модели достигают точности лишь около 60–70%, что подчеркивает ограничения современных MLLM в понимании сложного человеческого языка. Мы считаем, что MMLA послужит прочной основой для изучения потенциала больших языковых моделей в мультимодальном анализе языка и предоставит ценные ресурсы для продвижения этой области. Наборы данных и код доступны по адресу https://github.com/thuiar/MMLA.
Количество предварительно обученных крупных языковых моделей (LLM) неуклонно растет, однако большинство из них разработаны преимущественно для английского языка. Хотя современные LLM способны обрабатывать другие языки благодаря языковой контаминации или определенной степени многоязычных данных предварительного обучения, они не оптимизированы для неанглийских языков, что приводит к неэффективному кодированию (высокой "фертильности" токенов) и снижению скорости вывода. В данной работе мы тщательно сравниваем различные методы адаптации словаря для оптимизации английских LLM под итальянский язык и предлагаем Semantic Alignment Vocabulary Adaptation (SAVA) — новый метод, использующий нейронное отображение для замены словаря. SAVA демонстрирует конкурентоспособные результаты в различных задачах, улучшая стратегии заземленного выравнивания. Мы адаптируем две модели: Mistral-7b-v0.1, сокращая фертильность токенов на 25%, и Llama-3.1-8B, оптимизируя словарь и уменьшая количество параметров на 1 миллиард. Мы показываем, что после адаптации словаря эти модели могут восстановить свою производительность при относительно ограниченном этапе непрерывного обучения на целевом языке. Наконец, мы тестируем возможности адаптированных моделей на различных задачах с множественным выбором и генеративных задачах.
Разреженное внимание представляет собой перспективную стратегию для расширения возможностей обработки длинных контекстов в трансформерных языковых моделях (LLM), однако его жизнеспособность, компромиссы между эффективностью и точностью, а также систематические исследования масштабирования остаются недостаточно изученными. Чтобы восполнить этот пробел, мы проводим тщательное сравнение методов разреженного внимания, не требующих обучения, на различных масштабах моделей, длинах последовательностей и уровнях разреженности для разнообразных задач с длинными последовательностями, включая новые задачи, которые опираются на естественный язык, оставаясь при этом контролируемыми и легко оцениваемыми. На основе наших экспериментов мы представляем ряд ключевых выводов: 1) анализ isoFLOPS показывает, что для очень длинных последовательностей предпочтительны более крупные и высокоразреженные модели по сравнению с меньшими и плотными. 2) Уровень разреженности, достижимый при статистической гарантии сохранения точности, выше на этапе декодирования, чем на этапе предварительного заполнения, и коррелирует с размером модели в первом случае. 3) Не существует универсальной стратегии, которая бы наилучшим образом работала для всех задач и этапов, требуя различных единиц разрежения или адаптивности бюджета для разных сценариев. Даже умеренные уровни разреженности часто приводят к значительному ухудшению производительности хотя бы в одной задаче, что подчеркивает, что разреженное внимание не является универсальным решением. 4) Мы вводим и подтверждаем новые законы масштабирования, специально разработанные для разреженного внимания, что свидетельствует о том, что наши выводы, вероятно, останутся справедливыми за пределами нашего диапазона экспериментов. Благодаря этим инсайтам мы демонстрируем, что разреженное внимание является ключевым инструментом для расширения возможностей трансформерных LLM в обработке более длинных последовательностей, но требует тщательной оценки компромиссов для производительно-чувствительных приложений.
Мы представляем новое поколение компактных моделей для рассуждений, предназначенных для RAG, поиска и обобщения источников. Модели Pleias-RAG-350m и Pleias-RAG-1B прошли промежуточное обучение на большом синтетическом наборе данных, имитирующем извлечение информации из разнообразных многоязычных открытых источников из Common Corpus. Они обеспечивают встроенную поддержку цитирования и привязки к источникам с использованием прямых цитат, а также интегрируют множество функций, связанных с рабочими процессами RAG, таких как маршрутизация запросов, реформулировка запросов и переранжирование источников. Pleias-RAG-350m и Pleias-RAG-1B превосходят модели с менее чем 4 миллиардами параметров на стандартных бенчмарках RAG (HotPotQA, 2wiki) и конкурируют с популярными более крупными моделями, включая Qwen-2.5-7B, Llama-3.1-8B и Gemma-3-4B. На сегодняшний день это единственные компактные модели, которые демонстрируют стабильную производительность RAG для ведущих европейских языков и обеспечивают систематическую привязку утверждений к источникам. Благодаря своему размеру, простоте развертывания на ограниченной инфраструктуре и повышенной точности по замыслу, эти модели открывают новые возможности для использования генеративного ИИ.
Мы предлагаем обучить модель генерации персонализированных видео, ориентированную на конкретный объект, путем разделения обучения, специфичного для объекта, и временной динамики в условиях нулевого сэмплинга без дополнительной настройки. Традиционный метод персонализации видео, не требующий настройки, часто опирается на большие аннотированные наборы видеоданных, что требует значительных вычислительных ресурсов и обширной аннотации. В отличие от предыдущего подхода, мы предлагаем использовать набор данных для персонализации изображений непосредственно для обучения моделей персонализации видео, разделяя персонализацию видео на два этапа: (1) внедрение идентичности через набор данных для персонализации изображений и (2) сохранение временного моделирования с использованием небольшого набора неаннотированных видео через метод обучения "изображение-в-видео". Дополнительно мы применяем случайное отбрасывание токенов изображения с рандомизированной инициализацией изображений во время тонкой настройки "изображение-в-видео", чтобы смягчить проблему копирования и вставки. Для дальнейшего улучшения обучения мы вводим стохастическое переключение во время совместной оптимизации специфичных для объекта и временных признаков, что позволяет смягчить катастрофическое забывание. Наш метод демонстрирует высокую согласованность объекта и масштабируемость, превосходя существующие модели персонализации видео в условиях нулевого сэмплинга, что подтверждает эффективность нашей методологии.
Эффективное рассуждение остается ключевой задачей для больших языковых моделей (LLMs) в финансовой сфере, где задачи часто требуют специализированных знаний, точных численных расчетов и строгого соблюдения нормативных правил. Мы представляем DianJin-R1, фреймворк с усиленным рассуждением, разработанный для решения этих задач с помощью надзора, дополненного рассуждениями, и обучения с подкреплением. Основой нашего подхода является DianJin-R1-Data, высококачественный набор данных, созданный на основе CFLUE, FinQA и проприетарного корпуса по соблюдению нормативных требований (Chinese Compliance Check, CCC), объединяющий разнообразные сценарии финансового рассуждения с проверенными аннотациями. Наши модели, DianJin-R1-7B и DianJin-R1-32B, доработаны на основе Qwen2.5-7B-Instruct и Qwen2.5-32B-Instruct с использованием структурированного формата, который генерирует как шаги рассуждения, так и итоговые ответы. Для дальнейшего улучшения качества рассуждений мы применяем Group Relative Policy Optimization (GRPO), метод обучения с подкреплением, который включает двойные сигналы вознаграждения: один поощряет структурированные выходные данные, а другой вознаграждает правильность ответов. Мы оцениваем наши модели на пяти тестовых наборах: трех финансовых (CFLUE, FinQA и CCC) и двух общих для рассуждений (MATH-500 и GPQA-Diamond). Экспериментальные результаты показывают, что модели DianJin-R1 стабильно превосходят свои аналоги без рассуждений, особенно на сложных финансовых задачах. Более того, на реальном наборе данных CCC наши модели с одношаговым рассуждением соответствуют или даже превосходят производительность мультиагентных систем, требующих значительно больших вычислительных затрат. Эти результаты демонстрируют эффективность DianJin-R1 в улучшении финансового рассуждения через структурированный надзор и обучение, согласованное с вознаграждением, предлагая масштабируемое и практичное решение для реальных приложений.
При наличии одного размеченного примера, задача контекстной сегментации заключается в выделении соответствующих объектов. Этот подход, известный как однослойная сегментация в рамках обучения с малым количеством примеров, исследует способность модели к обобщению и применяется в различных задачах компьютерного зрения, включая понимание сцен и редактирование изображений/видео. Хотя современные модели Segment Anything достигли передовых результатов в интерактивной сегментации, они не применимы напрямую к контекстной сегментации. В данной работе мы предлагаем метод Dual Consistency SAM (DC-SAM), основанный на настройке подсказок, для адаптации SAM и SAM2 к контекстной сегментации изображений и видео. Основная идея заключается в улучшении характеристик кодировщика подсказок SAM для сегментации за счет предоставления высококачественных визуальных подсказок. При создании маски-приоритета мы объединяем характеристики SAM для лучшего согласования кодировщика подсказок. Затем мы разрабатываем цикл-согласованное кросс-внимание на объединенных характеристиках и начальных визуальных подсказках. Далее, мы предлагаем двухветвевую архитектуру, используя дискриминативные положительные и отрицательные подсказки в кодировщике подсказок. Кроме того, мы разрабатываем простую стратегию обучения маски-трубы для внедрения нашего метода двойной согласованности в маску-трубу. Хотя DC-SAM изначально разработан для изображений, он может быть легко расширен на область видео с поддержкой SAM2. Учитывая отсутствие контекстной сегментации в области видео, мы вручную создаем и формируем первый бенчмарк из существующих наборов данных для сегментации видео, названный In-Context Video Object Segmentation (IC-VOS), для более точной оценки контекстных возможностей модели. Многочисленные эксперименты показывают, что наш метод достигает 55.5 (+1.4) mIoU на COCO-20i, 73.0 (+1.1) mIoU на PASCAL-5i и оценку J&F 71.52 на предложенном бенчмарке IC-VOS. Наш исходный код и бенчмарк доступны по адресу https://github.com/zaplm/DC-SAM.