HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

20 papers found

Унифицированные модели для понимания и генерации мультимодальных данных: достижения, вызовы и перспективы
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

В последние годы наблюдается значительный прогресс как в моделях мультимодального понимания, так и в моделях генерации изображений. Несмотря на их успехи, эти две области развивались независимо, что привело к различным архитектурным парадигмам: в то время как авторегрессионные архитектуры доминируют в мультимодальном понимании, диффузионные модели стали основой генерации изображений. В последнее время растет интерес к разработке унифицированных фреймворков, объединяющих эти задачи. Появление новых возможностей GPT-4o иллюстрирует эту тенденцию, подчеркивая потенциал унификации. Однако архитектурные различия между этими областями создают значительные трудности. Чтобы предоставить четкий обзор текущих усилий по унификации, мы представляем всесторонний обзор, направленный на руководство будущими исследованиями. Сначала мы вводим основные концепции и последние достижения в моделях мультимодального понимания и генерации изображений на основе текста. Затем мы рассматриваем существующие унифицированные модели, классифицируя их на три основные архитектурные парадигмы: диффузионные, авторегрессионные и гибридные подходы, объединяющие авторегрессионные и диффузионные механизмы. Для каждой категории мы анализируем структурные решения и инновации, предложенные в соответствующих работах. Кроме того, мы собираем наборы данных и бенчмарки, адаптированные для унифицированных моделей, предоставляя ресурсы для будущих исследований. Наконец, мы обсуждаем ключевые вызовы, стоящие перед этой зарождающейся областью, включая стратегии токенизации, кросс-модальное внимание и данные. Поскольку эта область находится на ранних этапах развития, мы ожидаем быстрого прогресса и будем регулярно обновлять этот обзор. Наша цель — вдохновить дальнейшие исследования и предоставить ценное справочное пособие для сообщества. Ссылки, связанные с этим обзором, доступны на GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

ZeroSearch: Стимулирование поисковых возможностей языковых моделей без выполнения поиска
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

Эффективный поиск информации имеет решающее значение для улучшения способностей крупных языковых моделей (LLM) к рассуждению и генерации. В последних исследованиях изучалось использование обучения с подкреплением (RL) для повышения поисковых возможностей LLM путем взаимодействия с реальными поисковыми системами в реальных условиях. Хотя эти подходы демонстрируют многообещающие результаты, они сталкиваются с двумя основными проблемами: (1) Непредсказуемое качество документов: качество документов, возвращаемых поисковыми системами, часто оказывается непредсказуемым, что вносит шум и нестабильность в процесс обучения. (2) Чрезмерно высокие затраты на API: обучение с подкреплением требует частых запусков, потенциально включающих сотни тысяч поисковых запросов, что приводит к значительным расходам на API и серьезно ограничивает масштабируемость. Для решения этих проблем мы представляем ZeroSearch — фреймворк обучения с подкреплением, который стимулирует поисковые способности LLM без взаимодействия с реальными поисковыми системами. Наш подход начинается с легкой контролируемой тонкой настройки, которая превращает LLM в модуль поиска, способный генерировать как релевантные, так и зашумленные документы в ответ на запрос. В процессе обучения с подкреплением мы используем стратегию поэтапного запуска, которая постепенно ухудшает качество генерируемых документов, последовательно развивая способность модели к рассуждению, подвергая её всё более сложным сценариям поиска. Многочисленные эксперименты показывают, что ZeroSearch эффективно стимулирует поисковые способности LLM, используя 3B LLM в качестве модуля поиска. Примечательно, что 7B модуль поиска демонстрирует сопоставимую производительность с реальной поисковой системой, а 14B модуль даже превосходит её. Кроме того, подход хорошо обобщается как на базовые, так и на настроенные на инструкции модели различных размеров параметров и совместим с широким спектром алгоритмов обучения с подкреплением.

HunyuanCustom: Архитектура для генерации персонализированных видео на основе мультимодальных данных
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

Генерация персонализированных видео направлена на создание видеороликов с определенными объектами в условиях, гибко задаваемых пользователем, однако существующие методы часто сталкиваются с проблемами сохранения идентичности и ограниченного числа входных модальностей. В данной статье мы представляем HunyuanCustom — многомодальную систему для персонализированной генерации видео, которая делает акцент на сохранении идентичности объекта и поддерживает условия в виде изображений, аудио, видео и текста. Построенная на основе HunyuanVideo, наша модель сначала решает задачу генерации с условиями в виде изображений и текста, вводя модуль слияния текста и изображений на основе LLaVA для улучшенного многомодального понимания, а также модуль усиления идентичности изображения, который использует временную конкатенацию для укрепления идентификационных признаков между кадрами. Для включения генерации с условиями в виде аудио и видео мы дополнительно предлагаем механизмы ввода модальностей: модуль AudioNet, который достигает иерархического выравнивания через пространственное кросс-внимание, и модуль ввода на основе видео, который интегрирует латентно-сжатое условное видео через сеть выравнивания признаков на основе патчей. Многочисленные эксперименты в сценариях с одним и несколькими объектами демонстрируют, что HunyuanCustom значительно превосходит современные открытые и закрытые методы по параметрам сохранения идентичности, реалистичности и соответствия текста и видео. Более того, мы подтверждаем ее устойчивость в различных прикладных задачах, включая генерацию персонализированных видео на основе аудио и видео. Наши результаты подчеркивают эффективность многомодальных условий и стратегий сохранения идентичности в продвижении контролируемой генерации видео. Весь код и модели доступны по адресу https://hunyuancustom.github.io.

OpenVision: Полностью открытое, экономически эффективное семейство продвинутых визуальных кодировщиков для мультимодального обучения
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

CLIP от OpenAI, выпущенный в начале 2021 года, долгое время был основным выбором в качестве визуального энкодера для создания мультимодальных базовых моделей. Хотя недавние альтернативы, такие как SigLIP, начали бросать вызов этому статус-кво, насколько нам известно, ни одна из них не является полностью открытой: их обучающие данные остаются проприетарными, и/или их методики обучения не опубликованы. Данная статья заполняет этот пробел, представляя OpenVision — полностью открытое семейство визуальных энкодеров, которое по эффективности и стоимости соответствует или превосходит CLIP от OpenAI при интеграции в мультимодальные фреймворки, такие как LLaVA. OpenVision основывается на существующих работах — например, CLIPS для фреймворка обучения и Recap-DataComp-1B для обучающих данных — при этом раскрывая несколько ключевых идей для повышения качества энкодеров и демонстрируя практические преимущества в развитии мультимодальных моделей. Предоставляя визуальные энкодеры с количеством параметров от 5,9 млн до 632,1 млн, OpenVision предлагает разработчикам гибкий выбор между мощностью и эффективностью при создании мультимодальных моделей: более крупные модели обеспечивают улучшенную мультимодальную производительность, а более компактные версии позволяют реализовать легковесные мультимодальные решения для устройств с ограниченными ресурсами.

PrimitiveAnything: Генерация сборок 3D-примитивов, созданных человеком, с использованием авторегрессивного трансформера
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

Абстракция примитивов формы, которая разлагает сложные 3D-формы на простые геометрические элементы, играет ключевую роль в визуальном восприятии человека и имеет широкое применение в компьютерном зрении и графике. Хотя последние достижения в генерации 3D-контента демонстрируют значительный прогресс, существующие методы абстракции примитивов либо полагаются на геометрическую оптимизацию с ограниченным семантическим пониманием, либо обучаются на небольших наборах данных, специфичных для определённых категорий, что затрудняет их обобщение на разнообразные категории форм. Мы представляем PrimitiveAnything — новый фреймворк, который переосмысливает абстракцию примитивов формы как задачу генерации сборки примитивов. PrimitiveAnything включает трансформер примитивов, обусловленный формой, для авторегрессивной генерации, а также схему параметризации, свободную от неоднозначностей, для унифицированного представления различных типов примитивов. Предложенный фреймворк напрямую изучает процесс сборки примитивов на основе крупномасштабных абстракций, созданных человеком, что позволяет ему улавливать, как люди разлагают сложные формы на примитивные элементы. В ходе обширных экспериментов мы демонстрируем, что PrimitiveAnything способен генерировать высококачественные сборки примитивов, которые лучше соответствуют человеческому восприятию, сохраняя при этом геометрическую точность для разнообразных категорий форм. Это приносит пользу различным 3D-приложениям и открывает потенциал для создания пользовательского контента (UGC) на основе примитивов в играх. Страница проекта: https://primitiveanything.github.io

R&B: Регруппировка доменов и балансировка смеси данных для эффективного обучения базовых моделей
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

Стратегии смешивания данных успешно снизили затраты на обучение языковых моделей. Однако, несмотря на их перспективность, такие методы имеют два недостатка. Во-первых, они опираются на заранее определённые домены данных (например, источники данных, типы задач), что может не учитывать важные семантические нюансы, оставляя потенциал производительности нереализованным. Во-вторых, эти методы масштабируются с увеличением числа доменов в вычислительно неэффективной манере. Мы решаем эти проблемы с помощью R&B — фреймворка, который перераспределяет обучающие данные на основе семантического сходства (Regroup) для создания более детализированных доменов и эффективно оптимизирует состав данных (Balance), используя матрицу Грама, индуцированную градиентами доменов, полученными в процессе обучения. В отличие от предыдущих работ, он устраняет необходимость в дополнительных вычислениях для получения оценочной информации, такой как потери или градиенты. Мы анализируем эту технику в рамках стандартных условий регулярности и предоставляем теоретические обоснования, подтверждающие эффективность R&B по сравнению с неадаптивными подходами к смешиванию данных. Эмпирически мы демонстрируем эффективность R&B на пяти разнообразных наборах данных, охватывающих задачи от обработки естественного языка до рассуждений и мультимодальных задач. С дополнительными вычислительными затратами всего в 0,01% R&B достигает или превосходит производительность современных стратегий смешивания данных.

За пределами распознавания: оценка визуального восприятия перспективы в моделях обработки языка и изображений
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

Мы исследуем способность моделей, объединяющих зрение и язык (Vision Language Models, VLMs), выполнять задачи визуального принятия перспективы с использованием нового набора визуальных задач, вдохновленных известными тестами для людей. Наш подход основан на тщательно контролируемых сценах, в которых одна антропоморфная минифигурка сочетается с одним объектом. Систематически варьируя пространственные конфигурации — такие как положение объекта относительно минифигурки и ориентация самой минифигурки — и используя как вид сверху, так и вид на уровне поверхности, мы создали 144 уникальные визуальные задачи. Каждая задача сопровождается серией из 7 диагностических вопросов, предназначенных для оценки трех уровней визуального познания: понимания сцены, пространственного мышления и принятия визуальной перспективы. Наша оценка нескольких современных моделей, включая GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct и варианты Claude Sonnet, показывает, что, хотя они преуспевают в понимании сцены, их производительность значительно снижается в задачах пространственного мышления и еще больше ухудшается в задачах принятия перспективы. Наш анализ указывает на разрыв между поверхностным распознаванием объектов и более глубоким пространственным и перспективным мышлением, необходимым для сложных визуальных задач, что подчеркивает необходимость интеграции явных геометрических представлений и специализированных протоколов обучения в будущем развитии VLMs.

Бенчмаркинг коллективного интеллекта языковых моделей
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

Крупные языковые модели (LLM) демонстрируют потенциал для сложных рассуждений, однако их способность к эмерджентной координации в многоагентных системах (MAS) при работе в условиях строгих ограничений — таких как ограниченное локальное восприятие и коммуникация, характерные для природных роев — остается в значительной степени неисследованной, особенно в контексте нюансов роевого интеллекта. Существующие бенчмарки часто не полностью охватывают уникальные проблемы децентрализованной координации, возникающие, когда агенты оперируют неполной пространственно-временной информацией. Чтобы устранить этот пробел, мы представляем SwarmBench — новый бенчмарк, разработанный для систематической оценки способностей LLM к роевому интеллекту в роли децентрализованных агентов. SwarmBench включает пять базовых задач координации MAS в настраиваемой 2D-среде, вынуждая агентов полагаться в основном на локальные сенсорные данные (обзор k x k) и локальную коммуникацию. Мы предлагаем метрики для оценки эффективности координации и анализируем эмерджентную групповую динамику. Оценивая несколько ведущих LLM в условиях zero-shot, мы обнаруживаем значительные различия в производительности между задачами, подчеркивая сложности, вызванные ограничениями локальной информации. Хотя некоторая координация возникает, результаты указывают на ограничения в надежном планировании и формировании стратегий в условиях неопределенности в этих децентрализованных сценариях. Оценка LLM в условиях, приближенных к роевым, имеет решающее значение для реализации их потенциала в будущих децентрализованных системах. Мы выпускаем SwarmBench как открытый, расширяемый инструментарий, построенный на основе настраиваемой и масштабируемой физической системы с определенными механическими свойствами. Он предоставляет среды, промпты, скрипты для оценки и всеобъемлющие экспериментальные данные, сгенерированные в ходе исследований, с целью способствовать воспроизводимым исследованиям в области координации MAS на основе LLM и теоретических основ воплощенных MAS. Наш репозиторий кода доступен по адресу https://github.com/x66ccff/swarmbench.

Адаптивный RAG, независимый от LLM: Пусть вопрос говорит сам за себя
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

Крупные языковые модели (LLM) склонны к галлюцинациям, и подход Retrieval-Augmented Generation (RAG) помогает смягчить эту проблему, однако требует значительных вычислительных ресурсов и может приводить к распространению недостоверной информации. Адаптивное извлечение данных направлено на поиск информации только в случае необходимости, но существующие методы основываются на оценке неопределенности с использованием LLM, что остается неэффективным и непрактичным. В данном исследовании мы представляем легковесные методы адаптивного извлечения, независимые от LLM и основанные на внешней информации. Мы изучили 27 признаков, объединенных в 7 групп, и их гибридные комбинации. Эти методы были протестированы на 6 наборах данных для вопросно-ответных систем (QA) с оценкой их производительности и эффективности. Результаты показывают, что наш подход сопоставим по производительности с более сложными методами на основе LLM, при этом обеспечивая значительное повышение эффективности, что демонстрирует потенциал использования внешней информации для адаптивного извлечения данных.

За пределами доказательства теорем: формулировка, структура и эталон для формального решения задач
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

Решение задач, казалось бы, является интуитивно понятным процессом и играет важную роль в науке и технике. Однако общая, но конкретная формулировка самого процесса решения задач отсутствует. С недавним развитием агентов на основе ИИ, способных решать задачи, спрос на проверяемость на уровне процесса стремительно растет, но остается недостаточно изученным. Чтобы восполнить эти пробелы, мы предлагаем принципиальную формулировку решения задач как детерминированного марковского процесса принятия решений; новую структуру FPS (Formal Problem-Solving), которая использует существующие среды FTP (формального доказательства теорем) для выполнения проверяемого на уровне процесса решения задач; и D-FPS (Deductive FPS), разделяющую решение и проверку ответа для лучшего согласования с человеческим мышлением. Доказаны выразительность, корректность и полнота предложенных структур. Мы создаем три эталона для оценки решения задач: FormalMath500, формализацию подмножества эталона MATH500; MiniF2F-Solving и PutnamBench-Solving, адаптации эталонов FTP MiniF2F и PutnamBench. Для достоверной, интерпретируемой и согласованной с человеческим мышлением оценки мы предлагаем RPE (Restricted Propositional Equivalence), символический подход для определения правильности ответов с помощью формальной проверки. Мы оцениваем четыре популярные модели FTP и два метода подсказок в качестве базовых, решая максимум 23,77% задач FormalMath500, 27,47% задач MiniF2F-Solving и 0,31% задач PutnamBench-Solving.

OmniGIRL: Многоязычный и мультимодальный бенчмарк для решения задач на GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

Задача разрешения проблем на GitHub направлена на автоматическое устранение проблем, зарегистрированных в репозиториях. С развитием больших языковых моделей (LLM) эта задача привлекает все больше внимания, и было предложено несколько бенчмарков для оценки способности LLM решать проблемы. Однако существующие бенчмарки имеют три основных ограничения. Во-первых, текущие бенчмарки сосредоточены на одном языке программирования, что ограничивает оценку проблем из репозиториев на разных языках. Во-вторых, они обычно охватывают узкий круг областей, что может не отражать разнообразия реальных проблем. В-третьих, существующие бенчмарки полагаются исключительно на текстовую информацию в описаниях проблем, игнорируя мультимодальные данные, такие как изображения. В этой статье мы предлагаем OmniGIRL — бенчмарк для разрешения проблем на GitHub, который является многоязычным, мультимодальным и охватывает множество областей. OmniGIRL включает 959 задач, собранных из репозиториев на четырех языках программирования (Python, JavaScript, TypeScript и Java) и восьми различных областях. Наша оценка показывает, что текущие LLM демонстрируют ограниченные результаты на OmniGIRL. В частности, лучшая модель, GPT-4o, решает только 8,6% проблем. Кроме того, мы обнаружили, что текущие LLM испытывают трудности с решением проблем, требующих понимания изображений. Лучший результат показала модель Claude-3.5-Sonnet, которая решает только 10,5% проблем с изображениями. Наконец, мы анализируем причины неудач текущих LLM на OmniGIRL, предоставляя идеи для будущих улучшений.

Решение сложных задач с расширением знаний с использованием больших языковых моделей: обзор
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

Решение проблем всегда было ключевым двигателем человеческого прогресса в различных областях. С развитием искусственного интеллекта крупные языковые модели (LLM) стали мощными инструментами, способными решать сложные задачи в самых разных сферах. В отличие от традиционных вычислительных систем, LLM сочетают в себе вычислительную мощь с приближением к человеческому мышлению, что позволяет им генерировать решения, делать выводы и даже использовать внешние вычислительные инструменты. Однако применение LLM к решению реальных задач сопряжено с серьёзными трудностями, включая многошаговое рассуждение, интеграцию предметных знаний и проверку результатов. В данном обзоре исследуются возможности и ограничения LLM в решении сложных задач, рассматриваются такие методы, как рассуждение по цепочке мыслей (Chain-of-Thought, CoT), расширение знаний, а также различные подходы к проверке результатов, основанные на LLM и внешних инструментах. Кроме того, подчеркиваются специфические вызовы в различных областях, таких как разработка программного обеспечения, математические рассуждения и доказательства, анализ данных и моделирование, а также научные исследования. В статье также обсуждаются фундаментальные ограничения современных решений на основе LLM и перспективные направления развития решения сложных задач с использованием LLM с точки зрения многошагового рассуждения, интеграции предметных знаний и проверки результатов.

OpenHelix: Краткий обзор, эмпирический анализ и открытая модель двойной системы VLA для роботизированного манипулирования
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

Двухсистемные архитектуры VLA (Vision-Language-Action) стали актуальной темой в исследованиях воплощённого интеллекта, однако существует недостаток открытых реализаций для дальнейшего анализа производительности и оптимизации. Для решения этой проблемы в данной статье будут обобщены и сравнены структурные проекты существующих двухсистемных архитектур, а также проведены систематические эмпирические оценки ключевых элементов их дизайна. В итоге будет предоставлена низкозатратная открытая модель для дальнейшего изучения. Безусловно, проект будет продолжать обновляться с добавлением новых экспериментальных выводов и открытых моделей с улучшенной производительностью, доступных для выбора. Страница проекта: https://openhelix-robot.github.io/.

OSUniverse: Бенчмарк для мультимодальных ИИ-агентов навигации по графическому интерфейсу
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6

ByMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

В данной статье мы представляем OSUniverse: эталонный набор сложных, мультимодальных задач, ориентированных на работу с рабочим столом, для продвинутых ИИ-агентов, специализирующихся на навигации в графическом интерфейсе. Основное внимание уделяется простоте использования, расширяемости, всестороннему охвату тестовых сценариев и автоматизированной проверке. Мы разделяем задачи по возрастающим уровням сложности — от базового точного клика до многошаговых тестов, требующих от агента ловкости, точности и ясного мышления при работе с несколькими приложениями. В первой версии эталонного набора, представленной здесь, мы откалибровали сложность тестовых сценариев, чтобы гарантировать, что современные (State of the Art) агенты (на момент публикации) не показывают результаты выше 50%, в то время как средний офисный работник выполняет все эти задачи с абсолютной точностью. Эталонный набор может оцениваться вручную, но мы также внедряем автоматизированный механизм проверки, средняя ошибка которого составляет менее 2%. Таким образом, этот эталонный набор предоставляет надежную основу для полностью автоматизированного измерения прогресса, возможностей и эффективности ИИ-агентов, ориентированных на навигацию в графическом интерфейсе, в краткосрочной и среднесрочной перспективе. Исходный код эталонного набора доступен по адресу https://github.com/agentsea/osuniverse.

Мультимодальное слияние изображений и событий с учетом неопределенности для обнаружения аномалий в видео
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5

BySungheon Jeong, Jihong Park, Mohsen Imani

Большинство существующих детекторов аномалий в видео полагаются исключительно на RGB-кадры, которые не обладают достаточным временным разрешением для захвата резких или кратковременных движений, являющихся ключевыми индикаторами аномальных событий. Чтобы устранить это ограничение, мы предлагаем метод Image-Event Fusion for Video Anomaly Detection (IEF-VAD) — фреймворк, который синтезирует представления событий непосредственно из RGB-видео и объединяет их с признаками изображений через принципиальный, учитывающий неопределенности процесс. Система (i) моделирует шум сенсоров с тяжелыми хвостами с использованием функции правдоподобия Стьюдента, получая веса обратной дисперсии на уровне значений с помощью аппроксимации Лапласа; (ii) применяет калмановские пошаговые обновления для балансировки модальностей во времени; и (iii) итеративно уточняет объединенное латентное состояние для устранения остаточного кросс-модального шума. Без использования специализированных сенсоров событий или меток на уровне кадров IEF-VAD устанавливает новый уровень точности на нескольких реальных бенчмарках для обнаружения аномалий. Эти результаты подчеркивают полезность синтетических представлений событий для выделения движений, которые часто недостаточно представлены в RGB-кадрах, что позволяет достичь точного и устойчивого понимания видео в различных приложениях без необходимости использования специализированных сенсоров событий. Код и модели доступны по адресу https://github.com/EavnJeong/IEF-VAD.

AutoLibra: Индукция метрик агента на основе открытой обратной связи
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5

ByHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

Агенты преимущественно оцениваются и оптимизируются с использованием метрик успешности выполнения задач, которые являются грубыми, требуют ручного проектирования экспертами и не учитывают промежуточные возникающие поведения. Мы предлагаем AutoLibra — фреймворк для оценки агентов, который преобразует открытые отзывы людей, например, "Если вы видите, что кнопка отключена, не нажимайте её снова" или "Этот агент обладает слишком большой автономией в принятии решений", в метрики для оценки детализированных поведений в траекториях агентов. AutoLibra достигает этого, связывая отзывы с поведением агента, группируя схожие положительные и отрицательные поведения и создавая конкретные метрики с четкими определениями и примерами, которые могут использоваться для запросов к LLM-as-a-Judge в качестве оценщиков. Мы также предлагаем две мета-метрики для оценки соответствия набора (индуцированных) метрик открытым отзывам: "покрытие" и "избыточность". Оптимизируя эти мета-метрики, мы экспериментально демонстрируем способность AutoLibra индуцировать более конкретные метрики оценки агентов, чем те, что предлагались в предыдущих бенчмарках, и обнаруживаем новые метрики для анализа агентов. Мы также представляем два применения AutoLibra для улучшения агентов: во-первых, показываем, что индуцированные AutoLibra метрики служат лучшими целями для инженерии запросов, чем показатель успешности выполнения задач, в широком спектре текстовых игр, улучшая производительность агентов на 20% в среднем по сравнению с базовым уровнем. Во-вторых, демонстрируем, что AutoLibra может итеративно выбирать высококачественные данные для тонкой настройки агентов веб-навигации. Наши результаты свидетельствуют о том, что AutoLibra является мощным инструментом, не зависящим от конкретной задачи, для оценки и улучшения языковых агентов.

COSMOS: Предсказуемая и экономически эффективная адаптация крупных языковых моделей
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30

ByJiayu Wang, Aws Albarghouthi, Frederic Sala

Крупные языковые модели (LLM) демонстрируют выдающуюся производительность в решении множества задач благодаря использованию разнообразных стратегий адаптации. Однако оптимальный выбор модели и стратегии адаптации при ограниченных ресурсах является сложной задачей и часто требует проведения масштабных экспериментов. Мы исследуем возможность точного прогнозирования как производительности, так и затрат без проведения дорогостоящих испытаний. Мы формализуем проблему выбора стратегии для LLM и представляем COSMOS — унифицированную прогностическую платформу, которая эффективно оценивает результаты адаптации с минимальными затратами. Мы реализуем и изучаем возможности нашей платформы с помощью двух мощных предикторов: облегченных прокси-моделей, дополненных эмбеддингами, для прогнозирования производительности тонкой настройки, и законов масштабирования на основе малых выборок для прогнозирования обучения с извлечением в контексте. Обширная оценка на восьми репрезентативных бенчмарках показывает, что COSMOS достигает высокой точности прогнозирования, одновременно снижая вычислительные затраты в среднем на 92,72%, а в ресурсоемких сценариях — до 98,71%. Наши результаты демонстрируют, что эффективное прогнозирование результатов адаптации не только возможно, но и может существенно снизить вычислительные издержки при развертывании LLM, сохраняя при этом стандарты производительности.

RAIL: Регионально-ориентированное обучающее обучение для полуавтоматической сегментации зубов в КЛКТ
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

Полуавтоматическое обучение стало перспективным подходом для сегментации 3D-зубов по данным КЛКТ (конусно-лучевой компьютерной томографии), где размеченные данные ограничены. Однако существующие методы по-прежнему сталкиваются с двумя устойчивыми проблемами: недостаточным корректирующим контролем в структурно неоднозначных или ошибочно размеченных областях во время контролируемого обучения и ухудшением производительности из-за ненадежных псевдо-меток на неразмеченных данных. Для решения этих проблем мы предлагаем Region-Aware Instructive Learning (RAIL) — полуавтоматическую структуру с двумя группами и двумя студенческими моделями, управляемыми общей учительской сетью. Чередуя обучение между двумя группами, RAIL способствует межгрупповому обмену знаниями и совместному регионально-ориентированному обучению, одновременно снижая переобучение характеристикам любой отдельной модели. В частности, RAIL вводит два обучающих механизма. Контролер Disagreement-Focused Supervision (DFS) улучшает контролируемое обучение, направляя предсказания только в тех областях, где выходы студентов расходятся как с истинными данными, так и с лучшим студентом, тем самым концентрируя контроль на структурно неоднозначных или ошибочно размеченных областях. На этапе неконтролируемого обучения модулятор Confidence-Aware Learning (CAL) усиливает согласованность в областях с высокой уверенностью модели, одновременно снижая влияние предсказаний с низкой уверенностью во время обучения. Это помогает предотвратить обучение модели нестабильным паттернам и повышает общую надежность псевдо-меток. Эксперименты на четырех наборах данных для сегментации зубов по КЛКТ показывают, что RAIL превосходит современные методы при ограниченной аннотации. Наш код будет доступен по адресу https://github.com/Tournesol-Saturday/RAIL.

На пути к мультимодальному универсалу: Общий уровень и общий бенчмарк
On Path to Multimodal Generalist: General-Level and General-Bench

May 7

ByHao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

Мультимодальные большие языковые модели (MLLM) в настоящее время переживают стремительный рост, обусловленный передовыми возможностями языковых моделей (LLM). В отличие от более ранних специализированных решений, современные MLLM развиваются в сторону парадигмы мультимодальных универсалов. Изначально ограниченные пониманием множества модальностей, эти модели продвинулись до уровня не только понимания, но и генерации данных в различных модальностях. Их возможности расширились от грубого до детализированного мультимодального понимания и от поддержки ограниченного числа модальностей до произвольных. Хотя существует множество бенчмарков для оценки MLLM, возникает важный вопрос: можно ли просто предположить, что более высокая производительность в различных задачах указывает на более сильные возможности MLLM, приближая нас к искусственному интеллекту уровня человека? Мы утверждаем, что ответ не так прост, как кажется. Этот проект представляет General-Level — оценочную структуру, которая определяет 5 уровней производительности и универсальности MLLM, предлагая методологию для сравнения MLLM и оценки прогресса существующих систем в направлении более устойчивых мультимодальных универсалов и, в конечном итоге, к искусственному общему интеллекту (AGI). В основе структуры лежит концепция Синергии, которая измеряет, сохраняют ли модели согласованные возможности в понимании и генерации, а также в различных модальностях. Для поддержки этой оценки мы представляем General-Bench, который охватывает более широкий спектр навыков, модальностей, форматов и возможностей, включая более 700 задач и 325 800 примеров. Результаты оценки, в которой участвовало более 100 современных MLLM, раскрывают рейтинги возможностей универсалов, подчеркивая сложности достижения подлинного искусственного интеллекта. Мы ожидаем, что этот проект проложит путь для будущих исследований в области мультимодальных базовых моделей следующего поколения, предоставляя надежную инфраструктуру для ускорения реализации AGI. Страница проекта: https://generalist.top/

Cognitio Emergens: Агентность, измерения и динамика в совместном создании знаний человеком и ИИ
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin

Создание научного знания претерпевает фундаментальные изменения по мере того, как люди и системы искусственного интеллекта (ИИ) выходят за рамки отношений "инструмент-пользователь" и превращаются в соэволюционные эпистемические партнерства. Когда AlphaFold произвел революцию в предсказании структуры белков, исследователи описали взаимодействие с эпистемическим партнером, которое изменило их представление о фундаментальных взаимосвязях. В данной статье представлена концепция Cognitio Emergens (CE) — структура, которая устраняет ключевые ограничения существующих моделей, сосредоточенных на статических ролях или узких метриках, но не учитывающих, как научное понимание возникает через рекурсивное взаимодействие человека и ИИ во времени. CE интегрирует три компонента, решающих эти ограничения: Конфигурации агентства, описывающие распределение полномочий между человеком и ИИ (Направляемое, Вносящее вклад, Партнерство), причем партнерства динамически колеблются между конфигурациями, а не следуют линейному прогрессу; Эпистемические измерения, охватывающие шесть конкретных способностей, возникающих в результате сотрудничества по осям Открытия, Интеграции и Проекции, создавая уникальные "сигнатуры способностей", которые направляют развитие; и Динамика партнерства, выявляющая силы, формирующие эволюцию этих отношений, особенно риск эпистемического отчуждения, когда исследователи теряют интерпретационный контроль над знанием, которое они формально одобряют. Опираясь на теорию аутопоэзиса, теорию социальных систем и организационную модульность, CE раскрывает, как совместное создание знания возникает через непрерывное согласование ролей, ценностей и организационных структур. Переосмысливая научное сотрудничество человека и ИИ как принципиально соэволюционное, CE предлагает сбалансированный подход, который не бездумно восхваляет и не излишне опасается развивающейся роли ИИ, а вместо этого предоставляет концептуальные инструменты для формирования партнерств, сохраняющих значимое участие человека и способствующих трансформационным научным прорывам.