HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

28 papers found

InternVL3: Исследование передовых методов обучения и рецептов для тестирования в открытых мультимодальных моделях
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Apr 14

ByJinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

298

Мы представляем InternVL3 — значительный шаг вперед в серии InternVL, который характеризуется нативной мультимодальной парадигмой предварительного обучения. В отличие от адаптации текстовой крупной языковой модели (LLM) в мультимодальную крупную языковую модель (MLLM), поддерживающую визуальные входные данные, InternVL3 одновременно приобретает мультимодальные и лингвистические способности на основе разнообразных мультимодальных данных и текстовых корпусов в рамках единого этапа предварительного обучения. Этот унифицированный подход эффективно решает сложности и проблемы согласования, часто возникающие в традиционных пост-обучающих конвейерах для MLLM. Для дальнейшего повышения производительности и масштабируемости InternVL3 включает переменное визуальное позиционное кодирование (V2PE) для поддержки расширенных мультимодальных контекстов, использует передовые методы пост-обучения, такие как контролируемая тонкая настройка (SFT) и смешанная оптимизация предпочтений (MPO), а также применяет стратегии масштабирования на этапе тестирования вместе с оптимизированной инфраструктурой обучения. Многочисленные эмпирические оценки демонстрируют, что InternVL3 обеспечивает превосходную производительность в широком спектре мультимодальных задач. В частности, InternVL3-78B достигает показателя 72.2 на бенчмарке MMMU, устанавливая новый рекорд среди открытых MLLM. Его возможности остаются высококонкурентоспособными по сравнению с ведущими проприетарными моделями, включая ChatGPT-4o, Claude 3.5 Sonnet и Gemini 2.5 Pro, при этом сохраняя сильные навыки в чисто языковых задачах. В соответствии с принципами открытой науки, мы опубликуем как данные для обучения, так и веса модели, чтобы способствовать дальнейшим исследованиям и разработкам в области MLLM следующего поколения.

PRIMA.CPP: Ускорение вывода языковых моделей масштаба 70B на маломощных домашних кластерах
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Apr 7

ByZonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu

136

Появление DeepSeek R1 и QwQ 32B преодолело барьеры производительности для запуска передовых больших языковых моделей (LLM) на домашних устройствах. Хотя потребительское оборудование становится мощнее, а квантование моделей совершенствуется, существующие решения для конечных устройств по-прежнему требуют кластеров GPU, большого объема оперативной памяти (RAM/VRAM) и высокой пропускной способности, что значительно превышает возможности обычного домашнего кластера. В данной статье представлена система распределенного вывода prima.cpp, которая позволяет запускать модели масштаба 70B на повседневных домашних устройствах, используя комбинацию CPU/GPU, низкий объем RAM/VRAM, Wi-Fi и кросс-платформенную поддержку. Она использует mmap для управления весами модели и внедряет конвейерный кольцевой параллелизм с предварительной загрузкой для скрытия задержек при чтении с диска. Моделируя неоднородность в вычислениях, коммуникации, дисковых операциях, памяти (и её управлении) и операционной системе, система оптимально распределяет слои модели между CPU и GPU каждого устройства, дополнительно снижая задержку на токен. Для решения этой NP-трудной задачи распределения предложен элегантный алгоритм Halda. Мы оцениваем prima.cpp на стандартном домашнем кластере из четырех узлов. Она превосходит llama.cpp, exo и dllama на моделях 30B+, сохраняя нагрузку на память ниже 6%. Это делает передовые модели масштаба 30B-70B, такие как Llama 3, DeepSeek R1, Qwen 2.5 и QwQ, доступными для домашних ассистентов, делая передовые технологии ИИ действительно доступными для каждого. Код является открытым и доступен по адресу https://github.com/Lizonghang/prima.cpp.

Достигли ли мы единства в генерации и понимании изображений? Эмпирическое исследование способности GPT-4o к генерации изображений
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Apr 9

ByNing Li, Jingran Zhang, Justin Cui

Мультимодальная модель GPT-4o от OpenAI продемонстрировала впечатляющие возможности в генерации и редактировании изображений, однако её способность к семантическому синтезу, основанному на знаниях о мире — бесшовному объединению предметных знаний, контекстного рассуждения и следования инструкциям — остаётся недоказанной. В данном исследовании мы систематически оцениваем эти способности по трём ключевым направлениям: (1) Глобальное следование инструкциям, (2) Точность детального редактирования и (3) Постгенеративное рассуждение. Хотя существующие тесты подчеркивают сильные стороны GPT-4o в генерации и редактировании изображений, наша оценка выявляет устойчивые ограничения модели: она часто прибегает к буквальной интерпретации инструкций, непостоянно применяет ограничения, основанные на знаниях, и испытывает трудности с задачами условного рассуждения. Эти результаты ставят под сомнение преобладающие представления о едином понимании и генеративных возможностях GPT-4o, выявляя значительные пробелы в её динамической интеграции знаний. Наше исследование призывает к разработке более надежных тестов и стратегий обучения, выходящих за рамки поверхностного соответствия, с акцентом на контекстно-ориентированную и обоснованную рассуждениями мультимодальную генерацию.

VL-Rethinker: Стимулирование саморефлексии визуально-языковых моделей с использованием обучения с подкреплением
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Apr 10

ByHaozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen

Недавно медленно мыслящие системы, такие как GPT-o1 и DeepSeek-R1, продемонстрировали значительный потенциал в решении сложных задач благодаря явному процессу рефлексии. Они существенно превосходят лучшие быстро мыслящие модели, такие как GPT-4o, на различных тестах по математике и естественным наукам. Однако их способности к мультимодальным рассуждениям остаются на уровне быстро мыслящих моделей. Например, производительность GPT-o1 на тестах MathVista, MathVerse и MathVision схожа с результатами быстро мыслящих моделей. В данной работе мы стремимся улучшить медленно мыслящие способности моделей, работающих с визуальными и языковыми данными, с использованием обучения с подкреплением (без применения дистилляции), чтобы продвинуть состояние искусства. Сначала мы адаптируем алгоритм GRPO с новой техникой, называемой Selective Sample Replay (SSR), для решения проблемы исчезающих преимуществ. Хотя этот подход демонстрирует высокую производительность, результирующие модели, обученные с подкреплением, показывают ограниченную способность к саморефлексии или самопроверке. Чтобы дополнительно стимулировать медленное мышление, мы вводим метод Forced Rethinking, который добавляет текстовый триггер для переосмысления в конце начальных этапов обучения с подкреплением, явно принуждая модель к шагу саморефлексии. Комбинируя эти две техники, наша модель VL-Rethinker достигает новых рекордных показателей на тестах MathVista, MathVerse и MathVision, составляющих 80,3%, 61,8% и 43,9% соответственно. VL-Rethinker также устанавливает новый рекорд среди открытых моделей на междисциплинарных тестах, таких как MMMU-Pro, EMMA и MEGA-Bench, сокращая разрыв с GPT-o1.

FUSION: Полная интеграция визуально-языковых представлений для глубокого кросс-модального понимания
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Apr 14

ByZheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang

Мы представляем FUSION — семейство мультимодальных больших языковых моделей (MLLM), основанных на парадигме полного согласования и интеграции визуальной и языковой информации. В отличие от существующих методов, которые в основном полагаются на взаимодействие модальностей на поздних этапах декодирования в LLM, наш подход обеспечивает глубокую и динамическую интеграцию на протяжении всего процесса обработки. Для этого мы предлагаем Text-Guided Unified Vision Encoding, который включает текстовую информацию в процесс кодирования визуальных данных, достигая интеграции на уровне пикселей. Мы также разработали Context-Aware Recursive Alignment Decoding, который рекурсивно агрегирует визуальные признаки с учетом текстового контекста во время декодирования, что позволяет достичь детальной семантической интеграции на уровне вопросов. Для управления отображением признаков и минимизации расхождений между модальностями мы создали Dual-Supervised Semantic Mapping Loss. Кроме того, мы создали синтезированный набор данных Synthesized Language-Driven Question-Answer (QA) с использованием нового метода синтеза данных, уделяя особое внимание высококачественным парам вопрос-ответ для оптимизации текстово-ориентированной интеграции признаков. На основе этих разработок мы обучили FUSION в двух масштабах — 3B и 8B — и продемонстрировали, что наш подход к полной интеграции модальностей значительно превосходит существующие методы, используя всего 630 визуальных токенов. Примечательно, что FUSION 3B превосходит Cambrian-1 8B и Florence-VL 8B на большинстве бенчмарков. FUSION 3B продолжает превосходить Cambrian-1 8B даже при ограничении в 300 визуальных токенов. Наши исследования показывают, что FUSION превосходит LLaVA-NeXT на более чем половине бенчмарков при одинаковой конфигурации без динамического разрешения, что подчеркивает эффективность нашего подхода. Мы публикуем наш код, веса модели и набор данных. https://github.com/starriver030515/FUSION

Итеративное самообучение для генерации кода с использованием усиленного переранжирования
Iterative Self-Training for Code Generation via Reinforced Re-Ranking

Apr 13

ByNikita Sorokin, Ivan Sedykh, Valentin Malykh

Генерация высококачественного кода, решающего сложные программные задачи, является сложной задачей, особенно с использованием современных декодерных моделей, которые производят высокостохастические выходные данные. В генерации кода даже незначительные ошибки могут легко нарушить работоспособность всего решения. Использование множества сэмплированных решений может значительно повысить общее качество выходных данных. Одним из эффективных способов улучшения генерации кода является сочетание модели генерации кода с моделью ранжирования, которая выбирает лучшее решение из сгенерированных образцов. Мы предлагаем новый итеративный подход к самообучению моделей ранжирования с использованием оптимизации проксимальной политики (PPO), направленный на улучшение как точности ранжирования, так и всего процесса генерации кода. В отличие от традиционных подходов PPO, где основное внимание уделяется оптимизации генеративной модели с помощью модели вознаграждения, наш подход делает акцент на разработке устойчивой модели вознаграждения/ранжирования. Эта модель повышает качество генерируемого кода через ранжирование и устраняет проблемы и ошибки, которые модель вознаграждения может упустить в процессе согласования PPO с моделью ранжирования. Наш метод итеративно улучшает обучающий набор данных путем переоценки выходных данных, выявления высоко оцененных негативных примеров и их включения в обучающий цикл, что повышает производительность модели. Наша оценка на наборе данных MultiPL-E демонстрирует, что наша модель с 13,4 миллиардами параметров превосходит модель с 33 миллиардами параметров по качеству генерации кода, при этом работая в три раза быстрее. Более того, она достигает производительности, сопоставимой с GPT-4, и превосходит её в одном из языков программирования.

Mavors: Многогранулярное представление видео для мультимодальных больших языковых моделей
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Apr 14

ByYang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang

Понимание длинных видеоконтекстов в мультимодальных больших языковых моделях (MLLMs) сталкивается с критической проблемой: необходимостью баланса между вычислительной эффективностью и сохранением детализированных пространственно-временных паттернов. Существующие подходы (например, разреженная выборка, плотная выборка с низким разрешением и сжатие токенов) страдают от значительной потери информации в динамике временных изменений, пространственных деталях или тонких взаимодействиях, особенно в видео со сложным движением или изменяющимся разрешением. Для решения этой проблемы мы предлагаем Mavors — новый фреймворк, который вводит мультигранулярное представление видео для целостного моделирования длинных видео. В частности, Mavors напрямую кодирует исходное видео в латентные представления с помощью двух ключевых компонентов: 1) внутрифрагментного визуального энкодера (IVE), который сохраняет пространственные признаки высокого разрешения с использованием 3D-сверток и Vision Transformers, и 2) межфрагментного агрегатора признаков (IFA), который устанавливает временную согласованность между фрагментами с помощью трансформерного моделирования зависимостей с использованием ротационных позиционных кодирований на уровне фрагментов. Кроме того, фреймворк унифицирует понимание изображений и видео, рассматривая изображения как однофреймовые видео через декомпозицию субизображений. Эксперименты на различных бенчмарках демонстрируют превосходство Mavors в сохранении как пространственной точности, так и временной непрерывности, значительно превосходя существующие методы в задачах, требующих детализированного пространственно-временного анализа.

AgentRewardBench: Оценка автоматических методов анализа траекторий веб-агентов
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Apr 11

ByXing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy

Веб-агенты позволяют пользователям выполнять задачи в веб-браузерах через взаимодействие на естественном языке. Оценка траекторий веб-агентов является важной задачей, так как она помогает определить, успешно ли агент выполнил поставленные задачи. Для этой цели широко используются методы, основанные на правилах, однако их сложно адаптировать к новым задачам, и они не всегда могут распознать успешные траектории. Более высокой точности можно достичь с помощью экспертной оценки, но этот процесс значительно медленнее и дороже. Автоматическая оценка с использованием крупных языковых моделей (LLM) может избежать сложностей, связанных с разработкой новых правил и ручной аннотацией траекторий, обеспечивая более быструю и экономичную оценку. Однако остается неясным, насколько эффективны такие методы для оценки веб-агентов. В связи с этим мы представляем AgentRewardBench — первый бенчмарк для оценки эффективности LLM в качестве судей для веб-агентов. AgentRewardBench содержит 1302 траектории из 5 бенчмарков и 4 LLM. Каждая траектория в AgentRewardBench проверяется экспертом, который отвечает на вопросы, касающиеся успешности, побочных эффектов и повторяемости действий агента. Используя наш бенчмарк, мы оцениваем 12 LLM-судей и обнаруживаем, что ни одна из моделей не превосходит остальные по всем бенчмаркам. Мы также выясняем, что оценка на основе правил, используемая в распространенных бенчмарках, склонна занижать уровень успешности веб-агентов, что подчеркивает ключевой недостаток такого подхода и необходимость разработки более гибких методов автоматической оценки. Бенчмарк доступен по адресу: https://agent-reward-bench.github.io.

S1-Bench: Простой бенчмарк для оценки способности крупных моделей рассуждений к мышлению Системы 1
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Apr 14

ByWenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu

Мы представляем S1-Bench — новый эталонный тест, разработанный для оценки производительности крупных моделей рассуждений (LRMs) на простых задачах, которые требуют интуитивного мышления системы 1, а не аналитического мышления системы 2. Хотя LRMs достигли значительных прорывов в сложных задачах рассуждений благодаря явным цепочкам мыслей, их зависимость от глубокого аналитического мышления может ограничивать их способности к мышлению системы 1. Более того, в настоящее время отсутствует эталонный тест для оценки производительности LRMs в задачах, требующих таких способностей. Чтобы заполнить этот пробел, S1-Bench предлагает набор простых, разнообразных и интуитивно понятных вопросов из различных областей и языков, специально разработанных для оценки производительности LRMs в таких задачах. Наше всестороннее тестирование 22 LRMs выявило значительную тенденцию к снижению эффективности: их ответы в среднем в 15,5 раз длиннее, чем у традиционных небольших языковых моделей (LLMs). Кроме того, LRMs часто находят правильные ответы на ранних этапах, но продолжают излишне углубляться в рассуждения, причем некоторые модели даже допускают множество ошибок. Эти результаты подчеркивают жесткие шаблоны рассуждений современных LRMs и указывают на необходимость существенного развития для достижения сбалансированных возможностей двойного мышления, которые могут адаптироваться к сложности задачи.

DUMP: Автоматизированное обучение с распределением сложности на уровне учебного плана для RL-обучения крупных языковых моделей после тренировки
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training

Apr 13

ByZhenting Wang, Guofeng Cui, Kun Wan, Wentian Zhao

Недавние достижения в области посттренинга на основе обучения с подкреплением (RL) привели к значительным улучшениям в работе крупных языковых моделей (LLM), особенно в усилении их способностей к рассуждению для выполнения сложных задач. Однако большинство существующих методов рассматривают обучающие данные как единое целое, игнорируя тот факт, что современное обучение LLM часто включает данные из различных распределений, различающихся как по источнику, так и по сложности. Эта неоднородность создает ключевую проблему: как адаптивно планировать обучение по различным распределениям для оптимизации эффективности обучения. В данной статье мы представляем принципиальную структуру обучения по учебному плану, основанную на понятии обучаемости на уровне распределения. Наше ключевое наблюдение заключается в том, что величина преимуществ политики отражает, насколько модель может еще выиграть от дальнейшего обучения на данном распределении. На основе этого мы предлагаем структуру обучения по учебному плану на уровне распределения для посттренинга LLM на основе RL, которая использует принцип Верхней Доверительной Границы (UCB) для динамической корректировки вероятностей выборки для различных распределений. Этот подход отдает приоритет распределениям с либо высоким средним преимуществом (эксплуатация), либо низким количеством выборок (исследование), что приводит к адаптивному и теоретически обоснованному графику обучения. Мы реализуем нашу структуру обучения по учебному плану с использованием GRPO в качестве базового алгоритма RL и демонстрируем ее эффективность на наборах данных для логического рассуждения с различными уровнями сложности и источниками. Наши эксперименты показывают, что наша структура значительно улучшает скорость сходимости и итоговую производительность, подчеркивая ценность стратегий обучения по учебному плану, учитывающих распределение, в посттренинге LLM. Код: https://github.com/ZhentingWang/DUMP.

MIEB: Бенчмарк для массового встраивания изображений
MIEB: Massive Image Embedding Benchmark

Apr 14

ByChenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff

Представления изображений часто оцениваются с помощью разрозненных, узкоспециализированных протоколов, что приводит к фрагментарному пониманию возможностей моделей. Например, неясно, будет ли модель, эффективно кластеризующая изображения, столь же хороша в поиске релевантных изображений по текстовому запросу. Мы представляем Massive Image Embedding Benchmark (MIEB) для оценки производительности моделей, работающих с изображениями и изображениями-текстами, на самом широком на сегодняшний день спектре задач. MIEB охватывает 38 языков и 130 отдельных задач, которые мы объединили в 8 высокоуровневых категорий. Мы протестировали 50 моделей на нашем бенчмарке и обнаружили, что ни один метод не доминирует во всех категориях задач. Мы выявили скрытые возможности современных моделей компьютерного зрения, такие как их точное визуальное представление текстов, а также их пока ограниченные способности в области переплетенных кодирований и сопоставления изображений и текстов в условиях наличия смешивающих факторов. Мы также показываем, что производительность кодировщиков изображений на MIEB сильно коррелирует с их производительностью при использовании в мультимодальных больших языковых моделях. Наш код, набор данных и таблица лидеров доступны по адресу https://github.com/embeddings-benchmark/mteb.

Преодоление барьера данных — создание агентов с графическим интерфейсом через обобщение задач
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Apr 14

ByJunlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

Агенты с графическим пользовательским интерфейсом (GUI) предлагают кросс-платформенные решения для автоматизации сложных цифровых задач, обладая значительным потенциалом для преобразования рабочих процессов и повышения производительности. Однако их производительность часто ограничивается недостатком высококачественных данных о траекториях. Чтобы устранить это ограничение, мы предлагаем обучать модели, объединяющие зрение и язык (Vision Language Models, VLMs), на задачах, насыщенных данными и требующих интенсивного логического мышления, в рамках специального промежуточного этапа обучения, а затем исследовать, как включение этих задач способствует обобщению для сценариев планирования в GUI. В частности, мы изучаем ряд задач с доступными данными для настройки инструкций, включая восприятие GUI, мультимодальное логическое мышление и текстовое рассуждение. В ходе масштабных экспериментов с 11 промежуточными задачами обучения мы демонстрируем, что: (1) Обобщение задач оказывается высокоэффективным, приводя к значительным улучшениям в большинстве случаев. Например, мультимодальное математическое рассуждение повышает производительность на AndroidWorld на абсолютные 6,3%. Примечательно, что текстовые математические данные значительно улучшают производительность веб-агентов GUI, достигая улучшения на 5,6% на WebArena и 5,4% на AndroidWorld, что подчеркивает заметное кросс-модальное обобщение от текстовых к визуальным доменам; (2) Вопреки предыдущим предположениям, данные о восприятии GUI, которые ранее считались тесно связанными с задачами GUI-агентов и широко использовались для обучения, оказывают сравнительно ограниченное влияние на итоговую производительность; (3) Опираясь на эти выводы, мы определяем наиболее эффективные промежуточные задачи обучения и создаем оптимизированные наборы данных, что приводит к абсолютному улучшению производительности на 8,0% на WebArena и 12,2% на AndroidWorld. Наша работа предоставляет ценные инсайты о кросс-доменном переносе знаний для GUI-агентов и предлагает практический подход к решению проблем нехватки данных в этой развивающейся области. Код, данные и модели будут доступны по адресу https://github.com/hkust-nlp/GUIMid.

SocioVerse: Мировая модель для социального моделирования на основе агентов с языковыми моделями и пулом из 10 миллионов реальных пользователей
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users

Apr 14

ByXinnong Zhang, Jiayu Lin, Xinyi Mou, Shiyue Yang, Xiawei Liu, Libo Sun, Hanjia Lyu, Yihang Yang, Weihong Qi, Yue Chen, Guanying Li, Ling Yan, Yao Hu, Siming Chen, Yu Wang, Jingxuan Huang, Jiebo Luo, Shiping Tang, Libo Wu, Baohua Zhou, Zhongyu Wei

Социальное моделирование трансформирует традиционные исследования в области социальных наук, моделируя поведение человека через взаимодействия между виртуальными индивидами и их окружением. С недавними достижениями в области больших языковых моделей (LLM) этот подход демонстрирует растущий потенциал в улавливании индивидуальных различий и прогнозировании группового поведения. Однако существующие методы сталкиваются с проблемами согласования, связанными с окружением, целевыми пользователями, механизмами взаимодействия и поведенческими паттернами. В связи с этим мы представляем SocioVerse — мировую модель для социального моделирования, основанную на агентах LLM. Наша структура включает четыре мощных компонента согласования и пул пользователей из 10 миллионов реальных индивидов. Для проверки её эффективности мы провели масштабные симуляционные эксперименты в трёх различных областях: политике, новостях и экономике. Результаты показывают, что SocioVerse способна отражать динамику крупномасштабных популяций, обеспечивая при этом разнообразие, достоверность и репрезентативность благодаря стандартизированным процедурам и минимальным ручным корректировкам.

TinyLLaVA-Video-R1: В сторону компактных мультимодальных языковых моделей для анализа видео
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Apr 13

ByXingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang

В последнее время значительный прогресс был достигнут в улучшении способности к рассуждению крупных мультимодальных моделей (LMMs) с использованием обучения с подкреплением. Однако большинство существующих работ основаны на высокоинтенсивных наборах данных, таких как математика и программирование, и исследователи обычно выбирают крупномасштабные модели в качестве основы. Мы считаем, что изучение способностей к рассуждению у моделей малого масштаба остается ценным для исследователей с ограниченными вычислительными ресурсами. Более того, наделение моделей возможностью объяснять свои процессы рассуждения на общих наборах данных для вопросов и ответов также является значимым. Поэтому мы представляем модель малого масштаба для рассуждений на видео TinyLLaVA-Video-R1. Основанная на TinyLLaVA-Video, модели для понимания видео, обученной с возможностью отслеживания и содержащей не более 4 миллиардов параметров, она не только демонстрирует значительное улучшение способностей к рассуждению и мышлению после использования обучения с подкреплением на общих наборах данных Video-QA, но также проявляет эмерджентную характеристику "моментов озарения". Кроме того, мы делимся серией экспериментальных результатов, стремясь предоставить практические инсайты для будущего исследования способностей к рассуждению (мышлению) на видео в моделях малого масштаба. Модель доступна по адресу https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

M1: К масштабируемым вычислениям во время тестирования с помощью моделей рассуждений Mamba
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Apr 14

ByJunxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao

Эффективное рассуждение играет ключевую роль в решении сложных математических задач. Недавние крупные языковые модели (LLM) значительно улучшили производительность за счет масштабирования вычислений во время тестирования с использованием длинных цепочек рассуждений. Однако трансформерные модели имеют фундаментальные ограничения в увеличении длины контекста из-за их квадратичной вычислительной сложности и линейных требований к памяти. В данной статье мы представляем новую гибридную линейную модель рассуждений на основе RNN, M1, построенную на архитектуре Mamba, которая обеспечивает эффективное использование памяти при выводе. Наш подход использует процесс дистилляции из существующих моделей рассуждений и дополнительно улучшается за счет обучения с подкреплением (RL). Экспериментальные результаты на бенчмарках AIME и MATH показывают, что M1 не только превосходит предыдущие линейные RNN-модели, но и соответствует производительности современных дистиллированных моделей рассуждений Deepseek R1 аналогичного масштаба. Мы также сравниваем скорость генерации нашей модели с высокопроизводительным универсальным движком вывода vLLM и наблюдаем ускорение более чем в 3 раза по сравнению с трансформером того же размера. Благодаря увеличению пропускной способности, мы достигаем более высокой точности по сравнению с дистиллированными трансформерными моделями рассуждений DeepSeek R1 при фиксированном бюджете времени генерации, используя голосование с самосогласованностью. В целом, мы представляем гибридную модель рассуждений на основе Mamba и предлагаем более эффективный подход к масштабированию генерации во время тестирования с использованием самосогласованности или длинных цепочек рассуждений.

AI Scientist-v2: Автоматизированное научное открытие на уровне лаборатории с помощью агентного поиска по дереву
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

Apr 10

ByYutaro Yamada, Robert Tjarko Lange, Cong Lu, Shengran Hu, Chris Lu, Jakob Foerster, Jeff Clune, David Ha

Искусственный интеллект (ИИ) играет всё более важную роль в трансформации процесса научных открытий. Мы представляем The AI Scientist-v2 — сквозную агентную систему, способную создавать первые полностью сгенерированные ИИ научные работы, принятые на рецензируемых семинарах. Эта система итеративно формулирует научные гипотезы, проектирует и проводит эксперименты, анализирует и визуализирует данные, а также автономно пишет научные статьи. По сравнению с её предшественником (v1, Lu et al., 2024, arXiv:2408.06292), The AI Scientist-v2 устраняет зависимость от шаблонов кода, созданных человеком, эффективно обобщает знания в различных областях машинного обучения и использует новую прогрессивную методику агентного поиска по дереву, управляемую специальным агентом-менеджером экспериментов. Кроме того, мы улучшили компонент ИИ-рецензента, интегрировав цикл обратной связи на основе Vision-Language Model (VLM) для итеративного улучшения содержания и эстетики графических материалов. Мы оценили The AI Scientist-v2, отправив три полностью автономные статьи на рецензируемый семинар ICLR. Примечательно, что одна из работ получила достаточно высокие оценки, чтобы превысить средний порог принятия для работ, написанных людьми, что стало первым случаем успешного прохождения рецензирования полностью сгенерированной ИИ статьи. Это достижение подчеркивает растущие возможности ИИ в проведении всех аспектов научных исследований. Мы ожидаем, что дальнейшие разработки в области автономных технологий научных открытий окажут глубокое влияние на генерацию человеческих знаний, обеспечив беспрецедентную масштабируемость исследовательской продуктивности и значительно ускорив научные прорывы, что принесёт огромную пользу обществу. Мы открыли исходный код системы на https://github.com/SakanaAI/AI-Scientist-v2, чтобы способствовать дальнейшему развитию этой трансформационной технологии. Мы также обсуждаем роль ИИ в науке, включая вопросы безопасности ИИ.

Исполняемые функциональные абстракции: вывод генеративных программ для сложных математических задач
Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems

Apr 14

ByZaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal

Ученые часто выводят абстрактные процедуры из конкретных примеров задач и используют эти абстракции для создания новых, связанных примеров. Например, программы, кодирующие формальные правила и свойства системы, оказались полезными в различных областях — от обучения с подкреплением (процедурные среды) до физики (движки симуляции). Эти программы можно рассматривать как функции, которые выполняются с разными результатами в зависимости от их параметризации (например, конфигурация gridworld или начальные физические условия). Мы вводим термин EFA (Executable Functional Abstraction, Исполняемая Функциональная Абстракция) для обозначения таких программ в контексте математических задач. Конструкции, подобные EFA, уже показали свою полезность для математических рассуждений в качестве генераторов задач для стресс-тестирования моделей. Однако предыдущие работы ограничивались абстракциями для школьной математики (чьи простые правила легко кодировать в программах), тогда как создание EFA для сложной математики до сих пор требовало ручной разработки. Мы исследуем автоматическое создание EFA для сложных математических задач. Мы формулируем задачу автоматического построения EFA как задачу синтеза программ и разрабатываем EFAGen, который использует LLM (языковую модель) для генерации кандидатов в EFA на основе исходной математической задачи и её пошагового решения, сохраняя верность обобщенной задаче и классу решений, лежащих в основе исходной задачи. Кроме того, мы формализуем свойства, которыми должна обладать любая корректная EFA, в виде исполняемых модульных тестов, и показываем, как эти тесты можно использовать в качестве проверяемых наград для обучения LLM, чтобы они лучше писали EFA. Мы демонстрируем, что EFA, созданные EFAGen, ведут себя рационально, оставаясь верными исходным задачам, генерируют вариации задач, пригодные для обучения, и что EFAGen способен выводить EFA из множества разнообразных источников задач уровня математических соревнований. Наконец, мы показываем практическое применение EFA, написанных моделями, например, для поиска вариаций задач, которые сложнее или проще для решения обучающимся, а также для генерации данных.

Модели рассуждений могут быть эффективными без необходимости мышления.
Reasoning Models Can Be Effective Without Thinking

Apr 14

ByWenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia

Современные крупные языковые модели (LLM) значительно улучшили способности к рассуждению, в основном за счет включения явного, длительного процесса мышления в процесс генерации. В данной статье мы ставим под сомнение необходимость такого явного мышления. Используя передовую модель DeepSeek-R1-Distill-Qwen, мы обнаруживаем, что обход процесса мышления с помощью простого промптинга, обозначенного как NoThinking, может быть удивительно эффективным. При контроле за количеством токенов NoThinking превосходит подход с мышлением на разнообразном наборе из семи сложных задач на рассуждение — включая решение математических задач, формальное доказательство теорем и программирование — особенно в условиях ограниченных ресурсов, например, 51.3 против 28.9 на ACM 23 с 700 токенами. Примечательно, что производительность NoThinking становится более конкурентоспособной с увеличением значения k в метрике pass@k. Опираясь на это наблюдение, мы демонстрируем, что подход параллельного масштабирования, использующий NoThinking для независимой генерации N выходных данных и их агрегации, является высокоэффективным. Для агрегации мы используем специфичные для задачи верификаторы, если они доступны, или применяем простые стратегии best-of-N, такие как выбор на основе уверенности. Наш метод превосходит ряд базовых подходов с аналогичной задержкой, использующих мышление, и сравним с подходом мышления при значительно большей задержке (до 9 раз). Вместе наше исследование побуждает пересмотреть необходимость длительных процессов мышления, а также устанавливает конкурентоспособный ориентир для достижения высоких результатов в рассуждениях в условиях ограниченных ресурсов или при низкой задержке с использованием параллельного масштабирования.

VisuoThink: Усиление логического мышления LVLM с помощью мультимодального поиска по дереву
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

Apr 12

ByYikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu

Последние достижения в области больших визуально-языковых моделей продемонстрировали впечатляющие возможности. Однако они часто оказываются несостоятельными при решении сложных задач на рассуждение, с которыми люди обычно справляются с помощью визуальных средств и последовательного, пошагового мышления. Хотя существующие методы исследовали текстовое "медленное мышление" или базовую визуальную поддержку, они не способны уловить сложную, переплетённую природу процессов визуально-вербального рассуждения человека. Чтобы преодолеть эти ограничения и вдохновлённые механизмами "медленного мышления" в человеческом познании, мы представляем VisuoThink — новый фреймворк, который органично интегрирует визуально-пространственную и языковую области. VisuoThink способствует мультимодальному "медленному мышлению", обеспечивая прогрессивное визуально-текстовое рассуждение, и включает масштабирование на этапе тестирования с помощью поиска по дереву с опережением. Многочисленные эксперименты показывают, что VisuoThink значительно улучшает способности к рассуждению за счёт масштабирования на этапе вывода, даже без тонкой настройки, достигая передовых результатов в задачах, связанных с геометрией и пространственным мышлением.

LLM-SRBench: Новый эталонный тест для открытия научных уравнений с использованием крупных языковых моделей
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

Apr 14

ByParshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy

Открытие научных уравнений является фундаментальной задачей в истории научного прогресса, позволяющей выводить законы, управляющие природными явлениями. В последнее время большие языковые модели (LLM) вызывают интерес для решения этой задачи благодаря их способности использовать встроенные научные знания для генерации гипотез. Однако оценка истинных возможностей этих методов в области открытий остается сложной, поскольку существующие тестовые наборы часто опираются на распространенные уравнения, которые могут быть запомнены LLM, что приводит к завышенным показателям производительности, не отражающим реальное открытие. В данной статье мы представляем LLM-SRBench — всеобъемлющий тестовый набор из 239 сложных задач в четырех научных областях, специально разработанный для оценки методов открытия научных уравнений на основе LLM, предотвращая тривиальное запоминание. Наш тестовый набор состоит из двух основных категорий: LSR-Transform, которая преобразует распространенные физические модели в менее распространенные математические представления для проверки способности рассуждать за пределами запомненных форм, и LSR-Synth, которая вводит синтетические задачи, ориентированные на открытие и требующие анализа данных. В ходе масштабной оценки нескольких современных методов с использованием как открытых, так и закрытых LLM мы обнаружили, что лучшая на данный момент система достигает лишь 31,5% символической точности. Эти результаты подчеркивают сложность задачи открытия научных уравнений, позиционируя LLM-SRBench как ценный ресурс для будущих исследований.

Как новые данные проникают в знания языковых моделей и как их разбавить
How new data permeates LLM knowledge and how to dilute it

Apr 13

ByChen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler

Крупные языковые модели обучаются и продолжают обучаться за счет накопления обновлений на основе градиентов, однако то, как отдельные фрагменты новой информации влияют на существующие знания, приводя как к полезному обобщению, так и к проблематичным галлюцинациям, остается малоизученным. Мы демонстрируем, что при изучении новой информации LLM проявляют эффект "прайминга": изучение нового факта может привести к неадекватному применению этого знания в несвязанных контекстах. Для систематического изучения этого феномена мы представляем "Outlandish" — тщательно отобранный набор данных из 1320 разнообразных текстовых образцов, предназначенных для исследования того, как новые знания проникают в существующую базу знаний LLM. Используя этот набор данных, мы показываем, что степень прайминга после изучения новой информации может быть предсказана путем измерения вероятности токенов ключевых слов до обучения. Эта зависимость устойчиво сохраняется для различных архитектур моделей (PALM-2, Gemma, Llama), их размеров и этапов обучения. Наконец, мы разрабатываем два новых метода для модуляции того, как новые знания влияют на существующее поведение модели: (1) стратегию текстовой аугментации "ступенек" и (2) метод обрезки обновлений "ignore-k". Эти подходы снижают нежелательные эффекты прайминга на 50-95%, сохраняя при этом способность модели изучать новую информацию. Наши результаты предоставляют как эмпирические инсайты в процесс обучения LLM, так и практические инструменты для повышения специфичности вставки знаний в языковые модели. Дополнительные материалы: https://sunchipsster1.github.io/projects/outlandish/

EmoAgent: Оценка и обеспечение безопасности взаимодействия человека и ИИ в контексте психического здоровья
EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety

Apr 13

ByJiahao Qiu, Yinghui He, Xinzhe Juan, Yiming Wang, Yuhan Liu, Zixin Yao, Yue Wu, Xun Jiang, Ling Yang, Mengdi Wang

Рост популярности AI-персонажей, управляемых крупными языковыми моделями (LLM), вызывает опасения в отношении безопасности, особенно для уязвимых пользователей с психологическими расстройствами. Для устранения этих рисков мы предлагаем EmoAgent — многоагентную AI-систему, предназначенную для оценки и снижения угроз психическому здоровью в процессе взаимодействия человека с ИИ. EmoAgent состоит из двух компонентов: EmoEval моделирует виртуальных пользователей, включая тех, кто изображает психически уязвимых людей, чтобы оценить изменения в психическом состоянии до и после взаимодействия с AI-персонажами. Для оценки психических рисков, вызванных LLM, используются клинически проверенные психологические и психиатрические инструменты (PHQ-9, PDI, PANSS). EmoGuard выступает в роли посредника, отслеживая психическое состояние пользователей, прогнозируя потенциальный вред и предоставляя корректирующие рекомендации для снижения рисков. Эксперименты, проведенные в популярных чат-ботах на основе персонажей, показывают, что эмоционально насыщенные диалоги могут привести к ухудшению психического состояния уязвимых пользователей, причем ухудшение наблюдается более чем в 34,4% симуляций. EmoGuard значительно снижает эти показатели, подчеркивая свою роль в обеспечении более безопасного взаимодействия человека с ИИ. Наш код доступен по адресу: https://github.com/1akaman/EmoAgent.

3D CoCa: Контрастные модели как генераторы 3D-описаний
3D CoCa: Contrastive Learners are 3D Captioners

Apr 13

ByTing Huang, Zeyu Zhang, Yemin Wang, Hao Tang

3D-описание, цель которого заключается в описании содержимого 3D-сцен на естественном языке, остается крайне сложной задачей из-за присущей разреженности облаков точек и слабого межмодального выравнивания в существующих методах. Для решения этих проблем мы предлагаем 3D CoCa — новый унифицированный фреймворк, который бесшовно объединяет контрастивное обучение "визуальный язык" с генерацией 3D-описаний в единой архитектуре. Наш подход использует замороженную основу CLIP для визуального языка, чтобы обеспечить богатые семантические априорные данные, пространственно-осознанный 3D-кодировщик сцены для захвата геометрического контекста и мультимодальный декодер для генерации описательных подписей. В отличие от предыдущих двухэтапных методов, которые полагаются на явные предложения объектов, 3D CoCa совместно оптимизирует контрастивные и описательные цели в общем пространстве признаков, устраняя необходимость во внешних детекторах или ручных предложениях. Этот совместный подход к обучению обеспечивает более сильное пространственное рассуждение и более богатое семантическое заземление за счет выравнивания 3D и текстовых представлений. Масштабные эксперименты на бенчмарках ScanRefer и Nr3D демонстрируют, что 3D CoCa значительно превосходит текущие передовые методы на 10,2% и 5,76% по метрике CIDEr при 0,5IoU соответственно. Код будет доступен по адресу https://github.com/AIGeeksGroup/3DCoCa.

LLM могут быть опасными манипуляторами: эмпирическое исследование безопасности убеждения в больших языковых моделях
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Apr 14

ByMinqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang

Последние достижения в области больших языковых моделей (LLM) позволили им приблизиться к уровню убеждения, сопоставимому с человеческим. Однако такой потенциал также вызывает опасения относительно рисков безопасности, связанных с убеждением, управляемым LLM, в частности, их способностью к неэтичному влиянию через манипуляции, обман, эксплуатацию уязвимостей и множество других вредоносных тактик. В данной работе мы представляем систематическое исследование безопасности убеждения в LLM через два ключевых аспекта: (1) корректно ли LLM отвергают неэтичные задачи убеждения и избегают неэтичных стратегий в процессе выполнения, включая случаи, когда изначальная цель убеждения кажется этически нейтральной, и (2) как влияющие факторы, такие как черты личности и внешнее давление, сказываются на их поведении. С этой целью мы представляем PersuSafety — первую всеобъемлющую структуру для оценки безопасности убеждения, которая состоит из трех этапов: создание сцены убеждения, симуляция убеждающего диалога и оценка безопасности убеждения. PersuSafety охватывает 6 разнообразных тем неэтичного убеждения и 15 распространенных неэтичных стратегий. В ходе масштабных экспериментов с 8 широко используемыми LLM мы наблюдаем значительные проблемы безопасности в большинстве моделей, включая неспособность распознать вредоносные задачи убеждения и использование различных неэтичных стратегий убеждения. Наше исследование призывает уделить больше внимания улучшению безопасности в прогрессивных и целеориентированных диалогах, таких как убеждение.

DeepSeek vs. o3-mini: Насколько хорошо языковые модели с возможностью рассуждений могут оценивать машинный перевод и суммаризацию?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Apr 10

ByDaniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger

Крупные языковые модели (LLM) с поддержкой логического вывода недавно продемонстрировали впечатляющие результаты в сложных логических и математических задачах, однако их эффективность в оценке генерации естественного языка остаётся малоизученной. В данном исследовании проводится систематическое сравнение LLM с поддержкой логического вывода (DeepSeek-R1 и OpenAI o3) с их аналогами без такой поддержки в задачах оценки машинного перевода (MT) и суммаризации текста (TS). Мы оцениваем восемь моделей, охватывающих три архитектурные категории, включая передовые модели с логическим выводом, их дистиллированные варианты (от 8B до 70B параметров) и эквивалентные традиционные LLM без поддержки логического вывода. Наши эксперименты на бенчмарках WMT23 и SummEval показывают, что преимущества логического вывода сильно зависят от модели и задачи: в то время как модели OpenAI o3-mini демонстрируют устойчивое улучшение производительности с увеличением интенсивности логического вывода, DeepSeek-R1 уступает своему варианту без логического вывода, за исключением некоторых аспектов оценки TS. Корреляционный анализ показывает, что увеличение использования токенов логического вывода положительно связано с качеством оценки в моделях o3-mini. Кроме того, наши результаты свидетельствуют, что дистилляция возможностей логического вывода сохраняет приемлемую производительность в моделях среднего размера (32B), но значительно ухудшается в более компактных вариантах (8B). Данная работа представляет собой первое всестороннее исследование LLM с логическим выводом для оценки генерации естественного языка и предлагает практические рекомендации по их использованию.

MDK12-Bench: Многодисциплинарный бенчмарк для оценки способности к рассуждению в мультимодальных больших языковых моделях
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Apr 8

ByPengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang

Мультимодальное рассуждение, объединяющее языковые и визуальные подсказки в процессе решения задач и принятия решений, является фундаментальным аспектом человеческого интеллекта и важным шагом на пути к созданию искусственного общего интеллекта. Однако оценка способностей к мультимодальному рассуждению в мультимодальных больших языковых моделях (MLLMs) остается недостаточной. Большинство существующих тестов на рассуждение ограничены небольшим объемом данных, узкой предметной областью и неструктурированным распределением знаний. Чтобы устранить эти пробелы, мы представляем MDK12-Bench — междисциплинарный бенчмарк, оценивающий способности MLLMs к рассуждению на основе реальных экзаменов K-12. Охватывая шесть дисциплин (математика, физика, химия, биология, география и информатика), наш бенчмарк включает 140 тысяч примеров задач различного уровня сложности — от начальной школы до 12 класса. Он содержит 6 827 аннотаций на уровне знаний, основанных на четко организованной структуре знаний, подробные объяснения ответов, метки сложности и разделение по годам, что обеспечивает надежную платформу для всесторонней оценки. Кроме того, мы предлагаем новую динамическую систему оценки, которая позволяет минимизировать проблемы загрязнения данных за счет изменения форм вопросов, типов задач и стилей изображений в процессе оценки. Обширные эксперименты на MDK12-Bench выявили значительные ограничения современных MLLMs в области мультимодального рассуждения. Результаты, полученные на нашем бенчмарке, дают ценные инсайты для разработки моделей следующего поколения. Наши данные и код доступны по адресу https://github.com/LanceZPF/MDK12.

Аудит безопасности MCP: языковые модели с использованием Протокола контекста модели допускают серьезные уязвимости в безопасности
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

Apr 2

ByBrandon Radosevich, John Halloran

Для снижения затрат на разработку и обеспечения беспрепятственной интеграции между потенциальными компонентами, составляющими любое приложение генеративного ИИ, недавно был выпущен и получил широкое распространение Протокол контекста модели (Model Context Protocol, MCP) (Anthropic, 2024). MCP представляет собой открытый протокол, стандартизирующий API-вызовы к крупным языковым моделям (LLM), источникам данных и инструментам агентного типа. Подключая несколько серверов MCP, каждый из которых определен с набором инструментов, ресурсов и промптов, пользователи могут создавать автоматизированные рабочие процессы, полностью управляемые LLM. Однако мы показываем, что текущая конструкция MCP несет в себе широкий спектр рисков для безопасности конечных пользователей. В частности, мы демонстрируем, что ведущие в отрасли LLM могут быть вынуждены использовать инструменты MCP для компрометации системы разработчика ИИ с помощью различных атак, таких как выполнение вредоносного кода, удаленное управление доступом и кража учетных данных. Для упреждающего устранения этих и связанных с ними атак мы представляем инструмент аудита безопасности MCPSafetyScanner — первый агентный инструмент для оценки безопасности произвольного сервера MCP. MCPScanner использует несколько агентов для (а) автоматического определения вредоносных образцов с учетом инструментов и ресурсов сервера MCP; (б) поиска связанных уязвимостей и способов их устранения на основе этих образцов; и (в) генерации отчета о безопасности, детализирующего все обнаруженные проблемы. Наша работа подчеркивает серьезные проблемы безопасности, связанные с универсальными агентными рабочими процессами, а также предоставляет упреждающий инструмент для аудита безопасности серверов MCP и устранения обнаруженных уязвимостей перед развертыванием. Описанный инструмент аудита серверов MCP, MCPSafetyScanner, доступен бесплатно по адресу: https://github.com/johnhalloran321/mcpSafetyScanner.

DiffuMural: Восстановление Дуньхуанских фресок с использованием многоуровневой диффузии
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Apr 13

ByPuyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong

Крупномасштабные предобученные диффузионные модели продемонстрировали выдающиеся результаты в области условной генерации изображений. Однако восстановление древних фресок, как важная задача в этой области, представляет значительные трудности для методов восстановления на основе диффузионных моделей из-за больших поврежденных областей и ограниченного количества обучающих данных. Условные задачи восстановления больше сосредоточены на том, соответствует ли восстановленная часть эстетическим стандартам реставрации фресок в плане общего стиля и деталей стыков, и в текущих исследованиях отсутствуют метрики для оценки эвристического дополнения изображений. Поэтому мы предлагаем DiffuMural — комбинированный механизм многоуровневой сходимости и совместной диффузии с использованием ControlNet и циклической потери согласованности для оптимизации соответствия между сгенерированными изображениями и условным управлением. DiffuMural демонстрирует выдающиеся возможности в восстановлении фресок, используя обучающие данные из 23 крупномасштабных фресок Дуньхуана, которые обладают единой визуальной эстетикой. Модель преуспевает в восстановлении сложных деталей, достижении целостного внешнего вида и решении уникальных задач, связанных с неполными фресками, лишенными фактической основы. Наша система оценки включает четыре ключевые метрики для количественного анализа неполных фресок: фактическая точность, текстурные детали, контекстная семантика и целостная визуальная согласованность. Кроме того, мы интегрируем оценку гуманистической ценности, чтобы гарантировать сохранение культурного и художественного значения восстановленных фресок. Многочисленные эксперименты подтверждают, что наш метод превосходит современные подходы (SOTA) как по качественным, так и по количественным метрикам.