Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет по Qwen3
Qwen3 Technical Report

May 14

ByAn Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu

281

В данной работе мы представляем Qwen3, последнюю версию семейства моделей Qwen. Qwen3 включает в себя серию крупных языковых моделей (LLM), разработанных для повышения производительности, эффективности и многоязычных возможностей. Серия Qwen3 включает модели как с плотной архитектурой, так и с архитектурой Mixture-of-Expert (MoE), с масштабами параметров от 0,6 до 235 миллиардов. Ключевым нововведением в Qwen3 является интеграция режима мышления (для сложного, многошагового рассуждения) и режима без мышления (для быстрых, контекстно-зависимых ответов) в единую структуру. Это устраняет необходимость переключения между различными моделями, такими как модели, оптимизированные для чата (например, GPT-4o), и специализированные модели для рассуждений (например, QwQ-32B), и позволяет динамически переключать режимы в зависимости от запросов пользователя или шаблонов чата. Одновременно Qwen3 вводит механизм бюджета мышления, позволяющий пользователям адаптивно распределять вычислительные ресурсы во время вывода, тем самым балансируя задержку и производительность в зависимости от сложности задачи. Более того, используя знания флагманских моделей, мы значительно сокращаем вычислительные ресурсы, необходимые для создания моделей меньшего масштаба, при этом обеспечивая их высокую конкурентоспособность. Эмпирические оценки показывают, что Qwen3 достигает передовых результатов на различных тестах, включая задачи генерации кода, математического рассуждения, агентские задачи и т.д., конкурируя с более крупными моделями MoE и проприетарными моделями. По сравнению с предшественником Qwen2.5, Qwen3 расширяет поддержку многоязычности с 29 до 119 языков и диалектов, улучшая глобальную доступность за счет улучшенных возможностей межъязыкового понимания и генерации. Для обеспечения воспроизводимости и развития сообществом все модели Qwen3 доступны публично под лицензией Apache 2.0.

GuardReasoner-VL: Защита визуально-языковых моделей через усиленное рассуждение
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

Для повышения безопасности визуально-языковых моделей (VLM) в данной статье представлена новая модель защиты на основе рассуждений, названная GuardReasoner-VL. Основная идея заключается в том, чтобы побудить модель защиты к осознанному рассуждению перед принятием решений о модерации с использованием онлайн-обучения с подкреплением (RL). Сначала мы создаем GuardReasoner-VLTrain — корпус для рассуждений, содержащий 123 тыс. образцов и 631 тыс. шагов рассуждений, охватывающих текстовые, визуальные и текстово-визуальные входные данные. Затем на его основе мы инициализируем способность модели к рассуждениям с помощью обучения с учителем (SFT). Кроме того, мы дополнительно улучшаем рассуждения, связанные с модерацией, с помощью онлайн-RL. Конкретно, для повышения разнообразия и сложности образцов мы применяем отбор с отклонением с последующим расширением данных через предложенную конкатенацию данных с учетом безопасности. Также мы используем динамический параметр обрезки, чтобы стимулировать исследование на ранних этапах и использование накопленных знаний на поздних этапах. Для баланса производительности и эффективности использования токенов мы разрабатываем награду за безопасность, учитывающую длину, которая интегрирует точность, формат и стоимость токенов. Многочисленные эксперименты демонстрируют превосходство нашей модели. Примечательно, что она превосходит ближайшего конкурента в среднем на 19,27% по F1-метрике. Мы публикуем данные, код и модели (3B/7B) GuardReasoner-VL по адресу https://github.com/yueliu1999/GuardReasoner-VL/.

Визуальное планирование: Думаем только с помощью изображений
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

Последние достижения в области больших языковых моделей (LLM) и их мультимодальных расширений (MLLM) значительно улучшили способность машин к рассуждению в разнообразных задачах. Однако эти модели в основном полагаются на чистый текст как средство для выражения и структурирования рассуждений, даже при наличии визуальной информации. В данной работе мы утверждаем, что язык не всегда может быть наиболее естественным или эффективным способом для рассуждений, особенно в задачах, связанных с пространственной и геометрической информацией. Вдохновленные этим, мы предлагаем новую парадигму — визуальное планирование, которое позволяет осуществлять планирование с использованием исключительно визуальных представлений, независимо от текста. В этой парадигме планирование выполняется через последовательности изображений, кодирующих пошаговые выводы в визуальной области, подобно тому, как люди рисуют или визуализируют будущие действия. Мы представляем новую структуру обучения с подкреплением — визуальное планирование через обучение с подкреплением (VPRL), усиленное GRPO для пост-обучения крупных моделей зрения, что приводит к значительным улучшениям в планировании в ряде репрезентативных задач визуальной навигации, таких как FrozenLake, Maze и MiniBehavior. Наша парадигма визуального планирования превосходит все другие варианты планирования, которые осуществляют рассуждения исключительно в текстовом пространстве. Наши результаты подтверждают, что визуальное планирование является жизнеспособной и перспективной альтернативой языковым рассуждениям, открывая новые возможности для задач, которые выигрывают от интуитивного, основанного на изображениях вывода.

MMLongBench: Комплексное и эффективное тестирование моделей обработки длинных контекстов в области зрения и языка
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman

Быстрое расширение контекстных окон в крупных моделях, работающих с визуальными и текстовыми данными, привело к появлению моделей с длинным контекстом (LCVLMs), способных обрабатывать сотни изображений с чередующимися текстовыми токенами за один прямой проход. В данной работе мы представляем MMLongBench — первый бенчмарк, охватывающий разнообразный набор задач с длинным контекстом для оценки LCVLMs эффективно и всесторонне. MMLongBench состоит из 13 331 примера, охватывающего пять различных категорий задач, таких как Visual RAG и Many-Shot ICL. Он также обеспечивает широкий охват типов изображений, включая различные натуральные и синтетические изображения. Для оценки устойчивости моделей к разной длине входных данных все примеры представлены в пяти стандартизированных длинах (от 8K до 128K токенов) с использованием кросс-модальной схемы токенизации, объединяющей визуальные патчи и текстовые токены. Проведя тщательное тестирование 46 закрытых и открытых LCVLMs, мы предоставляем всесторонний анализ текущих способностей моделей в задачах с длинным контекстом. Наши результаты показывают, что: i) производительность на одной задаче является слабым индикатором общей способности к длинному контексту; ii) как закрытые, так и открытые модели сталкиваются с трудностями в задачах с длинным контекстом, что указывает на значительный потенциал для улучшения; iii) модели с более сильными способностями к рассуждению, как правило, демонстрируют лучшую производительность в длинном контексте. Предоставляя широкий охват задач, разнообразие типов изображений и строгий контроль длины, MMLongBench создает недостающую основу для диагностики и развития следующего поколения LCVLMs.

Групповое мышление: множественные параллельно работающие агенты рассуждения, взаимодействующие на уровне отдельных токенов
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

May 16

ByChan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu

Последние достижения в области больших языковых моделей (LLM) продемонстрировали силу рассуждений через самоформируемые цепочки мыслей. Несколько агентов рассуждений могут сотрудничать, чтобы повысить качество совместного анализа выше индивидуальных результатов. Однако такие агенты обычно взаимодействуют поочередно, жертвуя временем задержки ради улучшения качества. В данной работе мы предлагаем подход Group Think — единую LLM, которая действует как несколько параллельных агентов рассуждений, или "мыслителей". Благодаря общей видимости частичного прогресса генерации каждого агента, Group Think вводит новую парадигму параллельных рассуждений, в которой несколько траекторий рассуждений динамически адаптируются друг к другу на уровне токенов. Например, поток рассуждений может изменить свою генерацию в середине предложения, обнаружив, что другой поток лучше подходит для продолжения. Такое детальное взаимодействие на уровне токенов позволяет Group Think снизить избыточные рассуждения, улучшить качество и значительно сократить задержку. Более того, его параллельная природа обеспечивает эффективное использование простаивающих вычислительных ресурсов, что делает его особенно подходящим для выполнения выводов на периферийных устройствах, где очень маленький размер пакета часто приводит к неполной загрузке локальных GPU. Мы предлагаем простое и универсальное изменение, позволяющее любой существующей LLM выполнять Group Think на локальном GPU. Также мы представляем стратегию оценки для измерения задержки рассуждений и эмпирически демонстрируем улучшения задержки с использованием открытых LLM, которые не были специально обучены для Group Think. Мы надеемся, что эта работа проложит путь для будущих LLM к более сложному и эффективному совместному поведению для повышения качества генерации.

Простое полуавтоматическое дистилляция знаний из моделей "визуальный язык" через двойную оптимизацию заголовков с использованием `Dual-Head Optimization`
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via texttt{D}ual-texttt{H}ead texttt{O}ptimization

May 12

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), достигли значительных успехов в решении разнообразных задач, эффективно используя богатую текстовую информацию при минимальном объеме размеченных данных. Однако развертывание таких крупных моделей остается сложной задачей, особенно в условиях ограниченных ресурсов. Дистилляция знаний (Knowledge Distillation, KD) предлагает проверенное решение этой проблемы; однако современные подходы к KD на основе VLMs часто включают многоэтапное обучение или дополнительную настройку, что увеличивает вычислительные затраты и сложность оптимизации. В данной статье мы предлагаем \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) — простую, но эффективную структуру KD, которая переносит знания из VLMs в компактные, специализированные для конкретных задач модели в условиях полуконтролируемого обучения. В частности, мы вводим двойные прогнозирующие головы, которые независимо обучаются на размеченных данных и предсказаниях учителя, и предлагаем линейно комбинировать их выходные данные на этапе вывода. Мы наблюдаем, что DHO смягчает конфликты градиентов между контролируемыми и дистилляционными сигналами, что позволяет более эффективно обучать признаки по сравнению с базовыми подходами с одной головой. В результате обширные эксперименты показывают, что DHO стабильно превосходит базовые методы в различных областях и на детализированных наборах данных. В частности, на ImageNet она достигает наилучших результатов, улучшая точность на 3% и 0,1% при использовании 1% и 10% размеченных данных соответственно, при этом используя меньше параметров.

Mergenetic: Простая библиотека для объединения эволюционных моделей
Mergenetic: a Simple Evolutionary Model Merging Library

May 16

ByAdrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà

Слияние моделей позволяет объединять возможности существующих моделей в новую — постфактум, без дополнительного обучения. Этот подход становится всё более популярным благодаря своей низкой стоимости и наличию библиотек, поддерживающих слияние на потребительских GPU. Недавние исследования показывают, что сочетание слияния с эволюционными алгоритмами может повысить производительность, однако на данный момент нет фреймворка, поддерживающего гибкое экспериментирование с такими стратегиями в языковых моделях. Мы представляем Mergenetic — открытую библиотеку для эволюционного слияния моделей. Mergenetic позволяет легко комбинировать методы слияния и эволюционные алгоритмы, интегрируя легковесные оценки пригодности для снижения затрат на оценку. Мы описываем её дизайн и демонстрируем, что Mergenetic обеспечивает конкурентоспособные результаты для различных задач и языков, используя скромные аппаратные ресурсы.

Многотокенное предсказание требует использования регистров.
Multi-Token Prediction Needs Registers

May 15

ByAnastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis

Прогнозирование нескольких токенов стало перспективным подходом для улучшения предварительного обучения языковых моделей, однако его преимущества не всегда распространяются на другие задачи, такие как тонкая настройка. В данной статье мы предлагаем MuToR — простой и эффективный метод прогнозирования нескольких токенов, который встраивает обучаемые регистровые токены во входную последовательность, каждый из которых отвечает за предсказание будущих целей. По сравнению с существующими методами, MuToR обладает несколькими ключевыми преимуществами: он вводит лишь незначительное количество дополнительных параметров, не требует изменений архитектуры — обеспечивая совместимость с готовыми предобученными языковыми моделями — и остается согласованным с целью предсказания следующего токена, что делает его особенно подходящим для контролируемой тонкой настройки. Кроме того, он естественным образом поддерживает масштабируемые горизонты прогнозирования. Мы демонстрируем эффективность и универсальность MuToR в различных сценариях использования, включая контролируемую тонкую настройку, параметрически эффективную тонкую настройку (PEFT) и предварительное обучение, на сложных генеративных задачах в областях языка и зрения. Наш код будет доступен по адресу: https://github.com/nasosger/MuToR.

Улучшение производительности ассемблерного кода с использованием больших языковых моделей через обучение с подкреплением
Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

May 16

ByAnjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

Крупные языковые модели (LLM) продемонстрировали высокую производительность в широком спектре задач программирования, однако их потенциал для оптимизации кода остается недостаточно изученным. В данной работе исследуется, могут ли LLM оптимизировать производительность ассемблерного кода, где детализированный контроль над выполнением позволяет достичь улучшений, которые сложно выразить в языках высокого уровня. Мы представляем фреймворк обучения с подкреплением, который обучает LLM с использованием метода Proximal Policy Optimization (PPO), руководствуясь функцией вознаграждения, учитывающей как функциональную корректность, проверенную с помощью тестовых случаев, так и производительность выполнения относительно эталонного компилятора gcc -O3. Для поддержки этого исследования мы вводим бенчмарк из 8 072 реальных программ. Наша модель, Qwen2.5-Coder-7B-PPO, достигает 96,0% успешных тестов и среднего ускорения в 1,47 раза по сравнению с базовым уровнем gcc -O3, превосходя все 20 других оцененных моделей, включая Claude-3.7-sonnet. Эти результаты указывают на то, что обучение с подкреплением может раскрыть потенциал LLM для эффективной оптимизации производительности ассемблерного кода.

MPS-Prover: Усовершенствование пошагового доказательства теорем с помощью многоперспективного поиска и курирования данных
MPS-Prover: Advancing Stepwise Theorem Proving by Multi-Perspective Search and Data Curation

May 16

ByZhenwen Liang, Linfeng Song, Yang Li, Tao Yang, Feng Zhang, Haitao Mi, Dong Yu

Автоматическое доказательство теорем (ATP) в формальных языках остается серьезной проблемой в области ИИ, требующей строгого логического вывода и навигации в обширных пространствах поиска. Хотя крупные языковые модели (LLM) продемонстрировали многообещающие результаты, существующие пошаговые системы доказательств часто страдают от предвзятого управления поиском, что приводит к неэффективности и субоптимальным стратегиям доказательства. В данной статье представлен Multi-Perspective Search Prover (MPS-Prover) — новая пошаговая система ATP, разработанная для преодоления этих ограничений. MPS-Prover включает два ключевых нововведения: высокоэффективную стратегию посттренировочной обработки данных, которая сокращает около 40% избыточных обучающих данных без ущерба для производительности, и механизм поиска с использованием множественных перспектив. Этот поиск интегрирует обученную модель-критика с стратегически разработанными эвристическими правилами для диверсификации выбора тактик, предотвращения застревания в непродуктивных состояниях и повышения устойчивости поиска. Обширные оценки показывают, что MPS-Prover достигает наилучших результатов на нескольких сложных тестовых наборах, включая miniF2F и ProofNet, превосходя предыдущие модели с 7 миллиардами параметров. Кроме того, наши анализы показывают, что MPS-Prover генерирует значительно более короткие и разнообразные доказательства по сравнению с существующими пошаговыми и целостными методами, подчеркивая его эффективность и результативность. Наша работа расширяет возможности формального рассуждения на основе LLM и предлагает надежную структуру и всесторонний анализ для разработки более мощных систем доказательства теорем.

Масштабирование рассуждений может повысить достоверность в больших языковых моделях.
Scaling Reasoning can Improve Factuality in Large Language Models

May 16

ByMike Zhang, Johannes Bjerva, Russa Biswas

Недавние исследования способностей крупных языковых моделей (LLM) к рассуждению продемонстрировали многообещающие улучшения в производительности моделей за счет использования длительного процесса мышления и дополнительных вычислительных ресурсов во время вывода, в основном в задачах, связанных с математическими рассуждениями (Muennighoff et al., 2025). Однако остается неясным, действительно ли более длинные цепочки рассуждений улучшают фактическую точность, особенно за пределами математических контекстов. В данной работе мы тщательно исследуем рассуждения LLM в сложных сценариях открытого домена для вопросно-ответных задач (QA). Мы сначала извлекаем траектории рассуждений из продвинутых крупномасштабных моделей рассуждений (QwQ-32B и DeepSeek-R1-671B), а затем дообучаем различные модели, начиная с меньших, настроенных на инструкции вариантов, до более крупных архитектур на основе Qwen2.5. Для обогащения траекторий рассуждений мы добавляем фактическую информацию из графов знаний в виде путей в наши траектории рассуждений. Наша экспериментальная установка включает четыре базовых подхода и шесть различных моделей, настроенных на инструкции, оцененных на наборе из шести датасетов, охватывающих более 22,6 тыс. вопросов. В общей сложности мы провели 168 экспериментальных прогонов и проанализировали около 1,7 млн траекторий рассуждений. Наши результаты показывают, что в рамках одного прогона меньшие модели рассуждений достигают заметных улучшений в фактической точности по сравнению с их исходными аналогами, настроенными на инструкции. Более того, наш анализ демонстрирует, что добавление вычислительных ресурсов и бюджета токенов во время тестирования последовательно улучшает фактическую точность на 2–8%, что дополнительно подтверждает эффективность масштабирования во время тестирования для повышения производительности и, следовательно, улучшения точности рассуждений в задачах открытого домена QA. Мы публикуем все экспериментальные материалы для дальнейших исследований.

MatTools: Оценка больших языковых моделей для инструментов материаловедения
MatTools: Benchmarking Large Language Models for Materials Science Tools

May 16

BySiyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen

Крупные языковые модели (LLM) всё чаще применяются для решения задач в материаловедении, включая анализ научной литературы, прогнозирование свойств, открытие новых материалов и проектирование сплавов. Одновременно разработан широкий спектр вычислительных подходов, основанных на физических принципах, которые позволяют рассчитывать свойства материалов. В данной работе мы предлагаем эталонное приложение для оценки способности LLM отвечать на вопросы по материаловедению посредством генерации и безопасного выполнения кода на основе таких вычислительных пакетов для материаловедения, основанных на физических принципах. MatTools построен на двух взаимодополняющих компонентах: эталонном тесте вопросов и ответов (QA) для инструментов моделирования материалов и эталонном тесте реального использования инструментов. Мы разработали автоматизированную методику для эффективного сбора примеров реального использования инструментов в материаловедении. Эталонный тест QA, созданный на основе кодовой базы и документации pymatgen (Python Materials Genomics), включает 69 225 пар вопросов и ответов, которые оценивают способность LLM понимать инструменты материаловедения. Эталонный тест реального использования содержит 49 задач (138 подзадач), требующих генерации функционального Python-кода для расчёта свойств материалов. Наша оценка различных LLM выявила три ключевых вывода: (1) Универсальные модели превосходят специализированные; (2) ИИ понимает ИИ; (3) Простота лучше. MatTools предоставляет стандартизированную структуру для оценки и улучшения возможностей LLM в применении инструментов материаловедения, способствуя разработке более эффективных систем ИИ для материаловедения и научных исследований в целом.

InstanceGen: Генерация изображений с использованием инструкций на уровне объектов
InstanceGen: Image Generation with Instance-level Instructions

May 8

ByEtai Sella, Yanir Kleiman, Hadar Averbuch-Elor

Несмотря на быстрый прогресс в возможностях генеративных моделей, предобученные модели преобразования текста в изображение по-прежнему испытывают трудности с захватом семантики, передаваемой сложными запросами, которые объединяют несколько объектов и атрибуты на уровне экземпляров. В результате наблюдается растущий интерес к интеграции дополнительных структурных ограничений, обычно в виде грубых ограничивающих рамок, чтобы лучше направлять процесс генерации в таких сложных случаях. В данной работе мы развиваем идею структурного руководства, делая наблюдение, что современные модели генерации изображений могут напрямую предоставлять правдоподобную детализированную структурную инициализацию. Мы предлагаем метод, который сочетает это структурное руководство на основе изображений с инструкциями на уровне экземпляров, основанными на языковых моделях, что позволяет получать выходные изображения, соответствующие всем частям текстового запроса, включая количество объектов, атрибуты на уровне экземпляров и пространственные отношения между ними.

Люди ожидают рациональности и кооперации от оппонентов в виде крупных языковых моделей в стратегических играх.
Humans expect rationality and cooperation from LLM opponents in strategic games

May 16

ByDarija Barak, Miguel Costa-Gomes

По мере интеграции крупных языковых моделей (LLM) в наши социальные и экономические взаимодействия, необходимо углубить понимание того, как люди реагируют на LLM в стратегических условиях. Мы представляем результаты первого контролируемого лабораторного эксперимента с денежным стимулированием, изучающего различия в поведении людей в многопользовательской игре p-beauty contest против других людей и LLM. Мы используем внутрисубъектный дизайн для сравнения поведения на индивидуальном уровне. Мы показываем, что в этой среде люди выбирают значительно меньшие числа при игре против LLM, чем против людей, что в основном обусловлено увеличением частоты выбора «нулевого» равновесия по Нэшу. Этот сдвиг в основном наблюдается у субъектов с высоким уровнем стратегического мышления. Субъекты, выбирающие нулевое равновесие по Нэшу, мотивируют свою стратегию, ссылаясь на воспринимаемую способность LLM к рассуждению и, что неожиданно, склонность к сотрудничеству. Наши результаты предоставляют фундаментальные инсайты о взаимодействии людей и LLM в многопользовательских играх с одновременным выбором, выявляют неоднородности как в поведении субъектов, так и в их убеждениях относительно игры LLM, а также предлагают важные выводы для проектирования механизмов в смешанных системах человек-LLM.

GIE-Bench: В направлении обоснованной оценки редактирования изображений на основе текстовых инструкций
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16

ByYusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan

Редактирование изображений с использованием инструкций на естественном языке стало естественным и выразительным способом изменения визуального контента; однако оценка производительности таких моделей остается сложной задачей. Существующие подходы к оценке часто полагаются на метрики сходства изображений и текста, такие как CLIP, которые недостаточно точны. В данной работе мы представляем новый эталонный тест, предназначенный для более обоснованной оценки моделей редактирования изображений на основе текста, по двум ключевым направлениям: (i) функциональная корректность, оцениваемая с помощью автоматически сгенерированных вопросов с множественным выбором, которые проверяют, было ли успешно применено запрошенное изменение; и (ii) сохранение содержимого изображения, которое обеспечивает визуальную согласованность нецелевых областей изображения с использованием техники маскирования, учитывающей объекты, и оценки сохранности. Эталонный тест включает более 1000 высококачественных примеров редактирования в 20 различных категориях контента, каждый из которых аннотирован подробными инструкциями по редактированию, вопросами для оценки и пространственными масками объектов. Мы проводим масштабное исследование, сравнивая GPT-Image-1, последнюю флагманскую модель в области редактирования изображений на основе текста, с несколькими современными моделями редактирования, и проверяем наши автоматические метрики на соответствие человеческим оценкам. Результаты показывают, что GPT-Image-1 лидирует по точности выполнения инструкций, но часто чрезмерно изменяет нерелевантные области изображения, что подчеркивает ключевой компромисс в текущем поведении модели. GIE-Bench предоставляет масштабируемую и воспроизводимую основу для продвижения более точной оценки редактирования изображений на основе текста.

Обучение оценке плотных контактов руки на основе несбалансированных данных
Learning Dense Hand Contact Estimation from Imbalanced Data

May 16

ByDaniel Sungho Jung, Kyoung Mu Lee

Руки играют ключевую роль в человеческом взаимодействии, и понимание контакта между руками и окружающим миром способствует всестороннему изучению их функций. В последнее время наблюдается рост числа наборов данных, посвящённых взаимодействию рук, которые охватывают контакт с объектами, другими руками, сценами и телом. Несмотря на важность задачи и увеличение объёмов высококачественных данных, вопрос о том, как эффективно обучать плотную оценку контакта рук, остаётся малоизученным. Существует две основные проблемы при обучении плотной оценке контакта рук. Во-первых, в наборах данных о контакте рук наблюдается дисбаланс классов, где большинство образцов не находятся в контакте. Во-вторых, в этих наборах данных присутствует пространственный дисбаланс, так как большая часть контактов сосредоточена на кончиках пальцев, что создаёт трудности для обобщения контактов в других областях руки. Для решения этих проблем мы представляем фреймворк, который обучает плотную оценку контакта рук (HACO) на несбалансированных данных. Чтобы устранить дисбаланс классов, мы вводим сбалансированную выборку контактов, которая создаёт и выбирает данные из нескольких групп, равномерно представляющих разнообразную статистику контактов как для контактных, так и для неконтактных образцов. Кроме того, для решения проблемы пространственного дисбаланса мы предлагаем функцию потерь с балансировкой классов на уровне вершин (VCB), которая учитывает пространственно изменяющееся распределение контактов, перевзвешивая вклад каждой вершины в потери на основе частоты её контактов в наборе данных. В результате мы эффективно обучаемся предсказывать плотную оценку контакта рук на основе крупномасштабных данных, не страдая от проблем дисбаланса классов и пространственного распределения. Код будет опубликован.

Унификация сегментации в микроскопии с использованием мультимодальной крупноязыковой модели
Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16

ByManyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan

Точная сегментация областей интереса в биомедицинских изображениях имеет существенное значение для анализа изображений. Хотя несколько базовых моделей для биомедицинской сегментации в настоящее время демонстрируют отличные результаты на определенных наборах данных, они, как правило, показывают неоптимальную производительность на данных из невидимых доменов. Мы связываем этот недостаток с отсутствием знаний о взаимодействии зрения и языка перед сегментацией. Мультимодальные большие языковые модели (MLLMs) привносят выдающиеся способности к пониманию и рассуждению в мультимодальные задачи, что вдохновляет нас использовать MLLMs для внедрения знаний о взаимодействии зрения и языка (VLK), тем самым позволяя моделям зрения демонстрировать превосходные обобщающие способности на кросс-доменных наборах данных. В данной статье мы предлагаем использовать MLLMs для обучения SAM работе с микроскопическими данными из различных доменов, объединяя подход "Сегментируй что угодно" в микроскопии, названный uLLSAM. В частности, мы предлагаем модуль семантического выравнивания зрения и языка (VLSA), который внедряет VLK в модель "Сегментируй что угодно" (SAM). Мы обнаружили, что после получения глобальных подсказок VLK производительность SAM значительно улучшается, но наблюдаются недостатки в восприятии границ контуров. Поэтому мы дополнительно предлагаем семантическую регуляризацию границ (SBR) для улучшения работы SAM. Наш метод демонстрирует улучшение на 7,71% по метрике Dice и на 12,10% по метрике SA на 9 наборах данных микроскопии из одного домена, достигая наилучших результатов. Наш метод также показывает улучшение на 6,79% по метрике Dice и на 10,08% по метрике SA на 10 наборах данных из других доменов, демонстрируя сильные обобщающие способности. Код доступен по адресу https://github.com/ieellee/uLLSAM.

CheXGenBench: Унифицированный эталон для оценки точности, конфиденциальности и полезности синтетических рентгенограмм грудной клетки
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

May 15

ByRaman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales

Мы представляем CheXGenBench — строгую и многогранную систему оценки для генерации синтетических рентгенограмм грудной клетки, которая одновременно оценивает точность, риски конфиденциальности и клиническую полезность в рамках современных моделей генерации изображений на основе текста. Несмотря на быстрый прогресс в области генеративного ИИ для реальных изображений, оценки в медицинской области сталкиваются с методологическими несоответствиями, устаревшими архитектурными сравнениями и разрозненными критериями оценки, которые редко учитывают практическую клиническую ценность синтетических данных. CheXGenBench преодолевает эти ограничения за счет стандартизированного разделения данных и унифицированного протокола оценки, включающего более 20 количественных метрик, которые систематически анализируют качество генерации, потенциальные уязвимости конфиденциальности и применимость в клинической практике для 11 ведущих архитектур генерации изображений на основе текста. Наши результаты выявляют критические недостатки существующих протоколов оценки, особенно в отношении оценки точности генерации, что приводит к противоречивым и малоинформативным сравнениям. Наша система устанавливает стандартизированный бенчмарк для сообщества медицинского ИИ, позволяя проводить объективные и воспроизводимые сравнения, а также обеспечивая бесшовную интеграцию как существующих, так и будущих генеративных моделей. Дополнительно мы публикуем высококачественный синтетический набор данных SynthCheX-75K, содержащий 75 тысяч рентгенограмм, сгенерированных лучшей моделью (Sana 0.6B) в нашем бенчмарке, чтобы поддержать дальнейшие исследования в этой важной области. С помощью CheXGenBench мы устанавливаем новый уровень современных технологий и публикуем нашу систему, модели и набор данных SynthCheX-75K по адресу https://raman1121.github.io/CheXGenBench/.

От компромисса к синергии: универсальная симбиотическая система водяных знаков для крупных языковых моделей
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

May 15

ByYidan Wang, Yubing Ren, Yanan Cao, Binxing Fang

Рост популярности крупных языковых моделей (LLM) усилил опасения по поводу неправомерного использования текстов, созданных с помощью ИИ, что делает водяные знаки перспективным решением. Основные схемы нанесения водяных знаков для LLM делятся на две категории: основанные на логитах и на выборке. Однако текущие схемы предполагают компромиссы между устойчивостью, качеством текста и безопасностью. Чтобы смягчить это, мы интегрируем схемы, основанные на логитах и выборке, используя их сильные стороны для достижения синергии. В данной статье мы предлагаем универсальную симбиотическую структуру нанесения водяных знаков с тремя стратегиями: последовательной, параллельной и гибридной. Гибридная структура адаптивно внедряет водяные знаки, используя энтропию токенов и семантическую энтропию, оптимизируя баланс между обнаруживаемостью, устойчивостью, качеством текста и безопасностью. Кроме того, мы подтверждаем наш подход с помощью всесторонних экспериментов на различных наборах данных и моделях. Результаты экспериментов показывают, что наш метод превосходит существующие базовые подходы и достигает наилучших результатов (SOTA). Мы считаем, что эта структура предоставляет новые идеи для различных парадигм нанесения водяных знаков. Наш код доступен по адресу https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.

Улучшение оптимизации на этапе вывода для передачи стиля вокальных эффектов с использованием гауссовского априорного распределения
Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior

May 16

ByChin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas

Перенос стиля с оптимизацией на этапе вывода (ST-ITO) — это современный подход для переноса применённых эффектов с эталонного аудио на исходный аудиотрек. Он оптимизирует параметры эффектов, чтобы минимизировать расстояние между стилевыми представлениями обработанного аудио и эталонного. Однако этот метод рассматривает все возможные конфигурации как равнозначные и полагается исключительно на пространство представлений, что может приводить к нереалистичным или смещённым результатам. Мы устраняем этот недостаток, вводя гауссово априорное распределение, полученное из набора данных вокальных пресетов DiffVox, в пространство параметров. Получаемая оптимизация эквивалентна оценке максимума апостериорной вероятности. Оценки переноса вокальных эффектов на наборе данных MedleyDB показывают значительные улучшения по различным метрикам по сравнению с базовыми методами, включая слепой оценщик аудиоэффектов, методы ближайшего соседа и некалиброванный ST-ITO. Предложенная калибровка снижает среднеквадратичную ошибку параметров до 33% и лучше соответствует эталонному стилю. Субъективные оценки с участием 16 человек подтверждают превосходство нашего метода, особенно в условиях ограниченных данных. Эта работа демонстрирует, как включение априорных знаний на этапе вывода улучшает перенос аудиоэффектов, прокладывая путь к более эффективным и реалистичным системам обработки звука.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет по Qwen3
Qwen3 Technical Report

May 14

281

GuardReasoner-VL: Защита визуально-языковых моделей через усиленное рассуждение
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

May 16

ByYue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

Визуальное планирование: Думаем только с помощью изображений
Visual Planning: Let's Think Only with Images

May 16

ByYi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

MMLongBench: Комплексное и эффективное тестирование моделей обработки длинных контекстов в области зрения и языка
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15

ByZhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman