HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

36 papers found

Эмпирическое обучение с подкреплением
Experiential Reinforcement Learning

Feb 15

ByTaiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang, Jieyu Zhao

Обучение с подкреплением стало основным подходом для языковых моделей (ЯМ) к обучению на основе вознаграждения или обратной связи от среды. На практике обратная связь от среды обычно является разреженной и запаздывающей. Обучение по таким сигналам является сложной задачей, поскольку ЯМ должны неявно выводить, как наблюдаемые неудачи должны трансформироваться в изменения поведения для будущих итераций. Мы представляем Экспериентальное обучение с подкреплением (ЭОП) — парадигму обучения, которая внедряет явный цикл «опыт-рефлексия-консолидация» в процесс обучения с подкреплением. Для данной задачи модель генерирует первоначальную попытку, получает обратную связь от среды и создает рефлексию, которая направляет уточненную вторую попытку, чей успех подкрепляется и интериоризируется в базовую политику. Этот процесс преобразует обратную связь в структурированную поведенческую коррекцию, улучшая исследование и стабилизируя оптимизацию, одновременно сохраняя достижения при развертывании без дополнительных вычислительных затрат на вывод. В разреженно-вознаграждающих средах управления и бенчмарках агентного мышления ЭОП последовательно повышает эффективность обучения и итоговую производительность по сравнению с сильными базовыми методами обучения с подкреплением, демонстрируя улучшения до +81% в сложных многошаговых средах и до +11% в задачах рассуждения с использованием инструментов. Эти результаты позволяют предположить, что интеграция явной саморефлексии в обучение политики предоставляет практический механизм для преобразования обратной связи в устойчивое поведенческое улучшение.

DeepImageSearch: Сравнительный анализ мультимодальных агентов для контекстно-зависимого поиска изображений в визуальных историях
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Feb 11

ByChenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou

Существующие многомодальные системы поиска преуспевают в семантическом сопоставлении, но неявно предполагают, что релевантность запроса и изображения можно оценивать изолированно. Эта парадигма упускает из виду богатые зависимости, присущие реалистичным визуальным потокам, где информация распределена во временных последовательностях, а не ограничена отдельными кадрами. Чтобы устранить этот пробел, мы представляем DeepImageSearch — новую агентную парадигму, которая переформулирует задачу поиска изображений как автономную задачу исследования. Модели должны планировать и выполнять многошаговые рассуждения над сырыми визуальными историями, чтобы находить цели на основе неявных контекстных сигналов. Мы создали DISBench, сложный бенчмарк, построенный на взаимосвязанных визуальных данных. Чтобы решить проблему масштабируемости создания контекстно-зависимых запросов, мы предлагаем гибридный человеко-модельный конвейер, который использует визуально-языковые модели для выявления скрытых пространственно-временных связей, эффективно перекладывая трудоемкий процесс обнаружения контекста на этап, предшествующий проверке человеком. Кроме того, мы создали надежный базовый уровень с использованием модульной агентной архитектуры, оснащенной инструментами для детального анализа и системой двойной памяти для навигации в длительных временных горизонтах. Многочисленные эксперименты показывают, что DISBench представляет серьезные трудности для современных моделей, подчеркивая необходимость интеграции агентных рассуждений в системы поиска следующего поколения.

Nanbeige4.1-3B: Малая универсальная модель, способная к рассуждениям, согласованию и действиям
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Feb 13

ByChen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen

Мы представляем Nanbeige4.1-3B — унифицированную общую языковую модель, которая одновременно демонстрирует мощное агентское поведение, генерацию кода и способность к общим рассуждениям, имея всего 3 миллиарда параметров. Насколько нам известно, это первая модель малого размера с открытым исходным кодом, достигшая такой универсальности в рамках единой архитектуры. Для улучшения логических способностей и согласования с предпочтениями мы объединили точечное и парное моделирование вознаграждения, что обеспечивает генерацию качественных ответов, соответствующих человеческим ожиданиям. В части генерации кода мы разработали систему вознаграждений, учитывающую сложность, для обучения с подкреплением, что позволяет оптимизировать как корректность, так и эффективность кода. Для реализации глубокого поиска мы провели сложный синтез данных и внедрили пошаговый контроль в процессе обучения. Это обеспечивает стабильное взаимодействие с инструментами на длинных горизонтах, позволяя Nanbeige4.1-3B надежно выполнять до 600 шагов вызовов инструментов для решения сложных задач. Результаты масштабных экспериментов показывают, что Nanbeige4.1-3B существенно превосходит предыдущие модели сопоставимого масштаба, такие как Nanbeige4-3B-2511 и Qwen3-4B, и даже демонстрирует превосходство над гораздо более крупными моделями, например, Qwen3-30B-A3B. Наши результаты доказывают, что малые модели способны одновременно достигать как широкой компетентности, так и сильной специализации, переопределяя потенциал моделей с 3 миллиардами параметров.

REDSearcher: Масштабируемая и экономически эффективная платформа для агентов поиска с длительным горизонтом планирования
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

Feb 15

ByZheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu

Крупные языковые модели переходят от универсальных систем знаний к решению практических задач, однако их оптимизация для сложных поисковых задач остается сложной проблемой. Ключевое узкое место заключается в крайней разреженности высококачественных поисковых траекторий и сигналов вознаграждения, что вызвано трудностью масштабируемого построения долгосрочных задач и высокой стоимостью ресурсоемких прогонов с вызовами внешних инструментов. Для решения этих проблем мы предлагаем REDSearcher — унифицированную структуру, которая совместно проектирует синтез сложных задач, промежуточное и пост-обучение для масштабируемой оптимизации поисковых агентов. В частности, REDSearcher вводит следующие улучшения: (1) Мы формулируем синтез задач как двойственную задачу оптимизации, где сложность задачи точно управляется топологией графа и дисперсией доказательств, что позволяет масштабируемо генерировать сложные, качественные задачи. (2) Мы вводим инструментально-расширенные запросы, чтобы поощрять активное использование инструментов вместо пассивного припоминания. (3) В ходе промежуточного обучения мы усиливаем ключевые атомарные способности — знание, планирование и вызов функций — существенно снижая стоимость сбора высококачественных траекторий для последующего обучения. (4) Мы создаем локальную имитационную среду, которая обеспечивает быструю и недорогую алгоритмическую итерацию для экспериментов с обучением с подкреплением. На бенчмарках для текстовых и мультимодальных поисковых агентов наш подход демонстрирует наилучшие результаты. Для содействия будущим исследованиям в области долгосрочных поисковых агентов мы опубликуем 10 тыс. высококачественных сложных текстовых поисковых траекторий, 5 тыс. мультимодальных траекторий и 1 тыс. текстовых запросов для обучения с подкреплением, а также код и контрольные точки моделей.

BitDance: Масштабирование авторегрессионных генеративных моделей с бинарными токенами
BitDance: Scaling Autoregressive Generative Models with Binary Tokens

Feb 15

ByYuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen

Мы представляем BitDance — масштабируемый авторегрессионный (AR) генератор изображений, который предсказывает бинарные визуальные токены вместо индексов кодбука. Благодаря высокоэнтропийным бинарным латентным представлениям, каждый токен в BitDance может кодировать до 2^{256} состояний, что обеспечивает компактное, но высокоэкспрессивное дискретное представление. Выборка из такого огромного пространства токенов затруднительна при использовании стандартной классификации. Для решения этой проблемы BitDance использует бинарный диффузионный головной модуль: вместо предсказания индекса с помощью softmax, он применяет диффузию в непрерывном пространстве для генерации бинарных токенов. Кроме того, мы предлагаем next-patch diffusion — новый метод декодирования, который предсказывает несколько токенов параллельно с высокой точностью, значительно ускоряя вывод. На наборе данных ImageNet 256x256 BitDance достигает FID 1.24, что является лучшим результатом среди AR-моделей. С использованием next-patch diffusion, BitDance превосходит современные параллельные AR-модели с 1.4 млрд параметров, используя в 5.4 раза меньше параметров (260 млн) и обеспечивая ускорение в 8.7 раза. Для задач генерации изображений по тексту BitDance обучается на крупномасштабных мультимодальных токенах и эффективно генерирует высококачественные фотореалистичные изображения, демонстрируя высокую производительность и благоприятную масштабируемость. При генерации изображений 1024x1024 BitDance достигает более чем 30-кратного ускорения по сравнению с предыдущими AR-моделями. Мы публикуем код и модели для содействия дальнейшим исследованиям в области базовых AR-моделей. Код и модели доступны по адресу: https://github.com/shallowdream204/BitDance.

Запрос как якорь: сценарий-адаптивное представление пользователя с помощью больших языковых моделей
Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

Feb 16

ByJiahao Yuan, Yike Xu, Jinyong Wen, Baokun Wang, Ziyi Gao, Xiaotong Lin, Yun Liu, Xing Fu, Yu Cheng, Yongchao Liu, Weiqiang Wang, Zhongle Xie

Промышленное обучение представлений пользователей требует баланса между устойчивой универсальностью и острой чувствительностью к задаче. Однако существующие парадигмы в основном создают статические, не зависящие от задачи эмбеддинги, которые с трудом согласуют противоречивые требования различных сценариев в единых векторных пространствах. Более того, гетерогенные многоканальные данные вносят присущие им шумы и модальные конфликты, ухудшая качество представлений. Мы предлагаем Query-as-Anchor — фреймворк, который переводит моделирование пользователей со статического кодирования на динамический, учитывающий запрос синтез. Чтобы наделить большие языковые модели (LLM) глубоким пониманием пользователей, мы сначала создали UserU, промышленный набор данных для предварительного обучения, который выравнивает многомодальные поведенческие последовательности с семантикой понимания пользователя. Наша архитектура Q-Anchor Embedding интегрирует иерархические кодировщики от грубого к точному в двухбашенные LLM посредством совместной контрастно-авторегрессионной оптимизации для получения учитывающего запрос представления пользователя. Чтобы сократить разрыв между общим предварительным обучением и специализированной бизнес-логикой, мы дополнительно вводим кластерную настройку мягких промптов для обеспечения дискриминативных латентных структур, эффективно выравнивая внимание модели со специфичными для сценария модальностями. Для развертывания, якорение запросов в концах последовательностей позволяет использовать ускоренный KV-кэшем вывод с пренебрежимо малым дополнительным временем задержки. Оценки на 10 промышленных бенчмарках Alipay демонстрируют стабильное состояние современных достижений (SOTA), высокую масштабируемость и эффективное развертывание. Крупномасштабное онлайн A/B-тестирование в производственной системе Alipay в двух реальных сценариях дополнительно подтверждает практическую эффективность. Наш код подготовлен для публичного релиза и будет доступен по адресу: https://github.com/JhCircle/Q-Anchor.

STATe-of-Thoughts: Структурированные шаблоны действий для Древа мыслей
STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Feb 15

ByZachary Bamberger, Till R. Saenger, Gilad Morad, Ofra Amir, Brandon M. Stewart, Amir Feder

Методы вычислений во время вывода (ITC), такие как Best-of-N и Tree-of-Thoughts, предназначены для генерации кандидатов на выходе, которые являются одновременно высококачественными и разнообразными, однако их использование сэмплирования с высокой температурой часто не позволяет достичь значимого разнообразия результатов. Более того, существующие ITC-методы предлагают ограниченный контроль над процессом рассуждений, что, в свою очередь, ограничивает их объяснимость. Мы представляем STATe-of-Thoughts (STATe) — интерпретируемый ITC-метод, осуществляющий поиск по высокоуровневым шаблонам рассуждений. STATe заменяет стохастическое сэмплирование дискретными и интерпретируемыми текстовыми интервенциями: контроллер выбирает действия, кодирующие высокоуровневые варианты рассуждений, генератор производит шаги рассуждений, обусловленные этими выборами, а оценщик присваивает кандидатам баллы для направления поиска. Такой структурированный подход дает три основных преимущества. Во-первых, текстовые интервенции, управляемые действиями, обеспечивают большее разнообразие ответов по сравнению с температурным сэмплированием. Во-вторых, в случае исследования по генерации аргументов явные последовательности действий STATe фиксируют интерпретируемые признаки, которые обладают высокой предсказательной способностью относительно качества выходных данных. В-третьих, оценка взаимосвязи между производительностью и выбором действий позволяет нам выявлять перспективные, но неисследованные области пространства действий и напрямую направлять генерацию в их сторону. В совокупности эти результаты устанавливают STATe в качестве практического фреймворка для генерации высококачественного, разнообразного и интерпретируемого текста. Наш фреймворк доступен по адресу https://github.com/zbambergerNLP/state-of-thoughts.

InnoEval: оценка исследовательских идей как задача обоснованного знаниями многоперспективного рассуждения
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

Feb 16

ByShuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue, Ningyu Zhang, Hossein A. Rahmani, Yanshan Wang, Qiang Zhang, Keyan Ding, Jeff Z. Pan, Huajun Chen, Emine Yilmaz

Быстрая эволюция больших языковых моделей стимулировала всплеск генерации научных идей, однако этот скачок не сопровождался сопоставимым прогрессом в области оценки идей. Фундаментальная природа научной оценки требует опоры на экспертные знания, коллективного обсуждения и принятия решений на основе множества критериев. Однако существующие методы оценки идей часто страдают от ограниченности знаний, уплощения оценочных измерений и присущей модели «LLM-as-a-Judge» систематической ошибки. Для решения этих проблем мы рассматриваем оценку идей как проблему обоснованного знаниями и многоперспективного рассуждения и представляем InnoEval — глубокую систему оценки инноваций, разработанную для эмуляции оценки идей на уровне человека. Мы применяем гетерогенную систему глубинного поиска знаний, которая извлекает и обосновывает динамические доказательства из разнообразных онлайн-источников. Далее мы достигаем консенсуса в оценке с помощью совета по инновационному рецензированию, состоящего из рецензентов с различным академическим бэкграундом, что позволяет проводить многомерную разъединенную оценку по множеству метрик. Мы создали комплексные наборы данных на основе авторитетных рецензируемых материалов для тестирования InnoEval. Эксперименты показывают, что InnoEval стабильно превосходит базовые методы в поточечных, попарных и групповых оценочных задачах, демонстрируя паттерны суждений и консенсус,高度 согласованные с экспертами-людьми.

Дарвинизм данных. Часть I: Раскрытие ценности научных данных для предварительного обучения
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Feb 8

ByYiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu

Качество данных определяет производительность базовых моделей, однако систематические фреймворки их обработки отсутствуют. Мы представляем Data Darwinism — десятиуровневую таксономию (L0-L9), концептуализирующую коэволюцию данных и моделей: продвинутые модели создают превосходные данные для систем следующего поколения. Мы проверяем это на научной литературе, построив Darwin-Science — корпус объемом 900 млрд токенов (L0-L5). Мы выявляем разрыв в обучаемости сырого научного текста, который устраняется через уровни L4 (Генеративное уточнение) и L5 (Когнитивное дополнение) с использованием передовых LLM для экспликации терминологии и логических рассуждений. Для обеспечения строгой атрибуции мы предварительно обучили модели daVinci-origin-3B/7B с нуля, исключив научный контент для создания незагрязненных базовых линий. После дообучения на 600 млрд токенов Darwin-Science превосходит базовые линии на +2,12 (3B) и +2,95 (7B) пункта в более чем 20 тестах, достигая +5,60 и +8,40 пунктов в предметно-ориентированных задачах. Систематический переход к уровню L5 дает совокупный прирост +1,36 пункта, подтверждая, что обработка высокого уровня раскрывает скрытую ценность данных. Мы публикуем корпус Darwin-Science и модели daVinci-origin для обеспечения принципиального коэволюционного развития.

UniWeTok: унифицированный бинарный токенизатор с размером кодовой книги 2^{128} для унифицированной мультимодальной большой языковой модели
UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

Feb 15

ByShaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang

Унифицированные мультимодальные большие языковые модели (MLLM) требуют визуального представления, которое одновременно поддерживает высокоточную реконструкцию, сложную семантическую экстракцию и пригодность для генеративных задач. Однако существующие визуальные токенизаторы, как правило, не способны удовлетворить эти противоречивые цели в рамках единой архитектуры. В данной статье мы представляем UniWeTok — унифицированный дискретный токенизатор, разработанный для преодоления этого разрыва с использованием массивного бинарного кодбука (2^{128}). В рамках обучающей архитектуры мы внедряем Pre-Post Distillation и Generative-Aware Prior для улучшения семантической экстракции и генеративных свойств дискретных токенов. Что касается архитектуры модели, мы предлагаем гибридную сверточно-аттенционную архитектуру с функцией активации SigLu. Активация SigLu не только ограничивает выход энкодера и стабилизирует процесс семантической дистилляции, но и эффективно разрешает конфликт оптимизации между энтропийной потерей токенов и потерей commitment. Мы также предлагаем трехэтапную схему обучения, предназначенную для повышения адаптивности UniWeTok к различным разрешениям изображений и сценариям, чувствительным к восприятию, таким как работа с человеческими лицами и текстовым контентом. На ImageNet UniWeTok демонстрирует передовые результаты в генерации изображений (FID: UniWeTok 1.38 vs. REPA 1.42), требуя при этом значительно меньших вычислительных ресурсов для обучения (Training Tokens: UniWeTok 33B vs. REPA 262B). В общей предметной области UniWeTok показывает высококонкурентные возможности в широком спектре задач, включая мультимодальное понимание, генерацию изображений (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) и редактирование (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). Мы публикуем код и модели для содействия исследованиям сообщества в области унифицированных токенизаторов и MLLM.

VisPhyWorld: Исследование физических рассуждений через код-ориентированную реконструкцию видео
VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Feb 9

ByJiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen

Оценка того, действительно ли мультимодальные большие языковые модели (MLLM) способны рассуждать о физической динамике, остается сложной задачей. Большинство существующих бенчмарков полагаются на протоколы, основанные на распознавании, такие как визуальный вопрос-ответ (VQA) и нарушение ожидания (VoE), которые часто могут быть решены без формулировки явной, проверяемой физической гипотезы. Мы предлагаем VisPhyWorld, основанную на исполнении структуру, которая оценивает физическое мышление, требуя от моделей генерации исполняемого кода для симулятора на основе визуальных наблюдений. Путем создания выполняемого кода выводимое представление мира становится непосредственно проверяемым, редактируемым и фальсифицируемым. Это отделяет физическое рассуждение от визуализации. Основываясь на этой структуре, мы представляем VisPhyBench, состоящий из 209 сцен для оценки, полученных из 108 физических шаблонов, и систематический протокол, который оценивает, насколько хорошо модели восстанавливают внешний вид и воспроизводят физически правдоподобное движение. Наша методика обеспечивает создание валидных восстановленных видео в 97.7% случаев на бенчмарке. Эксперименты показывают, что хотя современные MLLM демонстрируют глубокое семантическое понимание сцены, они испытывают трудности с точным выводом физических параметров и симуляцией последовательной физической динамики.

Qute: в направлении квантово-нативной базы данных
Qute: Towards Quantum-Native Database

Feb 16

ByMuzhi Chen, Xuanhe Zhou, Wei Zhou, Bangrui Xu, Surui Tang, Guoliang Li, Bingsheng He, Yeye He, Yitong Song, Fan Wu

В данной работе представлена концепция квантовой базы данных (Qute), рассматривающая квантовые вычисления как основную опцию выполнения. В отличие от предыдущих методов, основанных на симуляции, которые либо запускают квантовые алгоритмы на классических машинах, либо адаптируют существующие базы данных для квантового моделирования, Qute (i) компилирует расширенную форму SQL в гейт-эффективные квантовые схемы, (ii) использует гибридный оптимизатор для динамического выбора между квантовыми и классическими планами выполнения, (iii) вводит выборочное квантовое индексирование и (iv) разрабатывает систему хранения, сохраняющую точность (фиделити) для смягчения современных ограничений, связанных с кубитами. Мы также представляем трехэтапную дорожную карту эволюции в направлении нативной квантовой базы данных. Наконец, развернув Qute на реальном квантовом процессоре (origin_wukong), мы демонстрируем, что она превосходит классический базовый уровень при масштабировании, и публикуем прототип с открытым исходным кодом по адресу https://github.com/weAIDB/Qute.

Обучение настройке агентных систем искусственного интеллекта
Learning to Configure Agentic AI Systems

Feb 12

ByAditya Taparia, Som Sagar, Ransalu Senanayake

Настройка систем агентов на основе языковых моделей предполагает выбор рабочих процессов, инструментов, лимитов токенов и промптов из обширного комбинаторного пространства проектирования и сегодня обычно осуществляется с помощью фиксированных крупных шаблонов или тщательно настроенных эвристик. Это приводит к хрупкому поведению и неоправданным вычислительным затратам, поскольку одна и та же громоздкая конфигурация часто применяется как к простым, так и к сложным входным запросам. Мы формулируем конфигурацию агента как проблему принятия решений для каждого запроса и представляем ARC (Agentic Resource & Configuration learner) — метод, который изучает облегченную иерархическую политику с помощью обучения с подкреплением, чтобы динамически адаптировать эти конфигурации. В различных тестах, охватывающих задачи логического вывода и вопросно-ответные системы с использованием инструментов, обученная политика стабильно превосходит тщательно разработанные вручную и другие базовые методы, достигая до 25% более высокой точности решения задач при одновременном снижении затрат на токены и время выполнения. Эти результаты демонстрируют, что обучение конфигураций агентов для каждого запроса является мощной альтернативой подходам «универсального размера».

WebWorld: Крупномасштабная модель мира для обучения веб-агентов
WebWorld: A Large-Scale World Model for Web Agent Training

Feb 16

ByZikai Xiao, Jianhong Tu, Chuhang Zou, Yuxin Zuo, Zhi Li, Peng Wang, Bowen Yu, Fei Huang, Junyang Lin, Zuozhu Liu

Веб-агентам для обобщения требуются масштабные траектории, однако обучение в реальных условиях ограничено сетевыми задержками, лимитами запросов и рисками безопасности. Мы представляем серию WebWorld — первый симулятор открытой веб-среды, обученный в крупном масштабе. В то время как существующие симуляторы ограничены закрытыми средами с тысячами траекторий, WebWorld использует масштабируемый конвейер данных для обучения на более чем 1 миллионе взаимодействий в открытой веб-среде, поддерживая логические рассуждения, мультиформатные данные и долгосрочное моделирование свыше 30 шагов. Для внутренней оценки мы представляем WebWorld-Bench с двойными метриками, охватывающими девять измерений, где WebWorld демонстрирует производительность моделирования, сопоставимую с Gemini-3-Pro. При внешней оценке модель Qwen3-14B, обученная на синтезированных WebWorld траекториях, показывает улучшение на +9,2% на WebArena, достигая результатов, сравнимых с GPT-4o. WebWorld обеспечивает эффективный поиск на этапе вывода, превосходя GPT-5 в качестве мировой модели. Помимо веб-симуляции, WebWorld демонстрирует кросс-доменную обобщающую способность для сред, связанных с кодом, графическими интерфейсами и играми, предлагая воспроизводимый метод построения мировых моделей.

BrowseComp-V^3: Визуальный, вертикальный и верифицируемый эталон для мультимодальных браузерных агентов
BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Feb 13

ByHuanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui

Мультимодальные большие языковые модели (MLLM), оснащенные все более продвинутыми возможностями планирования и использования инструментов, эволюционируют в автономные агенты, способные выполнять мультимодальный веб-поиск и глубокий анализ в условиях открытого мира. Однако существующие бенчмарки для мультимодального веб-сёрфинга остаются ограниченными по сложности задач, доступности доказательств и гранулярности оценки, что препятствует всесторонней и воспроизводимой оценке возможностей глубокого поиска. Для преодоления этих ограничений мы представляем BrowseComp-V^3 — новый бенчмарк, состоящий из 300 тщательно отобранных сложных вопросов, охватывающих различные области. Бенчмарк акцентирует внимание на глубоком, многоуровневом и кросс-модальном многошаговом рассуждении, где ключевые доказательства распределены между текстовой и визуальной модальностями как внутри, так и между веб-страницами. Все поддерживающие доказательства строго требуют публичной доступности через поиск, что обеспечивает справедливость и воспроизводимость. Помимо точности конечного ответа, мы внедряем экспертно-валидированный, подцелеориентированный механизм процессуальной оценки, который позволяет проводить детальный анализ промежуточных рассуждений и систематическую характеристику границ возможностей. Кроме того, мы предлагаем OmniSeeker — унифицированную структуру мультимодального агента для веб-сёрфинга, интегрирующую разнообразные инструменты веб-поиска и визуального восприятия. Комплексные эксперименты показывают, что даже современные передовые модели достигают точности лишь 36% на нашем бенчмарке, выявляя критические узкие места в интеграции мультимодальной информации и тонком восприятии. Наши результаты подчеркивают фундаментальный разрыв между текущими возможностями моделей и надежным мультимодальным глубоким поиском в реальных условиях.

Embed-RL: Обучение с подкреплением для построения мультимодальных эмбеддингов, управляемых логическим выводом
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Feb 14

ByHaonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang

Использование мультимодальных больших языковых моделей (MLLM) стало ключевым фактором для продвижения универсальных мультимодальных эмбеддингов (UME) в решении разнообразных кросс-модальных задач. Недавние исследования демонстрируют, что включение генеративного рассуждения по цепочке мыслей (CoT) может существенно улучшить представления, специфичные для задачи, по сравнению с дискриминативными методами. Однако сгенерированные CoT-рассуждения в существующих генеративных методах получения эмбеддингов ограничиваются текстовым анализом запросов и не связаны с поиском целевых объектов. Чтобы устранить эти ограничения, мы предлагаем ориентированную на рассуждения структуру UME, которая интегрирует обучение с подкреплением под руководством эмбеддера (EG-RL) для оптимизации модуля рассуждений с целью порождения доказательного отслеживаемого CoT (T-CoT). Наши ключевые вклады трехмерны: (1) Мы разрабатываем структуру EG-RL, в которой эмбеддер предоставляет явный контроль над модулем рассуждений, гарантируя соответствие генерируемых CoT-трасс задачам эмбеддинга. (2) Мы вводим T-CoT, который извлекает ключевые мультимодальные сигналы для фокусировки на элементах, релевантных поиску, и предоставляет мультимодальные входные данные для эмбеддера. (3) При ограниченных вычислительных ресурсах наша структура превосходит pioneering-модель эмбеддингов на бенчмарках MMEB-V2 и UVRB. Интеграция мультимодальных свидетельств в структурированные рассуждения в сочетании с ориентированным на поиск выравниванием эффективно усиливает кросс-модальную семантическую согласованность, повышает способность модели к тонкому сопоставлению, а также ее обобщающую способность в сложных сценариях. Наша работа демонстрирует, что целевая оптимизация рассуждений может значительно улучшить качество мультимодальных эмбеддингов, предоставляя практичное и эффективное решение для разработки UME, управляемой рассуждениями.

LaViDa-R1: Развитие способностей к рассуждению в унифицированных мультимодальных диффузионных языковых моделях
LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

Feb 15

ByShufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen

Диффузионные языковые модели (dLLM) недавно появились как перспективная альтернатива авторегрессивным LLM. Последние работы дополнительно расширили их применение для задач мультимодального понимания и генерации. В данной работе мы предлагаем LaViDa-R1 — мультимодальную диффузионную модель общего назначения для решения задач с рассуждениями. В отличие от существующих подходов, которые создают reasoning dLLM через обучение с подкреплением для конкретных задач, LaViDa-R1 объединяет разнообразные задачи мультимодального понимания и генерации унифицированным образом. В частности, LaViDa-R1 разработана с использованием новой унифицированной框架 пост-обучения, которая бесшовно интегрирует контролируемую тонкую настройку (SFT) и многозадачное обучение с подкреплением (RL). Модель использует несколько новых методов обучения, включая принудительное формирование ответов, поиск по дереву и комплементарную оценку правдоподобия, для повышения эффективности и масштабируемости. Многочисленные эксперименты демонстрируют высокую производительность LaViDa-R1 на широком спектре мультимодальных задач, включая визуальные математические рассуждения, интенсивные на рассуждения задачи grounding и редактирование изображений.

AnchorWeave: Согласованная с миром генерация видео с использованием извлеченных локальных пространственных воспоминаний
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Feb 16

ByZun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal

Сохранение пространственной согласованности мира на длинных временных горизонтах остается ключевой проблемой для генерации видео с управляемой камерой. Существующие подходы, основанные на памяти, часто строят генерацию на основе глобально реконструированных 3D-сцен, рендеря опорные видео из реконструированной геометрии истории. Однако реконструкция глобальной 3D-сцены из множества ракурсов неизбежно приводит к межракурсному несовпадению, поскольку ошибки оценки позы и глубины вызывают реконструкцию одних и тех же поверхностей в слегка различных 3D-положениях в разных ракурсах. При слиянии эти несоответствия накапливаются в зашумленную геометрию, которая загрязняет conditioning-сигналы и ухудшает качество генерации. Мы представляем AnchorWeave, фреймворк генерации видео с расширенной памятью, который заменяет единую глобальную память с несовпадениями на множество чистых локальных геометрических памятей и обучается согласовывать их межракурсные несоответствия. Для этого AnchorWeave выполняет управляемое покрытием извлечение локальной памяти, выровненное с целевой траекторией, и интегрирует выбранные локальные памяти посредством мульти-опорного ткацкого контроллера в процессе генерации. Многочисленные эксперименты демонстрируют, что AnchorWeave значительно улучшает долгосрочную согласованность сцены, сохраняя высокое визуальное качество, а исследования методом абляции и анализ дополнительно подтверждают эффективность локального геометрического кондиционирования, мульти-опорного управления и извлечения, управляемого покрытием.

Сегментация изображений в диалоговом режиме: обоснование абстрактных концепций с помощью масштабируемого контроля
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

Feb 13

ByAadarsh Sahoo, Georgia Gkioxari

Сегментация изображений в диалоге преобразует абстрактные, интенционально-нагруженные концепции в пиксельно-точные маски. Предыдущие работы по локализации объектов по запросу фокусировались на категориальных и пространственных запросах (например, «самое левое яблоко») и упускали из виду функциональные и физические рассуждения (например, «где я могу безопасно хранить нож?»). Мы устраняем этот пробел, вводя концепцию диалоговой сегментации изображений (CIS) и бенчмарк ConverSeg, охватывающий сущности, пространственные отношения, намерения, аффордансы, функции, безопасность и физические рассуждения. Мы также представляем ConverSeg-Net, который объединяет сильные априорные знания о сегментации с пониманием языка, и автоматизированную систему генерации данных, создающую пары «запрос-маска» без участия человека. Мы демонстрируем, что современные модели сегментации по языковому описанию неадекватны для задачи CIS, в то время как ConverSeg-Net, обученная на наших данных, достигает значительного прогресса на бенчмарке ConverSeg и сохраняет высокую производительность на существующих бенчмарках по языково-управляемой сегментации. Страница проекта: https://glab-caltech.github.io/converseg/

MoRL: Усиленное логическое рассуждение для единого понимания и генерации движения
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Feb 16

ByHongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang

Понимание и генерация движений человека являются ключевыми задачами для компьютерного зрения и робототехники, однако существующие методы остаются ограниченными в плане способности к логическим рассуждениям и планированию в режиме тестирования. Мы предлагаем MoRL, унифицированную мультимодальную модель движений, обученную с помощью контролируемого тонкого настроения и обучения с подкреплением на основе верифицируемых функций вознаграждения. Наша специализированная система вознаграждений сочетает семантическое соответствие и когерентность рассуждений для задач понимания с физической правдоподобностью и согласованностью текста и движений для задач генерации, что улучшает как логические рассуждения, так и перцептивную реалистичность. Для дальнейшего улучшения вывода мы представляем Chain-of-Motion (CoM), метод рассуждений в режиме тестирования, который позволяет осуществлять пошаговое планирование и рефлексию. Мы также создали два крупномасштабных набора данных CoT: MoUnd-CoT-140K и MoGen-CoT-140K, для сопоставления последовательностей движений с цепочками рассуждений и описаний действий. Эксперименты на наборах данных HumanML3D и KIT-ML показывают, что MoRL достигает значительного превосходства над современными базовыми методами. Код: https://github.com/AIGeeksGroup/MoRL. Сайт: https://aigeeksgroup.github.io/MoRL.

Технический отчет FireRed-Image-Edit-1.0
FireRed-Image-Edit-1.0 Techinical Report

Feb 12

BySuper Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

Мы представляем FireRed-Image-Edit — диффузионный трансформер для редактирования изображений на основе инструкций, который демонстрирует наилучшие результаты благодаря системной оптимизации курирования данных, методологии обучения и дизайна оценки. Мы создали обучающий корпус объемом 1,6 млрд примеров, включающий 900 млн пар «текст-изображение» и 700 млн пар для редактирования изображений из различных источников. После тщательной очистки, стратификации, автоматической разметки и двухэтапной фильтрации мы сохранили более 100 млн высококачественных примеров, сбалансированных между генерацией и редактированием, что обеспечивает широкое семантическое покрытие и соответствие инструкциям. Наш многоэтапный конвейер обучения поэтапно формирует способность к редактированию через предварительное обучение, контролируемую тонкую настройку и обучение с подкреплением. Для повышения эффективности данных мы внедряем семплер с учетом множественных условий для пакетной обработки изображений с переменным разрешением и стохастическое выравнивание инструкций с динамической переиндексацией промптов. Для стабилизации оптимизации и повышения управляемости мы предлагаем асимметричную градиентную оптимизацию для DPO, DiffusionNFT с OCR-вознаграждениями, учитывающими компоновку для редактирования текста, и дифференцируемую функцию потерь на сохранение идентичности. Кроме того, мы создали REDEdit-Bench — комплексный бенчмарк, охватывающий 15 категорий редактирования, включая новые задачи по улучшению внешнего вида и низкоуровневой обработке. Многочисленные эксперименты на REDEdit-Bench и открытых бенчмарках (ImgEdit и GEdit) демонстрируют конкурентоспособную или превосходящую производительность по сравнению с открытыми и проприетарными системами. Мы публикуем код, модели и набор бенчмарков для поддержки будущих исследований.

AIDev: Исследование агентов искусственного интеллекта для написания кода на GitHub
AIDev: Studying AI Coding Agents on GitHub

Feb 9

ByHao Li, Haoxiang Zhang, Ahmed E. Hassan

AI-агенты для программирования стремительно трансформируют разработку программного обеспечения, выполняя такие задачи, как разработка функций, отладка и тестирование. Несмотря на их растущее влияние, исследовательскому сообществу не хватает всеобъемлющего набора данных, фиксирующего использование этих агентов в реальных проектах. Чтобы восполнить этот пробел, мы представляем AIDev — масштабный набор данных, сфокусированный на пул-реквестах, созданных агентами (агентскими PR), в реальных репозиториях GitHub. AIDev агрегирует 932 791 агентский PR, созданный пятью агентами: OpenAI Codex, Devin, GitHub Copilot, Cursor и Claude Code. Эти PR охватывают 116 211 репозиториев и вовлекают 72 189 разработчиков. Кроме того, AIDev включает курируемое подмножество из 33 596 агентских PR из 2 807 репозиториев, имеющих более 100 звезд, с дополнительной информацией, такой как комментарии, ревью, коммиты и связанные issues. Этот набор данных закладывает основу для будущих исследований внедрения ИИ, производительности разработчиков и взаимодействия человека и ИИ в новую эпоху разработки ПО. > AI-агент, Агентский ИИ, Агент программирования, Агентское программирование, Агентская разработка ПО, Агентская инженерия

LM-Lexicon: Улучшение моделирования определений за счет гармонизации семантических экспертов
LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Feb 15

ByYang Liu, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li, Lingyong Yan

Мы представляем LM-Lexicon — инновационный подход к моделированию определений, который объединяет кластеризацию данных, обучение семантических экспертов и слияние моделей с использованием разреженной архитектуры смеси экспертов. Путем декомпозиции задачи моделирования определений на специализированные семантические домены, в которых небольшие языковые модели обучаются в качестве доменных экспертов, LM-Lexicon демонстрирует существенное улучшение (+7% по метрике BLEU по сравнению с предыдущей моделью-лидером) на пяти широко используемых бенчмарках. Эмпирически мы показываем, что: 1) кластеризация позволяет достичь детальной специализации экспертов с почти 10%-ным улучшением качества определений; 2) механизм семантически осознанной маршрутизации на уровне доменов обеспечивает более высокую эффективность экспертов (+1%), чем традиционная маршрутизация на уровне токенов; 3) дополнительные улучшения производительности могут быть получены за счет масштабирования вычислительных ресурсов на этапе тестирования и семантических экспертов. Наша работа продвигает область моделирования определений, одновременно предоставляя insights для разработки эффективных языковых моделей для семантически насыщенных приложений.

Предварительная сонификация ЭНЮК с использованием традиционных яванских гаммелановых ладов
Preliminary sonification of ENSO using traditional Javanese gamelan scales

Feb 16

BySandy H. S. Herho, Rusmawan Suwarman, Nurjanna J. Trilaksono, Iwan P. Anwar, Faiz R. Fajary

Сонификация — преобразование данных в неречевой звук — представляет собой малоизученный канал для представления сложных динамических систем. В качестве тестового примера культурно-обусловленной сонификации, оцениваемой с помощью диагностики сложных систем, мы рассматриваем Эль-Ниньо — Южное колебание (ЭНЮК), канонический пример низкоразмерного климатического хаоса. Используя параметрическую сонификацию индекса аномалии температуры поверхности моря Niño 3.4 (1870–2024 гг.), мы кодируем изменчивость ЭНЮК в две традиционные яванские пятиступенные системы гамелана (пелог и слендро) с применением четырех стратегий композиции, а затем анализируем полученное аудио как траектории в двумерном фазовом акустическом пространстве. Рекуррентная диагностика, геометрия выпуклой оболочки и анализ связей показывают, что конвейер сонификации сохраняет ключевые динамические сигнатуры: чередующиеся режимы дают наивысшие показатели рекуррентности траекторий, что отражает квазипериодичность ЭНЮК; многослойные полифонические режимы исследуют наиболее обширные области фазового пространства; а два ладовых семейства порождают качественно различные режимы связи между спектральной яркостью и энергией — преимущественно противофазные в пелог и почти независимые в слендро. Анализ траекторий в фазовом пространстве предоставляет строгий геометрический framework для сравнения дизайнов сонификации в контексте сложных систем. Перцептивная валидация остается необходимой; мы вносим вклад в виде методологии динамических систем для оценки подобных преобразований.

EditCtrl: Разделение локального и глобального управления для редактирования генеративного видео в реальном времени
EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Feb 16

ByYehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak

Высококачественное генеративное редактирование видео достигло значительного прогресса благодаря использованию предобученных базовых моделей для видео. Однако их вычислительная стоимость остается основным узким местом, поскольку они часто предназначены для неэффективной обработки полного контекста видео независимо от размера маски заливки, даже для разреженных локальных правок. В данной статье мы представляем EditCtrl, эффективную управляющую структуру для видео-заливки, которая фокусирует вычисления только на необходимых областях. Наш подход включает новый модуль локального видео-контекста, который работает исключительно с замаскированными токенами, обеспечивая вычислительную стоимость, пропорциональную размеру правки. Затем эта локальная генерация направляется облегченным модулем внедрения глобального временного контекста, который гарантирует согласованность контекста по всему видео с минимальными накладными расходами. EditCtrl не только в 10 раз эффективнее по вычислительным затратам, чем современные генеративные методы редактирования, но даже превосходит их по качеству правок по сравнению с методами, использующими полное внимание. Наконец, мы демонстрируем, как EditCtrl открывает новые возможности, включая редактирование нескольких областей с помощью текстовых запросов и авторегрессивное распространение контента.

Могу я принять ваш заказ? Поиск по дереву Монте-Карло для определения порядка заполнения слотов в диффузионных языковых моделях
Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models

Feb 13

ByJoshua Ong Jun Leang, Yu Zhao, Mihaela Cătălina Stoian, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

Хотя декодирование по принципу «план-заполнение» в маскированных диффузионных моделях (MDM) демонстрирует перспективность для математических рассуждений и анализа кода, производительность остается крайне чувствительной к порядку заполнения слотов, что часто приводит к значительной вариативности выходных данных. Мы представляем McDiffuSE — фреймворк, который формулирует выбор слота как принятие решений и оптимизирует порядок заполнения с помощью поиска в дереве Монте-Карло (MCTS). McDiffuSE использует прогнозирующее моделирование для оценки частичных завершений до фиксации выбора, систематически исследуя комбинаторное пространство порядков генерации. Эксперименты показывают среднее улучшение на 3.2% по сравнению с авторегрессионными базовыми методами и на 8.0% по сравнению с базовым методом «план-заполнение», с существенным приростом в 19.5% на наборе MBPP и 4.9% на MATH500. Наш анализ показывает, что хотя McDiffuSE в основном следует последовательному порядку, включение несеквентной генерации необходимо для максимизации производительности. Мы наблюдаем, что для преодоления смещений уверенности модели и обнаружения эффективных порядков необходимы более высокие константы исследования, а не увеличение числа симуляций. Эти результаты устанавливают планирование на основе MCTS как эффективный подход для повышения качества генерации в MDM.

CellMaster: Совместная аннотация типов клеток при анализе одноклеточных данных
CellMaster: Collaborative Cell Type Annotation in Single-Cell Analysis

Feb 12

ByZhen Wang, Yiming Gao, Jieyuan Liu, Enze Ma, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Zhiting Hu, Wei Wang, Trey Ideker, Eric P. Xing

Одноклеточная РНК-секвенирование (scRNA-seq) позволяет проводить атласное профилирование сложных тканей, выявляя редкие клеточные линии и транзиторные состояния. Однако присвоение биологически достоверных клеточных идентичностей остаётся узким местом, поскольку маркеры зависят от типа ткани и состояния, а для новых состояний отсутствуют референсы. Мы представляем CellMaster — ИИ-агент, который имитирует экспертный подход для аннотирования типов клеток «с нуля». В отличие от существующих автоматизированных инструментов, CellMaster использует знания, закодированные в больших языковых моделях (например, GPT-4o), для выполнения аннотации в реальном времени с интерпретируемыми обоснованиями, без предварительного обучения или фиксированных баз маркеров. На 9 наборах данных, охватывающих 8 тканей, CellMaster повысил точность на 7,1% по сравнению с лучшими базовыми методами (включая CellTypist и scTab) в автоматическом режиме. При использовании подхода с участием человека в цикле уточнения это преимущество возросло до 18,6%, с приростом в 22,1% для субпопуляций клеток. Система демонстрирует особую эффективность в отношении редких и новых клеточных состояний, где базовые методы часто терпят неудачу. Исходный код и веб-приложение доступны по адресу https://github.com/AnonymousGym/CellMaster.

DHPLT: крупномасштабные многоязычные диахронические корпуса и векторные представления слов для моделирования семантических изменений
DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

Feb 12

ByMariia Fedorova, Andrey Kutuzov, Khonzoda Umarova

В данной ресурсной статье мы представляем DHPLT — открытую коллекцию диахронических корпусов на 41 языке. DHPLT основана на веб-корпусах HPLT; мы используем временные метки веб-краулинга в качестве приблизительного сигнала о времени создания документа. Коллекция охватывает три временных периода: 2011–2015, 2020–2021 и 2024 год по настоящее время (по 1 миллиону документов на каждый временной период для каждого языка). Дополнительно мы предоставляем предварительно вычисленные эмбеддинги типов слов и токенов, а также лексические замены для выбранных нами целевых слов, оставляя при этом возможность другим исследователям предлагать собственные целевые слова, используя те же наборы данных. DHPLT призван восполнить текущий недостаток многоязычных диахронических корпусов для моделирования семантических изменений (помимо дюжины высокоресурсных языков). Он открывает путь для разнообразных новых экспериментальных подходов в этой области. Все описанные в статье ресурсы доступны по адресу https://data.hplt-project.org/three/diachronic/, отсортированные по языкам.

Акустивижн Про: открытая интерактивная платформа для анализа импульсных характеристик помещений и акустической характеризации
Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

Feb 11

ByMandip Goswami

Анализ акустики помещений играет ключевую роль в архитектурном проектировании, звукорежиссуре, оценке разборчивости речи и исследованиях слуха. Несмотря на наличие стандартизированных метрик, таких как время реверберации, ясность и индекс передачи речи, доступные инструменты, сочетающие строгую обработку сигналов с интуитивной визуализацией, остаются редкими. В данной статье представлена AcoustiVision Pro — открытая веб-платформа для комплексного анализа импульсных характеристик помещений (ИХП). Система вычисляет двенадцать различных акустических параметров из загруженных или полученных из наборов данных ИХП, предоставляет интерактивные 3D-визуализации ранних отражений, генерирует частотно-зависимые характеристики затухания с помощью каскадных диаграмм и проверяет соответствие международным стандартам, включая ANSI S12.60 и ISO 3382. Мы представляем сопровождающие наборы данных RIRMega и RIRMega Speech, размещенные на Hugging Face, содержащие тысячи смоделированных импульсных характеристик помещений с полными метаданными. Платформа поддерживает реальное аурализацию на основе свертки по БПФ, экспортирует детальные отчеты в формате PDF, пригодные для инженерной документации, и предоставляет экспорт данных в CSV для дальнейшего анализа. Мы описываем математические основы каждой акустической метрики, детализируем архитектуру системы и представляем предварительные case studies, демонстрирующие полезность платформы в различных прикладных областях, включая акустику учебных аудиторий, проектирование медицинских учреждений и оценку студий звукозаписи.

Сравнительный анализ атак на извлечение знаний и методов защиты в системах генерации с извлечением информации
Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Feb 10

ByZhisheng Qi, Utkarsh Sahu, Li Ma, Haoyu Han, Ryan Rossi, Franck Dernoncourt, Mahantesh Halappanavar, Nesreen Ahmed, Yushun Dong, Yue Zhao, Yu Zhang, Yu Wang

Технология Retrieval-Augmented Generation (RAG) стала краеугольным камнем для задач, требующих работы со знаниями, включая корпоративные чат-боты, медицинские ассистенты и управление памятью агентов. Однако последние исследования показывают, что атаки на извлечение знаний позволяют восстановить конфиденциальное содержимое базы знаний с помощью злонамеренно сформированных запросов, что вызывает серьезную озабоченность в связи с рисками кражи интеллектуальной собственности и утечки приватных данных. В то время как предыдущие работы исследовали отдельные методы атак и защиты, исследовательское поле остается разрозненным, охватывая гетерогенные модели поисковых эмбеддингов, разнообразные генеративные модели и оценки, основанные на нестандартизированных метриках и несогласованных наборах данных. Для устранения этого пробела мы представляем первую систематическую методику для сравнительного анализа атак на извлечение знаний в RAG-системах. Наша методика охватывает широкий спектр стратегий атак и защиты, репрезентативные модели поисковых эмбеддингов, а также как открытые, так и проприетарные генеративные модели, — все они оцениваются в рамках единого экспериментального подхода со стандартизированными протоколами на множестве наборов данных. Консолидируя экспериментальное поле и обеспечивая воспроизводимую и сопоставимую оценку, данная методика дает практические рекомендации и закладывает основу для разработки сохраняющих конфиденциальность RAG-систем в условиях растущих угроз извлечения знаний. Наш код доступен по ссылке.

Слепы к человеческому подходу: систематическая ошибка совпадения в оценке рефератов с помощью больших языковых моделей
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Feb 7

ByJiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi

Крупные языковые модели (LLM) часто используются в качестве судей наряду с традиционными алгоритмическими метриками для таких задач, как суммаризация, поскольку они лучше улавливают семантическую информацию, обладают более развитыми способностями к рассуждению и более устойчивы к парафразированию. Однако LLM-судьи демонстрируют смещения, в частности, в пользу длины и порядка текста, а также уязвимы к различным адверсарным входным промптам. Хотя в последних исследованиях изучались эти смещения, немногие анализировали их на более детальном уровне в связи с четко определенной метрикой перекрытия. В данной работе мы представляем анализ смещений LLM-судей как функции от степени перекрытия с ответами, написанными человеком, в области суммаризации. Мы тестируем 9 современных LLM с количеством параметров от 1 до 12 миллиардов, включая варианты моделей Gemma 3 и LLaMA 3. Мы обнаружили, что LLM-судьи все чаще предпочитают сводки, сгенерированные другими LLM, а не написанные человеком, по мере уменьшения сходства (измеряемого по ROUGE и BLEU) между оцениваемыми сводками. Данная закономерность распространяется на все протестированные модели, кроме одной, и существует независимо от собственных позиционных смещений моделей. Кроме того, мы выяснили, что модели испытывают трудности с оценкой даже сводок с ограниченным перекрытием, что позволяет предположить, что использование LLM в качестве судьи в области суммаризации должно опираться на методы, выходящие за рамки простого сравнения.

Раскрытие системной уязвимости моделей с открытыми весами к атакам предварительного заполнения
Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Feb 16

ByLukas Struppek, Adam Gleave, Kellin Pelrine

По мере роста возможностей крупных языковых моделей увеличивается и потенциал их злонамеренного использования. Если закрытые модели обычно полагаются на внешние механизмы защиты, то модели с открытыми весами должны в основном зависеть от внутренних safeguards для предотвращения вредоносного поведения. Предыдущие исследования red-teaming в основном фокусировались на jailbreaking на основе входных данных и манипуляциях на уровне параметров. Однако модели с открытыми весами также изначально поддерживают предварительное заполнение (prefilling), что позволяет злоумышленнику заранее определить начальные токены ответа до начала генерации. Несмотря на свой потенциал, этот вектор атаки получил мало систематического внимания. Мы представляем самое масштабное на сегодняшний день эмпирическое исследование prefill-атак, оценивая более 20 существующих и новых стратегий на множестве семейств моделей и передовых моделей с открытыми весами. Наши результаты показывают, что prefill-атаки стабильно эффективны против всех основных современных моделей с открытыми весами, выявляя критическую и ранее недостаточно изученную уязвимость, имеющую серьезные последствия для развертывания. Хотя некоторые крупные модели, ориентированные на рассуждения, демонстрируют определенную устойчивость к универсальному предварительному заполнению, они остаются уязвимыми для специально подобранных, модельно-специфичных стратегий. Наши выводы подчеркивают настоятельную необходимость для разработчиков моделей уделить первостепенное внимание защите от prefill-атак в LLM с открытыми весами.

УТЕЧКА: Агентное избыточное раскрытие информации в сети
SPILLage: Agentic Oversharing on the Web

Feb 13

ByJaechul Roh, Eugene Bagdasarian, Hamed Haddadi, Ali Shahin Shamsabadi

Агенты на основе больших языковых моделей (LLM) начинают автоматизировать задачи пользователей в открытой сети, часто имея доступ к таким пользовательским ресурсам, как электронная почта и календари. В отличие от стандартных LLM, отвечающих на вопросы в контролируемой среде чат-бота, веб-агенты действуют «в диких условиях», взаимодействуя с третьими сторонами и оставляя после себя след действий. Поэтому мы задаемся вопросом: как веб-агенты обрабатывают пользовательские ресурсы при выполнении задач от их имени на реальных веб-сайтах? В данной статье мы формализуем концепцию Естественного Агентского Избыточного Раскрытия (Natural Agentic Oversharing) — непреднамеренного разглашения информации о пользователе, не относящейся к задаче, через след действий агента в сети. Мы представляем SPILLage — фреймворк, который характеризует избыточное раскрытие по двум измерениям: канал (контент vs. поведение) и прямота (явное vs. неявное). Эта таксономия выявляет критическое слепое пятно: в то время как предыдущие работы сосредоточены на утечке текста, веб-агенты также избыточно раскрывают информацию поведенчески через клики, прокрутки и паттерны навигации, которые можно отслеживать. Мы проводим тестирование 180 задач на реальных сайтах электронной коммерции с размеченными эталонными данными, разделяющими атрибуты, релевантные и нерелевантные задаче. На основе 1080 запусков, охватывающих два агентских фреймворка и три базовые LLM, мы демонстрируем, что избыточное раскрытие является повсеместным, причем поведенческое раскрытие преобладает над контентным в 5 раз. Этот эффект сохраняется — и может даже усугубляться — при попытках смягчения на уровне промптов. Однако удаление информации, не относящейся к задаче, перед выполнением повышает успешность задачи до 17.9%, что демонстрирует, что сокращение избыточного раскрытия улучшает результаты. Наши выводы подчеркивают, что защита конфиденциальности в веб-агентах является фундаментальной проблемой, требующей более широкого взгляда на «выходные данные», который учитывает то, что агенты делают в сети, а не только то, что они печатают. Наши наборы данных и код доступны по адресу https://github.com/jrohsc/SPILLage.

Found-RL: автономное вождение с подкрепляемым обучением, усиленным фундаментальными моделями
Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

Feb 11

ByYansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen

Обучение с подкреплением (RL) стало доминирующей парадигмой для сквозного автономного вождения (AD). Однако RL страдает от низкой эффективности использования данных и отсутствия семантической интерпретируемости в сложных сценариях. Фундаментальные модели, в частности Vision-Language Models (VLM), могут смягчить эту проблему, предлагая богатые контекстно-зависимые знания, но их высокая задержка вывода препятствует развертыванию в высокочастотных циклах обучения RL. Чтобы устранить этот разрыв, мы представляем Found-RL — платформу, предназначенную для эффективного улучшения RL для AD с использованием фундаментальных моделей. Ключевым нововведением является асинхронный framework пакетного вывода, который разделяет ресурсоемкие рассуждения VLM и цикл симуляции, эффективно устраняя узкие места, связанные с задержкой, для поддержки обучения в реальном времени. Мы вводим различные механизмы супервизии: регуляризацию по полю значений (Value-Margin Regularization, VMR) и Advantage-Weighted Action Guidance (AWAG) для эффективного переноса экспертных предложений по действиям от VLM в политику RL. Кроме того, мы используем высокопроизводительный CLIP для формирования плотной функции вознаграждения. Мы решаем проблему динамической "слепоты" CLIP с помощью Conditional Contrastive Action Alignment, которая обусловливает промпты дискретизированными скоростью/командой и дает нормализованный бонус на основе разрыва от оценки действий относительно контекстно-зависимых якорей. Found-RL предоставляет сквозной конвейер для интеграции дообученных VLM и демонстрирует, что облегченная модель RL может достичь производительности, близкой к VLM, по сравнению с VLM, имеющими миллиарды параметров, при сохранении вывода в реальном времени (примерно 500 кадров/с). Код, данные и модели будут общедоступны по адресу https://github.com/ys-qu/found-rl.

Критический взгляд на целенаправленный отбор инструкций: разграничение важных и несущественных факторов
A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

Feb 16

ByNihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis

Тонкая настройка больших языковых моделей (LLM) по инструкциям часто включает выбор подмножества обучающих данных из большого пула кандидатов с использованием небольшого запросного набора данных целевой задачи. Несмотря на растущий интерес, литература по целенаправленному отбору инструкций остается разрозненной и непрозрачной: методы сильно различаются по бюджетам отбора, часто опускают базовые нулевые сценарии (zero-shot) и нередко смешивают вклад ключевых компонентов. В результате практики лишены конкретных рекомендаций по выбору инструкций для своих целевых задач. В данной работе мы стремимся внести ясность в эту область, разделив и систематически проанализировав два ключевых аспекта: представление данных и алгоритмы отбора. Наша система позволяет проводить контролируемые сравнения across моделями, задачами и бюджетами. Мы обнаружили, что только градиентные представления данных выбирают подмножества, чье сходство с запросом последовательно предсказывает производительность across наборами данных и моделями. Хотя ни один метод не доминирует универсально, градиентные представления в сочетании с жадным циклическим алгоритмом отбора (greedy round-robin), как правило, показывают наилучшие средние результаты при малых бюджетах, но эти преимущества уменьшаются с ростом бюджета. Наконец, мы объединяем несколько существующих алгоритмов отбора как формы приближенной минимизации расстояния между выбранным подмножеством и запросным набором и подтверждаем эту точку зрения новыми обобщающими оценками (generalization bounds). В более широком смысле, наши результаты дают критически важную информацию и закладывают основу для более принципиального отбора данных при тонкой настройке LLM. Код доступен по адресу https://github.com/dcml-lab/targeted-instruction-selection.

Знание — это не понимание: переосмысление генеративной проактивности через призму эпистемических и поведенческих инсайтов
Knowing Isn't Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight

Feb 16

ByKirandeep Kaur, Xingda Lyu, Chirag Shah

Генеративные ИИ-агенты отождествляют понимание с разрешением явных запросов — предположение, которое сводит взаимодействие к тому, что пользователи способны вербализовать. Это предположение рушится, когда сами пользователи не осознают, чего им не хватает, что сопряжено с риском или заслуживает рассмотрения. В таких условиях проактивность — это не просто повышение эффективности, а эпистемическая необходимость. Мы называем это состояние *эпистемической неполнотой*: ситуацией, когда прогресс зависит от взаимодействия с неизвестными неизвестными для эффективного партнерства. Существующие подходы к проактивности остаются узко ориентированными на предсказание, экстраполируя прошлое поведение и предполагая, что цели уже четко определены, что не позволяет оказывать пользователям содержательную поддержку. Однако выявление возможностей, выходящих за пределы текущего осознания пользователя, не является само по себе благом. Неограниченные проактивные вмешательства могут отвлекать внимание, перегружать пользователей или причинять вред. Следовательно, проактивные агенты требуют *поведенческой обоснованности*: принципиальных ограничений на то, когда, как и в какой степени агенту следует вмешиваться. Мы отстаиваем позицию, что генеративная проактивность должна быть обоснована как эпистемически, так и поведенчески. Опираясь на философию незнания и исследования проактивного поведения, мы утверждаем, что эти теории предлагают ключевые ориентиры для проектирования агентов, способных к ответственному взаимодействию и формированию содержательных партнерств.