HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

29 papers found

ReasonRank: Усиление ранжирования текстов с помощью мощных способностей к логическому рассуждению
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Aug 9

ByWenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou

116

Ранжирование на основе крупных языковых моделей (LLM) с использованием спискового подхода продемонстрировало превосходную производительность во многих задачах ранжирования текстов. С развитием крупных моделей рассуждений многие исследования показали, что пошаговое рассуждение во время тестирования помогает улучшить производительность спискового ранжирования. Однако из-за недостатка обучающих данных, требующих интенсивного рассуждения, существующие модели переранжирования показывают низкие результаты во многих сложных сценариях ранжирования, а способность к ранжированию моделей, ориентированных на рассуждения, остается в значительной степени недоразвитой. В данной работе мы сначала предлагаем автоматизированную структуру синтеза обучающих данных, требующих интенсивного рассуждения, которая извлекает обучающие запросы и тексты из различных областей и применяет DeepSeek-R1 для генерации высококачественных меток обучения. Механизм фильтрации данных на основе самосогласованности разработан для обеспечения качества данных. Чтобы наделить списковую модель переранжирования сильной способностью к рассуждению, мы дополнительно предлагаем двухэтапный подход пост-обучения, который включает этап начального тонкого обучения с учителем (SFT) для изучения шаблонов рассуждения и этап обучения с подкреплением (RL) для дальнейшего улучшения способности к ранжированию. На этапе RL, основываясь на природе спискового ранжирования, мы разрабатываем награду за ранжирование с учетом нескольких аспектов, которая более эффективна, чем награда, основанная на метриках ранжирования. Многочисленные эксперименты демонстрируют, что наша модель переранжирования, ориентированная на рассуждения, ReasonRank значительно превосходит существующие базовые модели, а также обеспечивает гораздо меньшую задержку по сравнению с поточечной моделью переранжирования Rank1. В ходе дальнейших экспериментов наш ReasonRank достиг наилучшего результата (SOTA) 40.6 на лидерборде BRIGHT\footnote{https://brightbenchmark.github.io/.}. Наш код доступен по адресу https://github.com/8421BCD/ReasonRank.

WideSearch: Бенчмаркинг агентного широкого поиска информации
WideSearch: Benchmarking Agentic Broad Info-Seeking

Aug 11

ByRyan Wong, Jiawei Wang, Junjie Zhao, Li Chen, Yan Gao, Long Zhang, Xuan Zhou, Zuo Wang, Kai Xiang, Ge Zhang, Wenhao Huang, Yang Wang, Ke Wang

109

От профессиональных исследований до повседневного планирования многие задачи ограничиваются масштабным поиском информации, который скорее повторяющийся, чем когнитивно сложный. С быстрым развитием крупных языковых моделей (LLM) автоматизированные поисковые агенты, основанные на LLM, предлагают перспективное решение для освобождения людей от этой утомительной работы. Однако способность этих агентов выполнять такой "ширококонтекстный" сбор информации надежно и полно остается в значительной степени неоцененной из-за отсутствия подходящих бенчмарков. Чтобы устранить этот пробел, мы представляем WideSearch — новый бенчмарк, разработанный для оценки надежности агентов в задачах масштабного сбора информации. Бенчмарк включает 200 вручную отобранных вопросов (100 на английском, 100 на китайском) из более чем 15 различных областей, основанных на реальных пользовательских запросах. Каждая задача требует от агентов сбора масштабной атомарной информации, которую можно объективно проверить по отдельности, и организации ее в структурированный вывод. Строгий пятиэтапный процесс контроля качества обеспечивает сложность, полноту и проверяемость набора данных. Мы тестируем более 10 современных поисковых систем, включая одноагентные, многоагентные фреймворки и коммерческие системы с полным циклом. Большинство систем демонстрируют общий уровень успешности, близкий к 0\%, при этом лучший результат составляет всего 5\%. Однако при достаточном времени перекрестная проверка несколькими тестировщиками-людьми может достичь почти 100\% успешности. Эти результаты показывают, что современные поисковые агенты имеют серьезные недостатки в масштабном поиске информации, что подчеркивает актуальные направления для будущих исследований и разработок в области агентного поиска. Наш набор данных, процесс оценки и результаты бенчмарка публично доступны по адресу https://widesearch-seed.github.io/.

Всесторонний обзор саморазвивающихся ИИ-агентов: новая парадигма, объединяющая базовые модели и системы агентов с непрерывным обучением
A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

Aug 10

ByJinyuan Fang, Yanwen Peng, Xi Zhang, Yingxu Wang, Xinhao Yi, Guibin Zhang, Yi Xu, Bin Wu, Siwei Liu, Zihao Li, Zhaochun Ren, Nikos Aletras, Xi Wang, Han Zhou, Zaiqiao Meng

Недавние достижения в области больших языковых моделей вызвали растущий интерес к ИИ-агентам, способным решать сложные задачи в реальном мире. Однако большинство существующих агентских систем полагаются на ручную настройку конфигураций, которые остаются статичными после развертывания, что ограничивает их способность адаптироваться к динамичным и изменяющимся условиям. В связи с этим последние исследования сосредоточены на методах эволюции агентов, направленных на автоматическое улучшение агентских систем на основе данных взаимодействия и обратной связи от среды. Это новое направление закладывает основу для самоэволюционирующих ИИ-агентов, которые объединяют статические возможности базовых моделей с непрерывной адаптивностью, необходимой для долгоживущих агентских систем. В данном обзоре мы представляем всесторонний анализ существующих методов для самоэволюционирующих агентских систем. В частности, мы сначала вводим унифицированную концептуальную структуру, которая абстрагирует цикл обратной связи, лежащий в основе проектирования таких систем. Эта структура выделяет четыре ключевых компонента: входные данные системы, агентская система, среда и оптимизаторы, что служит основой для понимания и сравнения различных стратегий. На основе этой структуры мы систематически рассматриваем широкий спектр методов самоэволюции, направленных на различные компоненты агентской системы. Мы также исследуем стратегии эволюции, разработанные для специализированных областей, таких как биомедицина, программирование и финансы, где цели оптимизации тесно связаны с ограничениями предметной области. Кроме того, мы уделяем отдельное внимание вопросам оценки, безопасности и этическим аспектам самоэволюционирующих агентских систем, которые имеют критическое значение для обеспечения их эффективности и надежности. Этот обзор призван предоставить исследователям и практикам систематическое понимание самоэволюционирующих ИИ-агентов, закладывая основу для разработки более адаптивных, автономных и долгоживущих агентских систем.

Omni-Effects: Унифицированная и пространственно-управляемая генерация визуальных эффектов
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

Aug 11

ByFangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu

Визуальные эффекты (VFX) являются важнейшими визуальными улучшениями, фундаментальными для современного кинематографического производства. Хотя модели генерации видео предлагают экономически эффективные решения для создания VFX, текущие методы ограничены обучением LoRA для каждого эффекта, что позволяет генерировать только одиночные эффекты. Это фундаментальное ограничение препятствует применению в задачах, требующих пространственно управляемых составных эффектов, то есть одновременной генерации нескольких эффектов в заданных местах. Однако интеграция разнообразных эффектов в единую структуру сталкивается с серьезными проблемами: интерференцией из-за вариаций эффектов и отсутствием пространственного контроля при совместном обучении нескольких VFX. Для решения этих проблем мы предлагаем Omni-Effects — первую унифицированную структуру, способную генерировать эффекты, управляемые текстовыми запросами, и пространственно контролируемые составные эффекты. Основу нашей структуры составляют два ключевых нововведения: (1) LoRA-based Mixture of Experts (LoRA-MoE), который использует группу экспертных LoRA, интегрируя разнообразные эффекты в единую модель и эффективно минимизируя межзадачные помехи. (2) Spatial-Aware Prompt (SAP), который включает информацию о пространственной маске в текстовый токен, обеспечивая точный пространственный контроль. Кроме того, мы вводим модуль Independent-Information Flow (IIF), интегрированный в SAP, который изолирует управляющие сигналы, соответствующие отдельным эффектам, чтобы предотвратить нежелательное смешение. Для поддержки этого исследования мы создаем всеобъемлющий набор данных Omni-VFX с помощью нового конвейера сбора данных, сочетающего редактирование изображений и синтез First-Last Frame-to-Video (FLF2V), а также представляем специализированную структуру оценки VFX для проверки производительности модели. Многочисленные эксперименты демонстрируют, что Omni-Effects обеспечивает точный пространственный контроль и генерацию разнообразных эффектов, позволяя пользователям указывать как категорию, так и местоположение желаемых эффектов.

Часть I: Уловки или ловушки? Глубокий анализ обучения с подкреплением для рассуждений в больших языковых моделях
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Aug 11

ByZihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng

Обучение с подкреплением (RL) для рассуждений в больших языковых моделях (LLM) быстро стало важной областью исследований, что подтверждается значительным ростом числа связанных работ как в области алгоритмических инноваций, так и практических приложений. Несмотря на этот прогресс, сохраняется ряд критических проблем, включая отсутствие стандартизированных руководств по применению методов RL и фрагментированное понимание их базовых механизмов. Кроме того, неоднородные экспериментальные условия, различия в обучающих данных и инициализации моделей привели к противоречивым выводам, что затрудняет понимание ключевых характеристик этих методов и создает путаницу среди практиков при выборе подходящих подходов. В данной работе проводится систематический обзор широко используемых методов RL на основе строгого воспроизведения и изолированной оценки в рамках единой открытой платформы. Мы анализируем внутренние механизмы, применимые сценарии и основные принципы каждого метода с помощью детализированных экспериментов, включая наборы данных различной сложности, размеры моделей и архитектуры. На основе этих данных мы предлагаем четкие рекомендации по выбору методов RL, адаптированных к конкретным условиям, и предоставляем надежный план действий для практиков, работающих в области RL для LLM. Наконец, мы показываем, что минималистичная комбинация двух методов позволяет раскрыть обучаемость стратегий без критиков с использованием стандартной функции потерь PPO. Результаты демонстрируют, что наша простая комбинация стабильно улучшает производительность, превосходя стратегии, такие как GRPO и DAPO.

SONAR-LLM: Авторегрессивный трансформер, который мыслит в эмбеддингах предложений и генерирует токены
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

Aug 7

ByNikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev

Недавно предложенная модель Large Concept Model (LCM) генерирует текст, предсказывая последовательность вложений на уровне предложений и обучаясь с использованием либо среднеквадратичной ошибки, либо диффузионных целевых функций. Мы представляем SONAR-LLM, трансформер, работающий только в режиме декодера, который "мыслит" в том же непрерывном пространстве вложений SONAR, но обучается с использованием кросс-энтропии на уровне токенов, распространяемой через замороженный декодер SONAR. Этот гибридный подход сохраняет семантическую абстракцию LCM, устраняя при этом диффузионный сэмплер и восстанавливая обучающий сигнал, основанный на правдоподобии. Для моделей размером от 39 миллионов до 1,3 миллиарда параметров SONAR-LLM демонстрирует конкурентоспособное качество генерации. Мы представляем тенденции масштабирования, результаты абляционных исследований и тестов, а также публикуем полный код обучения и все предобученные контрольные точки для обеспечения воспроизводимости и поддержки будущих исследований.

MolmoAct: Модели рассуждений о действиях, способные рассуждать в пространстве
MolmoAct: Action Reasoning Models that can Reason in Space

Aug 11

ByJason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna

Рассуждение является ключевым элементом целенаправленного действия, однако большинство базовых моделей для робототехники напрямую связывают восприятие и инструкции с управлением, что ограничивает адаптивность, обобщение и семантическую связность. Мы представляем Модели Рассуждения о Действиях (Action Reasoning Models, ARMs) — класс моделей, объединяющих восприятие, планирование и управление через структурированный трехэтапный процесс. Наша модель, MolmoAct, кодирует наблюдения и инструкции в токены восприятия с учетом глубины, генерирует промежуточные пространственные планы в виде редактируемых траекторий и предсказывает точные низкоуровневые действия, обеспечивая объяснимое и управляемое поведение. MolmoAct-7B-D демонстрирует высокие результаты как в симуляциях, так и в реальных условиях: 70,5% точности в задачах SimplerEnv Visual Matching без предварительного обучения, превосходя закрытые модели Pi-0 и GR00T N1; 86,6% среднего успеха на LIBERO, включая дополнительный прирост на 6,3% по сравнению с ThinkAct в задачах с длительным горизонтом; а также в реальных условиях, при тонкой настройке, дополнительный прирост на 10% (одноручные задачи) и 22,7% (двуручные задачи) по сравнению с Pi-0-FAST. Модель также превосходит базовые подходы на 23,3% в задачах обобщения на данные вне распределения и достигает наивысших оценок по предпочтениям людей в задачах открытого следования инструкциям и управления траекториями. Кроме того, мы впервые публикуем набор данных MolmoAct Dataset — набор данных для обучения роботов, включающий более 10 000 высококачественных траекторий для различных сценариев и задач. Обучение на этом наборе данных обеспечивает среднее улучшение общей производительности на 5,5% по сравнению с базовой моделью. Мы публикуем все веса модели, код для обучения, собранный набор данных и набор данных для рассуждения о действиях, устанавливая MolmoAct как передовую базовую модель для робототехники и открытый шаблон для создания ARMs, которые преобразуют восприятие в целенаправленные действия через структурированные рассуждения. Блог: https://allenai.org/blog/molmoact

Klear-Reasoner: Улучшение способности к рассуждению с помощью оптимизации политики отсечения с сохранением градиента
Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

Aug 11

ByZhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Guorui Zhou

Мы представляем Klear-Reasoner — модель с расширенными возможностями логического рассуждения, которая демонстрирует тщательное обдумывание в процессе решения задач, достигая выдающихся результатов на множестве тестовых наборов. Хотя в сообществе уже существует множество превосходных работ, связанных с моделями логического вывода, воспроизведение высокопроизводительных моделей по-прежнему сопряжено с трудностями из-за неполного раскрытия деталей обучения. В данном отчете представлен глубокий анализ модели рассуждений, охватывающий весь процесс пост-обучения: от подготовки данных и тонкой настройки с использованием длинных цепочек рассуждений (long Chain-of-Thought supervised fine-tuning, long CoT SFT) до обучения с подкреплением (RL), а также детальные исследования влияния каждого компонента эксперимента. Наши эксперименты показывают, что для данных SFT небольшое количество высококачественных источников данных более эффективно, чем большое количество разнообразных источников, а сложные примеры могут давать лучшие результаты без фильтрации по точности. Кроме того, мы исследуем две ключевые проблемы современных механизмов ограничения (clipping) в RL: подавление критических сигналов исследования и игнорирование субоптимальных траекторий. Для решения этих задач мы предлагаем метод Gradient-Preserving Clipping Policy Optimization (GPPO), который мягко распространяет градиенты от ограниченных токенов. GPPO не только усиливает способность модели к исследованию, но и повышает ее эффективность в обучении на негативных примерах. Klear-Reasoner демонстрирует исключительные способности в математике и программировании, достигая 90,5% на AIME 2024, 83,2% на AIME 2025, 66,0% на LiveCodeBench V5 и 58,1% на LiveCodeBench V6.

BrowseComp-Plus: Более справедливый и прозрачный эталонный тест для оценки агентов глубокого поиска
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

Aug 8

ByZijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin

Агенты Deep-Research, которые объединяют большие языковые модели (LLM) с инструментами поиска, продемонстрировали успехи в повышении эффективности обработки сложных запросов, требующих итеративного планирования поиска и рассуждений на основе результатов поиска. Оценки на текущих бенчмарках, таких как BrowseComp, которые полагаются на черные ящики API живого веб-поиска, имеют существенные ограничения: (1) справедливость — динамические и непрозрачные веб-API затрудняют честные сравнения и воспроизводимость методов глубокого исследования; (2) прозрачность — отсутствие контроля над корпусом документов затрудняет изолирование вклада поискового механизма. Другими словами, текущие оценки могут сравнивать полную систему глубокого исследования в определенный момент времени, но они не способствуют проведению хорошо контролируемых экспериментов, которые могли бы дать представление о возможностях базовых LLM для глубокого исследования. Для решения этих проблем мы представляем BrowseComp-Plus — бенчмарк, основанный на BrowseComp, использующий фиксированный, тщательно отобранный корпус документов. Каждый запрос в BrowseComp-Plus включает проверенные человеком поддерживающие документы и сложные негативные примеры, что позволяет проводить контролируемые эксперименты. Бенчмарк доказал свою эффективность в различии производительности систем глубокого исследования. Например, открытая модель Search-R1 в сочетании с поисковым механизмом BM25 достигает точности 3,86%, тогда как GPT-5 достигает 55,9%. Интеграция GPT-5 с поисковым механизмом Qwen3-Embedding-8B дополнительно повышает точность до 70,1% при меньшем количестве поисковых запросов. Этот бенчмарк позволяет проводить всестороннюю оценку и раздельный анализ агентов глубокого исследования и методов поиска, способствуя пониманию эффективности поиска, точности цитирования и инженерии контекста в системах Deep-Research.

UserBench: Интерактивная среда Gym для пользователь-ориентированных агентов
UserBench: An Interactive Gym Environment for User-Centric Agents

Jul 29

ByCheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

Агенты на основе больших языковых моделей (LLM) достигли значительных успехов в области рассуждений и использования инструментов, что позволяет им решать сложные задачи. Однако их способность к активному взаимодействию с пользователями, особенно когда цели нечетко определены, эволюционируют или выражены косвенно, остается малоизученной. Чтобы устранить этот пробел, мы представляем UserBench — ориентированный на пользователя бенчмарк, предназначенный для оценки агентов в многоходовых взаимодействиях, управляемых предпочтениями. UserBench включает симулированных пользователей, которые начинают с неопределенных целей и постепенно раскрывают свои предпочтения, требуя от агентов активного уточнения намерений и принятия обоснованных решений с использованием инструментов. Наша оценка ведущих открытых и закрытых LLM выявила значительный разрыв между выполнением задач и соответствием ожиданиям пользователей. Например, модели предоставляют ответы, полностью соответствующие всем намерениям пользователей, только в 20% случаев в среднем, и даже самые продвинутые модели выявляют менее 30% всех предпочтений пользователей через активное взаимодействие. Эти результаты подчеркивают сложность создания агентов, которые являются не просто эффективными исполнителями задач, но и настоящими партнерами по сотрудничеству. UserBench предлагает интерактивную среду для измерения и развития этой критически важной способности.

Grove MoE: К эффективным и превосходным MoE LLM с использованием присоединённых экспертов
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

Aug 11

ByHaoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li

Архитектура Mixture of Experts (MoE) является ключевым элементом современных передовых (SOTA) крупных языковых моделей (LLM). Модели MoE обеспечивают масштабируемость за счет разреженной активации параметров. Однако традиционная архитектура MoE использует однородные эксперты фиксированного размера, активируя постоянное количество параметров независимо от сложности входных данных, что ограничивает вычислительную эффективность. Чтобы преодолеть это ограничение, мы представляем Grove MoE — новую архитектуру, включающую экспертов различного размера, вдохновленную гетерогенной архитектурой процессоров big.LITTLE. Эта архитектура включает новые присоединенные эксперты с динамическим механизмом активации, что позволяет расширять емкость модели, сохраняя при этом управляемые вычислительные затраты. На основе этой архитектуры мы представляем GroveMoE-Base и GroveMoE-Inst — 33B-параметрические LLM, разработанные с использованием стратегии апсайклинга модели Qwen3-30B-A3B-Base на этапах середины и завершения обучения. Модели GroveMoE динамически активируют 3.14–3.28 миллиарда параметров в зависимости от сложности токенов и демонстрируют производительность, сопоставимую с передовыми открытыми моделями аналогичного или даже большего размера.

Обучение с подкреплением в компьютерном зрении: обзор
Reinforcement Learning in Vision: A Survey

Aug 11

ByWeijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou

Последние достижения на стыке обучения с подкреплением (RL) и визуального интеллекта позволили создать агентов, которые не только воспринимают сложные визуальные сцены, но также рассуждают, генерируют и действуют в них. Этот обзор предлагает критический и актуальный синтез данной области. Сначала мы формализуем задачи визуального RL и прослеживаем эволюцию стратегий оптимизации политик — от RLHF до верифицируемых парадигм вознаграждения, а также от Proximal Policy Optimization до Group Relative Policy Optimization. Затем мы систематизируем более 200 репрезентативных работ в четыре тематических направления: мультимодальные большие языковые модели, визуальная генерация, унифицированные модельные фреймворки и модели "визуальный язык — действие". Для каждого направления мы анализируем алгоритмический дизайн, инженерию вознаграждений, прогресс в бенчмарках и выделяем тренды, такие как обучение на основе учебных планов, диффузия, согласованная с предпочтениями, и унифицированное моделирование вознаграждений. Наконец, мы рассматриваем протоколы оценки, охватывающие точность на уровне наборов, предпочтения на уровне образцов и стабильность на уровне состояний, а также выделяем открытые проблемы, включая эффективность использования данных, обобщаемость и безопасное развертывание. Наша цель — предоставить исследователям и практикам четкую карту быстро расширяющегося ландшафта визуального RL и выделить перспективные направления для будущих исследований. Ресурсы доступны по адресу: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.

Оценка проекции спектра: согласование извлеченных резюме с моделями читателя в генерации, усиленной извлечением данных
Spectrum Projection Score: Aligning Retrieved Summaries with Reader Models in Retrieval-Augmented Generation

Aug 8

ByZhanghao Hu, Qinglin Zhu, Siya Qi, Yulan He, Hanqi Yan, Lin Gui

Крупные языковые модели (LLM) демонстрируют улучшенные показатели генерации благодаря подходу, основанному на дополнении входных данных внешними знаниями, известному как retrieval-augmented generation (RAG), который следует парадигме "извлечение-чтение". Однако предыдущие исследования часто оценивают RAG в целом, анализируя совместно работу извлекателя и читателя, что затрудняет выделение истинного вклада извлечения, особенно с учетом чувствительности LLM, используемых в качестве читателей, к формулировкам запросов. Мы представляем Spectrum Projection Score (SPS) — легковесную метрику, не требующую обучения с учителем, которая позволяет читателю оценить семантическое соответствие извлеченного резюме его скрытому представлению, сравнивая область, образованную сгенерированными токенами из резюме, и главные направления подпространства в читателе, а также измерять релевантность. На основе SPS мы предлагаем xCompress — фреймворк для управления на этапе вывода, который динамически выбирает, ранжирует и сжимает кандидатов на извлеченные резюме. Эксперименты на пяти наборах данных для вопросно-ответных задач с использованием четырех открытых LLM показывают, что SPS не только повышает производительность в широком спектре задач, но и предоставляет принципиальный взгляд на взаимодействие между извлечением и генерацией.

OmniEAR: Оценка способности агентов к рассуждению в задачах с воплощением
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

Aug 7

ByZixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

Крупные языковые модели демонстрируют выдающиеся способности в абстрактных рассуждениях, однако их потенциал для рассуждений в контексте воплощенных агентов остается в значительной степени неисследованным. Мы представляем OmniEAR, всеобъемлющую структуру для оценки того, как языковые модели рассуждают о физических взаимодействиях, использовании инструментов и координации между несколькими агентами в задачах, связанных с воплощением. В отличие от существующих тестов, которые предоставляют предопределенные наборы инструментов или явные директивы для сотрудничества, OmniEAR требует от агентов динамически приобретать способности и автономно определять стратегии координации в зависимости от требований задачи. С помощью текстового представления среды мы моделируем непрерывные физические свойства и сложные пространственные отношения в 1500 сценариях, охватывающих бытовые и промышленные области. Наше систематическое исследование выявляет значительное снижение производительности, когда модели должны рассуждать с учетом ограничений: при достижении 85-96% успеха с явными инструкциями, производительность падает до 56-85% для рассуждений об инструментах и 63-85% для неявного сотрудничества, при этом сложные задачи показывают более 50% неудач. Удивительно, что полная информация об окружающей среде ухудшает координацию, что указывает на неспособность моделей фильтровать релевантные ограничения. Тонкая настройка значительно улучшает задачи для одного агента (с 0,6% до 76,3%), но дает минимальные улучшения для многозадачных сценариев (с 1,5% до 5,5%), выявляя фундаментальные архитектурные ограничения. Эти результаты демонстрируют, что воплощенные рассуждения представляют принципиально иные вызовы, чем те, которые могут быть решены текущими моделями, устанавливая OmniEAR как строгий эталон для оценки и развития воплощенных систем ИИ. Наш код и данные включены в дополнительные материалы и будут опубликованы в открытом доступе после принятия работы.

Временные языковые модели с самонаграждением: разделение выбранного и отклоненного через прошлое-будущее
Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

Aug 8

ByYidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang

Модели языка с самонаграждением предлагают архитектуру, в которой крупные языковые модели (LLM) как генерируют ответы, так и оценивают свои собственные выходные данные с помощью подхода LLM-as-a-Judge, динамически улучшая свои генеративные способности через итеративную оптимизацию прямых предпочтений (DPO). Однако наш анализ выявляет критическое ограничение существующих парадигм самонаграждения: синхронное улучшение выбранных и отвергнутых ответов постепенно сокращает репрезентативную разницу между контрастными образцами, подрывая эффективное обучение на основе предпочтений. Мы предлагаем модели языка с временным самонаграждением, которые стратегически координируют прошлые, текущие и будущие генерации модели для поддержания обучающих сигналов. Наш двухфазный фреймворк включает: (1) Анкерное отвержение — фиксацию отвергнутых ответов с использованием выходных данных начальной модели из прошлого и (2) Будущее-ориентированный выбор — динамическое курирование выбранных образцов с использованием предсказаний модели следующего поколения. Многочисленные эксперименты на трех семействах моделей (Llama, Qwen, Mistral) и различных размерах моделей (Llama3B/8B/70B) демонстрируют значительные улучшения при обучении с использованием нашего метода по сравнению с самонаграждением при тех же вычислительных ресурсах. Например, Llama3.1-8B достигает показателя 29.44 по шкале win rate на AlpacaEval 2.0 с нашим методом, превосходя базовый уровень самонаграждения (19.69) на 9.75. Примечательно, что наш метод также демонстрирует превосходную обобщаемость вне распределения в задачах математического рассуждения (GSM8K), вопросно-ответных задач на основе знаний (ARC, TruthfulQA) и генерации кода (HumanEval), даже несмотря на то, что мы не собирали такие данные для обучения специально.

MoBE: Смесь базовых экспертов для сжатия LLM на основе MoE
MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

Aug 7

ByXiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li

Архитектура Mixture-of-Experts (MoE) стала преобладающей парадигмой для масштабирования больших языковых моделей (LLM). Несмотря на высокую производительность и вычислительную эффективность, крупные LLM на основе MoE, такие как DeepSeek-V3-0324 и Kimi-K2-Instruct, представляют серьезные проблемы из-за значительных требований к памяти при развертывании. Хотя в последних работах изучалось сжатие MoE для решения этой проблемы, существующие методы часто страдают от существенного снижения точности (например, на 7–14% в относительном выражении) даже при умеренных уровнях сжатия. В данной статье представлен новый метод Mixture-of-Basis-Experts (MoBE), который позволяет сжимать модель с минимальным снижением точности. В частности, каждая матрица up/gate в эксперте декомпозируется с помощью рангового разложения как W = AB, где матрица A уникальна для каждого эксперта. Относительно большая матрица B дополнительно перепараметризуется как линейная комбинация базисных матриц {Bi}, общих для всех экспертов в рамках данного слоя MoE. Факторизация изучается путем минимизации ошибки реконструкции относительно исходных весовых матриц. Эксперименты показывают, что MoBE достигает значительно меньшего снижения точности по сравнению с предыдущими работами. Например, MoBE может сократить количество параметров моделей Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) и Kimi-K2-Instruct (1T) на 24–30% при снижении точности всего на 1–2% (около 2% в относительном выражении).

Меньше — значит больше: Обучение без обучения разреженного внимания с глобальной локальностью для эффективного рассуждения
Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

Aug 9

ByLijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

Крупные модели рассуждений достигают высокой производительности за счет масштабирования во время тестирования, но требуют значительных вычислительных ресурсов, особенно из-за чрезмерной генерации токенов при обработке коротких входных запросов. Хотя разреженные механизмы внимания могут снизить задержку и использование памяти, существующие подходы страдают от значительного ухудшения точности из-за накопления ошибок в процессе длительного рассуждения. Эти методы обычно требуют либо высоких показателей удержания токенов, либо дорогостоящего переобучения. Мы представляем LessIsMore, механизм разреженного внимания для задач рассуждений, не требующий обучения, который использует глобальные паттерны внимания вместо традиционных локальных оптимизаций, специфичных для отдельных голов. LessIsMore объединяет выбор токенов из локальных голов внимания с актуальной контекстной информацией, что позволяет осуществлять унифицированный ранжирование токенов для будущих слоев декодирования. Этот унифицированный выбор улучшает обобщение и эффективность, устраняя необходимость поддерживать отдельные подмножества токенов для каждой головы. Оценка на различных задачах рассуждений и бенчмарках показывает, что LessIsMore сохраняет — а в некоторых случаях даже улучшает — точность, достигая ускорения декодирования в среднем в 1.1 раза по сравнению с полным вниманием. Более того, LessIsMore обрабатывает в 2 раза меньше токенов без потери точности, достигая ускорения end-to-end в 1.13 раза по сравнению с существующими методами разреженного внимания.

Follow-Your-Shape: Редактирование изображений с учетом формы через управление областями на основе траекторий
Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

Aug 11

ByZeqian Long, Mingzhe Zheng, Kunyu Feng, Xinhua Zhang, Hongyu Liu, Harry Yang, Linfeng Zhang, Qifeng Chen, Yue Ma

Хотя современные модели редактирования изображений на основе потоков демонстрируют универсальные возможности для решения разнообразных задач, они часто испытывают трудности в специализированных сценариях, особенно в тех, которые связаны с крупномасштабными преобразованиями формы. При выполнении таких структурных изменений эти методы либо не достигают желаемого изменения формы, либо непреднамеренно изменяют нецелевые области, что приводит к ухудшению качества фона. Мы предлагаем Follow-Your-Shape — метод, не требующий обучения и масок, который поддерживает точное и контролируемое редактирование формы объектов, строго сохраняя нецелевое содержимое. Вдохновленные расхождением между траекториями инверсии и редактирования, мы вычисляем Карту Расхождения Траекторий (TDM), сравнивая пошаговые различия в скорости между путями инверсии и шумоподавления. TDM позволяет точно локализовать редактируемые области и направляет механизм Запланированной Инъекции Ключевых Значений (Scheduled KV Injection), который обеспечивает стабильное и точное редактирование. Для проведения строгой оценки мы представляем ReShapeBench — новый бенчмарк, включающий 120 новых изображений и обогащенные парные подсказки, специально разработанные для редактирования с учетом формы. Эксперименты показывают, что наш метод достигает превосходной редактируемости и визуальной точности, особенно в задачах, требующих крупномасштабной замены формы.

Краткосрочное обучение в универсальных стратегиях роботов: роль разнообразия и фрагментации данных
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

Aug 8

ByYouguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song

Универсальные политики роботов, обученные на крупномасштабных наборах данных, таких как Open X-Embodiment (OXE), демонстрируют высокую производительность в широком спектре задач. Однако они часто испытывают трудности с обобщением за пределы распределения их обучающих данных. В данной статье мы исследуем основную причину этой ограниченной способности к обобщению. Мы определяем "обучение по упрощённым признакам" (shortcut learning) — зависимость от нерелевантных для задачи признаков — как ключевое препятствие для обобщения. Благодаря всестороннему теоретическому и эмпирическому анализу мы выявляем два основных фактора, способствующих такому обучению: (1) ограниченное разнообразие внутри отдельных поднаборов данных и (2) значительные различия в распределении между поднаборами данных, приводящие к фрагментации набора данных. Эти проблемы возникают из-за присущей структуры крупномасштабных наборов данных, таких как OXE, которые обычно состоят из нескольких поднаборов, собранных независимо в различных средах и воплощениях. Наши результаты предоставляют важные инсайты для стратегий сбора данных, которые могут уменьшить обучение по упрощённым признакам и повысить способность к обобщению универсальных политик роботов. Более того, в сценариях, где сбор новых крупномасштабных данных непрактичен, мы показываем, что тщательно подобранные стратегии аугментации роботизированных данных могут эффективно уменьшить обучение по упрощённым признакам в существующих оффлайн-наборах данных, тем самым улучшая способность к обобщению универсальных политик роботов, например, π₀, как в симуляции, так и в реальных условиях. Дополнительная информация доступна по ссылке: https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.

GLiClass: Универсальная легковесная модель для задач классификации последовательностей
GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

Aug 11

ByIhor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

Классификация является одной из наиболее распространённых задач в приложениях искусственного интеллекта, часто выступая в качестве первого этапа фильтрации, сортировки и категоризации данных. Поскольку современные системы ИИ должны обрабатывать большие объёмы входных данных, а ошибки на ранних этапах конвейера могут распространяться на последующие, достижение высокой эффективности и точности становится критически важным. Более того, требования к классификации могут динамически изменяться в зависимости от потребностей пользователей, что требует моделей с мощными возможностями zero-shot обучения. Хотя генеративные большие языковые модели (LLM) стали основным инструментом для zero-shot классификации благодаря своей универсальности, они страдают от несогласованности в выполнении инструкций и низкой вычислительной эффективности. Кросс-энкодеры, часто используемые в качестве реранкеров в конвейерах RAG, сталкиваются с другой проблемой: они должны последовательно обрабатывать пары текст-метка, что значительно снижает эффективность при работе с большими наборами меток. Подходы на основе эмбеддингов обеспечивают хорошую эффективность, но испытывают трудности в сложных сценариях, связанных с логическими и семантическими ограничениями. Мы предлагаем GLiClass, новый метод, адаптирующий архитектуру GLiNER для задач классификации последовательностей. Наш подход демонстрирует высокую точность и эффективность, сопоставимые с методами на основе эмбеддингов, сохраняя при этом гибкость, необходимую для zero-shot и few-shot сценариев обучения. Кроме того, мы адаптировали оптимизацию проксимальной политики (PPO) для многометочной классификации текста, что позволяет обучать классификаторы в условиях недостатка данных или на основе обратной связи от пользователей.

VisR-Bench: Эмпирическое исследование визуального поисково-генеративного подхода для понимания многоязычных длинных документов
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

Aug 10

ByJian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang

Большая часть организационных данных в мире хранится в виде документов, и визуальный поиск играет ключевую роль в раскрытии коллективного интеллекта из всех этих документов. Однако существующие эталонные тесты сосредоточены на поиске документов только на английском языке или рассматривают многоязычное вопросно-ответное взаимодействие на изображении одной страницы. Чтобы устранить этот пробел, мы представляем VisR-Bench — многоязычный эталонный тест, разработанный для вопросно-управляемого мультимодального поиска в длинных документах. Наш эталонный тест включает более 35 тысяч высококачественных пар вопросов и ответов для 1,2 тысяч документов, что позволяет проводить детальную оценку мультимодального поиска. VisR-Bench охватывает шестнадцать языков с тремя типами вопросов (графики, текст и таблицы), предлагая разнообразное лингвистическое и вопросное покрытие. В отличие от предыдущих наборов данных, мы включаем запросы без явных ответов, предотвращая зависимость моделей от поверхностного сопоставления ключевых слов. Мы оцениваем различные модели поиска, включая текстовые методы, мультимодальные кодировщики и MLLM, предоставляя понимание их сильных сторон и ограничений. Наши результаты показывают, что, хотя MLLM значительно превосходят текстовые и мультимодальные модели кодировщиков, они всё ещё испытывают трудности со структурированными таблицами и языками с ограниченными ресурсами, что подчеркивает ключевые проблемы в многоязычном визуальном поиске.

Сжатие цепочки рассуждений в больших языковых моделях через энтропию шагов
Compressing Chain-of-Thought in LLMs via Step Entropy

Aug 5

ByZeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu

Крупные языковые модели (LLM), использующие метод Chain-of-Thought (CoT), демонстрируют выдающиеся результаты в сложных рассуждениях, но генерируют избыточно подробные мыслительные процессы с высокой степенью избыточности, что приводит к увеличению затрат на вывод и снижению эффективности. Мы представляем новый фреймворк сжатия CoT, основанный на энтропии шагов — метрике, которая количественно оценивает информационный вклад отдельных шагов рассуждения для выявления избыточности. Благодаря теоретическому анализу и обширной эмпирической проверке на бенчмарках математических рассуждений мы показываем, что шаги с низкой энтропией действительно являются высоко избыточными. Наши эксперименты показывают, что удивительные 80% промежуточных шагов с низкой энтропией могут быть удалены с минимальным ухудшением точности конечного ответа для моделей DeepSeek-R1-7B, 14B и Qwen3-8B. Этот результат резко контрастирует с удалением случайных или высокоэнтропийных шагов, которое значительно ухудшает качество рассуждений. На основе этого мы предлагаем новую двухэтапную стратегию обучения, сочетающую Supervised Fine-Tuning (SFT) и обучение с подкреплением методом Group Relative Policy Optimization (GRPO). Этот подход позволяет LLM автономно обучаться генерации сжатых CoT во время вывода, стратегически включая токены [SKIP]. Наш метод значительно повышает эффективность вывода LLM, строго сохраняя точность, что имеет важные последствия для практического развертывания LLM и углубленного понимания структур рассуждений.

Bifrost-1: Соединение мультимодальных LLM и диффузионных моделей с использованием латентных представлений CLIP на уровне патчей
Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Aug 8

ByHan Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

Растет интерес к интеграции возможностей высококачественного визуального синтеза в крупные языковые модели (LLM) без ущерба для их мощных способностей к рассуждению. Существующие методы, которые напрямую обучают LLM или связывают LLM с диффузионными моделями, обычно сталкиваются с высокой стоимостью обучения, поскольку базовые LLM не видели представлений изображений на этапе предварительного обучения. Мы представляем Bifrost-1 — унифицированную структуру, которая связывает предварительно обученные мультимодальные LLM (MLLM) и диффузионные модели, используя патч-уровневые CLIP-эмбеддинги изображений в качестве латентных переменных, которые изначально согласованы с CLIP-визуальным кодировщиком MLLM. Эти патч-уровневые эмбеддинги изображений интегрируются в диффузионную модель с помощью легковесной адаптации ее ControlNet. Для сохранения исходных мультимодальных способностей к рассуждению MLLM мы оснащаем MLLM ветвью визуальной генерации, инициализированной из исходных параметров MLLM при прогнозировании патч-уровневых эмбеддингов изображений. Благодаря бесшовной интеграции предварительно обученных MLLM и диффузионных моделей с патч-уровневыми CLIP-латентными переменными, наша структура позволяет осуществлять высококачественное управляемое генерацию изображений с высокой эффективностью обучения. Наши эксперименты демонстрируют, что Bifrost-1 достигает сопоставимой или лучшей производительности по сравнению с предыдущими методами с точки зрения визуальной точности и мультимодального понимания, при значительно меньших вычислительных затратах во время обучения. Мы также предоставляем всесторонние исследования эффективности наших проектных решений.

Глубокая неосведомленность: фильтрация данных предварительного обучения создает устойчивые к вмешательству защитные механизмы в открытых весовых языковых моделях.
Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

Aug 8

ByKyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman

Системы ИИ с открытыми весами предлагают уникальные преимущества, включая повышенную прозрачность, открытые исследования и децентрализованный доступ. Однако они уязвимы для атак с подменой данных, которые могут эффективно вызывать вредоносное поведение путем изменения весов или активаций. В настоящее время еще не существует надежной науки управления рисками для моделей с открытыми весами. Существующие методы тонкой настройки безопасности и другие посттренировочные техники не смогли сделать крупные языковые модели (LLM) устойчивыми к более чем нескольким десяткам шагов враждебной тонкой настройки. В данной статье мы исследуем, может ли фильтрация текста на темы двойного назначения из обучающих данных предотвратить нежелательные возможности и служить более устойчивой к подмене защитой. Мы представляем многоэтапный конвейер для масштабируемой фильтрации данных и показываем, что он предлагает осуществимый и эффективный метод минимизации знаний о биологических угрозах в LLM. Мы предварительно обучаем несколько моделей с 6,9 миллиардами параметров с нуля и обнаруживаем, что они демонстрируют значительную устойчивость к атакам враждебной тонкой настройки на протяжении до 10 000 шагов и 300 миллионов токенов текста, связанного с биологическими угрозами, — превосходя существующие посттренировочные базовые методы более чем на порядок — без наблюдаемого ухудшения несвязанных возможностей. Однако, хотя отфильтрованные модели не содержат внутренних опасных знаний, мы обнаруживаем, что они все же могут использовать такую информацию, когда она предоставляется в контексте (например, через расширение поисковыми инструментами), что демонстрирует необходимость многоуровневого подхода к защите. В целом, эти результаты помогают установить курацию данных предварительного обучения как перспективный уровень защиты для систем ИИ с открытыми весами.

Анатомия экосистемы машинного обучения: 2 миллиона моделей на Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

Aug 9

ByBenjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

Многие отмечают, что разработка и внедрение генеративных моделей машинного обучения (ML) и искусственного интеллекта (AI) следуют характерному паттерну, в котором предварительно обученные модели адаптируются и дорабатываются для выполнения конкретных задач. Однако эмпирических исследований, посвященных структуре этих взаимодействий, недостаточно. В данной статье анализируются 1,86 миллиона моделей на платформе Hugging Face, ведущей платформе совместной разработки моделей. Наше исследование генеалогических деревьев моделей — сетей, связывающих доработанные модели с их базовыми или родительскими версиями — выявляет обширные линии доработки, которые значительно различаются по размеру и структуре. Используя подход эволюционной биологии для изучения моделей ML, мы анализируем метаданные моделей и их описания (model cards), чтобы измерить генетическое сходство и мутацию признаков в рамках семейств моделей. Мы обнаруживаем, что модели, как правило, демонстрируют семейное сходство, то есть их генетические маркеры и признаки имеют больше совпадений, если они принадлежат к одному семейству моделей. Однако эти сходства в определенных аспектах отличаются от стандартных моделей бесполого размножения, поскольку мутации происходят быстро и направленно, так что две «сестринские» модели, как правило, демонстрируют больше сходства, чем пары родитель/потомок. Дополнительный анализ направленных изменений этих мутаций позволяет получить качественные инсайты об открытой экосистеме машинного обучения: лицензии, вопреки ожиданиям, смещаются от ограничительных коммерческих лицензий к разрешительным или копилефтным, часто нарушая условия вышестоящих лицензий; модели эволюционируют от многоязычной совместимости к совместимости только с английским языком; описания моделей сокращаются и стандартизируются, чаще используя шаблоны и автоматически сгенерированный текст. В целом, данная работа делает шаг к эмпирически обоснованному пониманию процесса доработки моделей и показывает, что экологические модели и методы могут давать новые научные инсайты.

Fact2Fiction: Целевая атака отравления на агентскую систему проверки фактов
Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

Aug 8

ByHaorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau

Современные системы проверки фактов борются с дезинформацией в масштабе, используя автономных агентов на основе больших языковых моделей (LLM) для декомпозиции сложных утверждений на более мелкие подутверждения, проверки каждого подутверждения по отдельности и агрегирования частичных результатов для вынесения вердиктов с обоснованиями (пояснительными аргументами для вердиктов). Безопасность этих систем имеет критическое значение, поскольку скомпрометированные системы проверки фактов, которые часто остаются недостаточно изученными, могут усиливать дезинформацию. В данной работе представлен Fact2Fiction — первый фреймворк для атак с отравлением, нацеленных на такие агентские системы проверки фактов. Fact2Fiction повторяет стратегию декомпозиции и использует сгенерированные системой обоснования для создания адаптированных вредоносных доказательств, которые компрометируют проверку подутверждений. Эксперименты показывают, что Fact2Fiction достигает на 8,9\%–21,2\% более высоких показателей успешности атак по сравнению с современными методами при различных бюджетах отравления. Fact2Fiction выявляет уязвимости в текущих системах проверки фактов и подчеркивает необходимость разработки защитных мер.

Speech-to-LaTeX: Новые модели и наборы данных для преобразования произносимых уравнений и предложений
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Aug 5

ByDmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets

Преобразование устных математических выражений является сложной задачей, которая включает транскрибирование речи в строго структурированное символическое представление с учетом неоднозначности, присущей произношению уравнений. Несмотря на значительный прогресс в области автоматического распознавания речи (ASR) и языковых моделей (LM), проблема преобразования устной математики в LaTeX остается недостаточно изученной. Эта задача напрямую применима в образовательных и исследовательских областях, таких как транскрибирование лекций или создание заметок. Предыдущие работы, основанные на посткоррекции ASR, требуют двух транскрипций, сосредоточены только на изолированных уравнениях, имеют ограниченный тестовый набор и не предоставляют ни обучающих данных, ни поддержки нескольких языков. Для решения этих проблем мы представляем первый полностью открытый крупномасштабный набор данных, включающий более 66 000 аудиозаписей математических уравнений и предложений на английском и русском языках, аннотированных вручную и охватывающих различные научные области. В дополнение к моделям посткоррекции ASR и методам few-shot prompting мы применяем аудио-языковые модели, демонстрируя сопоставимые результаты по уровню ошибок на символ (CER) на бенчмарке MathSpeech (28% против 30%) для преобразования уравнений. В то же время на предложенном бенчмарке S2L-equations наши модели превосходят модель MathSpeech с существенным отрывом более чем на 40 процентных пунктов, даже с учетом артефактов форматирования LaTeX (27% против 64%). Мы устанавливаем первый бенчмарк для распознавания математических предложений (S2L-sentences) и достигаем CER для уравнений на уровне 40%. Эта работа закладывает основу для будущих достижений в области мультимодального ИИ с особым акцентом на распознавание математического контента.

Когда хорошие звуки становятся вредоносными: взлом аудио-языковых моделей с помощью безобидных входных данных
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Aug 5

ByBodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

По мере того как крупные языковые модели всё глубже интегрируются в повседневную жизнь, аудио становится ключевым интерфейсом для взаимодействия человека с ИИ. Однако это удобство также создаёт новые уязвимости, превращая аудио в потенциальную поверхность для атак злоумышленников. Наше исследование представляет WhisperInject — двухэтапную структуру атаки на аудио, которая способна манипулировать современными аудио-языковыми моделями для генерации вредоносного контента. Наш метод использует незаметные искажения в аудиовходах, которые остаются безвредными для человеческого слуха. На первом этапе применяется новый метод оптимизации на основе вознаграждения, Reinforcement Learning with Projected Gradient Descent (RL-PGD), чтобы направить целевую модель на обход собственных протоколов безопасности и генерацию вредоносных ответов. Эти вредоносные ответы затем служат целью для второго этапа, Payload Injection, где мы используем Projected Gradient Descent (PGD) для оптимизации тонких искажений, встраиваемых в безвредные аудионосители, такие как запросы о погоде или приветственные сообщения. Проверенные в рамках строгой системы оценки безопасности StrongREJECT, LlamaGuard, а также с участием людей, наши эксперименты демонстрируют успешность более 86% для моделей Qwen2.5-Omni-3B, Qwen2.5-Omni-7B и Phi-4-Multimodal. Наша работа раскрывает новый класс практических угроз, связанных с аудио, выходя за рамки теоретических эксплойтов и демонстрируя реализуемый и скрытый метод манипуляции поведением ИИ.

TextQuests: Насколько хорошо языковые модели справляются с текстовыми видеоиграми?
TextQuests: How Good are LLMs at Text-Based Video Games?

Jul 31

ByLong Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks

Оценка ИИ-агентов в сложных, интерактивных средах, которые отражают реальные вызовы, имеет критически важное значение для понимания их практических возможностей. Хотя существующие бенчмарки для агентов эффективно оценивают такие навыки, как использование инструментов или выполнение структурированных задач, они часто не полностью охватывают способность агента действовать автономно в исследовательских средах, требующих продолжительного, самостоятельного рассуждения в рамках длительного и постоянно расширяющегося контекста. Для стимулирования разработки агентов, способных к более устойчивому внутреннему рассуждению на длительных временных горизонтах, мы представляем TextQuests — бенчмарк, основанный на наборе интерактивных текстовых игр Infocom. Эти текстовые приключения, которые могут занимать у человеческих игроков более 30 часов и требуют сотен точных действий для решения, служат эффективным инструментом для оценки ИИ-агентов на выполнение целенаправленных, контекстно-зависимых задач. Бенчмарк специально разработан для оценки способности агента на основе языковой модели (LLM) к самостоятельному решению задач, исключая использование внешних инструментов, что позволяет сосредоточиться на внутренних способностях к длительному контекстному рассуждению в исследовательской среде, характеризующейся необходимостью обучения методом проб и ошибок и продолжительного решения задач в рамках одной интерактивной сессии. Мы публикуем TextQuests по адресу https://textquests.ai.