HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

37 papers found

LightMem: Легковесный и эффективный метод генерации с использованием памяти
LightMem: Lightweight and Efficient Memory-Augmented Generation

Oct 21

ByJizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang

Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) испытывают трудности с эффективным использованием информации из предыдущих взаимодействий в динамичных и сложных средах. Системы памяти позволяют LLM выйти за рамки статичных взаимодействий, вводя механизмы постоянного хранения, извлечения и использования информации. Однако существующие системы памяти часто приводят к значительным временным и вычислительным затратам. В связи с этим мы представляем новую систему памяти под названием LightMem, которая находит баланс между производительностью и эффективностью систем памяти. Вдохновленная моделью человеческой памяти Аткинсона-Шиффрина, LightMem организует память в три взаимодополняющих этапа. Во-первых, сенсорная память, вдохновленная когнитивными процессами, быстро фильтрует нерелевантную информацию с помощью легковесного сжатия и группирует данные по темам. Затем, кратковременная память с учетом тематики консолидирует эти тематические группы, организуя и суммируя содержимое для более структурированного доступа. Наконец, долговременная память с обновлением в режиме сна использует автономный процесс, который отделяет консолидацию от онлайн-вывода. Эксперименты на LongMemEval с использованием моделей GPT и Qwen показывают, что LightMem превосходит сильные базовые подходы по точности (улучшение до 10,9%) при этом сокращая использование токенов до 117 раз, количество API-вызовов до 159 раз и время выполнения более чем в 12 раз. Код доступен по адресу https://github.com/zjunlp/LightMem.

Эффективное обучение языковых моделей с длинным контекстом за счет разделения основного механизма внимания
Efficient Long-context Language Model Training by Core Attention Disaggregation

Oct 20

ByYonghao Zhuang, Junda Chen, Bo Pang, Yi Gu, Yibo Zhu, Yimin Jiang, Ion Stoica, Eric Xing, Hao Zhang

Мы представляем метод разделения основного механизма внимания (Core Attention Disaggregation, CAD), который улучшает обучение языковых моделей с длинным контекстом за счет отделения основного вычисления внимания, softmax(QK^T)V, от остальной части модели и выполнения его на отдельном пуле устройств. В существующих системах основной механизм внимания размещается вместе с другими слоями; при длинных контекстах его квадратичный рост вычислительной сложности по сравнению с почти линейным ростом других компонентов приводит к дисбалансу нагрузки и задержкам в группах данных и параллельных конвейеров. CAD основан на двух ключевых наблюдениях. Во-первых, основной механизм внимания не имеет состояния: он не содержит обучаемых параметров и лишь минимальные временные данные, поэтому балансировка сводится к планированию вычислительно-зависимых задач. Во-вторых, он композируем: современные ядра внимания сохраняют высокую эффективность при обработке объединенных пакетов сегментов токенов произвольной длины. CAD разделяет основной механизм внимания на задачи уровня токенов и распределяет их на выделенные серверы внимания, которые динамически перегруппировывают задачи для выравнивания вычислений без потери эффективности ядер. Мы реализовали CAD в системе под названием DistCA, которая использует схему выполнения "пинг-понг" для полного перекрытия коммуникаций и вычислений, а также выполнение на месте на серверах внимания для снижения использования памяти. На 512 GPU H200 и длинах контекста до 512k токенов DistCA повышает сквозную пропускную способность обучения до 1.35x, устраняет задержки в данных и параллельных конвейерах и достигает почти идеального баланса вычислений и памяти.

Мир в Мире: Мировые модели в замкнутом мире
World-in-World: World Models in a Closed-Loop World

Oct 20

ByJiahan Zhang, Muqing Jiang, Nanru Dai, Taiming Lu, Arda Uzunoglu, Shunchi Zhang, Yana Wei, Jiahao Wang, Vishal M. Patel, Paul Pu Liang, Daniel Khashabi, Cheng Peng, Rama Chellappa, Tianmin Shu, Alan Yuille, Yilun Du, Jieneng Chen

Генеративные модели мира (WMs) теперь способны симулировать миры с поразительной визуальной реалистичностью, что естественно поднимает вопрос о том, могут ли они наделить воплощённых агентов прогностическим восприятием для принятия решений. Прогресс в этом вопросе ограничивается фрагментированной оценкой: большинство существующих бенчмарков используют открытые протоколы, которые акцентируют внимание на визуальном качестве изолированно, оставляя ключевой вопрос полезности для воплощённых агентов нерешённым, а именно: действительно ли WMs помогают агентам успешно выполнять задачи в реальной среде? Чтобы устранить этот пробел, мы представляем World-in-World — первую открытую платформу, которая оценивает WMs в замкнутом мире, отражающем реальные взаимодействия агента и среды. World-in-World предоставляет унифицированную стратегию онлайн-планирования и стандартизированный API для действий, позволяя использовать разнородные WMs для принятия решений. Мы создали четыре замкнутых среды, которые строго оценивают различные WMs, приоритизируют успешность выполнения задач как основной метрики и выходят за рамки традиционного акцента на визуальное качество; мы также представляем первый закон масштабирования данных для моделей мира в условиях воплощённых агентов. Наше исследование выявило три неожиданных результата: (1) визуальное качество само по себе не гарантирует успешность задач, важнее управляемость; (2) масштабирование после обучения с данными о действиях и наблюдениях более эффективно, чем улучшение предобученных генераторов видео; (3) выделение большего объёма вычислительных ресурсов на этапе вывода позволяет WMs значительно улучшить производительность в замкнутом цикле.

UniGenBench++: Унифицированный семантический бенчмарк для оценки генерации изображений по тексту
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Oct 21

ByYibin Wang, Zhimin Li, Yuhang Zang, Jiazi Bu, Yujie Zhou, Yi Xin, Junjun He, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Недавние достижения в области генерации изображений по текстовому описанию (Text-to-Image, T2I) подчеркивают важность надежных эталонов для оценки того, насколько точно созданные изображения отражают семантику текстового запроса. Однако (1) существующие эталоны недостаточно разнообразны в плане сценариев запросов и поддержки многоязычности, что критически важно для практического применения; (2) они предлагают лишь грубую оценку по основным параметрам, охватывая узкий диапазон подпараметров, и не справляются с детализированной оценкой на уровне подпараметров. Чтобы устранить эти ограничения, мы представляем UniGenBench++ — унифицированный эталон для семантической оценки генерации T2I. В частности, он включает 600 запросов, организованных иерархически для обеспечения как охвата, так и эффективности: (1) охватывает разнообразные реальные сценарии, включая 5 основных тем и 20 подтем запросов; (2) всесторонне исследует семантическую согласованность моделей T2I по 10 основным и 27 дополнительным критериям оценки, причем каждый запрос проверяет несколько тестовых точек. Для строгой оценки устойчивости моделей к вариациям языка и длины запроса мы предоставляем версии каждого запроса на английском и китайском языках в краткой и длинной формах. Используя общие знания о мире и способность к детализированному пониманию изображений, предоставляемые закрытой многомодальной крупной языковой моделью (MLLM), а именно Gemini-2.5-Pro, мы разработали эффективный конвейер для надежного построения эталона и упрощенной оценки моделей. Кроме того, чтобы дополнительно облегчить использование сообществом, мы обучаем надежную модель оценки, которая позволяет проводить офлайн-оценку выходных данных моделей T2I. Проведя всестороннее тестирование как открытых, так и закрытых моделей T2I, мы систематически выявляем их сильные и слабые стороны в различных аспектах.

Каждый шаг имеет значение: масштабирование обучения с подкреплением для триллион-масштабной модели мышления
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Oct 21

ByLing Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen

Мы представляем Ring-1T — первую открытую модель мышления с триллионным масштабом параметров, соответствующую современным стандартам. Модель включает 1 триллион общих параметров и активирует примерно 50 миллиардов на каждый токен. Обучение таких моделей на триллионном масштабе параметров ставит беспрецедентные задачи, включая рассогласование между обучением и выводом, неэффективность обработки последовательностей и узкие места в системе обучения с подкреплением (RL). Для решения этих проблем мы внедряем три взаимосвязанных инновации: (1) IcePop стабилизирует RL-обучение за счет маскирования и ограничения расхождений на уровне токенов, устраняя нестабильность, вызванную несоответствием между обучением и выводом; (2) C3PO++ повышает эффективность использования ресурсов для длинных последовательностей при ограниченном бюджете токенов за счет их динамического разделения, обеспечивая высокую временную эффективность; и (3) ASystem — высокопроизводительный RL-фреймворк, разработанный для преодоления системных узких мест, препятствующих обучению моделей с триллионным масштабом параметров. Ring-1T демонстрирует прорывные результаты на ключевых тестах: 93,4 на AIME-2025, 86,72 на HMMT-2025, 2088 на CodeForces и 55,94 на ARC-AGI-v1. Особенно примечателен результат уровня серебряной медали на IMO-2025, подчеркивающий исключительные способности модели к рассуждению. Предоставляя полную 1T-параметрическую модель MoE сообществу, мы даем исследователям прямой доступ к передовым возможностям рассуждения. Этот вклад знаменует важный этап в демократизации крупномасштабного интеллекта рассуждений и устанавливает новый стандарт для производительности открытых моделей.

Chem-R: Обучение химическому мышлению
Chem-R: Learning to Reason as a Chemist

Oct 19

ByWeida Wang, Benteng Chen, Di Zhang, Wanhao Liu, Shuchen Pu, Ben Gao, Jin Zeng, Lei Bai, Wanli Ouyang, Xiaoyong Wei, Tianshu Yu, Tianfan Fu, Shuzhou Sun, Jiatong Li, Zifu Wang, Yuqiang Li, Shufei Zhang

Хотя крупные языковые модели (LLM) обладают значительным потенциалом для продвижения в области химических открытий, современные LLM не обладают базовыми знаниями в химии, демонстрируют ненадежные траектории рассуждений и показывают неоптимальную производительность в разнообразных химических задачах. Для решения этих проблем мы предлагаем Chem-R — универсальную модель химического рассуждения, разработанную для имитации обдуманных процессов, используемых химиками. Chem-R обучается с помощью трехэтапной структуры, которая постепенно развивает продвинутые способности к рассуждению, включая: 1) Базовое химическое обучение, которое закладывает фундаментальные химические знания. 2) Дистилляцию протоколов химического рассуждения, включающую структурированные, экспертные траектории рассуждений для систематического и надежного решения задач. 3) Оптимизацию политики с учетом относительной групповой многозадачности, которая оптимизирует модель для сбалансированной производительности в разнообразных задачах на молекулярном и реакционном уровнях. Этот структурированный подход позволяет Chem-R достичь наилучших результатов на комплексных тестах, превосходя ведущие крупные языковые модели, включая Gemini-2.5-Pro и DeepSeek-R1, на 46% в молекулярных задачах и на 66% в задачах, связанных с реакциями. При этом Chem-R также стабильно превосходит существующие базовые химические модели как на молекулярном, так и на реакционном уровнях. Эти результаты подчеркивают надежную обобщаемость, интерпретируемость и потенциал Chem-R в качестве основы для следующего поколения ИИ-управляемых химических открытий.

MoGA: Смешанное внимание групп для сквозной генерации длинных видео
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

Oct 21

ByWeinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao

Генерация длинных видео с использованием Diffusion Transformers (DiTs) ограничена квадратичным масштабированием полного внимания (full attention) с увеличением длины последовательности. Поскольку механизм внимания обладает высокой избыточностью, выходные данные определяются небольшим подмножеством пар запрос-ключ. Существующие разреженные методы опираются на блочную грубую оценку, где компромисс между точностью и эффективностью ограничен размером блока. В данной статье представлено Mixture-of-Groups Attention (MoGA) — эффективный механизм разреженного внимания, который использует легковесный обучаемый маршрутизатор токенов для точного сопоставления токенов без блочной оценки. Благодаря семантически осознанной маршрутизации, MoGA обеспечивает эффективное взаимодействие на больших расстояниях. Будучи методом, не требующим ядра (kernel-free), MoGA легко интегрируется с современными стеками внимания, включая FlashAttention и параллелизм последовательностей. На основе MoGA мы разработали эффективную модель генерации длинных видео, которая сквозным образом создает минутные, многосценовые видео в разрешении 480p со скоростью 24 кадра в секунду и длиной контекста около 580 тысяч токенов. Комплексные эксперименты на различных задачах генерации видео подтверждают эффективность нашего подхода.

Захват любой области: к точному, контекстному пониманию пикселей для мультимодальных больших языковых моделей
Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Oct 21

ByHaochen Wang, Yuhao Wang, Tao Zhang, Yikang Zhou, Yanwei Li, Jiacong Wang, Ye Tian, Jiahao Meng, Zilong Huang, Guangcan Mai, Anran Wang, Yunhai Tong, Zhuochen Wang, Xiangtai Li, Zhaoxiang Zhang

Хотя мультимодальные большие языковые модели (MLLMs) преуспевают в целостном понимании, они испытывают трудности при анализе сложных сцен с высокой плотностью объектов, требующих детального анализа тонких деталей и взаимосвязей между объектами. Региональные MLLMs стали многообещающим шагом в этом направлении. Однако предыдущие попытки, как правило, были оптимизированы для понимания заданных регионов изолированно, игнорируя важные глобальные контексты. Чтобы решить эту проблему, мы представляем Grasp Any Region (GAR) для всестороннего визуального понимания на уровне регионов. Благодаря эффективной технике воспроизведения признаков, выровненных по области интереса (RoI), GAR поддерживает (1) точное восприятие за счет использования необходимых глобальных контекстов и (2) моделирование взаимодействий между несколькими запросами. В совокупности это естественным образом приводит к (3) продвинутому композиционному рассуждению для ответа на конкретные свободные вопросы о любом регионе, смещая парадигму от пассивного описания к активному диалогу. Кроме того, мы создаем GAR-Bench, который не только обеспечивает более точную оценку понимания одного региона, но и, что более важно, измеряет взаимодействия и сложные рассуждения между несколькими регионами. Многочисленные эксперименты показали, что GAR-1B не только сохраняет передовые возможности генерации описаний, например, превосходя DAM-3B на +4.5 на DLC-Bench, но и преуспевает в моделировании отношений между несколькими запросами с продвинутыми способностями к пониманию, даже опережая InternVL3-78B на GAR-Bench-VQA. Что еще важнее, наша модель GAR-8B, обученная с нуля, превосходит специализированную VideoRefer-7B на VideoRefer-BenchQ, что указывает на ее сильные возможности, которые легко переносятся на видео.

DeepSeek-OCR: Контекстное оптическое сжатие
DeepSeek-OCR: Contexts Optical Compression

Oct 21

ByHaoran Wei, Yaofeng Sun, Yukun Li

Мы представляем DeepSeek-OCR как начальное исследование возможности сжатия длинных контекстов с помощью оптического 2D-отображения. DeepSeek-OCR состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M в качестве декодера. В частности, DeepEncoder служит основным движком, разработанным для поддержания низких активаций при высоком разрешении входных данных, одновременно достигая высоких коэффициентов сжатия, чтобы обеспечить оптимальное и управляемое количество визуальных токенов. Эксперименты показывают, что когда количество текстовых токенов не превышает 10-кратного количества визуальных токенов (т.е. коэффициент сжатия < 10x), модель может достичь точности декодирования (OCR) в 97%. Даже при коэффициенте сжатия 20x точность OCR остается на уровне около 60%. Это демонстрирует значительный потенциал для таких областей исследований, как сжатие длинных исторических контекстов и механизмы забывания в больших языковых моделях (LLM). Кроме того, DeepSeek-OCR также демонстрирует высокую практическую ценность. На OmniDocBench он превосходит GOT-OCR2.0 (256 токенов на страницу), используя всего 100 визуальных токенов, и опережает MinerU2.0 (в среднем более 6000 токенов на страницу), используя менее 800 визуальных токенов. В производственных условиях DeepSeek-OCR может генерировать обучающие данные для LLM/VLM в масштабе 200+ тысяч страниц в день (на одной A100-40G). Коды и веса модели доступны публично по адресу http://github.com/deepseek-ai/DeepSeek-OCR.

IF-VidCap: Могут ли модели генерации подписей к видео следовать инструкциям?
IF-VidCap: Can Video Caption Models Follow Instructions?

Oct 21

ByShihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu

Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали высокую эффективность в создании видеозаголовков, практические приложения требуют заголовков, которые соответствуют конкретным инструкциям пользователя, а не генерируют исчерпывающие, неограниченные описания. Однако текущие бенчмарки в основном оценивают описательную полноту, практически игнорируя способность следовать инструкциям. Чтобы устранить этот пробел, мы представляем IF-VidCap — новый бенчмарк для оценки управляемого создания видеозаголовков, содержащий 1400 высококачественных образцов. В отличие от существующих бенчмарков для создания видеозаголовков или общего следования инструкциям, IF-VidCap включает систематическую структуру, которая оценивает заголовки по двум измерениям: корректность формата и корректность содержания. Наше всестороннее тестирование более 20 ведущих моделей выявило сложную картину: несмотря на продолжающееся доминирование проприетарных моделей, разрыв в производительности сокращается, и лучшие открытые решения теперь достигают почти паритета. Кроме того, мы обнаружили, что модели, специализированные для плотного создания заголовков, уступают универсальным MLLM в выполнении сложных инструкций, что указывает на необходимость одновременного улучшения как описательной насыщенности, так и точности следования инструкциям в будущих исследованиях.

GAS: Улучшение дискретизации диффузионных ОДУ с помощью обобщённого адверсариального решателя
GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

Oct 20

ByAleksandr Oganov, Ilya Bykov, Eva Neudachina, Mishan Aliev, Alexander Tolmachev, Alexander Sidorov, Aleksandr Zuev, Andrey Okhotin, Denis Rakitin, Aibek Alanov

Хотя диффузионные модели достигают наивысшего качества генерации, они по-прежнему страдают от вычислительно затратного процесса сэмплирования. В последних работах эта проблема решается с помощью методов оптимизации на основе градиентов, которые извлекают ODE-решатель диффузии с малым количеством шагов из полного процесса сэмплирования, сокращая количество вычислений функций с десятков до нескольких. Однако эти подходы часто полагаются на сложные методы обучения и не уделяют явного внимания сохранению мелкозернистых деталей. В данной статье мы представляем Обобщённый Решатель: простую параметризацию ODE-сэмплера, которая не требует дополнительных трюков в обучении и улучшает качество по сравнению с существующими подходами. Мы также комбинируем исходную функцию потерь для дистилляции с состязательным обучением, что уменьшает артефакты и повышает точность деталей. Полученный метод мы называем Обобщённым Состязательным Решателем и демонстрируем его превосходную производительность по сравнению с существующими методами обучения решателей при схожих ограничениях ресурсов. Код доступен по адресу https://github.com/3145tttt/GAS.

К обеспечению достоверности и управляемости персонализации через обучение с подкреплением на основе критики и пост-редактирования
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

Oct 21

ByChenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou

Точная персонализация крупных языковых моделей (LLM) в соответствии с индивидуальными предпочтениями пользователей является важной, но сложной задачей. Хотя обучение с учителем (SFT) быстро достигает плато производительности, стандартное обучение с подкреплением на основе обратной связи от человека (RLHF) также сталкивается с трудностями в учете нюансов персонализации. Скалярные модели вознаграждения склонны к "взлому вознаграждения", что приводит к многословным и поверхностно персонализированным ответам. Для преодоления этих ограничений мы предлагаем Critique-Post-Edit — надежную структуру обучения с подкреплением, которая обеспечивает более точную и контролируемую персонализацию. Наша структура включает два ключевых компонента: (1) Персонализированную Генеративную Модель Вознаграждения (GRM), которая предоставляет многомерные оценки и текстовые критические замечания для предотвращения взлома вознаграждения, и (2) Механизм Critique-Post-Edit, где модель политики пересматривает свои собственные выходные данные на основе этих критических замечаний для более целенаправленного и эффективного обучения. В рамках строгой оценки с контролем длины наш метод значительно превосходит стандартный PPO на тестах персонализации. Персонализированная модель Qwen2.5-7B демонстрирует среднее улучшение показателя выигрыша на 11%, а персонализированная модель Qwen2.5-14B превосходит производительность GPT-4.1. Эти результаты демонстрируют практический путь к точной, эффективной и контролируемой персонализации.

Думай в 3D: Пространственное мышление, основанное на геометрическом воображении, при ограниченном обзоре
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Oct 21

ByZhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang

Хотя последние достижения в моделях обработки зрения и языка (VLMs) привели к значительному прогрессу в широком спектре мультимодальных задач, понимание трехмерных пространственных отношений на основе ограниченного числа изображений остается серьезной проблемой. Предыдущие методы рассуждения обычно полагались исключительно на текстовые данные (например, топологические когнитивные карты) или на двумерные визуальные подсказки. Однако их ограниченная способность к представлению данных снижает производительность в задачах, требующих трехмерного пространственного воображения. Для решения этой проблемы мы предлагаем 3DThinker — фреймворк, который эффективно использует богатую геометрическую информацию, заложенную в изображениях, в процессе рассуждения, подобно тому, как это делает человек. Наш фреймворк впервые позволяет осуществлять трехмерное ментальное моделирование в процессе рассуждения без использования каких-либо предварительных 3D-данных и не требует явно размеченных 3D-данных для обучения. В частности, наше обучение состоит из двух этапов. Сначала мы проводим обучение с учителем для согласования 3D-латентного пространства, генерируемого VLM в процессе рассуждения, с латентным пространством 3D-фундаментальной модели (например, VGGT). Затем мы оптимизируем весь процесс рассуждения исключительно на основе сигналов результата, тем самым улучшая лежащее в основе трехмерное ментальное моделирование. Многочисленные эксперименты на различных бенчмарках показывают, что 3DThinker стабильно превосходит сильные базовые модели и предлагает новый подход к объединению трехмерных представлений в мультимодальное рассуждение. Наш код будет доступен по адресу https://github.com/zhangquanchen/3DThinker.

Является ли многоязычное водяное знакирование LLM действительно многоязычным? Простое решение с обратным переводом
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

Oct 20

ByAsim Mohamed, Martin Gubri

Многоязычное водяное знакование (watermarking) направлено на обеспечение отслеживаемости выходных данных крупных языковых моделей (LLM) на разных языках, однако существующие методы пока не справляются с этой задачей. Несмотря на заявления о кросс-лингвистической устойчивости, они оцениваются только на языках с большим объемом ресурсов. Мы демонстрируем, что существующие методы многоязычного водяного знакования не являются по-настоящему многоязычными: они теряют устойчивость при атаках с переводом на языки со средним и низким объемом ресурсов. Мы связываем эту проблему с семантической кластеризацией, которая терпит неудачу, когда словарь токенизатора содержит слишком мало полноценных слов для данного языка. Для решения этой проблемы мы представляем STEAM — метод обнаружения, основанный на обратном переводе, который восстанавливает силу водяного знака, утраченную при переводе. STEAM совместим с любыми методами водяного знакования, устойчив к различным токенизаторам и языкам, неинвазивен и легко расширяем на новые языки. С улучшением в среднем на +0,19 AUC и +40% TPR@1% на 17 языках, STEAM предлагает простой и надежный путь к более справедливому водяному знакованию для разнообразных языков.

MT-Video-Bench: Комплексный бенчмарк для оценки понимания видео в многомодальных языковых моделях в рамках многоходовых диалогов
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

Oct 20

ByYaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu

Недавнее развитие мультимодальных больших языковых моделей (MLLM) значительно продвинуло способности ИИ в понимании визуальных модальностей. Однако существующие оценочные тесты ограничиваются одношаговыми вопросами и ответами, упуская из виду сложность многошаговых диалогов в реальных сценариях. Чтобы устранить этот пробел, мы представляем MT-Video-Bench — комплексный тест для оценки понимания видео в многошаговых диалогах. В частности, наш MT-Video-Bench в основном оценивает шесть ключевых компетенций, сосредоточенных на восприятии и интерактивности, охватывая 987 тщательно отобранных многошаговых диалогов из различных областей. Эти способности строго соответствуют реальным приложениям, таким как интерактивный анализ спортивных событий и многошаговое интеллектуальное обучение на основе видео. С помощью MT-Video-Bench мы всесторонне оцениваем различные передовые открытые и закрытые MLLM, выявляя значительные различия в их производительности и ограничения в обработке многошаговых видео-диалогов. Тест будет общедоступен для стимулирования будущих исследований.

UltraGen: Генерация видео высокого разрешения с использованием иерархического внимания
UltraGen: High-Resolution Video Generation with Hierarchical Attention

Oct 21

ByTeng Hu, Jiangning Zhang, Zihan Su, Ran Yi

Последние достижения в области генерации видео сделали возможным создание визуально привлекательных видеороликов с широким спектром применений в создании контента, развлечениях и виртуальной реальности. Однако большинство существующих моделей генерации видео на основе диффузионных трансформеров ограничены низким разрешением выходных данных (<=720P) из-за квадратичной вычислительной сложности механизма внимания относительно ширины и высоты выходного изображения. Этот вычислительный барьер делает нативную генерацию видео высокого разрешения (1080P/2K/4K) непрактичной как для обучения, так и для вывода. Для решения этой проблемы мы представляем UltraGen, новую структуру генерации видео, которая позволяет i) эффективно и ii) сквозным образом синтезировать видео высокого разрешения. В частности, UltraGen использует иерархическую архитектуру с двумя ветвями внимания, основанную на декомпозиции глобального и локального внимания, что разделяет полное внимание на локальную ветвь для высококачественного регионального контента и глобальную ветвь для обеспечения общей семантической согласованности. Мы также предлагаем стратегию пространственно сжатого глобального моделирования для эффективного изучения глобальных зависимостей и иерархический механизм локального внимания между окнами для снижения вычислительных затрат при улучшении потока информации между различными локальными окнами. Многочисленные эксперименты демонстрируют, что UltraGen впервые эффективно масштабирует предварительно обученные модели видео низкого разрешения до 1080P и даже 4K, превосходя существующие передовые методы и двухэтапные подходы на основе повышения разрешения как в качественных, так и в количественных оценках.

ssToken: Саморегулируемый и семантически осознанный выбор токенов для тонкой настройки языковых моделей
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

Oct 21

ByXiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan

Качество данных играет ключевую роль в улучшении контролируемой тонкой настройки (SFT) для крупных языковых моделей (LLM), и выбор данных на уровне токенов стал перспективным направлением благодаря своей детализированной природе. Несмотря на их высокую эмпирическую эффективность, существующие методы выбора на уровне токенов имеют два ключевых ограничения: (1) необходимость обучения или доступа к дополнительной референсной модели и (2) зависимость исключительно от информации о потерях для выбора токенов, что не позволяет сохранять семантически важные токены, которые не учитываются метриками, основанными на потерях. Для решения этих проблем мы предлагаем ssToken — подход к выбору токенов, основанный на самомодуляции и семантической осведомленности. ssToken использует легко доступные исторические модели для вычисления разницы в потерях на уровне токенов с текущей моделью, что служит самомодулируемым сигналом, позволяющим модели адаптивно выбирать токены в процессе оптимизации, вместо того чтобы полагаться на избыточные потери от оффлайн-обученной референсной модели, как в предыдущих работах. Мы также вводим семантически осведомленную метрику оценки важности токенов, основанную на механизме внимания, которая ортогональна выбору на основе потерь и предоставляет дополнительную семантическую информацию для более эффективной фильтрации. Многочисленные эксперименты на различных семействах моделей и масштабах демонстрируют, что как самомодулируемый выбор, так и семантически осведомленный выбор по отдельности превосходят тонкую настройку на полных данных, а их интеграция — ssToken — достигает синергетического эффекта и превосходит предыдущие методы выбора на уровне токенов, обеспечивая улучшение производительности при сохранении эффективности обучения.

ProCLIP: Прогрессивное согласование визуальных и языковых представлений с использованием встраивателя на основе LLM
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

Oct 21

ByXiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang

Оригинальный текстовый кодировщик CLIP ограничен максимальной длиной входных данных в 77 токенов, что затрудняет его способность эффективно обрабатывать длинные тексты и выполнять детальное семантическое понимание. Кроме того, текстовый кодировщик CLIP не поддерживает многоязычные входные данные. Все эти ограничения значительно сужают его применимость для более широкого круга задач. Недавние исследования предприняли попытки заменить текстовый кодировщик CLIP на эмбеддер, основанный на LLM (языковых моделях большого масштаба), чтобы улучшить его способность обрабатывать длинные тексты, понимать многоязычные данные и выполнять детальное семантическое понимание. Однако, поскольку пространства представлений LLM и пространство визуально-языковой модели CLIP предварительно обучаются независимо без априорного выравнивания, прямое выравнивание с использованием контрастивного обучения может нарушить внутреннее визуально-языковое выравнивание в кодировщике изображений CLIP, что приводит к недостаточному использованию знаний, полученных в ходе предварительного обучения. Для решения этой проблемы мы предлагаем ProCLIP, прогрессивную структуру выравнивания визуально-языковой модели, основанную на обучении по учебному плану, чтобы эффективно выровнять кодировщик изображений CLIP с эмбеддером на основе LLM. В частности, ProCLIP сначала извлекает знания из текстового кодировщика CLIP в эмбеддер на основе LLM, чтобы использовать богатые предварительно обученные знания CLIP, одновременно устанавливая начальное выравнивание между эмбеддером LLM и кодировщиком изображений CLIP. Затем ProCLIP дополнительно выравнивает кодировщик изображений CLIP с эмбеддером на основе LLM через настройку контрастивного обучения на основе изображений и текстов, используя регуляризацию самообучения, чтобы избежать переобучения. Для достижения более эффективного выравнивания во время наследования представлений и контрастивной настройки применяются потери выравнивания семантики экземпляров и потери выравнивания структуры эмбеддингов. Код доступен по адресу https://github.com/VisionXLab/ProCLIP.

MUG-V 10B: Высокоэффективный конвейер обучения для моделей генерации крупномасштабных видео
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models

Oct 20

ByYongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng

В последние годы крупномасштабные генеративные модели для визуального контента (например, изображений, видео и 3D-объектов/сцен) достигли значительного прогресса. Однако обучение крупномасштабных моделей генерации видео остается особенно сложной и ресурсоемкой задачей из-за необходимости кросс-модального согласования текста и видео, длинных последовательностей и сложных пространственно-временных зависимостей. Для решения этих проблем мы представляем фреймворк обучения, который оптимизирует четыре ключевых аспекта: (i) обработку данных, (ii) архитектуру модели, (iii) стратегию обучения и (iv) инфраструктуру для крупномасштабных моделей генерации видео. Эти оптимизации привели к значительному повышению эффективности и улучшению производительности на всех этапах, включая предварительную обработку данных, сжатие видео, масштабирование параметров, предварительное обучение на основе учебного плана и пост-обучение с акцентом на согласование. Наша итоговая модель, MUG-V 10B, соответствует последним передовым генераторам видео в целом и превосходит ведущие открытые базовые модели в задачах генерации видео для электронной коммерции по оценкам людей. Что еще важнее, мы открываем исходный код всего стека, включая веса модели, код для крупномасштабного обучения на основе Megatron-Core и конвейеры для генерации и улучшения видео. Насколько нам известно, это первый публичный релиз кода для обучения крупномасштабных моделей генерации видео, который использует Megatron-Core для достижения высокой эффективности обучения и почти линейного масштабирования на нескольких узлах. Подробности доступны на нашей странице: https://github.com/Shopee-MUG/MUG-V.

DSI-Bench: Бенчмарк для оценки динамического пространственного интеллекта
DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

Oct 21

ByZiang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao

Осмысление динамических пространственных отношений крайне важно, поскольку как наблюдатели, так и объекты часто движутся одновременно. Хотя модели, объединяющие зрение и язык (VLMs), и модели визуальной экспертизы преуспевают в 2D-задачах и статических сценариях, их способность полностью понимать динамические 3D-сценарии остается ограниченной. Мы представляем концепцию Динамического Пространственного Интеллекта и предлагаем DSI-Bench — эталонный набор, включающий почти 1000 динамических видео и более 1700 вручную аннотированных вопросов, охватывающих девять разделенных паттернов движения наблюдателей и объектов. Пространственно-временные симметричные конструкции снижают предвзятость и позволяют систематически оценивать способность моделей анализировать собственное движение и движение объектов. Наша оценка 14 VLMs и экспертных моделей выявила ключевые ограничения: модели часто путают движение наблюдателя и объекта, демонстрируют семантические предубеждения и не могут точно выводить относительные отношения в динамических сценариях. Наш DSI-Bench предоставляет ценные выводы и идеи для будущего развития универсальных и экспертных моделей с динамическим пространственным интеллектом.

AlphaQuanter: Сквозная фреймворк агентного обучения с подкреплением с использованием инструментов для торговли на фондовом рынке
AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

Oct 16

ByZheye Deng, Jiashu Wang

Хотя агенты на основе больших языковых моделей (LLM) демонстрируют перспективы в автоматизированной торговле, они всё ещё сталкиваются с серьёзными ограничениями. Известные мультиагентные фреймворки часто страдают от неэффективности, генерируют противоречивые сигналы и не обладают сквозной оптимизацией, необходимой для обучения согласованной стратегии на основе рыночной обратной связи. Для решения этих проблем мы представляем AlphaQuanter — одноагентный фреймворк, использующий обучение с подкреплением (RL) для изучения динамической политики в рамках прозрачного, инструментально-расширенного процесса принятия решений. Это позволяет одному агенту автономно управлять инструментами и активно получать информацию по запросу, создавая прозрачный и поддающийся аудиту процесс рассуждений. Многочисленные эксперименты показывают, что AlphaQuanter достигает передовых показателей по ключевым финансовым метрикам. Более того, его интерпретируемые рассуждения раскрывают сложные стратегии, предлагая новые и ценные инсайты для трейдеров. Наш код для сбора данных и обучения агента доступен по адресу: https://github.com/AlphaQuanter/AlphaQuanter.

Извлечение данных выравнивания в открытых моделях
Extracting alignment data in open models

Oct 21

ByFederico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes

В данной работе мы показываем, что возможно извлечь значительные объемы данных для обучения выравнивания из пост-обученной модели — эти данные полезны для управления моделью с целью улучшения определенных способностей, таких как рассуждение в длинных контекстах, безопасность, следование инструкциям и математические навыки. В то время как большинство связанных исследований по запоминанию данных сосредоточено на измерении успеха извлечения обучающих данных через сопоставление строк, мы утверждаем, что модели эмбеддингов лучше подходят для наших конкретных целей. Расстояния, измеренные с помощью качественной модели эмбеддингов, могут выявить семантические сходства между строками, которые другие метрики, такие как расстояние редактирования, не смогут уловить. Фактически, в нашем исследовании приближенное сопоставление строк значительно недооценило бы (по консервативной оценке, в 10 раз) объем данных, которые можно извлечь, из-за тривиальных артефактов, снижающих эту метрику. Интересно, что мы обнаружили, что модели легко воспроизводят обучающие данные, использованные на этапах пост-обучения, таких как SFT или RL. Мы показываем, что эти данные можно затем использовать для обучения базовой модели, восстанавливая значительную часть исходной производительности. Мы считаем, что наша работа выявляет потенциально упущенный риск, связанный с извлечением данных для выравнивания. Наконец, наша работа открывает интересную дискуссию о последствиях практик дистилляции: поскольку модели, по-видимому, воспроизводят аспекты своего обучающего набора, дистилляцию можно рассматривать как косвенное обучение на исходном наборе данных модели.

Видеоанализ без обучения
Video Reasoning without Training

Oct 19

ByDeepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague

Видео-рассуждение с использованием крупных мультимодальных моделей (LMM) опирается на дорогостоящее обучение с подкреплением (RL) и многословные цепочки рассуждений, что приводит к значительным вычислительным затратам как на этапе обучения, так и на этапе вывода. Более того, механизмы, управляющие процессом мышления в этих моделях рассуждений, весьма ограничены. В данной работе, используя энтропию выхода модели в качестве сигнала, мы обнаруживаем, что высококачественные модели проходят через серию микро-исследований и микро-эксплуатаций, которые удерживают процесс рассуждения на земле (т.е. избегают избыточной случайности, пока модель исследует или обдумывает ответ). Мы также наблюдаем, что как только этот процесс "мышления" завершается, более точные модели демонстрируют лучшее сходимость, значительно снижая энтропию на этапе финальной эксплуатации (т.е. более уверенно сходятся к траектории решения). Затем мы используем эти новые, теоретически обоснованные инсайты для настройки поведения модели непосредственно на этапе вывода, без использования RL или обучения с учителем. В частности, во время вывода наш предложенный подход, называемый V-Reason (Video-Reason), адаптирует кэш значений LMM с помощью нескольких шагов оптимизации на небольшом обучаемом контроллере, используя энтропийный целевой показатель, т.е. без необходимости в данных для обучения или RL. Эта настройка улучшает поведение модели в отношении микро-исследований и эксплуатации во время вывода. Наши эксперименты показывают, что предложенный метод достигает значительных улучшений по сравнению с базовыми моделями, настроенными на инструкции, на нескольких наборах данных для видео-рассуждений, сокращая разрыв с моделями, обученными с RL, до 0.6% средней точности без какого-либо обучения, при этом предлагая значительные преимущества в эффективности: количество выходных токенов сокращается на 58.6% по сравнению с RL-моделью.

Unimedvl: Унификация многомодального понимания и генерации в медицине через наблюдение-знание-анализ
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

Oct 17

ByJunzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He

Медицинские диагностические приложения требуют моделей, способных обрабатывать мультимодальные медицинские данные (изображения, истории болезней, результаты лабораторных анализов) и генерировать разнообразные выходные данные, включая как текстовые отчеты, так и визуальный контент (аннотации, маски сегментации и изображения). Несмотря на эту потребность, существующие медицинские системы ИИ нарушают этот единый процесс: модели для понимания медицинских изображений интерпретируют изображения, но не могут генерировать визуальные выходные данные, в то время как модели для генерации медицинских изображений синтезируют изображения, но не могут предоставлять текстовые объяснения. Это приводит к пробелам в представлении данных, интеграции признаков и мультимодальных возможностях на уровне задач. В связи с этим мы предлагаем многоуровневую структуру, вдохновленную диагностическими процессами через парадигму Наблюдение-Знание-Анализ (OKA). Конкретно, на уровне наблюдения мы создаем UniMed-5M — набор данных, содержащий более 5,6 миллионов образцов, которые преобразуют разнообразные унимодальные данные в мультимодальные пары для базового наблюдения. На уровне знаний мы предлагаем Прогрессивное обучение по учебному плану, которое систематически вводит мультимодальные медицинские знания. На уровне анализа мы представляем UniMedVL — первую медицинскую унифицированную мультимодальную модель для одновременного анализа задач понимания и генерации изображений в рамках единой архитектуры. UniMedVL демонстрирует превосходную производительность на пяти эталонных тестах для понимания медицинских изображений, одновременно соответствуя специализированным моделям по качеству генерации в восьми модальностях медицинской визуализации. Важно, что наша унифицированная архитектура обеспечивает двусторонний обмен знаниями: задачи генерации улучшают признаки визуального понимания, демонстрируя, что интеграция традиционно разделенных возможностей в рамках единой медицинской структуры открывает возможности для улучшений в разнообразных задачах медицинского анализа изображений и текста. Код доступен по адресу https://github.com/uni-medical/UniMedVL.

Mono4DGS-HDR: Восстановление сцены с расширенным динамическим диапазоном методом 4D гауссовых сплатов на основе монохромных видео с чередующейся экспозицией
Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Oct 21

ByJinfeng Liu, Lingtong Kong, Mi Zhou, Jinwen Chen, Dan Xu

Мы представляем Mono4DGS-HDR — первую систему для восстановления визуализируемых 4D-сцен с высоким динамическим диапазоном (HDR) из неориентированных монохромных видео с низким динамическим диапазоном (LDR), снятых с чередующейся экспозицией. Для решения этой сложной задачи мы предлагаем унифицированную структуру с двухэтапным подходом оптимизации, основанным на методе Gaussian Splatting. На первом этапе изучается HDR-представление видео в виде гауссовых функций в ортогональной системе координат камеры, что устраняет необходимость в данных о положении камеры и обеспечивает надежное начальное восстановление HDR-видео. На втором этапе гауссовы функции видео преобразуются в мировое пространство, и совместно уточняются мировые гауссовы функции вместе с параметрами камеры. Кроме того, мы предлагаем стратегию временной регуляризации яркости для улучшения временной согласованности HDR-визуализации. Поскольку данная задача ранее не изучалась, мы создаем новый эталонный набор для оценки, используя общедоступные наборы данных для восстановления HDR-видео. Многочисленные эксперименты показывают, что Mono4DGS-HDR значительно превосходит альтернативные решения, адаптированные из современных методов, как по качеству визуализации, так и по скорости.

Расширение пространства действий языковых моделей для рассуждений за пределами языка
Expanding the Action Space of LLMs to Reason Beyond Language

Oct 8

ByZhongqi Yue, Weishi Wang, Yundaichuan Zhan, Juncheng Li, Daniel Dahlmeier, Fredrik D. Johansson

Крупные языковые модели (LLM) являются мощными инструментами для рассуждений на естественном языке, но их действия обычно ограничиваются генерацией токенов словаря. В результате взаимодействия с внешними средами — такими как символические операторы или симуляторы — должны выражаться через текст в заранее заданных форматах, анализироваться и направляться на внешние интерфейсы. Это перегружает язык модели как задачами рассуждения, так и управления, а также требует создания внешнего по отношению к LLM ручного парсера. Чтобы решить эту проблему, мы разделяем взаимодействия со средой и язык, инкапсулируя их в Расширенное Пространство Действий (ExpA), выходящее за пределы словаря. Модель начинает рассуждения в стандартной языковой среде, но может в любой момент инициировать действия маршрутизации и переключиться на внешнюю среду. Оттуда модель может вызывать только специфичные для среды действия, получать обратную связь от среды и, возможно, возвращаться обратно к языку в результате. Для эффективного исследования расширенного пространства действий и новых сред мы вводим Обучение с Подкреплением в Расширенном Пространстве Действий (EARL) с оптимизацией политики на основе контрфактических сценариев. В задачах, требующих многошаговых взаимодействий и условного планирования, EARL превосходит сильные базовые подходы с действиями, ограниченными словарём. Модель демонстрирует устойчивую производительность в многозадачном обучении на основе калькулятора, а в частично наблюдаемой задаче сортировки достигает 100% точности в Sort-4, самостоятельно находя эффективный алгоритм, конкурентоспособный с классическими решениями.

Когда "Правильно" Не Означает Безопасно: Можно Ли Доверять Функционально Корректным Исправлениям, Сгенерированным Кодовыми Агентами?
When "Correct" Is Not Safe: Can We Trust Functionally Correct Patches Generated by Code Agents?

Oct 15

ByYibo Peng, James Song, Lei Li, Xinyu Yang, Mihai Christodorescu, Ravi Mangal, Corina Pasareanu, Haizhong Zheng, Beidi Chen

Кодовые агенты все чаще доверяют автономное исправление ошибок на платформах, таких как GitHub, однако их оценка безопасности сосредоточена почти исключительно на функциональной корректности. В данной статье мы раскрываем новый тип угрозы для реальных кодовых агентов: функционально корректные, но уязвимые (FCV) патчи, которые проходят все тестовые случаи, но содержат уязвимый код. С помощью предложенной нами FCV-атаки, которая может быть намеренно создана злоумышленниками или непреднамеренно внедрена добросовестными разработчиками, мы показываем, что современные LLM (например, ChatGPT и Claude) и фреймворки для агентов (например, SWE-agent и OpenHands) уязвимы к этой FCV-угрозе; для 12 комбинаций агентов и моделей на SWE-Bench атака требует только черного ящика и одного запроса к кодовому агенту для выполнения. Например, для уязвимости CWE-538 (утечка информации) FCV-атака достигает успеха в 40,7% случаев для GPT-5 Mini + OpenHands. Наши результаты выявляют важную угрозу безопасности, упущенную текущими парадигмами оценки, и подчеркивают необходимость разработки защитных механизмов, учитывающих безопасность, для кодовых агентов.

PRISMM-Bench: Бенчмарк для оценки мультимодальных несоответствий, основанных на экспертной оценке
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Oct 18

ByLukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin

Крупные мультимодальные модели (LMMs) всё чаще применяются в научных исследованиях, однако остаётся неясным, способны ли они надёжно понимать и рассуждать над мультимодальной сложностью научных статей. Основная проблема заключается в обнаружении и устранении несоответствий между текстом, графиками, таблицами и уравнениями — проблем, которые часто являются тонкими, специфичными для предметной области и в конечном итоге подрывают ясность, воспроизводимость и доверие. Существующие бенчмарки игнорируют эту проблему, либо изолируя отдельные модальности, либо полагаясь на синтетические ошибки, которые не отражают реальную сложность. Мы представляем PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models) — первый бенчмарк, основанный на реальных несоответствиях, отмеченных рецензентами в научных статьях. С помощью многоэтапного процесса, включающего анализ рецензий, фильтрацию с использованием LLM и проверку людьми, мы собрали 262 несоответствия из 242 статей. На основе этого набора мы разработали три задачи: идентификация несоответствий, их устранение и сопоставление пар, которые оценивают способность модели обнаруживать, исправлять и рассуждать над несоответствиями между различными модальностями. Кроме того, чтобы решить известную проблему "выборных" упрощений в оценке с множественным выбором, где модели используют шаблоны ответов, не понимая сути вопроса, мы вводим структурированные JSON-представления ответов, которые минимизируют лингвистические предубеждения, снижая зависимость от поверхностных стилистических подсказок. Мы протестировали 21 ведущую LMM, включая крупные модели с открытыми весами (GLM-4.5V 106B, InternVL3 78B) и проприетарные модели (Gemini 2.5 Pro, GPT-5 с высокой способностью к рассуждению). Результаты показывают крайне низкую производительность (26,1–54,2%), подчеркивая сложность мультимодального научного рассуждения и стимулируя прогресс в создании надёжных научных ассистентов.

Раскрытие научного мышления для генерации биоэкспериментальных протоколов посредством структурированного компонентного механизма вознаграждения
Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

Oct 17

ByHaoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang

Основой воспроизводимой науки являются протоколы, которые точны, логически упорядочены и выполнимы. Автономная генерация таких протоколов с помощью запросов на естественном языке может значительно повысить эффективность процесса воспроизведения. Однако современные ведущие крупные языковые модели (LLM) часто генерируют неполные или противоречивые протоколы, что ограничивает их полезность. Чтобы устранить этот недостаток, мы сначала представляем SciRecipe — масштабный набор данных, содержащий более 12 тысяч структурированных протоколов, охватывающих 27 биологических подразделов и включающих как задачи на понимание, так и на решение проблем. Для дальнейшего улучшения генерации протоколов мы предлагаем парадигму "Эскиз-и-Заполнение", которая разделяет анализ, структурирование и выражение, чтобы каждый шаг был явным и проверяемым. Дополняя это, структурированный компонентный механизм вознаграждения оценивает детализацию шагов, порядок действий и семантическую точность, согласовывая оптимизацию модели с надежностью эксперимента. На основе этих компонентов мы разрабатываем Thoth, обученный через поэтапный процесс "Знание-в-Действие", который переходит от приобретения знаний к операционному рассуждению и, в конечном итоге, к генерации надежных и выполнимых протоколов. На множестве тестов Thoth последовательно превосходит как проприетарные, так и открытые LLM, демонстрируя значительные улучшения в согласованности шагов, логической последовательности и семантической точности. Наш подход прокладывает путь к созданию надежных научных ассистентов, которые связывают знания с экспериментальным исполнением. Все данные, код и модели будут опубликованы в открытом доступе.

Обрезка перепараметризованных многозадачных сетей для восстановления деградированных веб-изображений
Pruning Overparameterized Multi-Task Networks for Degraded Web Image Restoration

Oct 16

ByThomas Katraouras, Dimitrios Rafailidis

Качество изображений является критически важным фактором для предоставления визуально привлекательного контента на веб-платформах. Однако изображения часто подвергаются ухудшению из-за потерь, вызванных операциями сжатия, применяемыми онлайн-социальными сетями (OSN), что негативно сказывается на пользовательском опыте. Восстановление изображений — это процесс восстановления чистого высококачественного изображения из заданного ухудшенного входного сигнала. В последнее время многофункциональные (все-в-одном) модели восстановления изображений привлекли значительное внимание благодаря своей способности одновременно справляться с различными типами ухудшений изображений. Однако такие модели часто обладают чрезмерно большим количеством обучаемых параметров, что делает их вычислительно неэффективными. В данной статье мы предлагаем стратегию сжатия многофункциональных моделей восстановления изображений. Наша цель — обнаружить высокоразреженные подсети в перепараметризованных глубоких моделях, которые могут соответствовать или даже превосходить производительность их плотных аналогов. Предлагаемая модель, названная MIR-L, использует итеративную стратегию обрезки, которая удаляет веса с низкими значениями в несколько этапов, одновременно сбрасывая оставшиеся веса к их исходной инициализации. Этот итеративный процесс важен для оптимизации многофункциональной модели восстановления изображений, эффективно выявляя "выигрышные билеты", которые сохраняют или превосходят современные показатели производительности при высоких уровнях разреженности. Экспериментальная оценка на эталонных наборах данных для задач удаления дождя, тумана и шума показывает, что MIR-L сохраняет только 10% обучаемых параметров, при этом поддерживая высокую производительность восстановления изображений. Наш код, наборы данных и предобученные модели доступны по адресу https://github.com/Thomkat/MIR-L.

Планируемая Диффузия
Planned Diffusion

Oct 20

ByDaniel Israel, Tian Jin, Ellie Cheng, Guy Van den Broeck, Aditya Grover, Suvinay Subramanian, Michael Carbin

Ключевой проблемой в выводе больших языковых моделей является компромисс между скоростью генерации и качеством выходных данных. Авторегрессионные модели создают текст высокого качества, но генерируют токены последовательно. Диффузионные модели могут генерировать токены параллельно, но часто требуют множества итераций для достижения сопоставимого качества. Мы предлагаем метод "планируемой диффузии" — гибридный подход, сочетающий преимущества обеих парадигм. Планируемая диффузия работает в два этапа: сначала модель создает краткий авторегрессионный план, разбивающий выходные данные на меньшие независимые отрезки. Затем модель генерирует эти отрезки одновременно с использованием диффузии. Этот подход расширяет границу Парето между скоростью и качеством и предлагает практический путь к более быстрой генерации текста высокого качества. На наборе AlpacaEval, состоящем из 805 инструкций, планируемая диффузия достигает Парето-оптимального компромисса между качеством и задержкой, обеспечивая ускорение в 1.27x–1.81x по сравнению с авторегрессионной генерацией при снижении показателя успешности всего на 0.87\%–5.4\%. Наш анализ чувствительности показывает, что механизм планирования в планируемой диффузии минимален и надежен, а простые настройки во время выполнения позволяют гибко управлять компромиссом между качеством и задержкой.

Выравнивание на любой глубине: Раскрытие врожденного выравнивания безопасности языковых моделей на любом уровне глубины
Any-Depth Alignment: Unlocking Innate Safety Alignment of LLMs to Any-Depth

Oct 20

ByJiawei Zhang, Andrew Estornell, David D. Baek, Bo Li, Xiaojun Xu

Крупные языковые модели (LLMs) демонстрируют сильное, но поверхностное согласование: они напрямую отказываются от вредоносных запросов, когда отказ ожидается в самом начале ответа ассистента, однако эта защита рушится, как только начинается вредоносное продолжение (либо через атаки со стороны злоумышленников, либо через атаки с предзаполнением ассистента). Это поднимает фундаментальный вопрос: Можно ли раскрыть врожденное поверхностное согласование в LLMs, чтобы обеспечить безопасность на любой глубине генерации? Для достижения этой цели мы предлагаем Any-Depth Alignment (ADA) — эффективную защиту на этапе вывода с минимальными накладными расходами. ADA основана на нашем наблюдении, что согласование сосредоточено в токенах заголовка ассистента благодаря их многократному использованию в обучении на поверхностные отказы, и эти токены обладают сильными априорными знаниями модели о согласовании. Путем повторного введения этих токенов в середине процесса генерации ADA побуждает модель переоценивать вредоносность и восстанавливать отказы на любом этапе генерации. На различных семействах открытых моделей (Llama, Gemma, Mistral, Qwen, DeepSeek и gpt-oss) ADA демонстрирует устойчивую производительность в обеспечении безопасности, не требуя изменений параметров базовой модели. Она обеспечивает почти 100% уровень отказов против сложных атак с предзаполнением, варьирующихся от десятков до тысяч токенов. Кроме того, ADA снижает средний уровень успешности известных атак с вредоносными запросами (таких как GCG, AutoDAN, PAIR и TAP) до менее 3%. Все это достигается при сохранении полезности на доброкачественных задачах с минимальным уровнем избыточных отказов. ADA сохраняет эту устойчивость даже после того, как базовая модель проходит последующую тонкую настройку (доброкачественную или вредоносную).

Разрыв в атомарных инструкциях: языковые модели, настроенные на выполнение инструкций, испытывают трудности с простыми, самодостаточными директивами
The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

Oct 20

ByHenry Lim, Kwan Hui Lim

Крупные языковые модели, настроенные на выполнение инструкций (IT-LLMs), демонстрируют мощное нулевое обучение, однако их способность выполнять простые, самодостаточные инструкции остается недостаточно изученной, несмотря на то, что это является основой для выполнения сложных задач. Мы оцениваем 20 IT-LLMs на модифицированных бенчмарках MMLU и MMLU-Pro, систематически изменяя формат меток вариантов (буквенный, числовой, римский) при сохранении их смысла в рамках четырех парадигм: (1) При наличии явных инструкций изменения меток вызывают значительные сдвиги в производительности (например, -30,45% для римских меток по сравнению с числовыми), что выявляет предвзятость к формату инструкций. (2) Без инструкций производительность снижается еще больше (до -10,84%), а чувствительность к меткам усиливается, подчеркивая роль явного руководства. (3) При удалении содержимого вариантов модели не справляются с базовыми уровнями случайного выбора, за исключением числовых меток, что указывает на слабое следование атомарным директивам. (4) Трехшаговые примеры не дают значительного улучшения устойчивости или точности, а анализ генерации показывает устойчивые ошибки в метках, особенно для нечисловых форматов. Независимо от размера моделей, более крупные LLM достигают более высокой точности, но остаются непоследовательными в следовании инструкциям. Эти результаты выявляют недостатки текущих парадигм настройки на выполнение инструкций и подчеркивают необходимость методов оценки и стратегий обучения, которые явно нацелены на атомарное следование инструкциям.

Статические песочницы недостаточны: моделирование социальной сложности требует открытой коэволюции в многоагентных симуляциях на основе языковых моделей.
Static Sandboxes Are Inadequate: Modeling Societal Complexity Requires Open-Ended Co-Evolution in LLM-Based Multi-Agent Simulations

Oct 15

ByJinkun Chen, Sher Badshah, Xuemin Yu, Sijia Han

Что, если искусственные агенты могли бы не только общаться, но также эволюционировать, адаптироваться и преобразовывать свои миры способами, которые мы не можем полностью предсказать? С появлением llm, питающих многоагентные системы и социальные симуляции, мы наблюдаем новые возможности для моделирования открытых, постоянно изменяющихся сред. Однако большинство современных симуляций остаются ограниченными статичными "песочницами", характеризующимися предопределенными задачами, ограниченной динамикой и жесткими критериями оценки. Эти ограничения не позволяют им охватить сложность реальных обществ. В этой статье мы утверждаем, что статические, узкоспециализированные бенчмарки принципиально неадекватны и должны быть переосмыслены. Мы критически рассматриваем появляющиеся архитектуры, сочетающие llm с многоагентной динамикой, выделяем ключевые препятствия, такие как баланс между стабильностью и разнообразием, оценка неожиданного поведения и масштабирование до большей сложности, а также представляем новую таксономию для этой быстро развивающейся области. Наконец, мы предлагаем исследовательскую дорожную карту, сосредоточенную на открытости, непрерывной коэволюции и создании устойчивых, социально ориентированных экосистем ИИ. Мы призываем сообщество выйти за рамки статических парадигм и помочь сформировать следующее поколение адаптивных, социально осознанных многоагентных симуляций.

Предсказание непредсказуемого: воспроизводимое прогнозирование количества инцидентов с использованием BiLSTM в Глобальной базе данных о терроризме (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)

Oct 16

ByOluwasegun Adegoke

Мы исследуем краткосрочное прогнозирование еженедельного количества террористических инцидентов с использованием Глобальной базы данных о терроризме (GTD, 1970–2016). Мы создаем воспроизводимый конвейер с фиксированными временными разбиениями и сравниваем двунаправленную LSTM (BiLSTM) с сильными классическими методами (сезонное наивное прогнозирование, линейная регрессия/ARIMA) и базовой моделью LSTM с механизмом внимания. На тестовом наборе данных BiLSTM достигает RMSE 6.38, превосходя LSTM с вниманием (9.19; +30.6%) и базовую линейную регрессию с лагами (+35.4% улучшение RMSE), с параллельным улучшением MAE и MAPE. Анализ с варьированием временной памяти, длины истории обучения, пространственного масштаба, размера окна ретроспективы и групп признаков показывает, что модели, обученные на длинных исторических данных, обобщают лучше всего; умеренное окно ретроспективы (20–30 недель) обеспечивает сильный контекст; а двунаправленное кодирование критически важно для захвата как нарастающих, так и последующих паттернов в рамках окна. Анализ групп признаков указывает на то, что краткосрочная структура (лаговые значения и скользящие статистики) вносит наибольший вклад, а географические признаки и данные о жертвах добавляют дополнительный эффект. Мы публикуем код, конфигурации и компактные таблицы результатов, а также предоставляем документ с заявлением о данных и этике, описывающий лицензирование GTD и использование исключительно в исследовательских целях. В целом, исследование предлагает прозрачный и превосходящий базовые методы подход для прогнозирования инцидентов в GTD.

EvoSyn: Универсальный эволюционный синтез данных для проверяемого обучения
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

Oct 20

ByHe Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao

Надежные и проверяемые данные стали ключевым фактором повышения возможностей современных языковых моделей, обеспечивая стабильное обучение с подкреплением с проверяемыми вознаграждениями и эффективную дистилляцию, которая переносит компетенции в области математики, программирования и агентных задач. Однако создание обобщаемых синтетических проверяемых данных остается сложной задачей из-за склонности к генерации галлюцинаций и слабых или тривиальных артефактов проверки, которые не позволяют отделить сильные решения от слабых. Существующие подходы часто полагаются на специфические для задачи эвристики или постобработку, которые не переносятся между доменами и не имеют принципиального, универсального механизма оценки проверяемости. В данной работе мы представляем эволюционный, независимый от задач, стратегически направленный и исполняемо проверяемый фреймворк синтеза данных, который, начиная с минимального начального контроля, совместно синтезирует задачи, разнообразные кандидаты на решения и артефакты проверки, а также итеративно обнаруживает стратегии с помощью основанного на согласованности оценщика, который обеспечивает соответствие между аннотациями человека и проверками, индуцированными стратегиями. Этот процесс превращает фильтрацию в принципиальный синтез: он надежно собирает согласованные, проверяемые обучающие примеры и обобщает без использования специфических для домена правил. Наши эксперименты демонстрируют эффективность предложенного подхода как в рамках обучения с подкреплением с проверяемыми вознаграждениями (RLVR), так и в парадигмах дистилляции моделей. Результаты показывают, что обучение на наших синтезированных данных приводит к значительным улучшениям в задачах LiveCodeBench и AgentBench-OS, подчеркивая устойчивую обобщаемость нашего фреймворка.

PokeeResearch: Эффективное углублённое исследование с использованием обучения с подкреплением на основе обратной связи от ИИ и устойчивой структуры рассуждений
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

Oct 17

ByYi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu

Модели языка с инструментальным расширением (LLMs) становятся глубокими исследовательскими агентами — системами, которые декомпозируют сложные запросы, извлекают внешние данные и синтезируют обоснованные ответы. Однако современные агенты остаются ограниченными поверхностным поиском, слабыми метриками согласованности и хрупким использованием инструментов. Мы представляем PokeeResearch-7B, 7B-параметрического глубокого исследовательского агента, разработанного в рамках единой системы обучения с подкреплением для обеспечения устойчивости, согласованности и масштабируемости. PokeeResearch-7B обучается с использованием аннотационно-свободного подхода Reinforcement Learning from AI Feedback (RLAIF), оптимизируя политики на основе сигналов вознаграждения от LLM, которые учитывают фактическую точность, верность цитирования и соблюдение инструкций. Многошаговый каркас рассуждений, основанный на цепочке мыслей, дополнительно повышает устойчивость за счет самопроверки и адаптивного восстановления после сбоев инструментов. Среди 10 популярных бенчмарков для глубоких исследований PokeeResearch-7B демонстрирует наилучшие результаты среди агентов с масштабом 7B. Это подчеркивает, что тщательно продуманное обучение с подкреплением и проектирование рассуждений могут создавать эффективные, устойчивые и исследовательские ИИ-агенты. Модель и код для вывода доступны под лицензией MIT по адресу https://github.com/Pokee-AI/PokeeResearchOSS.