ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VisuLogic: Бенчмарк для оценки визуального мышления в мультимодальных крупных языковых моделях
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Apr 21, 2025
Weiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu
752

Визуальное мышление является ключевым компонентом человеческого интеллекта и важной способностью для современных мультимодальных моделей. Однако текущие оценки мышления мультимодальных больших языковых моделей (MLLMs) часто основываются на текстовых описаниях и допускают языковые упрощения, что не позволяет измерить подлинное визуально-ориентированное мышление. Для решения этой проблемы мы представляем VisuLogic: набор из 1000 проверенных человеком задач, охватывающих шесть категорий (например, количественные изменения, пространственные отношения, сравнение атрибутов). Эти разнообразные типы вопросов позволяют оценить способности MLLMs к визуальному мышлению с разных сторон. Мы тестируем ведущие MLLMs на этом наборе и анализируем их результаты, чтобы выявить типичные ошибки. Большинство моделей показывают точность ниже 30% — лишь немного выше случайного базового уровня в 25% и значительно ниже 51,4%, достигнутых людьми, что указывает на существенные пробелы в визуальном мышлении. Кроме того, мы предоставляем дополнительный обучающий набор данных и базовый уровень на основе обучения с подкреплением для поддержки дальнейшего прогресса.

Тина: Компактные модели логического вывода с использованием LoRA
Tina: Tiny Reasoning Models via LoRA

Apr 22, 2025
Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
554

Насколько экономически эффективно можно достичь мощных способностей к рассуждению в языковых моделях? Руководствуясь этим фундаментальным вопросом, мы представляем Tina — семейство компактных моделей для рассуждений, созданных с высокой экономической эффективностью. Примечательно, что Tina демонстрирует, что значительная производительность в рассуждениях может быть достигнута с использованием минимальных ресурсов за счет применения параметрически эффективных обновлений в процессе обучения с подкреплением (RL) с использованием низкоранговой адаптации (LoRA) к уже компактной базовой модели с 1,5 миллиардами параметров. Этот минималистичный подход создает модели, которые достигают производительности в рассуждениях, сопоставимой, а иногда и превосходящей современные RL-модели для рассуждений, построенные на той же базовой модели. Важно, что это достигается при ничтожной доле вычислительных затрат на пост-обучение, используемых существующими современными моделями. Фактически, лучшая модель Tina демонстрирует увеличение производительности в рассуждениях более чем на 20% и точность Pass@1 в 43,33% на AIME24 при затратах на пост-обучение и оценку всего в \$9 USD (т.е. предполагаемое сокращение затрат в 260 раз). Наша работа раскрывает удивительную эффективность эффективного RL-обучения рассуждениям с использованием LoRA. Мы подтверждаем это на множестве открытых наборов данных для рассуждений и в различных условиях абляции, начиная с единого фиксированного набора гиперпараметров. Более того, мы предполагаем, что эта эффективность и экономичность обусловлены тем, что LoRA быстро адаптирует модель к структурному формату рассуждений, поощряемому RL, в значительной степени сохраняя базовые знания модели. В целях доступности и открытых исследований мы полностью открываем исходный код, логи обучения, а также веса и контрольные точки моделей.

DreamID: Высококачественный и быстрый обмен лицами на основе диффузионных моделей с использованием тройного обучения групп идентификаторов
DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning

Apr 20, 2025
Fulong Ye, Miao Hua, Pengze Zhang, Xinghui Li, Qichao Sun, Songtao Zhao, Qian He, Xinglong Wu
518

В данной статье мы представляем DreamID — модель замены лиц на основе диффузии, которая достигает высокого уровня сходства идентификаторов, сохранения атрибутов, качества изображения и быстрой скорости вывода. В отличие от типичного процесса обучения замене лиц, который часто полагается на неявное управление и сталкивается с трудностями в достижении удовлетворительных результатов, DreamID устанавливает явное управление для замены лиц путем построения данных Triplet ID Group, что значительно улучшает сходство идентификаторов и сохранение атрибутов. Итерационная природа моделей диффузии создает сложности для использования эффективных функций потерь в пространстве изображений, так как выполнение трудоемкого многошагового сэмплирования для получения сгенерированного изображения во время обучения непрактично. Чтобы решить эту проблему, мы используем ускоренную модель диффузии SD Turbo, сокращая шаги вывода до одной итерации, что позволяет эффективно обучать модель на уровне пикселей с явным управлением Triplet ID Group. Кроме того, мы предлагаем улучшенную архитектуру модели на основе диффузии, включающую SwapNet, FaceNet и ID Adapter. Эта надежная архитектура полностью раскрывает потенциал явного управления Triplet ID Group. Наконец, для дальнейшего расширения нашего метода мы явно модифицируем данные Triplet ID Group во время обучения для тонкой настройки и сохранения конкретных атрибутов, таких как очки и форма лица. Многочисленные эксперименты демонстрируют, что DreamID превосходит современные методы по сходству идентификаторов, сохранению позы и выражения, а также качеству изображения. В целом, DreamID достигает высококачественных результатов замены лиц с разрешением 512*512 всего за 0,6 секунды и отлично справляется в сложных сценариях, таких как сложное освещение, большие углы и окклюзии.

Технический отчет Trillion 7B
Trillion 7B Technical Report

Apr 21, 2025
Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin
372

Мы представляем Trillion-7B — наиболее эффективную по использованию токенов корейско-ориентированную многоязычную языковую модель (LLM). Наш новый механизм Cross-lingual Document Attention (XLDA) обеспечивает высокоэффективный и результативный перенос знаний с английского на целевые языки, такие как корейский и японский. В сочетании с оптимизированными смесями данных, языковой фильтрацией и адаптированным построением токенизатора, Trillion-7B демонстрирует конкурентоспособную производительность, выделяя всего 10\% из 2 триллионов токенов обучения на многоязычные данные и требуя лишь 59,4 тыс. часов работы GPU H100 (\$148 тыс.) для полного обучения. Комплексные оценки на 27 бенчмарках для четырёх языков подтверждают устойчивую многоязычную производительность и исключительную кросс-языковую согласованность модели Trillion-7B.

PHYBench: Комплексная оценка физического восприятия и логического мышления в крупных языковых моделях
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

Apr 22, 2025
Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu
362

Мы представляем PHYBench — новый высококачественный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) к рассуждению в физических контекстах. PHYBench состоит из 500 тщательно отобранных физических задач, основанных на реальных физических сценариях, которые предназначены для оценки способности моделей понимать и рассуждать о реалистичных физических процессах. Охватывая механику, электромагнетизм, термодинамику, оптику, современную физику и продвинутые разделы физики, бенчмарк включает задачи различного уровня сложности — от школьных упражнений до университетских задач и вызовов Физической олимпиады. Кроме того, мы предлагаем новую метрику оценки — Expression Edit Distance (EED) Score, основанную на расстоянии редактирования между математическими выражениями, которая эффективно фиксирует различия в процессах и результатах рассуждений моделей, выходя за рамки традиционных бинарных методов оценки. Мы тестируем различные LLM на PHYBench и сравниваем их результаты с показателями экспертов-людей. Наши результаты показывают, что даже самые передовые модели рассуждений значительно отстают от экспертов, что подчеркивает их ограничения и необходимость улучшения в сложных сценариях физического рассуждения. Наши результаты бенчмарка и набор данных доступны публично по адресу https://phybench-official.github.io/phybench-demo/.

I-Con: Унифицирующая структура для обучения представлениям
I-Con: A Unifying Framework for Representation Learning

Apr 23, 2025
Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
302

По мере развития области обучения представлений наблюдается рост разнообразия функций потерь, предназначенных для решения различных классов задач. Мы представляем единое уравнение, основанное на теории информации, которое обобщает большое количество современных функций потерь в машинном обучении. В частности, мы предлагаем концептуальную основу, которая показывает, что несколько широких классов методов машинного обучения минимизируют интегрированную дивергенцию Кульбака-Лейблера между двумя условными распределениями: целевыми и обучаемыми представлениями. Этот подход раскрывает скрытую информационную геометрию, лежащую в основе кластеризации, спектральных методов, снижения размерности, контрастивного обучения и обучения с учителем. Данная концепция позволяет разрабатывать новые функции потерь, комбинируя успешные методы из различных источников. Мы не только представляем широкий спектр доказательств, связывающих более 23 различных подходов, но и используем эти теоретические результаты для создания современных классификаторов изображений без учителя, которые демонстрируют улучшение на +8% по сравнению с предыдущими лучшими результатами в задаче классификации без учителя на ImageNet-1K. Мы также показываем, что I-Con может быть использован для разработки принципиальных методов устранения смещений, которые улучшают контрастивные модели обучения представлений.

DreamO: Унифицированная платформа для настройки изображений
DreamO: A Unified Framework for Image Customization

Apr 23, 2025
Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
252

В последнее время обширные исследования в области настройки изображений (например, идентичности, объекта, стиля, фона и т.д.) демонстрируют мощные возможности кастомизации в крупномасштабных генеративных моделях. Однако большинство подходов разработаны для конкретных задач, что ограничивает их универсальность в комбинировании различных типов условий. Разработка унифицированной системы для настройки изображений остается открытой проблемой. В данной статье мы представляем DreamO — систему настройки изображений, предназначенную для поддержки широкого спектра задач и обеспечивающую бесшовную интеграцию множества условий. В частности, DreamO использует фреймворк диффузионного трансформера (DiT) для единообразной обработки входных данных различных типов. В процессе обучения мы создаем крупномасштабный набор данных, включающий различные задачи настройки, и вводим ограничение на маршрутизацию признаков для точного извлечения релевантной информации из эталонных изображений. Кроме того, мы разрабатываем стратегию использования заполнителей, которая связывает конкретные заполнители с условиями в определенных позициях, что позволяет контролировать размещение условий в генерируемых результатах. Также мы применяем прогрессивную стратегию обучения, состоящую из трех этапов: начальный этап, сосредоточенный на простых задачах с ограниченным объемом данных для установления базовой согласованности, этап полномасштабного обучения для всестороннего улучшения возможностей настройки и заключительный этап выравнивания качества для устранения искажений, вызванных низкокачественными данными. Многочисленные эксперименты показывают, что предложенная система DreamO способна эффективно выполнять различные задачи настройки изображений с высоким качеством и гибко интегрировать различные типы управляющих условий.

Победное решение AIMO-2: Создание передовых моделей математического мышления с использованием набора данных OpenMathReasoning
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

Apr 23, 2025
Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
222

В данной статье представлена наша победная заявка на конкурс AI Mathematical Olympiad - Progress Prize 2 (AIMO-2). Наш подход к созданию передовых моделей математического рассуждения основывается на трех ключевых элементах. Во-первых, мы создаем масштабный набор данных, включающий 540 тысяч уникальных высококачественных математических задач, в том числе олимпиадного уровня, и их 3,2 миллиона подробных решений. Во-вторых, мы разрабатываем новый метод интеграции выполнения кода с моделями длинных рассуждений через итеративное обучение, генерацию и фильтрацию качества, что позволяет получить 1,7 миллиона высококачественных решений с использованием инструментов (Tool-Integrated Reasoning). В-третьих, мы создаем конвейер для обучения моделей выбирать наиболее перспективное решение из множества кандидатов. Мы показываем, что такой генеративный выбор решений (GenSelect) может значительно улучшить базовый подход, основанный на голосовании большинства. Объединяя эти идеи, мы обучаем серию моделей, которые достигают передовых результатов на тестах математического рассуждения. Для содействия дальнейшим исследованиям мы публикуем наш код, модели и полный набор данных OpenMathReasoning под коммерчески разрешительной лицензией.

Pre-DPO: Улучшение использования данных в оптимизации прямых предпочтений с использованием направляющей эталонной модели
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

Apr 22, 2025
Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
182

Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) упрощает обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) для больших языковых моделей (Large Language Models, LLMs), напрямую оптимизируя человеческие предпочтения без явной модели вознаграждения. Мы обнаружили, что в процессе обучения DPO эталонная модель выполняет роль регулятора весов данных. Однако распространённая практика инициализации политики и эталонной модели одинаковыми параметрами в DPO может привести к неэффективному использованию данных и установить потолок производительности. В то же время отсутствие эталонной модели в Simple Preference Optimization (SimPO) снижает устойчивость обучения и требует более строгих условий для предотвращения катастрофического забывания. В данной работе мы предлагаем Pre-DPO, простую, но эффективную парадигму обучения на основе DPO, которая улучшает оптимизацию предпочтений за счёт использования направляющей эталонной модели. Эта модель предоставляет предварительное представление о оптимальном состоянии политики, достижимом с помощью данных предпочтений обучения, выступая в качестве механизма направляющего адаптивного назначения более высоких весов образцам, более подходящим для модели, и более низких весов — менее подходящим. Многочисленные эксперименты на бенчмарках AlpacaEval 2.0 и Arena-Hard v0.1 демонстрируют, что Pre-DPO последовательно улучшает производительность как DPO, так и SimPO, не полагаясь на внешние модели или дополнительные данные.

Разделенная глобально-локальная согласованность для улучшения композиционного понимания
Decoupled Global-Local Alignment for Improving Compositional Understanding

Apr 23, 2025
Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
152

Контрастное предварительное обучение на основе языка и изображений (CLIP) достигло успеха в решении множества задач благодаря выравниванию модальностей изображений и текста. Однако природа глобального контрастного обучения ограничивает способность CLIP понимать композиционные концепции, такие как отношения и атрибуты. Хотя недавние исследования используют глобальные жесткие отрицательные примеры для улучшения понимания композиций, эти методы значительно ухудшают общие способности модели, принудительно отдаляя текстовые отрицательные примеры от изображений в пространстве вложений. Чтобы преодолеть это ограничение, мы представляем фреймворк Decoupled Global-Local Alignment (DeGLA), который улучшает понимание композиций, существенно снижая потери в общих способностях. Для оптимизации сохранения внутренних возможностей модели мы включаем механизм самообучения в процесс глобального выравнивания, согласовывая обучаемый кодировщик изображений и текста с замороженной учительской моделью, полученной из экспоненциального скользящего среднего. В рамках ограничений самообучения это эффективно смягчает катастрофическое забывание предварительно обученных знаний во время тонкой настройки. Для улучшения понимания композиций мы сначала используем способность крупных языковых моделей (LLM) к обучению в контексте для создания около 2 миллионов высококачественных отрицательных подписей по пяти типам. Затем мы предлагаем функцию потерь Image-Grounded Contrast (IGC) и Text-Grounded Contrast (TGC) для улучшения композиционности в области зрения и языка. Обширные экспериментальные результаты демонстрируют эффективность фреймворка DeGLA. По сравнению с предыдущими передовыми методами, DeGLA достигает среднего улучшения на 3,5% на бенчмарках VALSE, SugarCrepe и ARO. Одновременно он показывает средний прирост производительности на 13,0% в задачах классификации с нулевым обучением на одиннадцати наборах данных. Наш код будет доступен по адресу https://github.com/xiaoxing2001/DeGLA.

Комплексный обзор безопасности полного стека LLM(-агентов): данные, обучение и развертывание
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Apr 22, 2025
Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu
132

Выдающийся успех крупных языковых моделей (LLM) открыл многообещающий путь к достижению искусственного общего интеллекта как для академического, так и для промышленного сообществ, благодаря их беспрецедентной производительности в различных приложениях. По мере того как LLM продолжают набирать популярность в исследовательских и коммерческих областях, вопросы их безопасности и защиты становятся все более актуальными не только для исследователей и корпораций, но и для каждой страны. В настоящее время существующие обзоры по безопасности LLM в основном сосредоточены на конкретных этапах жизненного цикла LLM, например, на этапе развертывания или тонкой настройки, не охватывая полного понимания всей "жизненной цепочки" LLM. Чтобы устранить этот пробел, в данной статье впервые вводится концепция "полного стека" безопасности, которая систематически рассматривает вопросы безопасности на протяжении всего процесса обучения, развертывания и коммерциализации LLM. По сравнению с готовыми обзорами по безопасности LLM, наша работа демонстрирует несколько отличительных преимуществ: (I) Комплексный подход. Мы определяем полный жизненный цикл LLM как включающий подготовку данных, предварительное обучение, пост-обучение, развертывание и финальную коммерциализацию. Насколько нам известно, это первый обзор по безопасности, охватывающий весь жизненный цикл LLM. (II) Обширная литературная база. Наше исследование основано на тщательном анализе более 800 статей, что обеспечивает всестороннее покрытие и систематическую организацию вопросов безопасности в рамках более целостного понимания. (III) Уникальные инсайты. Благодаря систематическому анализу литературы мы разработали надежные дорожные карты и перспективы для каждой главы. Наша работа выявляет перспективные направления исследований, включая безопасность в генерации данных, методы согласования, редактирование моделей и системы на основе LLM. Эти инсайты предоставляют ценное руководство для исследователей, занимающихся будущими работами в этой области.

Переосмысление генерации высококачественных данных CoT с точки зрения адаптивной оценки сложности вопросов для языковых моделей
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

Apr 16, 2025
Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu
123

Недавно модель DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) продемонстрировала выдающиеся способности к рассуждению в сложных задачах и открыто поделилась своей методологией. Это предоставляет потенциально высококачественные данные цепочки рассуждений (CoT) для стимулирования способностей к рассуждению у небольших крупных языковых моделей (LLM). Для генерации высококачественных данных CoT для различных LLM мы ищем эффективный метод создания таких данных с адаптивным уровнем сложности вопросов, соответствующим возможностям LLM. Во-первых, мы оцениваем сложность вопросов в зависимости от способности к рассуждению самих LLM и создаем базу данных вопросов с адаптивной сложностью. Во-вторых, мы выбираем задачи из базы данных на основе распределения уровней сложности и затем используем DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) для генерации соответствующих высококачественных данных CoT с правильными ответами. Благодаря созданию данных CoT с адаптивным уровнем сложности, мы значительно снизили затраты на генерацию данных и повысили эффективность контролируемого тонкого обучения (SFT) модели. Наконец, мы подтвердили эффективность и универсальность предложенного метода в областях сложных математических соревнований и задач генерации кода. Примечательно, что всего с 2 тыс. высококачественных математических данных CoT наша модель ZMath-32B превзошла DeepSeek-Distill-32B в задачах математического рассуждения. Аналогично, всего с 2 тыс. высококачественных данных CoT для кода наша модель ZCode-32B превзошла DeepSeek-Distill-32B в задачах генерации кода.

RePOPE: Влияние ошибок аннотирования на бенчмарк POPE
RePOPE: Impact of Annotation Errors on the POPE Benchmark

Apr 22, 2025
Yannic Neuhaus, Matthias Hein
92

Поскольку аннотирование данных является затратным процессом, эталонные наборы данных часто включают метки из уже существующих наборов изображений. В данной работе мы оцениваем влияние ошибок в метках набора данных MSCOCO на часто используемый бенчмарк для оценки галлюцинаций объектов POPE. Мы повторно аннотируем изображения из бенчмарка и выявляем дисбаланс в ошибках аннотации между различными подмножествами. Оценивая несколько моделей на основе исправленных меток, которые мы обозначаем как RePOPE, мы наблюдаем значительные изменения в рейтингах моделей, что подчеркивает влияние качества меток. Код и данные доступны по адресу https://github.com/YanNeu/RePOPE.

Causal-Copilot: Автономный агент для причинного анализа
Causal-Copilot: An Autonomous Causal Analysis Agent

Apr 17, 2025
Xinyue Wang, Kun Zhou, Wenyi Wu, Har Simrat Singh, Fang Nan, Songyao Jin, Aryan Philip, Saloni Patnaik, Hou Zhu, Shivam Singh, Parjanya Prashant, Qian Shen, Biwei Huang
72

Каузальный анализ играет фундаментальную роль в научных открытиях и надежном принятии решений, однако он остается в значительной степени недоступным для экспертов в предметных областях из-за своей концептуальной и алгоритмической сложности. Этот разрыв между каузальной методологией и практической применимостью создает двойную проблему: эксперты не могут использовать последние достижения в области каузального обучения, а исследователи в области каузального анализа лишены широкого применения своих методов в реальных условиях для их тестирования и совершенствования. Для решения этой проблемы мы представляем Causal-Copilot — автономного агента, который реализует экспертный уровень каузального анализа в рамках модели крупного языкового моделирования. Causal-Copilot автоматизирует весь процесс каузального анализа как для табличных, так и для временных рядов данных, включая каузальное обнаружение, каузальный вывод, выбор алгоритмов, оптимизацию гиперпараметров, интерпретацию результатов и генерацию практических рекомендаций. Система поддерживает интерактивное уточнение через естественный язык, снижая барьер для неспециалистов, сохраняя при этом методологическую строгость. Интегрируя более 20 современных методов каузального анализа, наша система способствует созданию положительного цикла — расширяя доступ к передовым каузальным методам для экспертов в предметных областях и генерируя богатые приложения в реальных условиях, которые информируют и продвигают каузальную теорию. Эмпирические оценки демонстрируют, что Causal-Copilot достигает превосходной производительности по сравнению с существующими базовыми решениями, предлагая надежное, масштабируемое и расширяемое решение, которое устраняет разрыв между теоретической сложностью и практической применимостью в каузальном анализе. Интерактивная демонстрация Causal-Copilot доступна по адресу https://causalcopilot.com/.

CRUST-Bench: Комплексный эталонный тест для трансляции кода с C в безопасный Rust
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation

Apr 21, 2025
Anirudh Khatry, Robert Zhang, Jia Pan, Ziteng Wang, Qiaochu Chen, Greg Durrett, Isil Dillig
62

Транспиляция из C в Rust имеет ключевое значение для модернизации устаревшего кода на C, одновременно повышая безопасность и обеспечивая совместимость с современными экосистемами Rust. Однако на данный момент отсутствует набор данных для оценки способности системы транспилировать C в безопасный Rust, который проходит набор тестов. Мы представляем CRUST-Bench — набор данных, состоящий из 100 репозиториев на C, каждый из которых сопровождается вручную написанными интерфейсами на безопасном Rust, а также тестовыми случаями, которые можно использовать для проверки корректности транспиляции. Рассматривая целые репозитории, а не изолированные функции, CRUST-Bench охватывает сложности перевода сложных проектов с зависимостями между несколькими файлами. Предоставленные интерфейсы на Rust задают явные спецификации, гарантирующие соответствие идиоматичным и безопасным с точки зрения памяти шаблонам Rust, а сопровождающие тестовые случаи обеспечивают функциональную корректность. Мы оцениваем современные крупные языковые модели (LLM) на этой задаче и обнаруживаем, что генерация безопасного и идиоматичного Rust остается сложной проблемой для различных передовых методов и подходов. Мы также анализируем типичные ошибки, которые допускают LLM при транспиляции кода из C в безопасный Rust. Лучшая модель, OpenAI o1, способна решить только 15 задач в режиме однократного выполнения. Улучшения на основе CRUST-Bench приведут к созданию более совершенных систем транспиляции, способных анализировать сложные сценарии и помогать в миграции устаревших кодовых баз из C в такие языки, как Rust, которые обеспечивают безопасность памяти. Набор данных и код доступны по адресу: https://github.com/anirudhkhatry/CRUST-bench.

Незамеченное и упущенное: решение проблемы слепого пятна в крупных языковых моделях с помощью CheckboxQA
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

Apr 14, 2025
Michał Turski, Mateusz Chiliński, Łukasz Borchmann
42

Флажки играют ключевую роль в обработке реальных документов, где наличие или отсутствие отметок напрямую влияет на процессы извлечения данных и принятия решений. Однако, несмотря на высокую производительность крупных моделей зрения и языка в широком спектре задач, они испытывают трудности с интерпретацией содержимого, связанного с флажками. Эта проблема становится особенно актуальной в отраслях, где пропуск даже одного флажка может привести к дорогостоящим упущениям в регулировании или контрактных обязательствах. Для устранения этого пробела мы представляем набор данных CheckboxQA — специализированный ресурс, предназначенный для оценки и улучшения производительности моделей на задачах, связанных с флажками. Он выявляет ограничения современных моделей и служит ценным инструментом для совершенствования систем понимания документов, что имеет значительные последствия для применения в таких сферах, как юридические технологии и финансы. Набор данных доступен публично по адресу: https://github.com/Snowflake-Labs/CheckboxQA

Прогрессивное визуальное обучение с языковым сопровождением для многозадачного визуального закрепления
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding

Apr 22, 2025
Jingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng
32

Мультизадачное визуальное заземление (MTVG) включает две подзадачи: понимание референциальных выражений (REC) и сегментацию референциальных выражений (RES). Существующие репрезентативные подходы, как правило, следуют исследовательскому конвейеру, который в основном состоит из трех ключевых процедур: независимое извлечение признаков для визуальной и лингвистической модальностей, модуль кросс-модального взаимодействия и независимые головы предсказания для различных подзадач. Несмотря на достижение впечатляющих результатов, этот подход имеет два ограничения: 1) Лингвистическое содержание не полностью интегрировано в визуальный бэкбон для улучшения извлечения визуальных признаков, что требует дополнительного модуля кросс-модального взаимодействия; 2) Взаимосвязь между задачами REC и RES не эффективно используется для совместного предсказания с целью получения более точных результатов. Для решения этих проблем в данной статье мы предлагаем прогрессивную языково-ориентированную визуальную обучающую структуру для мультизадачного визуального заземления, называемую PLVL, которая не только тщательно исследует внутренние особенности визуальной модальности, но и постепенно интегрирует языковую информацию для обучения лингвистически связанных визуальных признаков. Таким образом, наш PLVL не требует дополнительного модуля кросс-модального слияния, при этом полностью используя языковое руководство. Кроме того, мы анализируем, что локализация центра для REC может в некоторой степени помочь определить область объекта для сегментации в RES. Вдохновленные этим исследованием, мы разрабатываем мультизадачную голову для совместного предсказания этих двух подзадач. Многочисленные эксперименты, проведенные на нескольких эталонных наборах данных, всесторонне подтверждают, что наш PLVL значительно превосходит репрезентативные методы как в задачах REC, так и в RES. https://github.com/jcwang0602/PLVL

Apr 23
Apr 24
Apr 25