ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ScienceBoard: Оценка мультимодальных автономных агентов в реалистичных научных процессах
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu•May 26, 2025•962

Paper2Poster: К автоматизации создания мультимодальных постеров на основе научных статей
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr•May 27, 2025•811

MME-Reasoning: Комплексный эталон для логического рассуждения в мультимодальных языковых моделях (MLLMs)
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue•May 27, 2025•783

OmniConsistency: Обучение стиле-независимой согласованности на основе парных данных стилизации
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Yiren Song, Cheng Liu, Mike Zheng Shou•May 24, 2025•622

SynLogic: Синтез верифицируемых данных для обучения логическим рассуждениям и не только в масштабе
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He•May 26, 2025•572

Исследование скрытых возможностей языковых моделей для одношаговой генерации текста
Exploring the Latent Capacity of LLMs for One-Step Text Generation

Gleb Mezentsev, Ivan Oseledets•May 27, 2025•561

OpenS2V-Nexus: Подробный эталонный тест и масштабный набор данных для генерации видео на основе субъекта
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan•May 26, 2025•523

Не усложняйте. Предпочтение более коротких цепочек рассуждений для улучшения логического мышления в языковых моделях.
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz•May 23, 2025•494

MMMR: Бенчмаркинг задач массового мультимодального анализа
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun•May 22, 2025•444

Руководствуясь интуицией: эффективное масштабирование во время тестирования с усиленной внутренней уверенностью
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu•May 23, 2025•422

VerIPO: Развитие длинных рассуждений в видео-ориентированных языковых моделях с помощью оптимизации политики, управляемой верификатором
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang•May 25, 2025•385

Sparse VideoGen2: Ускорение генерации видео с помощью разреженного внимания через семантически осознанную перестановку
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica•May 24, 2025•372

MME-VideoOCR: Оценка OCR-возможностей мультимодальных языковых моделей в видеосценариях
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang•May 27, 2025•361

UI-Genie: Самообучающийся подход для итеративного улучшения мобильных агентов с графическим интерфейсом на основе мультимодальных языковых моделей
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li•May 27, 2025•351

GraLoRA: Гранулярная низкоранговая адаптация для эффективной настройки параметров
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park•May 26, 2025•332

Video-Holmes: Может ли MLLM мыслить как Холмс для сложного анализа видео?
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan•May 27, 2025•272

SweEval: Действительно ли языковые модели ругаются? Бенчмарк безопасности для тестирования границ применимости в корпоративной среде
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use

Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae•May 22, 2025•273

rStar-Coder: Масштабирование конкурентного анализа кода с использованием крупномасштабного верифицированного набора данных
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang•May 27, 2025•254

Укрепление общего рассуждения без использования верификаторов
Reinforcing General Reasoning without Verifiers

Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du•May 27, 2025•242

MetaMind: Моделирование социального мышления человека с помощью метакогнитивных мультиагентных систем
MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

Xuanming Zhang, Yuxuan Chen, Min-Hsuan Yeh, Yixuan Li•May 25, 2025•244

Модель графа кода (CGM): Графо-интегрированная большая языковая модель для задач программной инженерии на уровне репозитория
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks

Hongyuan Tao, Ying Zhang, Zhenhao Tang, Hongen Peng, Xukun Zhu, Bingchang Liu, Yingguang Yang, Ziyin Zhang, Zhaogui Xu, Haipeng Zhang, Linchao Zhu, Rui Wang, Hang Yu, Jianguo Li, Peng Di•May 22, 2025•192

HoliTom: Холистическое объединение токенов для ускорения работы крупных языковых моделей в видео
HoliTom: Holistic Token Merging for Fast Video Large Language Models

Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang•May 27, 2025•182

MotionPro: Точный контроллер движения для генерации видео из изображений
MotionPro: A Precise Motion Controller for Image-to-Video Generation

Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei•May 26, 2025•183

За пределами дистилляции: расширение границ рассуждений медицинских языковых моделей с минималистичным правил-ориентированным обучением с подкреплением
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci•May 23, 2025•182

Как выравнивание улучшает многоязычные способности больших языковых моделей? Взгляд через призму языковых нейронов
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective

Shimao Zhang, Zhejian Lai, Xiang Liu, Shuaijie She, Xiao Liu, Yeyun Gong, Shujian Huang, Jiajun Chen•May 27, 2025•172

NOVA: Бенчмарк для локализации аномалий и клинического анализа в МРТ головного мозга
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler•May 20, 2025•172

ImgEdit: Унифицированный набор данных и эталон для редактирования изображений
ImgEdit: A Unified Image Editing Dataset and Benchmark

Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan•May 26, 2025•163

Frame In-N-Out: Неограниченная управляемая генерация видео из изображений
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng•May 27, 2025•152

DetailFlow: Одномерная генерация изображений от грубого к детальному с авторегрессией через предсказание следующей детали
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu•May 27, 2025•132

Active-O3: Расширение возможностей мультимодальных больших языковых моделей с активным восприятием через GRPO
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen•May 27, 2025•132

За пределами инженерии промптов: управление устойчивым поведением в больших языковых моделях через целевые атомы
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang•May 23, 2025•132

FinTagging: эталонный набор данных для извлечения и структурирования финансовой информации, готовый для использования с языковыми моделями
FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information

Yan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie•May 27, 2025•122

ViewSpatial-Bench: Оценка многоперспективной пространственной локализации в моделях зрения и языка
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang•May 27, 2025•102

Thinker: Обучение быстрому и медленному мышлению
Thinker: Learning to Think Fast and Slow

Stephen Chung, Wenyu Du, Jie Fu•May 27, 2025•92

Рендеринг-ориентированное обучение с подкреплением для генерации векторной графики
Rendering-Aware Reinforcement Learning for Vector Graphics Generation

Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli•May 27, 2025•93

VisualToolAgent (VisTA): Фреймворк обучения с подкреплением для выбора визуальных инструментов
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee•May 26, 2025•92

Атаки на закрытые многомодальные языковые модели через оптимальное выравнивание признаков
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu•May 27, 2025•82

SeePhys: Помогает ли зрение мышлению? — Бенчмаркинг физического мышления на основе визуальных данных
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang•May 25, 2025•83

MMMG: Комплексный и надежный набор для оценки многозадачной мультимодальной генерации
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu•May 23, 2025•82

MMPerspective: Понимают ли MLLM перспективу? Комплексный бенчмарк для оценки восприятия, рассуждений и устойчивости к перспективе
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu•May 26, 2025•61

Alita: Универсальный агент, обеспечивающий масштабируемое агентное мышление с минимальной предопределённостью и максимальной самоэволюцией
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang•May 26, 2025•64

VideoGameBench: Способны ли модели «визуальный язык» проходить популярные видеоигры?
VideoGameBench: Can Vision-Language Models complete popular video games?

Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press•May 23, 2025•63

Масштабирование ввода внешних знаний за пределы контекстных окон больших языковых моделей с помощью мультиагентного взаимодействия
Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration

Zijun Liu, Zhennan Wan, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu•May 27, 2025•52

Иди, прежде чем бежать! Краткое рассуждение в больших языковых моделях с помощью обучения с подкреплением
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

Mingyang Song, Mao Zheng•May 27, 2025•52

Минутные видео с двойным параллелизмом
Minute-Long Videos with Dual Parallelisms

Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang•May 27, 2025•52

За пределами марковских моделей: Рефлексивное исследование с помощью байесовской адаптивной RL для рассуждений на основе LLM
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

Shenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li•May 26, 2025•52

Могут ли сжатые языковые модели действительно действовать? Эмпирическая оценка агентских возможностей при сжатии языковых моделей
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li•May 26, 2025•51

BiomedSQL: Преобразование текста в SQL для научных рассуждений на базах биомедицинских знаний
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri•May 23, 2025•52

R1-Searcher++: Стимулирование динамического приобретения знаний в языковых моделях с помощью обучения с подкреплением
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen•May 22, 2025•52

Поиск и уточнение в процессе мышления: автономное рассуждение с расширением поиска в больших языковых моделях
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang•May 16, 2025•51

Sci-Fi: Симметричное ограничение для интерполяции кадров
Sci-Fi: Symmetric Constraint for Frame Inbetweening

Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan•May 27, 2025•42

SoloSpeech: Повышение разборчивости и качества целевой речи с использованием каскадного генеративного конвейера
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak•May 25, 2025•42

MLLM значительно подвержены влиянию модальной предвзятости
MLLMs are Deeply Affected by Modality Bias

Xu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu•May 24, 2025•42

Синтез мультимодальных данных с использованием пространственного графа знаний
Spatial Knowledge Graph-Guided Multimodal Synthesis

Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang•May 28, 2025•31

Обратная виртуальная примерка: генерация изображений стиля продуктов из нескольких категорий на основе одетых людей
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe•May 27, 2025•31

VLM-3R: Модели "Визион-Ленгвидж", усиленные 3D-реконструкцией, согласованной с инструкциями
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan•May 26, 2025•32

Закономерности масштабирования на основе возможностей для тестирования на уязвимости языковых моделей
Capability-Based Scaling Laws for LLM Red-Teaming

Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping•May 26, 2025•32

DFIR-Metric: Набор данных для оценки крупных языковых моделей в области цифровой криминалистики и реагирования на инциденты
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi•May 26, 2025•32

Курация модальностей: создание универсальных эмбеддингов для расширенного мультимодального поиска информации
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou•May 26, 2025•32

ComfyMind: К универсальной генерации через древовидное планирование и реактивную обратную связь
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen•May 23, 2025•33

AdInject: Реальные атаки методом черного ящика на веб-агентов через доставку рекламы
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang•May 27, 2025•22

SATORI-R1: Стимулирование мультимодального мышления с пространственной привязкой и проверяемыми вознаграждениями
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng•May 25, 2025•22

PreMoe: Облегчение моделей с экспертами при ограниченной памяти за счет обрезки и извлечения экспертов
PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval

Zehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu•May 23, 2025•22

R1-ShareVL: Стимулирование способности к рассуждению мультимодальных больших языковых моделей с помощью Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang•May 22, 2025•22

Абсолютные координаты упрощают генерацию движений.
Absolute Coordinates Make Motion Generation Easy

Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang•May 26, 2025•12

CoreMatching: Совместно адаптируемая структура разреженного вывода с обрезкой токенов и нейронов для комплексного ускорения моделей обработки зрения и языка
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen•May 25, 2025•11

Объяснение источников неопределенности в автоматизированной проверке фактов
Explaining Sources of Uncertainty in Automated Fact-Checking

Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein•May 23, 2025•11

Тропическое внимание: нейронное алгоритмическое рассуждение для комбинаторных алгоритмов
Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms

Baran Hashemi, Kurt Pasque, Chris Teska, Ruriko Yoshida•May 22, 2025•11

Улучшение химического понимания языковых моделей через парсинг SMILES
Improving Chemical Understanding of LLMs via SMILES Parsing

Yunhui Jang, Jaehyung Kim, Sungsoo Ahn•May 22, 2025•12

Страдают ли системы RAG от позиционного смещения?
Do RAG Systems Suffer From Positional Bias?

Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri•May 21, 2025•12

Vision Transformers с самообучаемыми регистрами
Vision Transformers with Self-Distilled Registers

Yinjie Chen, Zipeng Yan, Chong Zhou, Bo Dai, Andrew F. Luo•May 27, 2025•02

Ankh3: Многозадачное предобучение с шумоподавлением и восстановлением последовательностей улучшает представления белков
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

За пределами простой конкатенации: объективная оценка архитектур языковых моделей для предсказания многоцепочечных белково-белковых взаимодействий
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

Объяснимая диагностическая система для нейродегенеративных деменций с использованием оптимизированного метода рассуждений на основе языковых моделей и обучения с подкреплением
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning

Andrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe•May 26, 2025•02