ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Пересмотр дебатов между агентами как масштабирования на этапе тестирования: систематическое исследование условной эффективности
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun•May 29, 2025•51

PixelThink: В направлении эффективного цепочечного рассуждения на уровне пикселей
PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Song Wang, Gongfan Fang, Lingdong Kong, Xiangtai Li, Jianyun Xu, Sheng Yang, Qiang Li, Jianke Zhu, Xinchao Wang•May 29, 2025•11

Таблица-R1: Масштабирование на этапе вывода для табличных рассуждений
Table-R1: Inference-Time Scaling for Table Reasoning

Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao•May 29, 2025•882

Spatial-MLLM: Усиление возможностей MLLM в визуально-ориентированном пространственном интеллекте
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan•May 29, 2025•663

Подъем высекает мудрость глубже, чем вершина: о шумных наградах в обучении рассуждению
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan•May 28, 2025•642

VF-Eval: Оценка мультимодальных языковых моделей для генерации обратной связи на видео, созданные с помощью ИИ
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao•May 29, 2025•562

ZeroGUI: Автоматизация обучения онлайн-интерфейсов без участия человека
ZeroGUI: Automating Online GUI Learning at Zero Human Cost

Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai•May 29, 2025•452

VideoReasonBench: Способны ли MLLM выполнять сложное видеосвязанное рассуждение?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun•May 29, 2025•396

Fast-dLLM: Бесплатное ускорение диффузионных языковых моделей за счет активации кэша ключей и значений и параллельного декодирования
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie•May 28, 2025•392

D-AR: Диффузия через авторегрессионные модели
D-AR: Diffusion via Autoregressive Models

Ziteng Gao, Mike Zheng Shou•May 29, 2025•342

AnySplat: Прямое преобразование 3D-гауссовых сплатов из неограниченных ракурсов
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai•May 29, 2025•312

cadrille: Многомодальная реконструкция CAD с использованием онлайн-обучения с подкреплением
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich•May 28, 2025•283

Склонны ли модели рассуждений к галлюцинациям?
Are Reasoning Models More Prone to Hallucination?

Zijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua•May 29, 2025•242

LoRAShop: Бестренировочная генерация и редактирование изображений с несколькими концепциями с использованием трансформеров с исправленным потоком
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag•May 29, 2025•233

Satori-SWE: Эволюционное масштабирование на этапе тестирования для эффективного использования данных в разработке программного обеспечения
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

Guangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan•May 29, 2025•232

UniRL: Самообучающиеся унифицированные мультимодальные модели через обучение с учителем и обучение с подкреплением
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

Weijia Mao, Zhenheng Yang, Mike Zheng Shou•May 29, 2025•232

ATLAS: Обучение оптимальному запоминанию контекста во время тестирования
ATLAS: Learning to Optimally Memorize the Context at Test Time

Ali Behrouz, Zeman Li, Praneeth Kacham, Majid Daliri, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni•May 29, 2025•222

Эффективное обучение разреженных автокодировщиков с использованием корреляции признаков
Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

Vadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky•May 28, 2025•212

Многодоменная объяснимость предпочтений
Multi-Domain Explainability of Preferences

Nitay Calderon, Liat Ein-Dor, Roi Reichart•May 26, 2025•212

SWE-bench Становится Доступным!
SWE-bench Goes Live!

Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang•May 29, 2025•202

VidText: К всесторонней оценке понимания текста в видео
VidText: Towards Comprehensive Evaluation for Video Text Understanding

Zhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe•May 28, 2025•202

FAMA: Первая крупномасштабная открытая речевая фундаментальная модель для английского и итальянского языков
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri•May 28, 2025•202

StressTest: Ваша языковая модель справится со стрессом?
StressTest: Can YOUR Speech LM Handle the Stress?

Iddo Yosha, Gallil Maimon, Yossi Adi•May 28, 2025•172

К обеспечению безопасности в рассуждениях языковых моделей: агентно-ориентированное обсуждение для создания данных с встроенной политикой в цепочке рассуждений
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris•May 27, 2025•172

Переупорядочивание патчей улучшает модели компьютерного зрения
REOrdering Patches Improves Vision Models

Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta•May 29, 2025•162

DeepTheorem: Улучшение способности языковых моделей к рассуждению в доказательстве теорем с использованием естественного языка и обучения с подкреплением
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

Ziyin Zhang, Jiahao Xu, Zhiwei He, Tian Liang, Qiuzhi Liu, Yansi Li, Linfeng Song, Zhengwen Liang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu•May 29, 2025•152

Muddit: Расширение границ генерации за пределы текста в изображение с помощью унифицированной модели дискретной диффузии
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan•May 29, 2025•143

Обучение с подкреплением на основе текущей политики с оптимальным базовым вознаграждением
On-Policy RL with Optimal Reward Baseline

Yaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei•May 29, 2025•142

SafeScientist: В направлении осознанных рисков научных открытий агентами на основе языковых моделей
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You•May 29, 2025•122

Система-1.5: Рассуждения с использованием обхода в языковых и латентных пространствах через динамические сокращения
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu•May 25, 2025•122

GeoDrive: 3D-геометрическая модель вождения с точным управлением действиями
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

Anthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang•May 28, 2025•113

PatientSim: Симулятор, основанный на персонах, для реалистичного моделирования взаимодействий врача и пациента
PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

Daeun Kyung, Hyunseung Chung, Seongsu Bae, Jiho Kim, Jae Ho Sohn, Taerim Kim, Soo Kyung Kim, Edward Choi•May 23, 2025•112

Поиск дифференцируемых решателей для ускорения сэмплирования в диффузионных моделях
Differentiable Solver Search for Fast Diffusion Sampling

Shuai Wang, Zexian Li, Qipeng zhang, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang•May 27, 2025•102

Разбор тестов для видео-языковых моделей: знания, пространственное восприятие или подлинное понимание временных зависимостей?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao•May 20, 2025•102

MAGREF: Маскированное управление для генерации видео с произвольной опорой
MAGREF: Masked Guidance for Any-Reference Video Generation

Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma•May 29, 2025•92

KVzip: Сжатие кэша ключ-значение, не зависящее от запросов, с восстановлением контекста
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song•May 29, 2025•92

ToMAP: Обучение LLM-убеждающих с учетом оппонента через теорию разума
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind

Peixuan Han, Zijia Liu, Jiaxuan You•May 29, 2025•82

Uni-Instruct: Одношаговая диффузионная модель через унифицированную инструкцию расхождения диффузии
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun•May 27, 2025•82

ZeroSep: Разделение любых аудиоданных без предварительного обучения
ZeroSep: Separate Anything in Audio with Zero Training

Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu•May 29, 2025•72

Afterburner: Обучение с подкреплением способствует самооптимизации эффективности кода
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

Mingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng•May 29, 2025•72

ATI: Универсальные Инструкции по Траекториям для Управляемой Генерации Видео
ATI: Any Trajectory Instruction for Controllable Video Generation

Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma•May 28, 2025•72

Re-ttention: Ультраразреженная визуальная генерация через статистическую перестройку внимания
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu•May 28, 2025•72

Однократная минимизация энтропии
One-shot Entropy Minimization

Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai•May 26, 2025•72

Когда модели рассуждают на вашем языке: управление языком мыслительных процессов снижает точность
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza•May 28, 2025•62

CXReasonBench: Бенчмарк для оценки структурированного диагностического анализа рентгенограмм грудной клетки
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi•May 23, 2025•62

Озадачены головоломками: когда модели "зрение-язык" не могут уловить подсказку
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan•May 29, 2025•52

Доверять или не доверять предсказаниям вашей визуально-языковой модели
To Trust Or Not To Trust Your Vision-Language Model's Prediction

Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink•May 29, 2025•52

UniTEX: Универсальное генеративное текстурирование высокой точности для 3D-моделей
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes

Yixun Liang, Kunming Luo, Xiao Chen, Rui Chen, Hongyu Yan, Weiyu Li, Jiarui Liu, Ping Tan•May 29, 2025•52

CLIPGaussian: Универсальный и мультимодальный перенос стилей на основе гауссовского сплайсинга
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek•May 28, 2025•52

Краткие рассуждения, большие выгоды: сокращение длинных цепочек рассуждений с помощью сложно-ориентированных подсказок
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo•May 26, 2025•52

Как танцуют животные (когда на них никто не смотрит)
How Animals Dance (When You're Not Looking)

Xiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz•May 29, 2025•42

ZPressor: Сжатие с учетом узких мест для масштабируемой прямой передачи 3DGS
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang•May 29, 2025•45

Могут ли крупные языковые модели обмануть CLIP? Бенчмаркинг адверсарной композиционности предобученных мультимодальных представлений через обновления текста
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim•May 28, 2025•44

SridBench: Бенчмарк для оценки генерации научных иллюстраций моделями создания изображений
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang•May 28, 2025•42

Lunguage: Бенчмарк для структурированной и последовательной интерпретации рентгенограмм грудной клетки
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

Jong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi•May 27, 2025•42

ChartLens: Точная визуальная атрибуция в диаграммах
ChartLens: Fine-grained Visual Attribution in Charts

Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha•May 25, 2025•42

Графовый подход к исследованию структурных паттернов знаний в крупных языковых моделях
A Graph Perspective to Probe Structural Patterns of Knowledge in Large Language Models

Utkarsh Sahu, Zhisheng Qi, Yongjia Lei, Ryan A. Rossi, Franck Dernoncourt, Nesreen K. Ahmed, Mahantesh M Halappanavar, Yao Ma, Yu Wang•May 25, 2025•42

MMSI-Bench: Бенчмарк для оценки пространственного интеллекта на основе множества изображений
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang•May 29, 2025•32

Дифференциальная информация: информационно-теоретический взгляд на оптимизацию предпочтений
Differential Information: An Information-Theoretic Perspective on Preference Optimization

Yunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo•May 29, 2025•32

Обоснованное обучение с подкреплением для визуального анализа
Grounded Reinforcement Learning for Visual Reasoning

Gabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki•May 29, 2025•32

GSO: Сложные задачи оптимизации программного обеспечения для оценки SWE-агентов
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica•May 29, 2025•32

Оценка креативности текста в различных областях: набор данных и система оценки на основе больших языковых моделей
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song•May 25, 2025•32

TokBench: Оценка визуального токенизатора перед визуальной генерацией
TokBench: Evaluating Your Visual Tokenizer before Visual Generation

Junfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai•May 23, 2025•32

Независимая оценка качества машинного перевода на уровне слов через призму (не)согласия аннотаторов
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza•May 29, 2025•22

Адаптивное округление с сохранением модели
Model-Preserving Adaptive Rounding

Albert Tseng, Zhaofeng Sun, Christopher De Sa•May 29, 2025•22

Адаптивное управление без классификатора с использованием динамического маскирования низкой уверенности
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

Pengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao•May 26, 2025•22

Крупные языковые модели и графы знаний для ответов на вопросы: Синтез и перспективы
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities

Chuangtao Ma, Yongrui Chen, Tianxing Wu, Arijit Khan, Haofen Wang•May 26, 2025•22

К надежной генерации биомедицинских гипотез: оценка правдивости и галлюцинаций в крупных языковых моделях
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang•May 20, 2025•12