ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SeedVR2: Восстановление видео в один шаг с использованием диффузионного адверсарного пост-обучения
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang•Jun 5, 2025•441

ComfyUI-Copilot: Интеллектуальный помощник для автоматизированной разработки рабочих процессов
ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Jun 5, 2025•431

Видеомодели мира с долговременной пространственной памятью
Video World Models with Long-term Spatial Memory

Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein•Jun 5, 2025•361

RoboRefer: К пространственному указанию с логическим обоснованием в визуально-языковых моделях для робототехники
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang•Jun 4, 2025•363

Диагональное пакетирование раскрывает параллелизм в рекуррентных трансформерах с памятью для работы с длинными контекстами
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Danil Sivtsov, Ivan Rodkin, Gleb Kuzmin, Yuri Kuratov, Ivan Oseledets•Jun 5, 2025•333

Qwen3 Embedding: Развитие текстовых эмбеддингов и ранжирования с использованием фундаментальных моделей
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou•Jun 5, 2025•321

Surfer-H встречается с Holo1: Экономичный веб-агент на основе открытых весов
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu•Jun 3, 2025•272

Common Pile v0.1: набор данных объемом 8 ТБ, состоящий из текстов, находящихся в общественном достоянии и распространяемых под открытыми лицензиями
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray•Jun 5, 2025•261

VideoREPA: Изучение физики для генерации видео через реляционное согласование с базовыми моделями
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng•May 29, 2025•242

Согласование латентных пространств с использованием априорных распределений на основе потоков
Aligning Latent Spaces with Flow Priors

Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Ping Luo•Jun 5, 2025•231

VideoMathQA: Оценка математического мышления через мультимодальное понимание в видеороликах
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan•Jun 5, 2025•221

AV-Reasoner: Улучшение и тестирование аудиовизуального подсчета на основе подсказок для мультимодальных языковых моделей
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu•Jun 5, 2025•201

Гипермасштабирование во время вывода с компрессией кэша ключей и значений
Inference-Time Hyper-Scaling with KV Cache Compression

Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti•Jun 5, 2025•191

Раскрытие пространственного познания: оценка мультимодальных моделей на визуальных симуляциях
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna•Jun 5, 2025•161

SparseMM: Разреженность головы возникает из откликов на визуальные концепции в MLLM
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu•Jun 5, 2025•150

StreamBP: Эффективное по памяти точное обратное распространение для обучения языковых моделей на длинных последовательностях
StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li•Jun 3, 2025•152

EOC-Bench: Способны ли MLLM распознавать, запоминать и прогнозировать объекты в эгоцентричном мире?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang•Jun 5, 2025•131

Search Arena: Анализ языковых моделей с расширенным поиском
Search Arena: Analyzing Search-Augmented LLMs

Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez•Jun 5, 2025•121

MINT-CoT: Включение чередующихся визуальных токенов в математические рассуждения по цепочке мыслей
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li•Jun 5, 2025•121

Оценка — это всё, что нужно: стратегическое преувеличение возможностей рассуждения языковых моделей через дизайн оценки
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang•Jun 5, 2025•123

Переосмысление представлений глубины для прямого 3D-распределения Гаусса
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

Duochao Shi, Weijie Wang, Donny Y. Chen, Zeyu Zhang, Jia-Wang Bian, Bohan Zhuang, Chunhua Shen•Jun 5, 2025•111

FlexPainter: Гибкое и согласованное с несколькими видами генерация текстур
FlexPainter: Flexible and Multi-View Consistent Texture Generation

Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen•Jun 3, 2025•112

Выравнивание языка и изображений с фиксированными текстовыми кодировщиками
Language-Image Alignment with Fixed Text Encoders

Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma•Jun 4, 2025•106

Авторегрессивное водяное знаковое изображение через лексическое смещение: подход, устойчивый к атакам регенерации
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack

Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang•Jun 1, 2025•82

FreeTimeGS: Свободные гауссовы распределения в любое время и в любом месте для реконструкции динамических сцен
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

Yifan Wang, Peishan Yang, Zhen Xu, Jiaming Sun, Zhanhua Zhang, Yong Chen, Hujun Bao, Sida Peng, Xiaowei Zhou•Jun 5, 2025•51

SkyReels-Audio: Видеопортреты с универсальным аудио-условием на основе диффузионных трансформеров
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou•Jun 1, 2025•52

Геометрически редактируемая и сохраняющая внешний вид композиция объектов
Geometry-Editable and Appearance-Preserving Object Compositon

Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen•May 27, 2025•52

Kinetics: Переосмысление законов масштабирования на этапе тестирования
Kinetics: Rethinking Test-Time Scaling Laws

Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen•Jun 5, 2025•41

Масштабные законы для надежного сравнения открытых базовых моделей и наборов данных в области обработки языка и зрения
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev•Jun 5, 2025•41

MedAgentGym: Масштабируемое обучение агентов на основе языковых моделей для медицинского анализа с использованием кода
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi•Jun 4, 2025•41

Контекстуальная целостность в больших языковых моделях через рассуждение и обучение с подкреплением
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim•May 29, 2025•41

Rectified Point Flow: Универсальное оценивание позы облака точек
Rectified Point Flow: Generic Point Cloud Pose Estimation

Tao Sun, Liyuan Zhu, Shengyu Huang, Shuran Song, Iro Armeni•Jun 5, 2025•32

Микро-Акт: Устранение конфликта знаний в системах вопросно-ответного поиска через практическое самообоснование
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng•Jun 5, 2025•31

FEAT: Полномерный эффективный трансформер внимания для генерации медицинских видео
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu•Jun 5, 2025•31

Изображения стоят переменной длины представлений
Images are Worth Variable Length of Representations

Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang•Jun 4, 2025•32

RobustSplat: Разделение уплотнения и динамики для 3DGS без переходных процессов
RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

Chuanyu Fu, Yuqi Zhang, Kunbin Yao, Guanying Chen, Yuan Xiong, Chuan Huang, Shuguang Cui, Xiaochun Cao•Jun 3, 2025•32

MARBLE: Перекомпоновка и смешение материалов в CLIP-пространстве
MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani•Jun 5, 2025•21

FlowDirector: Бесплатное управление потоком для точного редактирования текста в видео
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang•Jun 5, 2025•20

Перцептивное разделение для масштабируемого мультимодального рассуждения через оптимизацию подписей с использованием вознаграждения
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang•Jun 5, 2025•21

BEVCALIB: Калибровка LiDAR и камеры с использованием геометрически направленных представлений вида с высоты птичьего полета
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu•Jun 3, 2025•22

Диффузионные генеративные модели для прогнозирования 3D-заполнения в автономном вождении
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao•May 29, 2025•22

PATS: Временная выборка с учетом уровня мастерства для оценки спортивных навыков на основе многокадрового анализа
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

Edoardo Bianchi, Antonio Liotta•Jun 5, 2025•11

Водяные знаки ухудшают выравнивание в языковых моделях: анализ и методы устранения
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

Apurv Verma, NhatHai Phan, Shubhendu Trivedi•Jun 4, 2025•11

Переосмысление интерпретации КТ-изображений всего тела: подход, ориентированный на аномалии
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

Ziheng Zhao, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie•Jun 3, 2025•12

SViMo: Синхронизированная диффузия для генерации видео и движений в сценариях взаимодействия руки с объектом
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu•Jun 3, 2025•13

Что знают самоконтролируемые модели обработки речи о нидерландском языке? Анализ преимуществ языково-специфического предобучения
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum•Jun 1, 2025•12