ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

SeedVR2: 확산 적대적 사후 학습을 통한 원스텝 비디오 복원
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang•Jun 5, 2025•431

ComfyUI-Copilot: 자동화 워크플로우 개발을 위한 지능형 어시스턴트
ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Jun 5, 2025•431

장기 공간 기억을 갖춘 비디오 세계 모델
Video World Models with Long-term Spatial Memory

Tong Wu, Shuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein•Jun 5, 2025•361

로보레퍼: 로보틱스를 위한 시각-언어 모델에서 추론을 통한 공간적 참조 연구
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang•Jun 4, 2025•363

대각선 배칭이 장기 문맥을 위한 순환 메모리 트랜스포머에서 병렬성을 해제하다
Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

Danil Sivtsov, Ivan Rodkin, Gleb Kuzmin, Yuri Kuratov, Ivan Oseledets•Jun 5, 2025•333

Qwen3 임베딩: 파운데이션 모델을 통한 텍스트 임베딩 및 리랭킹 기술의 발전
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Yanzhao Zhang, Mingxin Li, Dingkun Long, Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou•Jun 5, 2025•311

Surfer-H와 Holo1의 만남: 오픈 웨이트 기반의 비용 효율적 웹 에이전트
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

Mathieu Andreux, Breno Baldas Skuk, Hamza Benchekroun, Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel, Pierre-Louis Cedoz, Antoine Chassang, Mickaël Chen, Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière, Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier, Tony Wu•Jun 3, 2025•272

커먼 파일 v0.1: 공개 도메인 및 개방형 라이선스 텍스트로 구성된 8TB 데이터셋
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray•Jun 5, 2025•261

VideoREPA: 파운데이션 모델과의 관계적 정렬을 통해 비디오 생성을 위한 물리학 학습
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng•May 29, 2025•242

플로우 사전 분포를 이용한 잠재 공간 정렬
Aligning Latent Spaces with Flow Priors

Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Ping Luo•Jun 5, 2025•231

VideoMathQA: 비디오를 통한 다중모달 이해 기반 수학적 추론 벤치마킹
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan•Jun 5, 2025•221

AV-Reasoner: MLLM을 위한 단서 기반 오디오-비주얼 카운팅 개선 및 벤치마킹
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu•Jun 5, 2025•201

추론 시점 하이퍼 스케일링 및 KV 캐시 압축
Inference-Time Hyper-Scaling with KV Cache Compression

Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti•Jun 5, 2025•191

공간 인지의 전개: 시각적 시뮬레이션에서 다중모드 모델 평가
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna•Jun 5, 2025•161

SparseMM: 다중모달 대형 언어 모델에서 시각적 개념 반응으로부터 나타나는 헤드 희소성
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu•Jun 5, 2025•150

StreamBP: 장기 시퀀스 LLM 학습을 위한 메모리 효율적 정확 역전파
StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li•Jun 3, 2025•152

EOC-Bench: MLLM이 자기중심적 세계에서 객체를 식별, 회상 및 예측할 수 있는가?
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang•Jun 5, 2025•131

MINT-CoT: 수학적 사고 과정 추론에서 인터리브된 시각적 토큰의 활성화
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li•Jun 5, 2025•121

검색 아레나: 검색 강화된 대형 언어 모델 분석
Search Arena: Analyzing Search-Augmented LLMs

Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios N. Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez•Jun 5, 2025•111

피드포워드 3D 가우시안 스플래팅을 위한 깊이 표현 재고
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

Duochao Shi, Weijie Wang, Donny Y. Chen, Zeyu Zhang, Jia-Wang Bian, Bohan Zhuang, Chunhua Shen•Jun 5, 2025•111

평가가 전부다: 평가 설계를 통한 LLM 추론 능력의 전략적 과대 포장
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang•Jun 5, 2025•113

FlexPainter: 유연하고 다중 뷰 일관성을 갖춘 텍스처 생성
FlexPainter: Flexible and Multi-View Consistent Texture Generation

Dongyu Yan, Leyi Wu, Jiantao Lin, Luozhou Wang, Tianshuo Xu, Zhifei Chen, Zhen Yang, Lie Xu, Shunsi Zhang, Yingcong Chen•Jun 3, 2025•112

고정된 텍스트 인코더를 활용한 언어-이미지 정렬
Language-Image Alignment with Fixed Text Encoders

Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma•Jun 4, 2025•106

어휘 편향을 통한 자기회귀 이미지 워터마킹: 재생성 공격에 강인한 접근법
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack

Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang•Jun 1, 2025•82

FreeTimeGS: 동적 장면 재구성을 위한 언제 어디서나 자유로운 가우시안 활용
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

Yifan Wang, Peishan Yang, Zhen Xu, Jiaming Sun, Zhanhua Zhang, Yong Chen, Hujun Bao, Sida Peng, Xiaowei Zhou•Jun 5, 2025•51

SkyReels-Audio: 비디오 내 오디오 조건화된 대화형 초상화를 위한 디퓨전 트랜스포머
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou•Jun 1, 2025•52

기하구조 편집 가능 및 외관 보존 객체 합성
Geometry-Editable and Appearance-Preserving Object Compositon

Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen•May 27, 2025•52

동역학: 테스트 시점 스케일링 법칙 재고
Kinetics: Rethinking Test-Time Scaling Laws

Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen•Jun 5, 2025•41

오픈 기반 언어-비전 모델 및 데이터셋의 강건한 비교를 위한 스케일링 법칙
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

Marianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev•Jun 5, 2025•41

MedAgentGym: 코드 기반 의료 추론을 위한 대규모 LLM 에이전트 훈련
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi•Jun 4, 2025•41

추론과 강화 학습을 통한 대형 언어 모델의 문맥적 무결성
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim•May 29, 2025•41

정규화된 포인트 플로우: 일반적인 포인트 클라우드 포즈 추정
Rectified Point Flow: Generic Point Cloud Pose Estimation

Tao Sun, Liyuan Zhu, Shengyu Huang, Shuran Song, Iro Armeni•Jun 5, 2025•32

마이크로 액트: 실행 가능한 자기 추론을 통한 질문 응답에서의 지식 충돌 완화
Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

Nan Huo, Jinyang Li, Bowen Qin, Ge Qu, Xiaolong Li, Xiaodong Li, Chenhao Ma, Reynold Cheng•Jun 5, 2025•31

FEAT: 의료 영상 생성을 위한 전체 차원 효율적 어텐션 트랜스포머
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

Huihan Wang, Zhiwen Yang, Hui Zhang, Dan Zhao, Bingzheng Wei, Yan Xu•Jun 5, 2025•31

이미지는 가변 길이 표현의 가치를 지닌다
Images are Worth Variable Length of Representations

Lingjun Mao, Rodolfo Corona, Xin Liang, Wenhao Yan, Zineng Tang•Jun 4, 2025•32

RobustSplat: 과도 현상 없는 3DGS를 위한 밀도화와 동역학의 분리
RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

Chuanyu Fu, Yuqi Zhang, Kunbin Yao, Guanying Chen, Yuan Xiong, Chuan Huang, Shuguang Cui, Xiaochun Cao•Jun 3, 2025•32

MARBLE: CLIP-공간에서의 물질 재조합 및 혼합
MARBLE: Material Recomposition and Blending in CLIP-Space

Ta-Ying Cheng, Prafull Sharma, Mark Boss, Varun Jampani•Jun 5, 2025•21

FlowDirector: 정밀한 텍스트-투-비디오 편집을 위한 학습 없이 가능한 플로우 스티어링
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang•Jun 5, 2025•20

확장 가능한 다중 모달 추론을 위한 지각적 디커플링: 보최적 캡션화를 통한 접근
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang•Jun 5, 2025•21

BEVCALIB: 기하학적 지도를 활용한 조감도 표현 기반 LiDAR-카메라 캘리브레이션
BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

Weiduo Yuan, Jerry Li, Justin Yue, Divyank Shah, Konstantinos Karydis, Hang Qiu•Jun 3, 2025•22

자율 주행을 위한 3D 점유율 예측을 위한 확산 기반 생성 모델
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

Yunshen Wang, Yicheng Liu, Tianyuan Yuan, Yucheng Mao, Yingshi Liang, Xiuyu Yang, Honggang Zhang, Hang Zhao•May 29, 2025•22

PATS: 다중 시점 스포츠 기술 평가를 위한 숙련도 인지 시간 샘플링
PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

Edoardo Bianchi, Antonio Liotta•Jun 5, 2025•11

워터마킹이 언어 모델의 정렬을 저하시키는 현상: 분석 및 완화 방안
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

Apurv Verma, NhatHai Phan, Shubhendu Trivedi•Jun 4, 2025•11

전신 CT 이미지 해석 재고: 이상 중심 접근법
Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

Ziheng Zhao, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie•Jun 3, 2025•12

SViMo: 손-물체 상호작용 시나리오에서 비디오 및 동작 생성을 위한 동기화된 확산 기법
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu•Jun 3, 2025•13

자기 지도 학습 음성 모델은 네덜란드어에 대해 무엇을 알고 있는가? 언어 특화 사전 학습의 장점 분석
What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Marianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum•Jun 1, 2025•12