ChatPaper.ai
메뉴 열기
홈
오늘의 논문
arXiv
HuggingFace
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
March 17th, 2025
API 에이전트 vs. GUI 에이전트: 분기와 융합
API Agents vs. GUI Agents: Divergence and Convergence
Chaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang
•
Mar 14, 2025
•
37
2
PLADIS: 희소성 활용을 통해 추론 시점에서 디퓨전 모델의 어텐션 한계 돌파
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
Kwanyoung Kim, Byeongsu Sim
•
Mar 10, 2025
•
84
2
MaRI: 도메인 간 재료 검색 통합
MaRI: Material Retrieval Integration across Domains
Jianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang
•
Mar 11, 2025
•
7
2
그룹-강건 머신 언러닝
Group-robust Machine Unlearning
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini
•
Mar 12, 2025
•
1
2
CHOrD: 제어 가능한 평면도와 최적의 배치를 갖춘 3D 실내 장면을 위한 충돌 없는, 주택 규모의, 체계적인 디지털 트윈 생성
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts
Chong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong
•
Mar 15, 2025
•
3
3
효율성과 효과성에 관한 기술: 상태 공간 모델에 대한 종합적 고찰
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models
Xingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou
•
Mar 14, 2025
•
27
2
효율적인 시각적 생성을 위한 이웃 자기회귀 모델링
Neighboring Autoregressive Modeling for Efficient Visual Generation
Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
•
Mar 12, 2025
•
8
3
대형 추론 모델은 지각적 불확실성 하에서 유추적 추론을 수행할 수 있는가?
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi
•
Mar 14, 2025
•
5
2
ProJudge: 다중 모달 다중 분야 벤치마크 및 MLLM 기반 프로세스 판단을 위한 명령어 튜닝 데이터셋
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
•
Mar 9, 2025
•
8
2
SmolDocling: 엔드투엔드 다중 모달 문서 변환을 위한 초소형 비전-언어 모델
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar
•
Mar 14, 2025
•
100
14
Cockatiel: 상세 비디오 캡션 생성을 위한 합성 데이터와 인간 선호도 기반 학습의 앙상블
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li
•
Mar 12, 2025
•
5
2
TreeMeshGPT: 자율 회귀 트리 시퀀싱을 통한 예술적 메시 생성
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
Stefan Lionar, Jiabin Liang, Gim Hee Lee
•
Mar 14, 2025
•
6
2
ARMOR v0.1: 비대칭적 시너지를 통한 인터리브 멀티모달 생성으로 자율회귀 멀티모달 이해 모델 강화
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
•
Mar 9, 2025
•
8
2
ETCH: 등변형 타이트함을 통해 옷을 입은 사람에 대한 신체 맞춤 일반화
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness
Boqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu
•
Mar 13, 2025
•
8
2
콜모고로프-아놀드 어텐션: 비전 트랜스포머를 위한 학습 가능한 어텐션이 더 나은가?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
•
Mar 13, 2025
•
14
2
TxAgent: 도구의 우주를 가로지르는 치료적 추론을 위한 AI 에이전트
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools
Shanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik
•
Mar 14, 2025
•
17
3
트레이젝토리 분포 매칭을 통한 Few-Step 확산 모델 학습
Learning Few-Step Diffusion Models by Trajectory Distribution Matching
Yihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang
•
Mar 9, 2025
•
7
3
적대적 데이터 수집: 효율적이고 강인한 로봇 모방 학습을 위한 인간-협업적 섭동
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning
Siyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren
•
Mar 14, 2025
•
36
2
TOWER에서 SPIRE로: 텍스트 전용 LLM에 음성 모달리티 추가하기
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
•
Mar 13, 2025
•
7
2
분할되지 않은 데모스트레이션에서의 오픈 월드 스킬 발견
Open-World Skill Discovery from Unsegmented Demonstrations
Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
•
Mar 11, 2025
•
5
3
FlowTok: 텍스트와 이미지 토큰 간 원활한 흐름
FlowTok: Flowing Seamlessly Across Text and Image Tokens
Ju He, Qihang Yu, Qihao Liu, Liang-Chieh Chen
•
Mar 13, 2025
•
19
2
Vamba: 하이브리드 맘바-트랜스포머를 활용한 시간 단위 비디오 이해
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
•
Mar 14, 2025
•
20
2
GoalFlow: 엔드투엔드 자율주행을 위한 목표 기반 흐름 매칭 기반 다중모달 궤적 생성
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving
Zebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin
•
Mar 7, 2025
•
3
2
ReCamMaster: 단일 비디오에서 카메라 제어 기반 생성적 렌더링
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
•
Mar 14, 2025
•
140
5
연합 학습의 취약점 탐구: 그래디언트 역전 공격에 대한 심층 분석
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks
Pengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu
•
Mar 13, 2025
•
16
2
대규모 사전 학습 기반 영상 설명 생성
Large-scale Pre-training for Grounded Video Caption Generation
Evangelos Kazakos, Cordelia Schmid, Josef Sivic
•
Mar 13, 2025
•
17
2
VGGT: 시각적 기하학 기반 트랜스포머
VGGT: Visual Geometry Grounded Transformer
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
•
Mar 14, 2025
•
21
2