ChatPaper.ai
메뉴 열기
홈
오늘의 논문
arXiv
HuggingFace
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
March 26th, 2025
장문맥 자기회귀 비디오 모델링과 다음 프레임 예측
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
Yuchao Gu, Weijia Mao, Mike Zheng Shou
•
Mar 25, 2025
•
72
2
4K 해상도로 비전 사전 학습 확장하기
Scaling Vision Pre-Training to 4K Resolution
Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
•
Mar 25, 2025
•
40
2
플로우 모델을 위한 추론 시간 스케일링: 확률적 생성 및 롤오버 예산 강제 기법
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
•
Mar 25, 2025
•
33
4
대형 멀티모달 모델의 비디오 이해에서의 환각 현상 탐구: 벤치마크, 분석 및 완화
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
•
Mar 25, 2025
•
31
4
CoMP: 비전 파운데이션 모델을 위한 지속적 멀티모달 사전 학습
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
•
Mar 24, 2025
•
30
1
두 번 생각하라: 다중 라운드 테스트 타임 사고 확장을 통한 LLM 추론 능력 향상
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
•
Mar 25, 2025
•
26
5
가짜를 찾아라: 아티팩트 설명을 통한 대규모 멀티모달 모델 기반 합성 이미지 탐지
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
•
Mar 19, 2025
•
20
3
MDocAgent: 문서 이해를 위한 다중 모달 다중 에이전트 프레임워크
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding
Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao
•
Mar 18, 2025
•
19
2
ReSearch: 강화 학습을 통한 검색 기반 LLM 추론 학습
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen
•
Mar 25, 2025
•
17
3
CoLLM: 합성 이미지 검색을 위한 대형 언어 모델
CoLLM: A Large Language Model for Composed Image Retrieval
Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
•
Mar 25, 2025
•
14
2
WikiAutoGen: 다중 모달 위키피디아 스타일 기사 생성 기술
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation
Zhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny
•
Mar 24, 2025
•
11
2
고해상도 이미지 생성을 위한 잠재 공간 초해상도와 확산 모델
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim
•
Mar 24, 2025
•
10
1
FullDiT: 전체 어텐션을 활용한 다중 작업 비디오 생성 기반 모델
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
•
Mar 25, 2025
•
8
2
DiffPortrait360: 360도 뷰 합성을 위한 일관된 초상화 확산 모델
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
•
Mar 19, 2025
•
8
2
FirePlace: 3D 객체 배치를 위한 LLM 상식 추론의 기하학적 정제
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi
•
Mar 6, 2025
•
8
2
PhysTwin: 비디오 기반 변형 가능 물체의 물리 정보 기반 재구성 및 시뮬레이션
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos
Hanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li
•
Mar 23, 2025
•
7
2
LookAhead 튜닝: 부분 답변 미리보기를 통한 더 안전한 언어 모델
LookAhead Tuning: Safer Language Models via Partial Answer Previews
Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
•
Mar 24, 2025
•
5
3
전이 학습을 통한 효율적인 모델 개발
Efficient Model Development through Fine-tuning Transfer
Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
•
Mar 25, 2025
•
4
2
FRESA: 소수 이미지로부터 개인화된 스킨드 아바타의 피드포워드 재구성
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
•
Mar 24, 2025
•
4
2
xKV: KV 캐시 압축을 위한 크로스 레이어 SVD
xKV: Cross-Layer SVD for KV-Cache Compression
Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah
•
Mar 24, 2025
•
4
1
제어 가능한 생물학적 시퀀스 생성을 위한 스트레이트-스루 가이던스 기반 Gumbel-Softmax Flow Matching
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation
Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
•
Mar 21, 2025
•
4
2
강력한 베이스라인: YOLOv12와 BoT-SORT-ReID를 활용한 다중 UAV 추적
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID
Yu-Hsi Chen
•
Mar 21, 2025
•
4
5
시각을 뛰어넘는 언어: 인간 중심 의사결정을 위한 텍스트 전용 학습을 통해 시각-언어 모델이 자기 개선할 수 있다
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making
Zhe Hu, Jing Li, Yu Yin
•
Mar 21, 2025
•
4
2
통합 코페르니쿠스 기반 모델을 향한 지구 비전
Towards a Unified Copernicus Foundation Model for Earth Vision
Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu
•
Mar 14, 2025
•
4
3
LLaVAction: 행동 인식을 위한 다중 모달 대규모 언어 모델 평가 및 훈련
LLaVAction: evaluating and training multi-modal large language models for action recognition
Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis
•
Mar 24, 2025
•
3
2
Any6D: 새로운 물체에 대한 모델 없는 6D 포즈 추정
Any6D: Model-free 6D Pose Estimation of Novel Objects
Taeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon
•
Mar 24, 2025
•
3
2
OpenCity3D: 비전-언어 모델은 도시 환경에 대해 무엇을 알고 있는가?
OpenCity3D: What do Vision-Language Models know about Urban Environments?
Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann
•
Mar 21, 2025
•
3
2
비전-언어 모델은 현실 세계에서 얼굴 대 얼굴 질문에 답할 수 있는가?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?
Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic
•
Mar 25, 2025
•
2
2
어휘 불일치 극복: 어휘 독립적 교사 지도 언어 모델링
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
•
Mar 24, 2025
•
2
2
밀집 이미지 예측을 위한 주파수 동적 컨볼루션
Frequency Dynamic Convolution for Dense Image Prediction
Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
•
Mar 24, 2025
•
2
2
LPOSS: 패치와 픽셀에 대한 라벨 전파를 통한 개방형 어휘 의미론적 분할
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
•
Mar 25, 2025
•
1
2
ST-VLM: 시공간 추론을 위한 운동학적 명령어 튜닝 기반 비전-언어 모델
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim
•
Mar 25, 2025
•
1
1
Co-SemDepth: 항공 이미지에서의 빠른 공동 의미론적 분할 및 깊이 추정
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
Yara AlaaEldin, Francesca Odone
•
Mar 23, 2025
•
0
2