ChatPaper.ai
메뉴 열기
홈
오늘의 논문
arXiv
HuggingFace
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
March 14th, 2025
R1-Onevision: 교차 모달 형식화를 통한 일반화된 다중 모달 추론의 발전
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
•
Mar 13, 2025
•
17
3
무작위 병렬 디코딩을 활용한 자기회귀적 이미지 생성
Autoregressive Image Generation with Randomized Parallel Decoding
Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
•
Mar 13, 2025
•
8
2
Open-Sora 2.0: 상업용 수준의 비디오 생성 모델을 20만 달러로 학습하기
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
•
Mar 12, 2025
•
18
3
이미지 변환 이해에서 시각-언어 모델의 한계에 관하여
On the Limitations of Vision-Language Models in Understanding Image Transforms
Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
•
Mar 12, 2025
•
10
2
정규화 없는 트랜스포머
Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
•
Mar 13, 2025
•
161
5
PerCoV2: 계층적 마스크 이미지 모델링을 통한 초저비트율 지각적 이미지 압축 기술 개선
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
•
Mar 12, 2025
•
3
2
GroundingSuite: 복잡한 다중 세분화 픽셀 그라운딩 측정
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
•
Mar 13, 2025
•
18
2
분류기 중심 관점에서 분류기(자유) 지도 학습 연구
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective
Xiaoming Zhao, Alexander G. Schwing
•
Mar 13, 2025
•
2
2
OpenAI의 Whisper 모델 양자화: 비교 분석
Quantization for OpenAI's Whisper Models: A Comparative Analysis
Allison Andreyev
•
Mar 12, 2025
•
6
2
MinorBench: 아동을 위한 콘텐츠 기반 위험 평가를 위한 수작업 벤치마크
MinorBench: A hand-built benchmark for content-based risks for children
Shaun Khoo, Gabriel Chua, Rachel Shong
•
Mar 13, 2025
•
4
3
TruthPrInt: 잠재적 진실-유도 사전 개입을 통한 LVLM 객체 환각 완화
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
•
Mar 13, 2025
•
4
2
세계 모델링이 더 나은 플래너를 만든다: 구체화된 작업 계획을 위한 이중 선호 최적화
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu
•
Mar 13, 2025
•
53
7
OmniPaint: 분리된 삽입-제거 인페인팅을 통한 객체 지향 편집의 완벽한 구현
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
Yongsheng Yu, Ziyun Zeng, Haitian Zheng, Jiebo Luo
•
Mar 11, 2025
•
29
2
VisualWebInstruct: 웹 검색을 통한 멀티모달 명령어 데이터의 대규모 확장
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
•
Mar 13, 2025
•
23
2
통신 효율적인 언어 모델 학습은 신뢰성과 견고성을 갖춘 확장 가능: DiLoCo의 확장 법칙
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo
Zachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard
•
Mar 12, 2025
•
14
2
긴 문맥 LLM 연구의 초점을 입력에서 출력으로 전환하기
Shifting Long-Context LLMs Research from Input to Output
Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
•
Mar 6, 2025
•
22
2
무음 브랜딩 공격: 트리거 없는 데이터 중독 공격을 통한 텍스트-이미지 확산 모델 공격
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
•
Mar 12, 2025
•
36
2
조건의 저주: 조건부 흐름 기반 생성을 위한 최적 수송의 분석과 개선
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation
Ho Kei Cheng, Alexander Schwing
•
Mar 13, 2025
•
3
2
SANA-Sprint: 연속 시간 일관성 확산을 통한 원스텝 디퓨전
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
•
Mar 12, 2025
•
37
4
CoSTAast: 다중 턴 이미지 편집을 위한 비용 민감형 툴패스 에이전트
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
•
Mar 13, 2025
•
79
10
DiT-Air: 텍스트-이미지 생성에서의 확산 모델 아키텍처 설계 효율성 재고
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation
Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang
•
Mar 13, 2025
•
17
2
Light-R1: 장문 사고 과정(Chain-of-Thought) 학습 및 그 이상을 위한 커리큘럼 기반 SFT, DPO 및 RL 접근법
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
•
Mar 13, 2025
•
28
4
VisualPRM: 다중 모달 추론을 위한 효과적인 프로세스 보상 모델
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang
•
Mar 13, 2025
•
36
3
CoRe^2: 더 나은 결과를 더 빠르게 생성하기 위한 수집, 반영 및 정제
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie
•
Mar 12, 2025
•
34
4
GoT: 시각적 생성 및 편집을 위한 멀티모달 대형 언어 모델의 추론 능력 발휘
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
•
Mar 13, 2025
•
50
2
확산 모델에서 다양성과 제어의 정제
Distilling Diversity and Control in Diffusion Models
Rohit Gandikota, David Bau
•
Mar 13, 2025
•
14
2
CINEMA: MLLM 기반 지도를 통한 일관된 다중 주제 비디오 생성
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance
Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma
•
Mar 13, 2025
•
11
2
비전 트랜스포머에서 영향력 있는 뉴런 경로 발견하기
Discovering Influential Neuron Path in Vision Transformers
Yifan Wang, Yifei Liu, Yingdong Shi, Changming Li, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren
•
Mar 12, 2025
•
6
2
UniGoal: 범용 제로샷 목표 지향 내비게이션을 향하여
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
•
Mar 13, 2025
•
6
2
조각을 모아라: IP-Priors를 활용한 부분 기반 개념화
Piece it Together: Part-Based Concepting with IP-Priors
Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or
•
Mar 13, 2025
•
8
2
ConsisLoRA: LoRA 기반 스타일 변환을 위한 콘텐츠 및 스타일 일관성 강화
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer
Bolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao
•
Mar 13, 2025
•
8
2
긴 문맥 조정을 통한 비디오 생성
Long Context Tuning for Video Generation
Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang
•
Mar 13, 2025
•
14
2
PoseLess: VLM을 통한 직접 이미지 매핑 기반의 깊이 정보 없이 시각에서 관절 제어로
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
•
Mar 10, 2025
•
3
2
"침묵은 실제로 침묵이 아니다": 버그 리포트 토론에서의 유해성 조사
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion
Mia Mohammad Imran, Jaydeb Sarker
•
Mar 13, 2025
•
4
2
실망스러울 정도로 단순하지만 매우 효과적인 공격 기법: GPT-4.5/4o/o1과 같은 강력한 블랙박스 모델에 대해 90% 이상의 성공률을 보이는 공격 베이스라인
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
•
Mar 13, 2025
•
3
2
4D LangSplat: 다중모드 대형 언어 모델을 통한 4D 언어 가우시안 스플래팅
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
•
Mar 13, 2025
•
32
2
Hugging Face의 모델 아틀라스 탐색 및 정리
Charting and Navigating Hugging Face's Model Atlas
Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen
•
Mar 13, 2025
•
79
6
내가 당신에게 `고양이.n.01`처럼 보이나요? 분류학적 이미지 생성 벤치마크
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina
•
Mar 13, 2025
•
11
2
대규모 추론 모델을 활용한 현대적 기계 번역의 새로운 트렌드
New Trends for Modern Machine Translation with Large Reasoning Models
Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang
•
Mar 13, 2025
•
23
2