AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Web-Shepherd: 웹 에이전트 강화를 위한 PRM(Probabilistic Roadmap) 기술의 발전
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo•May 21, 2025•864

MMaDA: 멀티모달 대규모 확산 언어 모델
MMaDA: Multimodal Large Diffusion Language Models

Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang•May 21, 2025•643

양자화 인지 훈련을 위한 스케일링 법칙
Scaling Law for Quantization-Aware Training

Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo•May 20, 2025•592

UniVG-R1: 강화 학습 기반 추론 주도 범용 시각적 그라운딩
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning

Sule Bai, Mingxing Li, Yong Liu, Jing Tang, Haoji Zhang, Lei Sun, Xiangxiang Chu, Yansong Tang•May 20, 2025•465

확산 모델 대 자동회귀 언어 모델: 텍스트 임베딩 관점에서의 비교
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Siyue Zhang, Yilun Zhao, Liyuan Geng, Arman Cohan, Anh Tuan Luu, Chen Zhao•May 21, 2025•442

컴퓨터 사용을 위한 효율적인 에이전트 훈련
Efficient Agent Training for Computer Use

Yanheng He, Jiahe Jin, Pengfei Liu•May 20, 2025•372

이번에는 다르다: 시계열 파운데이션 모델의 관측 가능성 관점
This Time is Different: An Observability Perspective on Time Series Foundation Models

Ben Cohen, Emaad Khwaja, Youssef Doubli, Salahidine Lemaachi, Chris Lettieri, Charles Masson, Hugo Miccinilli, Elise Ramé, Qiqi Ren, Afshin Rostamizadeh, Jean Ogier du Terrail, Anna-Monica Toon, Kan Wang, Stephan Xie, David Asker, Ameet Talwalkar, Othmane Abou-Amal•May 20, 2025•323

적응형 길이 기반 보상 형성을 통한 효율적 추론 학습
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He•May 21, 2025•281

단일 이미지로부터 3D 타운 구축하기
Constructing a 3D Town from a Single Image

Kaizhi Zheng, Ruijian Zhang, Jing Gu, Jie Yang, Xin Eric Wang•May 21, 2025•193

언제 사고를 계속할 것인가: 효율적 추론을 위한 적응적 사고 모드 전환
When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai•May 21, 2025•192

Vid2World: 인터랙티브 월드 모델을 위한 비디오 확산 모델 구축
Vid2World: Crafting Video Diffusion Models to Interactive World Models

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long•May 20, 2025•192

lmgame-Bench: LLM은 게임을 얼마나 잘 할 수 있을까?
lmgame-Bench: How Good are LLMs at Playing Games?

Lanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang•May 21, 2025•183

VerifyBench: 대규모 언어 모델을 위한 참조 기반 보상 시스템 벤치마킹
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

Yuchen Yan, Jin Jiang, Zhenbang Ren, Yijun Li, Xudong Cai, Yang Liu, Xin Xu, Mengdi Zhang, Jian Shao, Yongliang Shen, Jun Xiao, Yueting Zhuang•May 21, 2025•152

사전 지식에 대한 고찰: 지식 그래프 상에서 대규모 언어 모델의 신뢰할 수 있는 추론
Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs

Jie Ma, Ning Qu, Zhitao Gao, Rui Xing, Jun Liu, Hongbin Pei, Jiang Xie, Linyun Song, Pinghui Wang, Jing Tao, Zhou Su•May 21, 2025•142

IA-T2I: 인터넷 증강 텍스트-이미지 생성
IA-T2I: Internet-Augmented Text-to-Image Generation

Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang•May 21, 2025•132

혼합 사고를 통한 논리적 추론 학습
Learning to Reason via Mixture-of-Thought for Logical Reasoning

Tong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang•May 21, 2025•122

dKV-Cache: 확산 언어 모델을 위한 캐시
dKV-Cache: The Cache for Diffusion Language Models

Xinyin Ma, Runpeng Yu, Gongfan Fang, Xinchao Wang•May 21, 2025•112

오픈소스 LLM에 대한 미세 조정 시 주의하라: 당신의 미세 조정 데이터가 몰래 도난당할 수 있다!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang•May 21, 2025•112

대규모 추론 모델의 안전성을 어떻게 강화할 것인가: 실증적 연구
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study

Zhexin Zhang, Xian Qi Loye, Victor Shea-Jay Huang, Junxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang•May 21, 2025•112

소프트 사고: 연속 개념 공간에서 대형 언어 모델의 추론 잠재력 개방
Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

Zhen Zhang, Xuehai He, Weixiang Yan, Ao Shen, Chenyang Zhao, Shuohang Wang, Yelong Shen, Xin Eric Wang•May 21, 2025•102

RLVR-World: 강화 학습을 활용한 세계 모델 훈련
RLVR-World: Training World Models with Reinforcement Learning

Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long•May 20, 2025•102

BARREL: 사실적이고 신뢰할 수 있는 LRM을 위한 경계 인식 추론
BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

Junxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang, Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang•May 18, 2025•102

ConvSearch-R1: 강화 학습을 통한 추론 기반 대화형 검색 쿼리 재구성 향상
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu•May 21, 2025•92

이산 토큰 샘플링을 넘어서는 텍스트 생성
Text Generation Beyond Discrete Token Sampling

Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao•May 20, 2025•72

수동 테스트 세트 없이 편향성 평가하기: 대형 언어 모델을 위한 개념 표현 관점
Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

Lang Gao, Kaiyang Wan, Wei Liu, Chenxi Wang, Zirui Song, Zixiang Xu, Yanbo Wang, Veselin Stoyanov, Xiuying Chen•May 21, 2025•62

AutoMat: 에이전트 도구 활용을 통한 현미경 이미지 기반 결정 구조 자동 재구성
AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use

Yaotian Yang, Yiwen Tang, Yizhe Chen, Xiao Chen, Jiangjie Qiu, Hao Xiong, Haoyu Yin, Zhiyao Luo, Yifei Zhang, Sijia Tao, Wentao Li, Qinghua Zhang, Yuqiang Li, Wanli Ouyang, Bin Zhao, Xiaonan Wang, Fei Wei•May 19, 2025•62

DiCo: 확장 가능하고 효율적인 확산 모델링을 위한 ConvNet의 재활성화
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang•May 16, 2025•52

오디오 탈옥: 대규모 오디오-언어 모델 탈옥을 위한 공개적이고 포괄적인 벤치마크
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen•May 21, 2025•42

VARD: 값 기반 강화 학습을 통한 확산 모델의 효율적이고 조밀한 미세 조정
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan•May 21, 2025•32

PiFlow: 다중 에이전트 협업을 통한 원리 기반 과학적 발견
PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration

Yingming Pu, Tao Lin, Hongyu Chen•May 21, 2025•32

RL Tango: 언어 추론을 위한 생성기와 검증기의 공동 강화 학습
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi•May 21, 2025•32

WebNovelBench: 웹 소설 배포 환경에서의 LLM 소설가 평가
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

Leon Lin, Jun Zheng, Haidong Wang•May 20, 2025•32

사전 프롬프트 엔지니어링을 통한 강화 학습 미세 조정
Prior Prompt Engineering for Reinforcement Fine-Tuning

Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul•May 20, 2025•32

BLEUBERI: BLEU는 지시 따르기 작업에서 놀라울 정도로 효과적인 보상 지표입니다.
BLEUBERI: BLEU is a surprisingly effective reward for instruction following

Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer•May 16, 2025•32

희생 없이 효율화하기 - LMM에서 계산 중복성 제거
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

Penghao Wu, Lewei Lu, Ziwei Liu•May 21, 2025•22

LLM 기반 AVSR의 확장 및 향상: 희소 프로젝터 혼합 접근법
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti•May 20, 2025•22

BanditSpec: 밴딧 알고리즘을 통한 적응형 스펙큘레이티브 디코딩
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms

Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan, Tianyu Pang, Chao Du, Vincent Y. F. Tan, Zhuoran Yang•May 21, 2025•12

LLM 추론에서 엔트로피 최소화의 비합리적 효용성
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng•May 21, 2025•12

MultiHal: 다국어 지식 그래프 기반 LLM 환각 현상 평가 데이터셋
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations

Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva•May 20, 2025•12

HumaniBench: 대규모 멀티모달 모델 평가를 위한 인간 중심 프레임워크
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya•May 16, 2025•12

언어별 지식: 모델은 영어보다 X에서 더 잘 아는가?
Language Specific Knowledge: Do Models Know Better in X than in English?

Ishika Agarwal, Nimet Beyza Bozdag, Dilek Hakkani-Tür•May 21, 2025•02

문맥 학습을 통한 화자 및 언어 변이에 대한 인간과 유사한 적응 방식이 음성 인식 성능을 향상시킴
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties

Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky•May 20, 2025•02