ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

ScienceBoard: 현실적인 과학 워크플로우에서 다중모달 자율 에이전트 평가
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu•May 26, 2025•962

Paper2Poster: 과학 논문에서 다중 모달 포스터 자동 생성 기술 연구
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr•May 27, 2025•811

MME-Reasoning: MLLM을 위한 논리적 추론 종합 벤치마크
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue•May 27, 2025•783

OmniConsistency: 스타일화된 데이터 쌍에서 스타일-불변 일관성 학습
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Yiren Song, Cheng Liu, Mike Zheng Shou•May 24, 2025•622

SynLogic: 논리적 추론 및 그 이상을 학습하기 위한 검증 가능한 추론 데이터의 대규모 합성
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He•May 26, 2025•572

원스텝 텍스트 생성을 위한 대형 언어 모델의 잠재력 탐구
Exploring the Latent Capacity of LLMs for One-Step Text Generation

Gleb Mezentsev, Ivan Oseledets•May 27, 2025•561

OpenS2V-Nexus: 주제-비디오 생성을 위한 상세 벤치마크 및 백만 규모 데이터셋
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan•May 26, 2025•523

너무 깊이 생각하지 마라. 더 짧은 사고 사슬을 선호하여 LLM 추론 향상하기
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Michael Hassid, Gabriel Synnaeve, Yossi Adi, Roy Schwartz•May 23, 2025•494

MMMR: 대규모 다중 모달 추론 과제 벤치마킹
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun•May 22, 2025•444

장(腸)의 직감에 따른 안내: 강화된 내재적 신뢰를 통한 효율적인 테스트 시점 스케일링
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu•May 23, 2025•422

VerIPO: 검증자 기반 반복 정책 최적화를 통한 비디오-LLM의 장기 추론 능력 강화
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang•May 25, 2025•385

Sparse VideoGen2: 시맨틱 인지 순열을 통한 희소 어텐션 기반 비디오 생성 가속화
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica•May 24, 2025•372

MME-VideoOCR: 비디오 시나리오에서 다중모달 LLM의 OCR 기반 능력 평가
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang•May 27, 2025•361

UI-Genie: MLLM 기반 모바일 GUI 에이전트의 반복적 성능 향상을 위한 자기 개선 접근법
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li•May 27, 2025•351

GraLoRA: 파라미터 효율적 미세 조정을 위한 세분화된 저순위 적응
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park•May 26, 2025•332

Video-Holmes: MLLM이 복잡한 비디오 추론을 위해 홈즈처럼 사고할 수 있을까?
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan•May 27, 2025•272

SweEval: LLM은 정말로 욕설을 사용하는가? 기업용 안전성 테스트를 위한 벤치마크
SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use

Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae•May 22, 2025•273

rStar-Coder: 대규모 검증된 데이터셋을 통한 경쟁력 있는 코드 추론의 확장
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang•May 27, 2025•254

검증기 없이 일반 추론 능력 강화하기
Reinforcing General Reasoning without Verifiers

Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du•May 27, 2025•242

MetaMind: 메타인지 다중 에이전트 시스템을 통한 인간의 사회적 사고 모델링
MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

Xuanming Zhang, Yuxuan Chen, Min-Hsuan Yeh, Yixuan Li•May 25, 2025•244

코드 그래프 모델(CGM): 리포지토리 수준 소프트웨어 엔지니어링 작업을 위한 그래프 통합 대형 언어 모델
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks

Hongyuan Tao, Ying Zhang, Zhenhao Tang, Hongen Peng, Xukun Zhu, Bingchang Liu, Yingguang Yang, Ziyin Zhang, Zhaogui Xu, Haipeng Zhang, Linchao Zhu, Rui Wang, Hang Yu, Jianguo Li, Peng Di•May 22, 2025•192

HoliTom: 고속 비디오 대형 언어 모델을 위한 통합 토큰 병합
HoliTom: Holistic Token Merging for Fast Video Large Language Models

Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang•May 27, 2025•182

MotionPro: 이미지-비디오 생성을 위한 정밀 모션 컨트롤러
MotionPro: A Precise Motion Controller for Image-to-Video Generation

Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei•May 26, 2025•183

증류를 넘어서: 최소한의 규칙 기반 강화 학습으로 의료 LLM 추론의 한계를 넘다
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci•May 23, 2025•182

정렬(Alignment)이 LLM의 다국어 능력을 어떻게 강화하는가? 언어 뉴런 관점에서의 분석
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective

Shimao Zhang, Zhejian Lai, Xiang Liu, Shuaijie She, Xiao Liu, Yeyun Gong, Shujian Huang, Jiajun Chen•May 27, 2025•172

NOVA: 뇌 MRI에서의 이상 징후 위치 파악 및 임상적 추론을 위한 벤치마크
NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

Cosmin I. Bercea, Jun Li, Philipp Raffler, Evamaria O. Riedel, Lena Schmitzer, Angela Kurz, Felix Bitzer, Paula Roßmüller, Julian Canisius, Mirjam L. Beyrle, Che Liu, Wenjia Bai, Bernhard Kainz, Julia A. Schnabel, Benedikt Wiestler•May 20, 2025•172

ImgEdit: 통합 이미지 편집 데이터셋 및 벤치마크
ImgEdit: A Unified Image Editing Dataset and Benchmark

Yang Ye, Xianyi He, Zongjian Li, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Bohan Hou, Li Yuan•May 26, 2025•163

Frame In-N-Out: 제한 없는 제어 가능한 이미지-투-비디오 생성
Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng•May 27, 2025•152

DetailFlow: 다음 디테일 예측을 통한 1D 코스-투-파인 자기회귀 이미지 생성
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu•May 27, 2025•132

Active-O3: GRPO를 통한 능동적 인지로 다중모달 대형 언어 모델 강화
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen•May 27, 2025•132

프롬프트 엔지니어링을 넘어서: 스티어링을 통한 LLM의 강력한 행동 제어 타겟 원자
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang•May 23, 2025•132

FinTagging: 재무 정보 추출 및 구조화를 위한 LLM 준비 벤치마크
FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information

Yan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie•May 27, 2025•122

ViewSpatial-Bench: 시각-언어 모델의 다중 관점 공간 위치 인식 능력 평가
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang•May 27, 2025•102

사고자: 빠르고 느린 사고를 배우기
Thinker: Learning to Think Fast and Slow

Stephen Chung, Wenyu Du, Jie Fu•May 27, 2025•92

벡터 그래픽 생성을 위한 렌더링 인지 강화 학습
Rendering-Aware Reinforcement Learning for Vector Graphics Generation

Juan A. Rodriguez, Haotian Zhang, Abhay Puri, Aarash Feizi, Rishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli•May 27, 2025•93

VisualToolAgent (VisTA): 시각적 도구 선택을 위한 강화 학습 프레임워크
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee•May 26, 2025•92

폐쇄형 다중 모달 대형 언어 모델에 대한 특징 최적 정렬 기반 적대적 공격
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu•May 27, 2025•82

SeePhys: 시각 정보가 사고를 돕는가? -- 시각 기반 물리 추론 벤치마킹
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning

Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang•May 25, 2025•83

MMMG: 다중 작업 다중 모달 생성을 위한 포괄적이고 신뢰할 수 있는 평가 도구
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation

Jihan Yao, Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu•May 23, 2025•82

MMPerspective: MLLM이 관점을 이해하는가? 관점 인식, 추론 및 견고성을 위한 포괄적 벤치마크
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness

Yunlong Tang, Pinxin Liu, Mingqian Feng, Zhangyun Tan, Rui Mao, Chao Huang, Jing Bi, Yunzhong Xiao, Susan Liang, Hang Hua, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Chenliang Xu•May 26, 2025•61

알리타: 최소한의 사전 정의와 최대의 자기 진화를 통해 확장 가능한 에이전트 추론을 가능하게 하는 범용 에이전트
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang•May 26, 2025•64

VideoGameBench: 비전-언어 모델이 인기 비디오 게임을 완료할 수 있을까?
VideoGameBench: Can Vision-Language Models complete popular video games?

Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press•May 23, 2025•63

LLM의 컨텍스트 윈도우를 넘어선 외부 지식 입력 확장: 다중 에이전트 협업을 통한 접근
Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration

Zijun Liu, Zhennan Wan, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu•May 27, 2025•52

달리기 전에 걷자! 강화 학습을 통한 간결한 LLM 추론
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

Mingyang Song, Mao Zheng•May 27, 2025•52

이중 병렬성을 갖춘 1분 길이의 동영상
Minute-Long Videos with Dual Parallelisms

Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang•May 27, 2025•52

마르코비안을 넘어서: LLM 추론을 위한 베이즈 적응형 강화학습을 통한 반사적 탐색
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

Shenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li•May 26, 2025•52

압축된 LLM이 진정으로 행동할 수 있는가? LLM 압축에서의 에이전트 능력에 대한 실증적 평가
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression

Peijie Dong, Zhenheng Tang, Xiang Liu, Lujun Li, Xiaowen Chu, Bo Li•May 26, 2025•51

BiomedSQL: 생의학 지식 기반을 위한 과학적 추론을 위한 텍스트-to-SQL
BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases

Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri•May 23, 2025•52

R1-Searcher++: 강화 학습을 통한 LLM의 동적 지식 획득 유도
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning

Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen•May 22, 2025•52

생각 중 탐색 및 정제: 대규모 언어 모델의 자율적 검색 강화 추론
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang•May 16, 2025•51

Sci-Fi: 프레임 인비트위닝을 위한 대칭적 제약
Sci-Fi: Symmetric Constraint for Frame Inbetweening

Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan•May 27, 2025•42

SoloSpeech: 캐스케이드 생성 파이프라인을 통한 목표 음성 추출의 명료성 및 품질 향상
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak•May 25, 2025•42

MLLM(Multimodal Large Language Model)은 모달리티 편향에 깊은 영향을 받는다.
MLLMs are Deeply Affected by Modality Bias

Xu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu•May 24, 2025•42

공간 지식 그래프 기반 다중모달 합성
Spatial Knowledge Graph-Guided Multimodal Synthesis

Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang•May 28, 2025•31

역 가상 피팅: 의복 착용자로부터 다중 카테고리 제품 스타일 이미지 생성
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe•May 27, 2025•31

VLM-3R: 명령어 정렬 3D 재구성으로 강화된 시각-언어 모델
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan•May 26, 2025•32

LLM 레드팀을 위한 능력 기반 스케일링 법칙
Capability-Based Scaling Laws for LLM Red-Teaming

Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping•May 26, 2025•32

DFIR-Metric: 디지털 포렌식 및 사고 대응에서 대규모 언어 모델 평가를 위한 벤치마크 데이터셋
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi•May 26, 2025•32

모달리티 큐레이션: 고급 다중모달 정보 검색을 위한 범용 임베딩 구축
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval

Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng Zhang, Guorui Zhou•May 26, 2025•32

ComfyMind: 트리 기반 계획 및 반응적 피드백을 통한 범용 생성 모델 연구
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen•May 23, 2025•33

AdInject: 광고 전달을 통한 웹 에이전트에 대한 실세계 블랙박스 공격
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang•May 27, 2025•22

SATORI-R1: 공간적 기반과 검증 가능한 보상을 통한 다중모드 추론 유도
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards

Chuming Shen, Wei Wei, Xiaoye Qu, Yu Cheng•May 25, 2025•22

PreMoe: 전문가 가지치기와 검색을 통한 제한된 메모리에서의 MoE 경량화
PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval

Zehua Pei, Ying Zhang, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu•May 23, 2025•22

R1-ShareVL: Share-GRPO를 통한 멀티모달 대규모 언어 모델의 추론 능력 강화
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang•May 22, 2025•22

절대 좌표는 모션 생성(motion generation)을 쉽게 만듭니다.
Absolute Coordinates Make Motion Generation Easy

Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang•May 26, 2025•12

CoreMatching: 토큰 및 뉴런 프루닝을 통한 공동 적응형 희소 추론 프레임워크를 활용한 비전-언어 모델의 포괄적 가속화
CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen•May 25, 2025•11

자동화된 사실 확인에서 불확실성의 원인 분석
Explaining Sources of Uncertainty in Automated Fact-Checking

Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein•May 23, 2025•11

열대적 주의: 조합 알고리즘을 위한 신경 알고리즘 추론
Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms

Baran Hashemi, Kurt Pasque, Chris Teska, Ruriko Yoshida•May 22, 2025•11

SMILES 파싱을 통한 대형 언어 모델의 화학적 이해 향상
Improving Chemical Understanding of LLMs via SMILES Parsing

Yunhui Jang, Jaehyung Kim, Sungsoo Ahn•May 22, 2025•12

RAG 시스템은 위치 편향에 취약한가?
Do RAG Systems Suffer From Positional Bias?

Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri•May 21, 2025•12

자기-증류 레지스터를 활용한 비전 트랜스포머
Vision Transformers with Self-Distilled Registers

Yinjie Chen, Zipeng Yan, Chong Zhou, Bo Dai, Andrew F. Luo•May 27, 2025•02

Ankh3: 시퀀스 노이즈 제거 및 완성을 통한 다중 작업 사전 학습이 단백질 표현을 향상시킴
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

단순 연결을 넘어서: 다중 체인 단백질-단백질 상호작용 예측을 위한 PLM 아키텍처의 공정한 평가
Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction

Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar•May 26, 2025•02

강화 학습 최적화된 대형 언어 모델 추론을 통한 신경퇴행성 치매의 설명 가능한 진단 프레임워크
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning

Andrew Zamai, Nathanael Fijalkow, Boris Mansencal, Laurent Simon, Eloi Navet, Pierrick Coupe•May 26, 2025•02