ChatPaper.ai
메뉴 열기
홈
오늘의 논문
arXiv
HuggingFace
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
April 14th, 2025
PixelFlow: 픽셀 공간에서의 플로우 기반 생성 모델
PixelFlow: Pixel-Space Generative Models with Flow
Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
•
Apr 10, 2025
•
19
6
InteractVLM: 2D 기반 모델을 통한 3D 상호작용 추론
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
•
Apr 7, 2025
•
5
2
SQL-R1: 강화 학습을 통한 자연어-SQL 추론 모델 학습
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning
Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
•
Apr 11, 2025
•
26
2
SAE가 언러닝을 개선할 수 있다: LLM의 정밀 언러닝을 위한 동적 희소 오토인코더 가드레일
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
•
Apr 11, 2025
•
4
2
BlenderGym: 그래픽 편집을 위한 기초 모델 시스템 벤치마킹
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing
Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas
•
Apr 2, 2025
•
6
2
박사 수준의 대형 언어 모델은 정말로 기초 덧셈을 이해하는가? 대형 언어 모델에서 규칙 학습 대 암기 능력 탐구
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan
•
Apr 7, 2025
•
11
6
텍스트-비디오 생성에서 다중모드 계획 및 구조화된 노이즈 초기화를 통한 학습 없는 가이던스
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
•
Apr 11, 2025
•
7
2
UKBOB: 일반화 가능한 3D 의료 영상 분할을 위한 10억 개의 MRI 라벨 마스크
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi
•
Apr 9, 2025
•
7
2
In-2-4D: 단일 뷰 이미지 두 장에서 4D 생성으로의 중간 프레임 생성
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri
•
Apr 11, 2025
•
10
2
ZipIR: 고해상도 이미지 복원을 위한 잠재 피라미드 확산 트랜스포머
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
•
Apr 11, 2025
•
18
2
시각 연대기: 다중모달 LLM을 활용한 대규모 이미지 컬렉션 분석
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images
Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser
•
Apr 11, 2025
•
11
2
FlexIP: 맞춤형 이미지 생성을 위한 보존성과 개성의 동적 제어
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation
Linyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao
•
Apr 10, 2025
•
12
2
잠재 확산 오토인코더: 의료 영상에서 효율적이고 의미 있는 비지도 표현 학습을 향하여
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging
Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman
•
Apr 11, 2025
•
5
2
VLM-R1: 안정적이고 일반화 가능한 R1 스타일 대형 시각-언어 모델
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
•
Apr 10, 2025
•
31
2
ModernBERT vs DeBERTaV3? 트랜스포머 인코더 모델 성능에 미치는 아키텍처와 데이터 영향 분석
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
Wissam Antoun, Benoît Sagot, Djamé Seddah
•
Apr 11, 2025
•
10
3
GigaTok: 자율 회귀 이미지 생성을 위해 시각적 토크나이저를 30억 파라미터로 확장
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
•
Apr 11, 2025
•
47
2
Seaweed-7B: 비용 효율적인 비디오 생성 기반 모델 학습
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang
•
Apr 11, 2025
•
122
11
MineWorld: 마인크래프트 기반의 실시간 오픈소스 인터랙티브 월드 모델
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft
Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian
•
Apr 11, 2025
•
39
3
SpecReason: 추론 시간 계산을 위한 빠르고 정확한 사전 추론 기법
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
•
Apr 10, 2025
•
5
2
CoRAG: 협업형 검색 증강 생성
CoRAG: Collaborative Retrieval-Augmented Generation
Aashiq Muhamed, Mona Diab, Virginia Smith
•
Apr 2, 2025
•
10
2