ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Magpie: 정렬된 LLM에 아무것도 없는 상태에서 프롬프팅하여 처음부터 정렬 데이터 합성하기
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin•Jun 12, 2024•705

NaRCan: 비디오 편집을 위한 디퓨전 사전 지식 통합을 통한 자연스러운 정제된 정준 이미지
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu•Jun 10, 2024•532

LLaMA-3로 수십억 개의 웹 이미지를 다시 캡션하면 어떻게 될까?
What If We Recaption Billions of Web Images with LLaMA-3?

Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie•Jun 12, 2024•421

MotionClone: 제어 가능한 비디오 생성을 위한 학습 없는 모션 복제 기술
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin•Jun 8, 2024•424

Physics3D: 비디오 확산을 통해 3D 가우시안의 물리적 특성 학습
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan•Jun 6, 2024•404

MMLU를 끝냈는가?
Are We Done with MMLU?

Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini•Jun 6, 2024•401

PowerInfer-2: 스마트폰에서의 고속 대규모 언어 모델 추론
PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen•Jun 10, 2024•395

VideoLLaMA 2: 비디오-LLM에서 시공간 모델링 및 오디오 이해의 발전
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing•Jun 11, 2024•382

3D-GRAND: 더 나은 근거와 더 적은 환각을 위한 3D-LLM용 백만 규모 데이터셋
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai•Jun 7, 2024•312

MMWorld: 비디오 기반 다학제적 다면적 세계 모델 평가를 향하여
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang•Jun 12, 2024•290

Turbo Sparse: 최소 활성화 파라미터로 LLM SOTA 성능 달성
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen•Jun 10, 2024•282

FontStudio: 일관적이고 통일된 폰트 효과 생성을 위한 형태 적응형 확산 모델
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan•Jun 12, 2024•210

대규모 언어 모델을 위한 및 대규모 언어 모델과 함께하는 선호 최적화 알고리즘 탐구
Discovering Preference Optimization Algorithms with and for Large Language Models

Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange•Jun 12, 2024•170

AV-DiT: 오디오와 비디오의 결합 생성을 위한 효율적인 오디오-비주얼 디퓨전 트랜스포머
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian•Jun 11, 2024•170

고해상도 비디오 생성을 위한 계층적 패치 확산 모델
Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov•Jun 12, 2024•160

LLaVA-HD를 넘어서: 고해상도 대형 멀티모달 모델 탐구
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin•Jun 12, 2024•142

VCR: 시각적 캡션 복원
VCR: Visual Caption Restoration

Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio•Jun 10, 2024•131

임베딩 손상 프롬프트를 통한 대형 언어 모델 언러닝
Large Language Model Unlearning via Embedding-Corrupted Prompts

Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu•Jun 12, 2024•100

키메라: 2차원 상태 공간 모델을 활용한 다변량 시계열 효과적 모델링
Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

Ali Behrouz, Michele Santacatterina, Ramin Zabih•Jun 6, 2024•101

Hibou: 병리학을 위한 기초 비전 트랜스포머 패밀리
Hibou: A Family of Foundational Vision Transformers for Pathology

Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova•Jun 7, 2024•91

이산 데이터를 위한 단순화 및 일반화된 마스크 확산 모델
Simplified and Generalized Masked Diffusion for Discrete Data

Jiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, Michalis K. Titsias•Jun 6, 2024•70