ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Magpie: 整列済みLLMをゼロからプロンプトして生成するアライメントデータ合成
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin•Jun 12, 2024•705

NaRCan:拡散モデルの事前知識を統合した自然な精緻化カノニカル画像によるビデオ編集
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu•Jun 10, 2024•532

もしLLaMA-3で数十億のウェブ画像を再キャプションしたらどうなるだろうか?
What If We Recaption Billions of Web Images with LLaMA-3?

Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie•Jun 12, 2024•421

MotionClone: 制御可能な動画生成のためのトレーニング不要なモーションクローニング
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin•Jun 8, 2024•424

Physics3D: ビデオ拡散を介した3Dガウシアンの物理的特性の学習
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan•Jun 6, 2024•404

MMLUはもう終わりなのか?
Are We Done with MMLU?

Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini•Jun 6, 2024•401

PowerInfer-2: スマートフォン上での高速大規模言語モデル推論
PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen•Jun 10, 2024•395

VideoLLaMA 2: ビデオLLMにおける時空間モデリングと音声理解の進展
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing•Jun 11, 2024•382

3D-GRAND: より優れた接地性と低い幻覚を実現する100万規模の3D-LLM向けデータセット
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai•Jun 7, 2024•312

MMWorld: ビデオにおける多分野・多面的世界モデル評価の実現に向けて
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang•Jun 12, 2024•290

Turbo Sparse: 最小の活性化パラメータでLLMのSOTA性能を実現
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen•Jun 10, 2024•282

FontStudio: 形状適応型拡散モデルによる一貫性のあるフォント効果生成
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan•Jun 12, 2024•210

大規模言語モデルを用いた、および大規模言語モデルのための選好最適化アルゴリズムの発見
Discovering Preference Optimization Algorithms with and for Large Language Models

Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange•Jun 12, 2024•170

AV-DiT:音声と映像の共同生成のための効率的なオーディオビジュアル拡散トランスフォーマー
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian•Jun 11, 2024•170

高解像度動画生成のための階層的パッチ拡散モデル
Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov•Jun 12, 2024•160

LLaVA-HDを超えて:高解像度大規模マルチモーダルモデルへの探求
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin•Jun 12, 2024•142

VCR: ビジュアルキャプション復元
VCR: Visual Caption Restoration

Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio•Jun 10, 2024•131

大規模言語モデルの忘却を促すための埋め込み破損プロンプト
Large Language Model Unlearning via Embedding-Corrupted Prompts

Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu•Jun 12, 2024•100

キメラ:2次元状態空間モデルによる多変量時系列の効果的なモデリング
Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

Ali Behrouz, Michele Santacatterina, Ramin Zabih•Jun 6, 2024•101

Hibou:病理学のための基盤的ビジョントランスフォーマーファミリー
Hibou: A Family of Foundational Vision Transformers for Pathology

Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova•Jun 7, 2024•91

簡略化・一般化された離散データ向けマスク拡散モデル
Simplified and Generalized Masked Diffusion for Discrete Data

Jiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, Michalis K. Titsias•Jun 6, 2024•70