ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Design2Code: Wie weit sind wir von der Automatisierung des Front-End-Engineerings entfernt?
Design2Code: How Far Are We From Automating Front-End Engineering?

Chenglei Si, Yanzhe Zhang, Zhengyuan Yang, Ruibo Liu, Diyi Yang•Mar 5, 2024•982

Skalierung von Rectified Flow-Transformatoren für die Synthese hochauflösender Bilder
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach•Mar 5, 2024•683

OOTDiffusion: Bekleidungsfusion basierte latente Diffusion für kontrollierbares virtuelles Anprobieren
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen•Mar 4, 2024•312

MovieLLM: Verbesserung des Verständnisses langer Videos durch KI-generierte Filme
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies

Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen•Mar 3, 2024•306

AtomoVideo: Hochwertige Bild-zu-Video-Generierung
AtomoVideo: High Fidelity Image-to-Video Generation

Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng•Mar 4, 2024•245

DenseMamba: Zustandsraummodelle mit dichten verborgenen Verbindungen für effiziente große Sprachmodelle
DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models

Wei He, Kai Han, Yehui Tang, Chengcheng Wang, Yujie Yang, Tianyu Guo, Yunhe Wang•Feb 26, 2024•202

InfiMM-HD: Ein Fortschritt im hochauflösenden multimodalen Verständnis
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang•Mar 3, 2024•161

ResAdapter: Domänenkonsistenter Auflösungsadapter für Diffusionsmodelle
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models

Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu•Mar 4, 2024•151

TripoSR: Schnelle 3D-Objektrekonstruktion aus einem einzelnen Bild
TripoSR: Fast 3D Object Reconstruction from a Single Image

Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, Yan-Pei Cao•Mar 4, 2024•143

RT-H: Aktionshierarchien mittels Sprache
RT-H: Action Hierarchies Using Language

Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh•Mar 4, 2024•91

ViewDiff: 3D-konsistente Bildgenerierung mit Text-zu-Bild-Modellen
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner•Mar 4, 2024•91

Rauschunterdrückung ohne Feinabstimmung für hochwertige Bild-zu-Video-Generierung
Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

Weijie Li, Litong Gong, Yiran Zhu, Fanda Fan, Biao Wang, Tiezheng Ge, Bo Zheng•Mar 5, 2024•81

Deckel mit beiden Händen abschrauben
Twisting Lids Off with Two Hands

Toru Lin, Zhao-Heng Yin, Haozhi Qi, Pieter Abbeel, Jitendra Malik•Mar 4, 2024•71

3DGStream: Echtzeit-Training von 3D-Gaußschen für effizientes Streaming fotorealistischer Freisicht-Videos
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing•Mar 3, 2024•60