ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
November 28th, 2024
Bearbeite weg und mein Gesicht wird nicht bleiben: Persönliche biometrische Verteidigung gegen bösartige generative Bearbeitung
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
•
Nov 25, 2024
•
2
3
ROICtrl: Steigerung der Instanzsteuerung für visuelle Generierung
ROICtrl: Boosting Instance Control for Visual Generation
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
•
Nov 27, 2024
•
71
2
Verschränkter Szenengraph für die verschränkte Text- und Bildgenerierung Bewertung
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
•
Nov 26, 2024
•
19
2
Traumcache: Feinabstimmungsfreie, leichte personalisierte Bildgenerierung über Merkmalszwischenspeicherung
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
•
Nov 26, 2024
•
12
3
3D Konvexes Splatting: Strahlungsfeld-Rendering mit 3D-glättenden Konvexen
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
•
Nov 22, 2024
•
17
5
Identitätserhaltende Text-zu-Video-Generierung durch Frequenzzerlegung
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
•
Nov 26, 2024
•
13
3
CAT4D: Erschaffen Sie alles in 4D mit Multi-View Video Diffusionsmodellen
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
•
Nov 27, 2024
•
57
5
Entwurfmodell weiß, wann es aufhören soll: Eine Selbstverifizierungslängenrichtlinie für spekulative Decodierung.
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
•
Nov 27, 2024
•
6
2
Video-gesteuerte Foley-Sound-Erzeugung mit multimodalen Steuerelementen.
Video-Guided Foley Sound Generation with Multimodal Controls
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
•
Nov 26, 2024
•
10
2
MARVEL-40M+: Mehrstufige visuelle Ausarbeitung für hochwertige Text-zu-3D-Inhalteerstellung
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
•
Nov 26, 2024
•
21
4
Kollaboratives Decodieren macht visuelle autoregressive Modellierung effizient.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
•
Nov 26, 2024
•
12
2
DiffusionDrive: Trunkiertes Diffusionsmodell für autonomes Fahren von Anfang bis Ende
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
•
Nov 22, 2024
•
15
2
Make-It-Animatable: Ein effizientes Framework zur Erstellung von animationsbereiten 3D-Charakteren.
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
•
Nov 27, 2024
•
14
4
VideoLLM weiß, wann es sprechen soll: Verbesserung der zeitkritischen Videoverständnis mit dem Video-Text-Duett-Interaktionsformat.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
•
Nov 27, 2024
•
5
2
UniPose: Ein vereinheitlichtes multimodales Framework für das Verständnis, die Generierung und Bearbeitung menschlicher Körperhaltungen.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
•
Nov 25, 2024
•
11
4
Adaptive Blind All-in-One Bildwiederherstellung
Adaptive Blind All-in-One Image Restoration
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
•
Nov 27, 2024
•
4
2
Optimierung der Hirntumor-Segmentierung mit MedNeXt: BraTS 2024 SSA und Pädiatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
•
Nov 24, 2024
•
5
2
Große Sprachmodell-basierte GUI-Agenten: Eine Übersicht
Large Language Model-Brained GUI Agents: A Survey
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Nov 27, 2024
•
32
3
Diffusions-Selbstdestillation zur individuellen Bildgenerierung ohne vorheriges Training
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
•
Nov 27, 2024
•
16
6
Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem
Training and Evaluating Language Models with Template-based Data Generation
Yifan Zhang
•
Nov 27, 2024
•
3
3
Omeganz: Ein einzelner Parameter für verschiedene Feinheitsgrade in der diffusionsbasierten Synthese
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
•
Nov 26, 2024
•
7
2
ChatRex: Bändigung des Multimodalen LLM für Gemeinsame Wahrnehmung und Verständnis
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
•
Nov 27, 2024
•
10
3