ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
September 27th, 2024
Die Dringlichkeit der Gesprächsanalyse im Zeitalter von LLMs: Eine Umfrage zu Aufgaben, Techniken und Trends.
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends
Xinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang
•
Sep 21, 2024
•
13
2
Lotus: Diffusionsbasiertes visuelles Grundlagenmodell für hochwertige dichte Vorhersage
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction
Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen
•
Sep 26, 2024
•
34
2
Das Entdecken der Schätze in den frühen Schichten: Beschleunigung von Long-Context LLMs mit einer Reduzierung von 1000-fachen Eingabetokens.
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction
Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty
•
Sep 25, 2024
•
26
5
Pixel-Raum Post-Training von Latenten Diffusionsmodellen
Pixel-Space Post-Training of Latent Diffusion Models
Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
•
Sep 26, 2024
•
22
2
LLaVA-3D: Ein einfacher, aber effektiver Ansatz zur Stärkung von LMMs mit 3D-Bewusstsein
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
•
Sep 26, 2024
•
35
2
Reduzierung des Footprints von Multi-Vektor-Abruf mit minimalem Leistungseinfluss durch Token-Pooling.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
Benjamin Clavié, Antoine Chaffin, Griffin Adams
•
Sep 23, 2024
•
11
2
Anleitungsbefolgung ohne Anleitungseinstellung
Instruction Following without Instruction Tuning
John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
•
Sep 21, 2024
•
31
4
Disco4D: Entwirrte 4D-Menschengenerierung und -animation aus einem einzigen Bild
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image
Hui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu
•
Sep 25, 2024
•
11
2
MaskLLM: Lernbare halbstrukturierte Sparsamkeit für große Sprachmodelle
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models
Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang
•
Sep 26, 2024
•
48
3
EMOVA: Ermächtigung von Sprachmodellen, um mit lebendigen Emotionen zu Sehen, Hören und Sprechen.
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
•
Sep 26, 2024
•
41
13
Roboter sieht, Roboter tut: Imitation von manipulierten Objekten mit monokularer 4D-Rekonstruktion
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
•
Sep 26, 2024
•
9
2
Verbesserung der strukturierten Datenabfrage mit GraphRAG: Fallstudie zu Fußballdaten
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study
Zahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen
•
Sep 26, 2024
•
9
2