ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
September 4th, 2024
Langrezept: Rezept für effiziente Generalisierung von langen Kontexten in großen Sprachmodellen
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models
Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
•
Aug 31, 2024
•
42
2
OD-VAE: Ein omni-dimensionaler Videokompressor zur Verbesserung des latenten Video-Diffusionsmodells
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
•
Sep 2, 2024
•
14
2
DepthCrafter: Generierung konsistenter langer Tiefensequenzen für Open-World-Videos
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan
•
Sep 3, 2024
•
37
3
Follow-Your-Canvas: Hochauflösendes Video-Outpainting mit umfangreicher Inhaltsgenerierung
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation
Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
•
Sep 2, 2024
•
6
2
Kompositionelle 3D-bewusste Videogenerierung mit LLM Director
Compositional 3D-aware Video Generation with LLM Director
Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
•
Aug 31, 2024
•
15
2
VideoLLaMB: Langzeit-Videoverständnis mit rekurrentem Gedächtnis Brücken
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges
Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
•
Sep 2, 2024
•
28
6
Präzise Kompression von Text-zu-Bild-Diffusionsmodellen durch Vektorquantisierung
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization
Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
•
Aug 31, 2024
•
11
2
OLMoE: Offene Mischung-von-Experten-Sprachmodelle
OLMoE: Open Mixture-of-Experts Language Models
Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi
•
Sep 3, 2024
•
80
4
LinFusion: 1 GPU, 1 Minute, 16K Bild
LinFusion: 1 GPU, 1 Minute, 16K Image
Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang
•
Sep 3, 2024
•
35
4
Kvasir-VQA: Ein Datensatz für Text-Bild-Paare des Magen-Darm-Trakts
Kvasir-VQA: A Text-Image Pair GI Tract Dataset
Sushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler
•
Sep 2, 2024
•
72
2
Diffusionsrichtlinienoptimierung
Diffusion Policy Policy Optimization
Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
•
Sep 1, 2024
•
21
2
Dichteadaptive Aufmerksamkeitsbasiertes Sprachnetzwerk: Verbesserung der Merkmalserfassung für psychische Störungen
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
•
Aug 31, 2024
•
4
3
PrivacyLens: Evaluierung des Datenschutznormbewusstseins von Sprachmodellen in Aktion
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action
Yijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang
•
Aug 29, 2024
•
1
2
Kontextzuweisung: Die Zuordnung der Modellgenerierung zum Kontext
ContextCite: Attributing Model Generation to Context
Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
•
Sep 1, 2024
•
14
3
GenAgent: Aufbau von kollaborativen KI-Systemen mit automatisiertem Workflow - Generierung von Fallstudien zu ComfyUI.
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI
Xiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai
•
Sep 2, 2024
•
9
3
Wissen, wann man fusionieren soll: Untersuchung der nicht-englischen hybriden Suche im juristischen Bereich
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
•
Sep 2, 2024
•
3
2
Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 durch ein vereinheitlichtes End-to-End-Modell
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
•
Sep 3, 2024
•
85
9
FLUX, das Musik spielt
FLUX that Plays Music
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
•
Sep 1, 2024
•
34
2
Der MERIT-Datensatz: Modellierung und effiziente Darstellung interpretierbarer Transkripte.
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts
I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez
•
Aug 31, 2024
•
2
2