ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
April 16th, 2024
Lernen Sie Ihr Referenzmodell für eine wirklich gute Ausrichtung.
Learn Your Reference Model for Real Good Alignment
Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
•
Apr 15, 2024
•
87
0
Megalodon: Effizientes LLM-Vortraining und Inferenz mit unbegrenzter Kontextlänge
Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length
Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou
•
Apr 12, 2024
•
68
2
TransformerFAM: Feedback-Aufmerksamkeit ist Arbeitsgedächtnis.
TransformerFAM: Feedback attention is working memory
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
•
Apr 14, 2024
•
44
0
Video2Game: Echtzeit-, interaktive, realistische und browserkompatible Umgebung aus einem einzigen Video
Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video
Hongchi Xia, Zhi-Hao Lin, Wei-Chiu Ma, Shenlong Wang
•
Apr 15, 2024
•
31
2
Kompression stellt Intelligenz linear dar.
Compression Represents Intelligence Linearly
Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He
•
Apr 15, 2024
•
28
1
Ctrl-Adapter: Ein effizientes und vielseitiges Framework zur Anpassung verschiedener Steuerungen an jedes Diffusionsmodell
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal
•
Apr 15, 2024
•
22
0
HQ-Edit: Ein hochwertiger Datensatz für die bildbasierte Bearbeitung von Anweisungen
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
•
Apr 15, 2024
•
13
0
Zum spekulativen Dekodieren für multimodale große Sprachmodelle
On Speculative Decoding for Multimodal Large Language Models
Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
•
Apr 13, 2024
•
13
2
Tango 2: Ausrichtung von auf Diffusion basierenden Text-zu-Audio-Generierungen durch direkte Präferenzoptimierung
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization
Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria
•
Apr 15, 2024
•
12
0
TextHawk: Erforschung der effizienten feinkörnigen Wahrnehmung multimodaler großer Sprachmodelle
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
•
Apr 14, 2024
•
11
0
Die Bändigung des Latent Diffusion Modells für das Ausfüllen von Neuronalen Strahlungsfeldern.
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
•
Apr 15, 2024
•
7
0
CompGS: Effiziente 3D Szenedarstellung durch komprimiertes Gauss'sches Splatting.
CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting
Xiangrui Liu, Xinju Wu, Pingping Zhang, Shiqi Wang, Zhu Li, Sam Kwong
•
Apr 15, 2024
•
7
0