KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

LlamaFactory: Vereinheitlichtes, effizientes Feintuning von über 100 Sprachmodellen
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo•Mar 20, 2024•934

Mora: Ermöglichen der generellen Videoerzeugung über ein Multi-Agenten-Framework
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun•Mar 20, 2024•797

Evolutionäre Optimierung von Modellverschmelzungsvorschriften
Evolutionary Optimization of Model Merging Recipes

Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha•Mar 19, 2024•544

Szenenskript: Rekonstruktion von Szenen mit einem autoregressiven strukturierten Sprachmodell
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas•Mar 19, 2024•322

Wann benötigen wir keine größeren Vision-Modelle?
When Do We Not Need Larger Vision Models?

Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell•Mar 19, 2024•262

IDAdapter: Erlernen gemischter Merkmale zur personalisierungsfreien Anpassung von Text-zu-Bild-Modellen
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Siying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng•Mar 20, 2024•241

RewardBench: Evaluierung von Belohnungsmodellen für Sprachmodellierung
RewardBench: Evaluating Reward Models for Language Modeling

Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi•Mar 20, 2024•232

RadSplat: Strahlungsfeldinformiertes Gaussches Splatting für robuste echtzeitfähige Darstellung mit mehr als 900 FPS.
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Michael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari•Mar 20, 2024•181

ZigMa: Zigzag-Mamba-Diffusionsmodell
ZigMa: Zigzag Mamba Diffusion Model

Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer•Mar 20, 2024•182

HyperLLaVA: Dynamische visuelle und sprachliche Expertenanpassung für multimodale große Sprachmodelle
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Wenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang•Mar 20, 2024•181

DepthFM: Schnelle monokulare Tiefenschätzung mit Flussabgleich
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer•Mar 20, 2024•171

Magisches Fixup: Optimierung der Fotobearbeitung durch Beobachtung von dynamischen Videos
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi•Mar 19, 2024•151

Umgekehrtes Training zur Pflege des Umkehrfluchs
Reverse Training to Nurse the Reversal Curse

Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar•Mar 20, 2024•131

Sei-dein-Outpainter: Beherrschung der Videoretusche durch anpassungsspezifische Anpassung
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li•Mar 20, 2024•111

VSTAR: Generative zeitliche Pflege zur längeren dynamischen Videosynthese
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva•Mar 20, 2024•93

Auf dem Weg zur 3D-Molekül-Text-Interpretation in Sprachmodellen
Towards 3D Molecule-Text Interpretation in Language Models

Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian•Jan 25, 2024•91

Compress3D: Ein komprimierter Latenter Raum für die 3D-Generierung aus einem einzigen Bild
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao•Mar 20, 2024•82

Bewertung von Spitzenmodellen für gefährliche Fähigkeiten
Evaluating Frontier Models for Dangerous Capabilities

Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane•Mar 20, 2024•71