KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Beseitigung von Übersättigung und Artefakten hoher Führungsskalen in Diffusionsmodellen
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber•Oct 3, 2024•314

Kontrastives Lokalisiertes Sprach-Bild-Vortraining
Contrastive Localized Language-Image Pre-Training

Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan•Oct 3, 2024•383

Open-RAG: Verbesserte Abruf-erweiterte Argumentation mit Open-Source-großen Sprachmodellen
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez•Oct 2, 2024•103

Loong: Generierung von Langvideos auf Minuten-Ebene mit autoregressiven Sprachmodellen
Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu•Oct 3, 2024•383

VinePPO: Erschließung des RL-Potenzials für LLM-Argumentation durch verfeinerte Kreditzuweisung
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux•Oct 2, 2024•252

CLIP-MoE: Auf dem Weg zum Aufbau eines Expertenmixes für CLIP mit diversifiziertem Multiplet-Upcycling.
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng•Sep 28, 2024•202

Kontextuelle Dokumenteneinbettungen
Contextual Document Embeddings

John X. Morris, Alexander M. Rush•Oct 3, 2024•234

Schichtaustausch für Null-Shot Cross-Lingual Transfer in großen Sprachmodellen
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models

Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu•Oct 2, 2024•53

MedVisionLlama: Nutzung vortrainierter großer Sprachmodellschichten zur Verbesserung der Segmentierung von medizinischen Bildern
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel•Oct 3, 2024•95

Synthio: Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha•Oct 2, 2024•62

SciPrompt: Wissensgestützte Aufforderungen zur Feinkategorisierung wissenschaftlicher Themen
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics

Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner•Oct 2, 2024•43

L-CiteEval: Nutzen Langkontext-Modelle tatsächlich den Kontext, um zu antworten?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang•Oct 3, 2024•103

LLaVA-Critic: Lernen, multimodale Modelle zu bewerten
LLaVA-Critic: Learning to Evaluate Multimodal Models

Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li•Oct 3, 2024•363

MVGS: Multi-View-gesteuertes Gauss'sches Splatting zur Synthese neuer Ansichten
MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis

Xiaobiao Du, Yida Wang, Xin Yu•Oct 2, 2024•83

Das Training von Sprachmodellen auf synthetischen Edit-Sequenzen verbessert die Codesynthese.
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus•Oct 3, 2024•123

Das Erlernen der latenten Regeln eines Spiels aus Daten: Eine Schachgeschichte
Learning the Latent Rules of a Game from Data: A Chess Story

Ben Fauber•Oct 3, 2024•52

Destillation eines End-to-End-Sprachassistenten ohne Anleitungstraining Daten
Distilling an End-to-End Voice Assistant Without Instruction Training Data

William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang•Oct 3, 2024•235

Robin3D: Verbesserung des 3D Large Language Model durch robustes Anweisungstuning
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan•Sep 30, 2024•52

Überprüfung von großangelegten Bildunterschriften-Daten beim Vorabtraining multimodaler Grundlagenmodelle
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang•Oct 3, 2024•552

Tiefenpro: Scharfe monokulare metrische Tiefe in weniger als einer Sekunde
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun•Oct 2, 2024•422

Große Sprachmodelle als Markow-Ketten
Large Language Models as Markov Chains

Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko•Oct 3, 2024•333

Verbesserung autonomer KI-Agenten mit reflektierender Baum-Suche und Selbstlernen.
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu•Oct 2, 2024•92

Intelligenz am Rand des Chaos
Intelligence at the Edge of Chaos

Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk•Oct 3, 2024•62

Interpretation und Bearbeitung von Seh-Sprach-Repräsentationen zur Minderung von Halluzinationen
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman•Oct 3, 2024•92

Vinoground: Untersuchung von LMMs zur dichten zeitlichen Schlussfolgerung mit kurzen Videos
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

Jianrui Zhang, Mu Cai, Yong Jae Lee•Oct 3, 2024•72

Videoinstruktionen optimieren mit synthetischen Daten
Video Instruction Tuning With Synthetic Data

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li•Oct 3, 2024•393

SageAttention: Präzise 8-Bit Aufmerksamkeit für Plug-and-Play Inferenzbeschleunigung
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen•Oct 3, 2024•505