ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
July 10th, 2024
Sprachmodelle für die Bildverarbeitung sind blind.
Vision language models are blind
Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen
•
Jul 9, 2024
•
83
17
AgentInstruct: Auf dem Weg zum generativen Unterrichten mit agentischen Strömen
AgentInstruct: Toward Generative Teaching with Agentic Flows
Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah
•
Jul 3, 2024
•
51
15
Internet der Agenten: Ein Netzwerk heterogener Agenten für kollaborative Intelligenz knüpfen
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence
Weize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun
•
Jul 9, 2024
•
28
4
Video-STaR: Selbsttraining ermöglicht die Feinabstimmung von Videoanweisungen mit jeder Art von Aufsicht.
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy
•
Jul 8, 2024
•
27
3
RodinHD: Hochauflösende 3D-Avatar-Erzeugung mit Diffusionsmodellen
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models
Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo
•
Jul 9, 2024
•
24
1
Anpassung von LLMs an Hebräisch: Enthüllung von DictaLM 2.0 mit erweiterter Vokabular- und Anleitungsfähigkeit.
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities
Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel
•
Jul 9, 2024
•
22
1
MiraData: Ein umfangreiches Videodatenset mit langen Dauer und strukturierten Untertiteln.
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
•
Jul 8, 2024
•
19
1
BM25S: Um Größenordnungen schnellere lexikalische Suche durch eifriges spärliches Scoring.
BM25S: Orders of magnitude faster lexical search via eager sparse scoring
Xing Han Lù
•
Jul 4, 2024
•
13
3
Rückblicklinse: Erkennung und Minderung von Kontext-Halluzinationen in großen Sprachmodellen unter Verwendung nur von Aufmerksamkeitskarten
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass
•
Jul 9, 2024
•
12
3
TheoremLlama: Die Transformation von allgemeinen LLMs in Lean4-Experten
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts
Ruida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang
•
Jul 3, 2024
•
12
1
Wissenszusammensetzung unter Verwendung von Aufgabenvektoren mit erlernter anisotroper Skalierung.
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling
Frederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad
•
Jul 3, 2024
•
12
3
Graphbasierte Bildbeschriftung: Verbesserung visueller Beschreibungen durch die Verknüpfung von Regionsbeschriftungen
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
•
Jul 9, 2024
•
11
1
VIMI: Verankerung der Videogenerierung durch multimodale Anweisungen
VIMI: Grounding Video Generation through Multi-modal Instruction
Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
•
Jul 8, 2024
•
10
1
Von Schleifen zu Fehlern: Ausweichverhalten von Sprachmodellen bei Unsicherheit
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty
Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva
•
Jul 8, 2024
•
7
3
Wie wissen Sie das? Lehren von generativen Sprachmodellen, um auf biomedizinische Fragen zu verweisen.
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions
Bojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević
•
Jul 6, 2024
•
4
1
LETS-C: Nutzung von Sprachembedding für die Klassifizierung von Zeitreihen
LETS-C: Leveraging Language Embedding for Time Series Classification
Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
•
Jul 9, 2024
•
2
5