ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
December 10th, 2024
Entwirren der Komplexität des Gedächtnisses in RL-Agenten: ein Ansatz für Klassifizierung und Bewertung
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation
Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov
•
Dec 9, 2024
•
73
2
OmniDocBench: Benchmarking der vielfältigen PDF-Dokumentenanalyse mit umfassenden Annotationen
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
•
Dec 10, 2024
•
11
1
Divot: Diffusion befeuert den Video-Tokenizer für Verständnis und Generierung
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
•
Dec 5, 2024
•
16
2
MAtCha-Gaußsche: Atlas von Diagrammen für hochwertige Geometrie und fotorealistische Darstellungen aus wenigen Ansichten
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views
Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino
•
Dec 9, 2024
•
7
2
ProcessBench: Identifizierung von Prozessfehlern in mathematischem Denken
ProcessBench: Identifying Process Errors in Mathematical Reasoning
Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
•
Dec 9, 2024
•
83
6
Du siehst es, du hast es: Lernen der 3D-Erstellung in posefreien Videos im großen Maßstab
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale
Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang
•
Dec 9, 2024
•
13
3
Training großer Sprachmodelle zum Schlussfolgern in einem kontinuierlichen latenten Raum.
Training Large Language Models to Reason in a Continuous Latent Space
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
•
Dec 9, 2024
•
85
7
Globale und dichte Einbettungen der Erde: Major TOM schwebt im latenten Raum.
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space
Mikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski
•
Dec 7, 2024
•
8
2
Rund um die Welt in 80 Zeitschritten: Ein generativer Ansatz zur globalen visuellen Geolokalisierung
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
•
Dec 9, 2024
•
21
2
Robuster Mehrbit-Text-Wasserzeichen mit LLM-basierten Paraphrasierungen.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers
Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
•
Dec 4, 2024
•
6
2
Wenn Sie sie nicht verwenden können, recyceln Sie sie: Optimierung von Zusammenführungen im großen Maßstab zur Minderung von Leistungskompromissen
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
•
Dec 5, 2024
•
5
2
Erkundung von mehrkörnigen Konzeptannotationen für multimodale große Sprachmodelle
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
•
Dec 8, 2024
•
16
2
CARP: Visuomotorik-Richtlinienlernen über grob- bis feinkörnige autoregressive Vorhersage
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
•
Dec 9, 2024
•
7
2
Maya: Ein instruktionsfeinabgestimmtes mehrsprachiges multimodales Modell
Maya: An Instruction Finetuned Multilingual Multimodal Model
Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
•
Dec 10, 2024
•
29
2
MotionShop: Zero-Shot-Bewegungsübertragung in Videodiffusionsmodellen mit einer Mischung aus Score-Anleitung.
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
•
Dec 6, 2024
•
9
2
Turbo3D: Ultraschnelle Text-zu-3D Generierung
Turbo3D: Ultra-fast Text-to-3D Generation
Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang
•
Dec 5, 2024
•
4
2
Gegatterte Delta-Netzwerke: Verbesserung von Mamba2 mit der Delta-Regel
Gated Delta Networks: Improving Mamba2 with Delta Rule
Songlin Yang, Jan Kautz, Ali Hatamizadeh
•
Dec 9, 2024
•
11
3