ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
July 12th, 2024
Skywork-Math: Datenskalierungsgesetze für mathematisches Denken in großen Sprachmodellen -- Die Geschichte geht weiter
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
•
Jul 11, 2024
•
53
5
Videoverteilungsausrichtung über Belohnungsgradienten
Video Diffusion Alignment via Reward Gradients
Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
•
Jul 11, 2024
•
51
2
Multimodales Selbstinstrukt: Synthetisches abstraktes Bild und visuelle Schlussfolgerungsinstruktion unter Verwendung von Sprachmodellen.
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
•
Jul 9, 2024
•
47
3
MAVIS: Mathematische Visuelle Instruktionsabstimmung
MAVIS: Mathematical Visual Instruction Tuning
Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
•
Jul 11, 2024
•
34
3
Q-GaLore: Quantisiertes GaLore mit INT4-Projektion und schichtadaptiven Niederrang-Gradienten
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients
Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
•
Jul 11, 2024
•
34
3
MambaVision: Ein hybrides Mamba-Transformer-Vision-Rückgrat
MambaVision: A Hybrid Mamba-Transformer Vision Backbone
Ali Hatamizadeh, Jan Kautz
•
Jul 10, 2024
•
33
5
Selbsterkennung in Sprachmodellen
Self-Recognition in Language Models
Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
•
Jul 9, 2024
•
27
2
SEED-Story: Multimodale Langgeschichtenerstellung mit großem Sprachmodell
SEED-Story: Multimodal Long Story Generation with Large Language Model
Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
•
Jul 11, 2024
•
26
5
Ist Ihr Modell wirklich ein guter Mathematik-Argumentierer? Evaluierung mathematischen Argumentierens mit Checkliste
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist
Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang
•
Jul 11, 2024
•
23
4
DenseFusion-1M: Zusammenführung von Visionsexperten für umfassende multimodale Wahrnehmung
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
•
Jul 11, 2024
•
19
2
GTA: Ein Benchmark für Allgemeine Werkzeugagenten
GTA: A Benchmark for General Tool Agents
Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
•
Jul 11, 2024
•
17
3
Autoregressive Sprachsynthese ohne Vektorquantisierung
Autoregressive Speech Synthesis without Vector Quantization
Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei
•
Jul 11, 2024
•
17
4
Die Synergie zwischen Daten und Multi-Modalen Großen Sprachmodellen: Eine Umfrage aus der Perspektive der Co-Entwicklung
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng
•
Jul 11, 2024
•
13
4
Gradient Boosting Verstärkendes Lernen
Gradient Boosting Reinforcement Learning
Benjamin Fuhrer, Chen Tessler, Gal Dalal
•
Jul 11, 2024
•
13
2
Live2Diff: Live-Stream-Übersetzung über unidirektionale Aufmerksamkeit in Video-Diffusionsmodellen
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
•
Jul 11, 2024
•
12
2
Verallgemeinerbare implizite Bewegungsmodellierung für die Zwischenbildberechnung in Videos.
Generalizable Implicit Motion Modeling for Video Frame Interpolation
Zujin Guo, Wei Li, Chen Change Loy
•
Jul 11, 2024
•
12
2
Karte es überall (KEA): Ermächtigung der Vogelperspektivenkartierung unter Verwendung von Großangelegten öffentlichen Daten
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data
Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer
•
Jul 11, 2024
•
11
4
Auf dem Weg zur Entwicklung einer spezialisierten Generalisten-KI mit System 1 und System 2 Fusion.
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion
Kaiyan Zhang, Biqing Qi, Bowen Zhou
•
Jul 11, 2024
•
11
2
WildGaussians: 3D-Gauß-Splatting in freier Wildbahn
WildGaussians: 3D Gaussian Splatting in the Wild
Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler
•
Jul 11, 2024
•
10
2
OmniNOCS: Ein vereinheitlichter NOCS Datensatz und Modell für das Anheben von 2D Objekten in 3D
OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects
Akshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown
•
Jul 11, 2024
•
9
2
Skalierung der personalisierten ästhetischen Bewertung durch die Anpassung des Aufgabenvektors
Scaling Up Personalized Aesthetic Assessment via Task Vector Customization
Jooyeol Yun, Jaegul Choo
•
Jul 9, 2024
•
6
3