ChatPaper.ai
Menü öffnen
Startseite
Tägliche Publikationen
arXiv
HuggingFace
Preise
Konto
Arbeitsbereich
🇩🇪
Deutsch
Loading...
•
•
•
•
•
•
•
•
•
•
KI-Forschungspapiere Täglich
Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
April 1st, 2025
MoCha: Auf dem Weg zur filmreifen Synthese sprechender Charaktere
MoCha: Towards Movie-Grade Talking Character Synthesis
Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
•
Mar 30, 2025
•
131
11
TextCrafter: Präzise Darstellung mehrerer Texte in komplexen visuellen Szenen
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
Nikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
•
Mar 30, 2025
•
95
3
Open-Reasoner-Zero: Ein Open-Source-Ansatz zur Skalierung von Reinforcement Learning auf dem Basismodell
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
•
Mar 31, 2025
•
63
3
Was, Wie, Wo und Wie Gut? Eine Untersuchung zur Testzeit-Skalierung in großen Sprachmodellen
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
•
Mar 31, 2025
•
53
2
Effiziente Inferenz für große Reasoning-Modelle: Ein Überblick
Efficient Inference for Large Reasoning Models: A Survey
Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
•
Mar 29, 2025
•
46
3
TokenHSI: Vereinheitlichte Synthese physischer Mensch-Szenen-Interaktionen durch Aufgaben-Tokenisierung
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
•
Mar 25, 2025
•
39
3
Unicorn: Textbasierte Datensynthese für das Training von Vision-Language-Modellen
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
•
Mar 28, 2025
•
38
2
RIG: Synergie von logischem Denken und Vorstellungskraft in einer End-to-End-Generalisten-Politik
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
•
Mar 31, 2025
•
30
2
SketchVideo: Skizzenbasierte Videogenerierung und -bearbeitung
SketchVideo: Sketch-based Video Generation and Editing
Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
•
Mar 30, 2025
•
23
3
Effektive Steuerung von Reasoning-Modellen durch Denkintervention
Effectively Controlling Reasoning Models through Thinking Intervention
Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
•
Mar 31, 2025
•
19
4
Erweiterung von RL mit verifizierbaren Belohnungen in diversen Domänen
Expanding RL with Verifiable Rewards Across Diverse Domains
Yi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
•
Mar 31, 2025
•
19
2
Abfrage und Eroberung: Ausführungsgesteuerte SQL-Generierung
Query and Conquer: Execution-Guided SQL Generation
Łukasz Borchmann, Marek Wydmuch
•
Mar 31, 2025
•
18
2
Progressive Rendering Distillation: Anpassung von Stable Diffusion für sofortige Text-zu-Mesh-Generierung ohne 3D-Daten
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
•
Mar 27, 2025
•
16
2
TeleAntiFraud-28k: Ein Audio-Text-Langsam-Denken-Datensatz zur Erkennung von Telekommunikationsbetrug
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
•
Mar 31, 2025
•
12
2
ActionStudio: Ein leichtgewichtiges Framework für Daten und Training großer Aktionsmodelle
ActionStudio: A Lightweight Framework for Data and Training of Large Action Models
Jianguo Zhang, Thai Hoang, Ming Zhu, Zuxin Liu, Shiyu Wang, Tulika Awalgaonkar, Akshara Prabhakar, Haolin Chen, Weiran Yao, Zhiwei Liu, Juntao Tan, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong
•
Mar 28, 2025
•
12
2
Klassische Planung mit LLM-generierten Heuristiken: Herausforderung des Standes der Technik mit Python-Code
Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code
Augusto B. Corrêa, André G. Pereira, Jendrik Seipp
•
Mar 24, 2025
•
10
1
AvatarArtist: Open-Domain 4D-Avatarisierung
AvatarArtist: Open-Domain 4D Avatarization
Hongyu Liu, Xuan Wang, Ziyu Wan, Yue Ma, Jingye Chen, Yanbo Fan, Yujun Shen, Yibing Song, Qifeng Chen
•
Mar 25, 2025
•
9
2
Easi3R: Schätzung entwirrter Bewegung aus DUSt3R ohne Training
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training
Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
•
Mar 31, 2025
•
7
2
MeshCraft: Erforschung effizienter und kontrollierbarer Mesh-Generierung mit Flow-basierten DiTs
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs
Xianglong He, Junyi Chen, Di Huang, Zexiang Liu, Xiaoshui Huang, Wanli Ouyang, Chun Yuan, Yangguang Li
•
Mar 29, 2025
•
7
2
DSO: Ausrichtung von 3D-Generatoren mit Simulationsfeedback für physikalische Plausibilität
DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
•
Mar 28, 2025
•
6
2
UPME: Ein unüberwachtes Peer-Review-Framework zur Bewertung multimodaler großer Sprachmodelle
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation
Qihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
•
Mar 19, 2025
•
6
2
Entropie-basierte adaptive Gewichtung für Selbsttraining
Entropy-Based Adaptive Weighting for Self-Training
Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang
•
Mar 31, 2025
•
4
2
KOFFVQA: Ein objektiv evaluierter Benchmark für freiformulierte visuelle Frage-Antwort-Systeme für große Vision-Sprach-Modelle in der koreanischen Sprache
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
Yoonshik Kim, Jaeyoon Jung
•
Mar 31, 2025
•
4
2
Überbrückung von evolutionärer Multiobjektivoptimierung und GPU-Beschleunigung durch Tensorisierung
Bridging Evolutionary Multiobjective Optimization and GPU Acceleration via Tensorization
Zhenyu Liang, Hao Li, Naiwei Yu, Kebin Sun, Ran Cheng
•
Mar 26, 2025
•
4
3
PAVE: Patchen und Anpassen von Video-Großsprachmodellen
PAVE: Patching and Adapting Video Large Language Models
Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
•
Mar 25, 2025
•
4
2
Entkopplung von Winkeln und Stärke in der Low-Rank-Adaption
Decoupling Angles and Strength in Low-rank Adaptation
Massimo Bini, Leander Girrbach, Zeynep Akata
•
Mar 23, 2025
•
4
2
Verstehen von begleitenden Gesten in natürlichen Umgebungen
Understanding Co-speech Gestures in-the-wild
Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
•
Mar 28, 2025
•
1
2