ChatPaper.ai
Menu openen
Home
Dagelijkse Papers
arXiv
HuggingFace
Prijzen
Account
Werkruimte
🇬🇧
English
Loading...
•
•
•
•
•
•
•
•
•
•
AI Onderzoekspapers Dagelijks
Dagelijks geselecteerde AI onderzoekspapers met vertalingen
May 15th, 2025
BLIP3-o: Een Familie van Volledig Open, Verenigde Multimodale Modellen - Architectuur, Training en Dataset
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
•
May 14, 2025
•
80
3
Inzichten in DeepSeek-V3: Schaalbaarheidsuitdagingen en Reflecties op Hardware voor AI-Architecturen
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei
•
May 14, 2025
•
55
4
DeCLIP: Ontkoppeld leren voor open-vocabulair dichte perceptie
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian
•
May 7, 2025
•
42
3
MathCoder-VL: Verbinding tussen Visie en Code voor Verbeterd Multimodaal Wiskundig Redeneren
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
•
May 15, 2025
•
40
2
LightLab: Beheersing van lichtbronnen in afbeeldingen met diffusiemodellen
LightLab: Controlling Light Sources in Images with Diffusion Models
Nadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen
•
May 14, 2025
•
27
3
Marigold: Kosteneffectieve aanpassing van diffusiegebaseerde beeldgeneratoren voor beeldanalyse
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler
•
May 14, 2025
•
22
2
UniSkill: Imitatie van Menselijke Video's via Cross-Embodiment Vaardigheidsrepresentaties
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations
Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee
•
May 13, 2025
•
13
2
CAST: Component-Uitgelijnde 3D Scène-reconstructie vanuit een RGB-afbeelding
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
•
Feb 18, 2025
•
12
3
WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
•
May 14, 2025
•
8
3
Omni-R1: Heb je echt audio nodig om je audio-LLM te fine-tunen?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
•
May 14, 2025
•
8
2
SweRank: Softwareprobleemlokalisatie met Coderanking
SweRank: Software Issue Localization with Code Ranking
Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
•
May 7, 2025
•
8
2
VCRBench: Onderzoek naar de Langetermijn Causale Redeneervaardigheden van Grote Video-Taalmodellen
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
Pritam Sarkar, Ali Etemad
•
May 13, 2025
•
4
2
Het begrijpen en verminderen van toxiciteit in beeld-tekst vooraf getrainde datasets: Een casestudy over LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
•
May 9, 2025
•
3
2
DetReIDX: Een stresstestdataset voor real-world personenherkenning op basis van UAV's
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition
Kailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença
•
May 7, 2025
•
2
2
Achter Maya: Het bouwen van een meertalig visueel taalmodel
Behind Maya: Building a Multilingual Vision Language Model
Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
•
May 13, 2025
•
1
2
Visueel interpreteerbare subtakenredenering voor visuele vraagbeantwoording
Visually Interpretable Subtask Reasoning for Visual Question Answering
Yu Cheng, Arushi Goel, Hakan Bilen
•
May 12, 2025
•
1
2
Steilste Afdaling Dichtheidscontrole voor Compacte 3D Gaussische Splatting
Steepest Descent Density Control for Compact 3D Gaussian Splatting
Peihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan
•
May 8, 2025
•
1
2