ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Het uitbreiden van de prestatiegrenzen van open-source multimodale modellen met model-, data- en schaalvergroting op testtijd.
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang•Dec 6, 2024•1586

EXAONE 3.5: Serie van Grote Taalmodellen voor Gebruik in Echte Wereldscenario's
EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

LG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Sihoon Yang, Heuiyeen Yeen, Hyeongu Yun•Dec 6, 2024•515

LiFT: Het benutten van menselijke feedback voor de afstemming van tekst-naar-video modellen.
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li•Dec 6, 2024•493

MAmmoTH-VL: Het opwekken van multimodaal redeneren met instructieafstemming op schaal
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue•Dec 6, 2024•482

SwiftEdit: Razendsnelle tekstgestuurde beeldbewerking via Eén-Staps Diffusie
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham•Dec 5, 2024•416

APOLLO: SGD-achtig Geheugen, Prestaties op het niveau van AdamW
APOLLO: SGD-like Memory, AdamW-level Performance

Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Z. Pan, Zhangyang Wang, Jinwon Lee•Dec 6, 2024•392

Titel: Latente Bewegingstoken als Verbindende Taal voor Robotmanipulatie
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu•Dec 5, 2024•232

GenMAC: Compositie Text-to-Video Generatie met Multi-Agent Samenwerking
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu•Dec 5, 2024•212

CompCap: Het verbeteren van multimodale grote taalmodellen met samengestelde bijschriften
CompCap: Improving Multimodal Large Language Models with Composite Captions

Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He•Dec 6, 2024•194

Momentum-GS: Momentum Gaussian Self-Distillation voor hoogwaardige grootschalige scène reconstructie
Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction

Jixuan Fan, Wanhua Li, Yifei Han, Yansong Tang•Dec 6, 2024•173

BigDocs: Een open en vrijelijk gelicentieerde dataset voor het trainen van multimodale modellen voor taken met documenten en code.
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

Juan Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats Leon Richter, Saverio Vadacchino, Shubbam Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Noah Bolger, Kurt MacDonald, Simon Fauvel, Sathwik Tejaswi, Srinivas Sunkara, Joao Monteiro, Krishnamurthy DJ Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharagani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam Laradji, Spandanna Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar•Dec 5, 2024•142

Let op de Tijd: Temporeel-Gestuurde Multi-Gebeurtenis Video Generatie
Mind the Time: Temporally-Controlled Multi-Event Video Generation

Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov•Dec 6, 2024•112

PanoDreamer: 3D Panorama Synthese uit een Enkele Afbeelding
PanoDreamer: 3D Panorama Synthesis from a Single Image

Avinash Paliwal, Xilong Zhou, Andrii Tsarov, Nima Khademi Kalantari•Dec 6, 2024•112

2DGS-Room: Zaadgeleide 2D Gaussisch Splatting met Geometrische Beperkingen voor Gedetailleerde Reconstructie van Binnenruimtes
2DGS-Room: Seed-Guided 2D Gaussian Splatting with Geometric Constrains for High-Fidelity Indoor Scene Reconstruction

Wanting Zhang, Haodong Xiang, Zhichao Liao, Xiansong Lai, Xinghui Li, Long Zeng•Dec 4, 2024•112

DEMO: Hergroeperen van Dialooginteractie met Gedetailleerde Elementmodellering
DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling

Minzheng Wang, Xinghua Zhang, Kun Chen, Nan Xu, Haiyang Yu, Fei Huang, Wenji Mao, Yongbin Li•Dec 6, 2024•92

RL Zero: Nul-shot taal naar gedrag zonder enige supervisie
RL Zero: Zero-Shot Language to Behaviors without any Supervision

Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum•Dec 7, 2024•52