ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

X-Prompt: Naar Universele In-Context Beeldgeneratie in Auto-Regressieve Vision Language Foundation Modellen
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang•Dec 2, 2024•662

o1-Coder: een o1-replicatie voor codering
o1-Coder: an o1 Replication for Coding

Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang•Nov 29, 2024•452

Switti: Het ontwerpen van Schaal-Wijze Transformers voor Tekst-naar-Afbeelding Synthese
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk•Dec 2, 2024•363

Open-Sora Plan: Open-Source Groot Video Generatiemodel
Open-Sora Plan: Open-Source Large Video Generation Model

Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan•Nov 28, 2024•352

DRIJVEN: Generatieve Bewegings Latente Stroom Overeenkomst voor Audio-gestuurde Sprekende Portretten
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Taekyung Ki, Dongchan Min, Gyoungsu Chae•Dec 2, 2024•318

VISTA: Verbetering van langetermijn- en hoge-resolutie videobegrip door video-spatiotemporale augmentatie.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen•Dec 1, 2024•282

SOLAMI: Sociale Visie-Taal-Actie Modellering voor Meeslepende Interactie met 3D Autonome Karakters
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu•Nov 29, 2024•232

TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang•Nov 27, 2024•202

GATE OpenING: Een uitgebreide benchmark voor het beoordelen van open-ended interleaved beeld-tekst generatie.
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang•Nov 27, 2024•182

Efficiënt Volg Alles
Efficient Track Anything

Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra•Nov 28, 2024•173

De Put: een grootschalige verzameling van diverse natuurkundige simulaties voor Machine Learning.
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho•Nov 30, 2024•162

Sturen van gecorrigeerde stroommodellen in het vectorveld voor gecontroleerde beeldgeneratie
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang•Nov 27, 2024•168

VLsI: Verbaal Gelaagd-naar-Interacties van Groot naar Klein Visie Taalmodellen
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu•Dec 2, 2024•152

TinyFusion: Ondiepe Diffusie Transformers Aangeleerd
TinyFusion: Diffusion Transformers Learned Shallow

Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang•Dec 2, 2024•142

Het evalueren van meertalig taalbegrip met regionale kennis
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut•Nov 29, 2024•142

WF-VAE: Verbetering van Video VAE door Wavelet-Gestuurde Energieflow voor Latent Video Diffusie Model
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan•Nov 26, 2024•112

VLSBench: Het blootleggen van visuele lekken in multimodale veiligheid
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao•Nov 29, 2024•102

Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang•Dec 2, 2024•92

Kunstvrije generatieve modellen: Kunstcreatie zonder kennis van grafische kunst
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba•Nov 29, 2024•93

VisOnlyQA: Grote visie-taalmodellen hebben nog steeds moeite met de visuele perceptie van geometrische informatie.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang•Dec 1, 2024•82

PhysGame: Het blootleggen van fysieke gezond verstand schendingen in gameplay video's
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang•Dec 2, 2024•62

Een Eenvoudige en Bewijsbare Schalingswet voor de Rekenkracht bij het Testen van Grote Taalmodellen
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou•Nov 29, 2024•62

Samenwerkende instantienavigatie: Het benutten van agent zelfdialogen om gebruikersinvoer te minimaliseren.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang•Dec 2, 2024•52

Wereld-consistente videodiffusie met expliciete 3D-modellering
World-consistent Video Diffusion with Explicit 3D Modeling

Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu•Dec 2, 2024•42

Het verkennen van de mogelijkheden van grote taalmodellen om proportionele analogieën op te lossen via kennisversterkte prompting.
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth•Dec 1, 2024•42

HUGSIM: Een real-time, fotorealistische en gesloten-lus simulator voor autonoom rijden.
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao•Dec 2, 2024•32

AMO Sampler: Verbeteren van Tekstweergave met Overshoot
AMO Sampler: Enhancing Text Rendering with Overshooting

Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei•Nov 28, 2024•32

Naar Cross-Lingual Audio Misbruikdetectie in Omgevingen met Weinig Middelen met Few-Shot Leren
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi•Dec 2, 2024•22

Het verbeteren van de robuustheid van spreker verificatie met synthetische emotionele uitingen.
Improving speaker verification robustness with synthetic emotional utterances

Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke•Nov 30, 2024•22