ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

VisionZip: Langer is beter maar niet noodzakelijk in visie-taalmodellen
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia•Dec 5, 2024•11113

Gestructureerde 3D-latenties voor schaalbare en veelzijdige 3D-generatie.
Structured 3D Latents for Scalable and Versatile 3D Generation

Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang•Dec 2, 2024•7710

Aguvis: Verenigde Pure Vision Agents voor Autonome GUI-interactie
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong•Dec 5, 2024•666

Florence-VL: Het verbeteren van visie-taal modellen met generatieve visie-encoder en diepte-breedte fusie.
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao•Dec 5, 2024•644

NVILA: Efficiënte Frontier Visuele Taalmodellen
NVILA: Efficient Frontier Visual Language Models

Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu•Dec 5, 2024•602

Het evalueren van taalmodellen als synthetische gegevensgeneratoren.
Evaluating Language Models as Synthetic Data Generators

Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig•Dec 4, 2024•492

Code-als-Monitor: Beperking-bewuste Visuele Programmering voor Reactieve en Proactieve Robotische Foutdetectie
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang•Dec 5, 2024•393

Een ruis is de moeite waard diffusiebegeleiding.
A Noise is Worth Diffusion Guidance

Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim•Dec 5, 2024•313

MV-Adapter: Gemakkelijke generatie van consistente beelden vanuit meerdere gezichtspunten
MV-Adapter: Multi-view Consistent Image Generation Made Easy

Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng•Dec 4, 2024•243

AnyDressing: Aanpasbare Multi-Kledingstuk Virtueel Aankleden via Latente Diffusie Modellen
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

Xinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He•Dec 5, 2024•232

Negatieve token samenvoeging: Begeleiding van vijandige kenmerken op basis van afbeeldingen
Negative Token Merging: Image-based Adversarial Feature Guidance

Jaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer•Dec 2, 2024•236

Densiteitswet van LLM's
Densing Law of LLMs

Chaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun•Dec 5, 2024•192

Wereldwijde MMLU: Begrip en Aanpak van Culturele en Taalkundige Vooroordelen bij Meertalige Evaluatie
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker•Dec 4, 2024•192

Oneindigheid: Schalen van Bitwijze AutoRegressieve Modellering voor Synthese van Beelden met Hoge Resolutie
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Jian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu•Dec 5, 2024•182

HumanEdit: Een hoogwaardige dataset beloond door mensen voor op instructies gebaseerde beeldbewerking.
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

Jinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan•Dec 5, 2024•142

Gepersonaliseerde multimodale grote taalmodellen: Een overzicht
Personalized Multimodal Large Language Models: A Survey

Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley•Dec 3, 2024•142

Monet: Mengsel van Monosemante Experts voor Transformers
Monet: Mixture of Monosemantic Experts for Transformers

Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang•Dec 5, 2024•132

OmniFlow: Generatie van elk naar elk met multi-modale gerechtvaardigde stromen
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover•Dec 2, 2024•132

Naar Universeel Begrip van Voetbalvideo's
Towards Universal Soccer Video Understanding

Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie•Dec 2, 2024•122

Discriminatieve Fijnafstemming van LVLM's
Discriminative Fine-tuning of LVLMs

Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez•Dec 5, 2024•112

Marco-LLM: Het overbruggen van talen via grootschalige meertalige training voor Cross-Lingual Enhancement
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang•Dec 5, 2024•112

MEMO: Geheugen-Gestuurde Diffusie voor het Genereren van Expressieve Praatvideo's
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan•Dec 5, 2024•102

ZipAR: Versnelling van autoregressieve beeldgeneratie door ruimtelijke nabijheid
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang•Dec 5, 2024•92

KV Verschuivende Aandacht Verbeteren Taalmodellering
KV Shifting Attention Enhances Language Modeling

Mingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen•Nov 29, 2024•96

4Real-Video: Het leren van generaliseerbare fotorealistische 4D video diffusie
4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Chaoyang Wang, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee•Dec 5, 2024•83

p-MoD: Het bouwen van Mengsel-van-Dieptes MLLM's via Progressieve Verhoudingsafname
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

Jun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang•Dec 5, 2024•72

Opschalen van zoekopdrachten op inferentietijd met Vision Value Model voor verbeterde visuele begrip
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan•Dec 4, 2024•72

MRGen: Diffusie-gebaseerde Controleerbare Data Engine voor MRI Segmentatie naar Ongeannoteerde Modaliteiten
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities

Haoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang•Dec 4, 2024•62

SynFinTabs: Een Dataset van Synthetische Financiële Tabellen voor Informatie- en Tabelextractie
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux•Dec 5, 2024•52

Uitdagingen bij Betrouwbare Menselijke Evaluatie van Chatbots
Challenges in Trustworthy Human Evaluation of Chatbots

Wenting Zhao, Alexander M. Rush, Tanya Goyal•Dec 5, 2024•42

Het vaststellen van schaalwetten voor taken via reken-efficiënte modeltrappen.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi•Dec 5, 2024•32