ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

DropletVideo: Un Dataset e un Approccio per Esplorare la Generazione di Video con Coerenza Spazio-Temporale Integrale
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan•Mar 8, 2025•1382

Being-0: Un Agente Robotico Umanoide con Modelli Visione-Linguaggio e Abilità Modulari
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu•Mar 16, 2025•662

DreamRenderer: Domare il Controllo degli Attributi Multi-Istanza nei Modelli di Generazione di Immagini su Grande Scala da Testo
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang•Mar 17, 2025•443

Personalizza Qualsiasi Cosa Gratuitamente con il Diffusion Transformer
Personalize Anything for Free with Diffusion Transformer

Haoran Feng, Zehuan Huang, Lin Li, Hairong Lv, Lu Sheng•Mar 16, 2025•445

SPIN-Bench: Quanto Sono Efficaci i LLM nel Pianificare Strategicamente e Ragionare Socialmente?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath•Mar 16, 2025•413

Ragionamento Multimodale a Catena di Pensiero: Una Rassegna Completa
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Yaoting Wang, Shengqiong Wu, Yuecheng Zhang, William Wang, Ziwei Liu, Jiebo Luo, Hao Fei•Mar 16, 2025•342

Edit Transfer: Apprendimento dell'editing di immagini tramite relazioni visive in contesto
Edit Transfer: Learning Image Editing via Vision In-Context Relations

Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou•Mar 17, 2025•298

R1-VL: Apprendimento del Ragionamento con Modelli Linguistici Multimodali di Grande Scala tramite Ottimizzazione Relativa delle Politiche a Gruppi Passo-passo
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao•Mar 17, 2025•292

BlobCtrl: Un Framework Unificato e Flessibile per la Generazione e Modifica di Immagini a Livello di Elemento
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou•Mar 17, 2025•272

MicroVQA: Un Benchmark di Ragionamento Multimodale per la Ricerca Scientifica Basata sulla Microscopia
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

James Burgess, Jeffrey J Nirschl, Laura Bravo-Sánchez, Alejandro Lozano, Sanket Rajan Gupte, Jesus G. Galaz-Montoya, Yuhui Zhang, Yuchang Su, Disha Bhowmik, Zachary Coman, Sarina M. Hasan, Alexandra Johannesson, William D. Leineweber, Malvika G Nair, Ridhi Yarlagadda, Connor Zuraski, Wah Chiu, Sarah Cohen, Jan N. Hansen, Manuel D Leonetti, Chad Liu, Emma Lundberg, Serena Yeung-Levy•Mar 17, 2025•212

WideRange4D: Abilitazione di Ricostruzioni 4D di Alta Qualità con Movimenti e Scene ad Ampio Raggio
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

Ling Yang, Kaixin Zhu, Juanxi Tian, Bohan Zeng, Mingbao Lin, Hongjuan Pei, Wentao Zhang, Shuicheng Yan•Mar 17, 2025•172

VideoMind: Un Agente a Catena di LoRA per il Ragionamento su Video Lunghi
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou•Mar 17, 2025•162

reWordBench: Valutazione e Miglioramento della Robustezza dei Modelli di Ricompensa con Input Trasformati
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Zhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad•Mar 14, 2025•162

V-STaR: Valutazione dei Video-LLM sul Ragionamento Spazio-Temporale nei Video
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong•Mar 14, 2025•132

Ragionamento robotico e presa basati su linguaggio libero da vincoli formali
Free-form language-based robotic reasoning and grasping

Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi•Mar 17, 2025•103

Le Ricompense Sono Sufficienti per una Generazione Foto-Realistica Rapida da Testo a Immagine
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation

Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang•Mar 17, 2025•102

MTV-Inpaint: Inpainting Multi-Task per Video Lunghi
MTV-Inpaint: Multi-Task Long Video Inpainting

Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao•Mar 14, 2025•102

Sintesi Audio per Video Lunghi con Collaborazione Multi-Agente
Long-Video Audio Synthesis with Multi-Agent Collaboration

Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen•Mar 13, 2025•93

Conteggi Sightation: Sfruttare il Feedback degli Utenti Vedenti per Costruire un Dataset Allineato ai BLV di Descrizioni di Diagrammi
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions

Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne•Mar 17, 2025•72

Addestramento di Modelli Fondamentali per Video con NVIDIA NeMo
Training Video Foundation Models with NVIDIA NeMo

Zeeshan Patel, Ethan He, Parth Mannan, Xiaowei Ren, Ryan Wolf, Niket Agarwal, Jacob Huffman, Zhuoyao Wang, Carl Wang, Jack Chang, Yan Bai, Tommy Huang, Linnan Wang, Sahil Jain, Shanmugam Ramasamy, Joseph Jennings, Ekaterina Sirazitdinova, Oleg Sudakov, Mingyuan Ma, Bobby Chen, Forrest Lin, Hao Wang, Vasanth Rao Naik Sabavat, Sriharsha Niverty, Rong Ou, Pallab Bhattacharya, David Page, Nima Tajbakhsh, Ashwath Aithal•Mar 17, 2025•62

Analisi degli Errori nei Modelli di Diffusione Video Auto-Regressivi: Un Framework Unificato
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang•Mar 12, 2025•52

GenStereo: Verso la Generazione di Immagini Stereo in Mondi Aperti e il Matching Non Supervisionato
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching

Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs•Mar 17, 2025•43

Esplorazione dell'Incertezza nei Modelli Linguistici di Grande Dimensione Allineati all'Umano
Investigating Human-Aligned Large Language Model Uncertainty

Kyle Moore, Jesse Roberts, Daryl Watson, Pamela Wisniewski•Mar 16, 2025•42

Utilizzare l'interpretabilità meccanicistica per creare attacchi avversari contro i modelli linguistici di grandi dimensioni
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

Thomas Winninger, Boussad Addad, Katarzyna Kapusta•Mar 8, 2025•42

Utilizzo delle Categorie di Base nei Modelli Linguistico-Visivi
Basic Category Usage in Vision Language Models

Hunter Sawyer, Jesse Roberts, Kyle Moore•Mar 16, 2025•32

WISA: Assistente Simulatore Mondiale per la Generazione di Video da Testo con Consapevolezza Fisica
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang•Mar 11, 2025•32