ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Trasformatori senza Normalizzazione
Transformers without Normalization

Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu•Mar 13, 2025•1655

Esplorazione e Navigazione nell'Atlante dei Modelli di Hugging Face
Charting and Navigating Hugging Face's Model Atlas

Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen•Mar 13, 2025•846

CoSTAast: Agente per Percorsi Utensili Sensibile al Costo per l'Editing di Immagini Multi-turn
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou•Mar 13, 2025•8010

La Modellazione del Mondo Migliora la Pianificazione: Ottimizzazione Duale delle Preferenze per la Pianificazione di Compiti Embodied
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu•Mar 13, 2025•537

GoT: Sfruttare le Capacità di Ragionamento dei Modelli Linguistici Multimodali di Grande Scala per la Generazione e Modifica Visiva
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li•Mar 13, 2025•502

SANA-Sprint: Diffusione in un Passo con Distillazione di Consistenza a Tempo Continuo
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han•Mar 12, 2025•394

VisualPRM: Un Modello Efficace di Ricompensa del Processo per il Ragionamento Multimodale
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang•Mar 13, 2025•363

Attacco Silenzioso di Branding: Avvelenamento dei Dati Senza Trigger per Modelli di Diffusione da Testo a Immagine
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang•Mar 12, 2025•362

CoRe^2: Raccolta, Riflessione e Affinamento per Generare Meglio e Più Velocemente
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie•Mar 12, 2025•344

4D LangSplat: 4D Language Gaussian Splatting tramite Modelli Linguistici Multimodali di Grande Scala
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister•Mar 13, 2025•322

Light-R1: Curriculum SFT, DPO e RL per il Ragionamento a Catena Lungo (COT) da Zero e Oltre
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang•Mar 13, 2025•294

OmniPaint: Padroneggiare l'editing orientato agli oggetti tramite inpaintig di inserimento-rimozione disaccoppiato
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

Yongsheng Yu, Ziyun Zeng, Haitian Zheng, Jiebo Luo•Mar 11, 2025•292

VisualWebInstruct: Scalabilità dei Dati di Istruzione Multimodali tramite Ricerca Web
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen•Mar 13, 2025•232

Nuove tendenze per la traduzione automatica moderna con modelli di ragionamento su larga scala
New Trends for Modern Machine Translation with Large Reasoning Models

Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang•Mar 13, 2025•232

Spostare la ricerca sugli LLM a lungo contesto dall'input all'output
Shifting Long-Context LLMs Research from Input to Output

Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee•Mar 6, 2025•222

GroundingSuite: Misurazione del Grounding Pixel Complesso Multi-Granulare
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang•Mar 13, 2025•182

Open-Sora 2.0: Addestramento di un Modello Commerciale per la Generazione di Video con un Budget di $200k
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You•Mar 12, 2025•183

DiT-Air: Rivalutazione dell'Efficienza della Progettazione Architetturale dei Modelli di Diffusione nella Generazione di Immagini da Testo
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang•Mar 13, 2025•172

R1-Onevision: Avanzare nel Ragionamento Multimodale Generalizzato attraverso la Formalizzazione Cross-Modale
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen•Mar 13, 2025•173

Distillare Diversità e Controllo nei Modelli di Diffusione
Distilling Diversity and Control in Diffusion Models

Rohit Gandikota, David Bau•Mar 13, 2025•142

Ottimizzazione del Contesto Esteso per la Generazione di Video
Long Context Tuning for Video Generation

Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang•Mar 13, 2025•142

Addestramento Efficiente dei Modelli Linguistici che Scala in Modo Affidabile e Robusto: Leggi di Scalabilità per DiLoCo
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo

Zachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard•Mar 12, 2025•142

CINEMA: Generazione Coerente di Video Multi-Soggetto tramite Guida Basata su MLLM
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma•Mar 13, 2025•112

Ti sembro un `gatto.n.01`? Un Benchmark per la Generazione di Immagini Tassonomiche
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina•Mar 13, 2025•112

Sui Limiti dei Modelli Visione-Linguaggio nella Comprensione delle Trasformazioni delle Immagini
On the Limitations of Vision-Language Models in Understanding Image Transforms

Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz•Mar 12, 2025•102

ConsisLoRA: Miglioramento della Coerenza di Contenuto e Stile per il Trasferimento di Stile Basato su LoRA
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

Bolin Chen, Baoquan Zhao, Haoran Xie, Yi Cai, Qing Li, Xudong Mao•Mar 13, 2025•82

Generazione Autoregressiva di Immagini con Decodifica Parallela Randomizzata
Autoregressive Image Generation with Randomized Parallel Decoding

Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang•Mar 13, 2025•82

Unisci i Pezzi: Concettualizzazione Basata su Parti con IP-Priors
Piece it Together: Part-Based Concepting with IP-Priors

Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or•Mar 13, 2025•82

UniGoal: Verso una Navigazione Orientata agli Obiettivi Universale a Zero-shot
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu•Mar 13, 2025•62

Quantizzazione per i Modelli Whisper di OpenAI: Un'Analisi Comparativa
Quantization for OpenAI's Whisper Models: A Comparative Analysis

Allison Andreyev•Mar 12, 2025•62

Scoperta del Percorso Neuronale Influente nei Vision Transformer
Discovering Influential Neuron Path in Vision Transformers

Yifan Wang, Yifei Liu, Yingdong Shi, Changming Li, Anqi Pang, Sibei Yang, Jingyi Yu, Kan Ren•Mar 12, 2025•62

MinorBench: Un benchmark costruito manualmente per i rischi basati sui contenuti per i bambini
MinorBench: A hand-built benchmark for content-based risks for children

Shaun Khoo, Gabriel Chua, Rachel Shong•Mar 13, 2025•53

TruthPrInt: Mitigare l'Allucinazione degli Oggetti nei LVLM tramite Pre-Intervento Guidato dalla Verità Latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu•Mar 13, 2025•42

"Silenzioso non è veramente silenzioso": Un'indagine sulla tossicità nelle discussioni sui report di bug
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion

Mia Mohammad Imran, Jaydeb Sarker•Mar 13, 2025•42

La Maledizione delle Condizioni: Analisi e Miglioramento del Trasporto Ottimale per la Generazione Condizionata Basata su Flussi
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

Ho Kei Cheng, Alexander Schwing•Mar 13, 2025•32

Una linea di attacco frustrantemente semplice ma altamente efficace: oltre il 90% di tasso di successo contro i robusti modelli black-box di GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen•Mar 13, 2025•32

PerCoV2: Miglioramento della compressione percettiva di immagini a bit-rate ultra-basso con modellazione implicita gerarchica di immagini mascherate
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller•Mar 12, 2025•32

PoseLess: Controllo Visione-Articolazioni Senza Profondità tramite Mappatura Diretta dell'Immagine con VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy•Mar 10, 2025•32

Studiare la Guida Classificatore(-Free) da una Prospettiva Centrata sul Classificatore
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective

Xiaoming Zhao, Alexander G. Schwing•Mar 13, 2025•22