ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Rapporto Tecnico Phi-4
Phi-4 Technical Report

Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang•Dec 12, 2024•1166

InternLM-XComposer2.5-OmniLive: Un sistema multimodale completo per interazioni audio e video in streaming a lungo termine
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang•Dec 12, 2024•993

Euclide: Potenziare i LLM Multimodali con Descrizioni Visive Sintetiche ad Alta Fedeltà
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Jiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger•Dec 11, 2024•542

Lyra: un framework efficiente e centrato sull'interazione vocale per l'omni-cognizione
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia•Dec 12, 2024•493

Modellazione del linguaggio latente multimodale con diffusione del token successivo
Multimodal Latent Language Modeling with Next-Token Diffusion

Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei•Dec 11, 2024•452

AgentTrek: Sintesi della traiettoria dell'agente tramite Guiding Replay con Tutorial Web
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu•Dec 12, 2024•302

SnapGen: Domare modelli di testo-immagine ad alta risoluzione per dispositivi mobili con architetture e addestramento efficienti
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Dongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren•Dec 12, 2024•284

EasyRef: Riferimento Immagine di Gruppo Omni-Generalizzato per Modelli di Diffusione tramite LLM Multimodale
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li•Dec 12, 2024•213

JuStRank: Valutazione dei Giudici LLM per la Classificazione dei Sistemi
JuStRank: Benchmarking LLM Judges for System Ranking

Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai•Dec 12, 2024•203

Neural LightRig: Sbloccare la stima accurata della normale degli oggetti e dei materiali con la diffusione multi-luce.
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Zexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu•Dec 12, 2024•184

PIG: Gaussiani Informati dalla Fisica come Rappresentazioni a Maglie Parametriche Adattive
PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Namgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park•Dec 8, 2024•182

Compressione appresa per l'apprendimento compresso
Learned Compression for Compressed Learning

Dan Jacobellis, Neeraja J. Yadwadkar•Dec 12, 2024•132

Super risoluzione di immagini a passi arbitrari tramite inversione della diffusione
Arbitrary-steps Image Super-resolution via Diffusion Inversion

Zongsheng Yue, Kang Liao, Chen Change Loy•Dec 12, 2024•132

VisionArena: 230.000 Conversazioni Utente-Macchina del Mondo Reale con Etichette di Preferenza
VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang•Dec 11, 2024•133

OLA-VLM: Elevare la Percezione Visiva nei LLM Multimodali con Distillazione di Embedding Ausiliaria
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang•Dec 12, 2024•112

RuleArena: un benchmark per il ragionamento guidato dalle regole con LLM in scenari del mondo reale
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang•Dec 12, 2024•102

Collegamento dei sensi delle parole: Disambiguazione al di fuori del sandbox.
Word Sense Linking: Disambiguating Outside the Sandbox

Andrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli•Dec 12, 2024•92

I Flussi Normalizzanti sono Modelli Generativi Capacità.
Normalizing Flows are Capable Generative Models

Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind•Dec 9, 2024•92

LoRACLR: Adattamento Contrastivo per la Personalizzazione dei Modelli di Diffusione
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag•Dec 12, 2024•82

FreeSplatter: Splatting Gaussiano senza posa per la ricostruzione 3D a vista sparso
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Jiale Xu, Shenghua Gao, Ying Shan•Dec 12, 2024•83

L'Impatto dei Materiali Protetti da Copyright sui Grandi Modelli Linguistici: Una Prospettiva Norvegese
The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective

Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre•Dec 12, 2024•82

DisPose: Disintrecciare l'orientamento della posa per un'animazione controllabile di immagini umane
DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Hongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen•Dec 12, 2024•82

ONEBench per testarli tutti: Benchmarking a livello di campione sulle capacità aperte-ended.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge•Dec 9, 2024•62

Gaze-LLE: Stima del Bersaglio dello Sguardo tramite Grandi Codificatori Appresi su Larga Scala
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg•Dec 12, 2024•52

STESSO: Apprendimento della navigazione visiva guidata dal linguaggio generico con Mischia di Esperti Adattivi allo Stato
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu•Dec 7, 2024•52

Shiksha: un dataset e modello di traduzione focalizzato sul dominio tecnico per le lingue indiane.
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

Advait Joglekar, Srinivasan Umesh•Dec 12, 2024•42