ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

STIV: Generazione Scalabile di Video Condizionati da Testo e Immagini
STIV: Scalable Text and Image Conditioned Video Generation

Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang•Dec 10, 2024•752

Valutazione e Allineamento dei CodeLLM sulle Preferenze Umane
Evaluating and Aligning CodeLLMs on Human Preference

Jian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin•Dec 6, 2024•512

DiffSensei: Collegamento tra LLM multi-modalità e modelli di diffusione per la generazione personalizzata di manga
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong•Dec 10, 2024•494

ACDiT: Interpolazione tra il Modellamento Condizionale Autoregressivo e il Trasformatore di Diffusione
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun•Dec 10, 2024•322

UniReal: Generazione e Modifica Universale di Immagini tramite Apprendimento delle Dinamiche del Mondo Reale
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao•Dec 10, 2024•314

Nascosto nel Rumore: Watermarking Robusto a Due Fasi per Immagini
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Kasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen•Dec 5, 2024•312

FiVA: Dataset di attributi visivi a grana fine per modelli di diffusione testo-immagine
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein•Dec 10, 2024•202

Diffusione Video Mobile
Mobile Video Diffusion

Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian•Dec 10, 2024•202

3DTrajMaster: Padronanza della traiettoria 3D per il movimento multi-entità nei video.
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin•Dec 10, 2024•182

Guardiano di Granito
Granite Guardian

Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri•Dec 10, 2024•182

MoViE: Diffusione Mobile per l'Editing Video
MoViE: Mobile Diffusion for Video Editing

Adil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian•Dec 9, 2024•182

Trasferimento del Movimento Video con Trasformatori di Diffusione
Video Motion Transfer with Diffusion Transformers

Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati•Dec 10, 2024•174

I Token di Percezione Migliorano il Ragionamento Visivo nei Modelli di Linguaggio Multimodali
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna•Dec 4, 2024•172

Ipotesi della Rappresentazione del Frame: Interpretabilità del Modello Linguistico a Lungo Termine con Token Multipli e Generazione di Testo Guidata dal Concetto
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Pedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui•Dec 10, 2024•164

EMOv2: Spingendo i Confini del Modello di Visione da 5M
EMOv2: Pushing 5M Vision Model Frontier

Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao•Dec 9, 2024•132

LoRA.rar: Apprendimento per unire LoRA tramite Hypernetworks per la generazione di immagini condizionate dallo stile del soggetto
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli•Dec 6, 2024•123

ILLUME: Illuminare i tuoi LLM per Vedere, Disegnare e Auto-migliorare
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Chunwei Wang, Guansong Lu, Junwei Yang, Runhui Huang, Jianhua Han, Lu Hou, Wei Zhang, Hang Xu•Dec 9, 2024•112

Rapporto Tecnico completamente Open Source su Moxin-7B
Fully Open Source Moxin-7B Technical Report

Pu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang•Dec 8, 2024•112

Chimera: Migliorare il Modello Generalista con Esperti Specifici del Dominio
Chimera: Improving Generalist Model with Domain-Specific Experts

Tianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue•Dec 8, 2024•92

ObjCtrl-2.5D: Controllo degli oggetti senza addestramento con pose della telecamera
ObjCtrl-2.5D: Training-free Object Control with Camera Poses

Zhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy•Dec 10, 2024•82

HARP: Riprogettazione consapevole delle esitazioni nella fase di inferenza del Transformer
HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Romain Storaï, Seung-won Hwang•Dec 10, 2024•43

GraPE: Un framework Genera-Pianifica-Modifica per la sintesi compositiva T2I
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla•Dec 8, 2024•42

Controdiscorso Contestualizzato: Strategie per Adattamento, Personalizzazione e Valutazione
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation

Lorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci•Dec 10, 2024•22

Un Nuovo Framework di Apprendimento Federato Contro gli Attacchi di Inversione del Gradiente
A New Federated Learning Framework Against Gradient Inversion Attacks

Pengxin Guo, Shuang Zeng, Wenhao Chen, Xiaodan Zhang, Weihong Ren, Yuyin Zhou, Liangqiong Qu•Dec 10, 2024•22

Massimizzare l'allineamento con un feedback minimo: Apprendimento efficiente delle ricompense per l'allineamento delle politiche robot visuomotorie.
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy•Dec 6, 2024•22