ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

SynCamMaster: Generazione di Video Multicamera Sincronizzati da Diversi Punti di Vista
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang•Dec 10, 2024•563

LAION-SG: Un dataset su larga scala potenziato per addestrare modelli complessi immagine-testo con annotazioni strutturali
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun•Dec 11, 2024•463

PUNTI 1.5: Costruzione di un Modello Visione-Linguaggio per Applicazioni del Mondo Reale
POINTS1.5: Building a Vision-Language Model towards Real World Applications

Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou•Dec 11, 2024•392

Apprendimento dei campi di flusso nell'attenzione per la generazione controllabile di immagini di persone.
Learning Flow Fields in Attention for Controllable Person Image Generation

Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He•Dec 11, 2024•376

L'Ecosistema BrowserGym per la Ricerca sugli Agenti Web
The BrowserGym Ecosystem for Web Agent Research

Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lù, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste•Dec 6, 2024•212

Track4Gen: Insegnare ai Modelli di Diffusione Video a Tracciare i Punti Migliora la Generazione Video
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Hyeonho Jeong, Chun-Hao Paul Huang, Jong Chul Ye, Niloy Mitra, Duygu Ceylan•Dec 8, 2024•202

StyleMaster: Stilizza il tuo video con generazione e traduzione artistiche
StyleMaster: Stylize Your Video with Artistic Generation and Translation

Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo•Dec 10, 2024•193

Densificazione generativa: Apprendimento per densificare le gaussiane per una ricostruzione 3D ad alta fedeltà e generalizzabile.
Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D Reconstruction

Seungtae Nam, Xiangyu Sun, Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park•Dec 9, 2024•192

StreamChat: Chattare con Video in Streaming
StreamChat: Chatting with Streaming Video

Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare•Dec 11, 2024•182

FlowEdit: Modifica del testo senza inversione utilizzando modelli di flusso pre-addestrati
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli•Dec 11, 2024•124

3DSRBench: un benchmark completo per la ragionamento spaziale in 3D
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen•Dec 10, 2024•112

Mogo: RQ Hierarchical Causal Transformer per la generazione di movimenti umani 3D di alta qualità
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation

Dongjie Fu•Dec 5, 2024•112

Creazione di Video per Dimostrazione
Video Creation by Demonstration

Yihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu•Dec 12, 2024•92

Non lo so: Modellazione esplicita dell'incertezza con un token [ND].
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token

Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo•Dec 9, 2024•92

KaSA: Adattamento della Singular Value consapevole della conoscenza dei grandi modelli linguistici
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models

Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang•Dec 8, 2024•92

StyleStudio: Trasferimento dello stile basato sul testo con controllo selettivo degli elementi dello stile
StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang•Dec 11, 2024•82

Avvio dell'apprendimento della navigazione guidata dal linguaggio con il meccanismo di auto-ottimizzazione del volano dei dati.
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang•Dec 11, 2024•52

MIT-10M: un corpus parallelo su larga scala di traduzione di immagini multilingue
MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

Bo Li, Shaolin Zhu, Lijie Wen•Dec 10, 2024•52