ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

L'Ultimo Esame dell'Umanità
Humanity's Last Exam

Jan 24
ByLong Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
76
4

I benchmark sono strumenti importanti per tracciare i rapidi progressi nelle capacità dei grandi modelli linguistici (LLM). Tuttavia, i benchmark non stanno mantenendo il passo in termini di difficoltà: attualmente i LLM raggiungono oltre il 90\% di accuratezza su benchmark popolari come MMLU, limitando la misurazione informata delle capacità dei LLM all'avanguardia. In risposta, presentiamo Humanity's Last Exam (HLE), un benchmark multimodale al confine della conoscenza umana, progettato per essere l'ultimo benchmark accademico chiuso del suo genere con una vasta copertura di argomenti. HLE è composto da 3.000 domande su dozzine di materie, tra cui matematica, discipline umanistiche e scienze naturali. HLE è sviluppato a livello globale da esperti del settore ed è costituito da domande a scelta multipla e a risposta breve adatte alla valutazione automatizzata. Ogni domanda ha una soluzione nota, univoca e facilmente verificabile, ma non può essere risolta rapidamente tramite recupero da internet. I LLM all'avanguardia mostrano una bassa accuratezza e calibrazione su HLE, evidenziando un significativo divario tra le attuali capacità dei LLM e il confine umano esperto riguardo alle domande accademiche chiuse. Per informare la ricerca e l'elaborazione delle politiche su una chiara comprensione delle capacità del modello, rilasciamo pubblicamente HLE su https://lastexam.ai.

2

Generazione potenziata dalla catena di recupero
Chain-of-Retrieval Augmented Generation

Jan 24
ByLiang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
58
3

Questo articolo introduce un approccio per addestrare modelli RAG simili a o1 che recuperano e ragionano su informazioni rilevanti passo dopo passo prima di generare la risposta finale. I metodi RAG convenzionali di solito eseguono un singolo passaggio di recupero prima del processo di generazione, il che limita la loro efficacia nel rispondere a query complesse a causa dei risultati imperfetti del recupero. Al contrario, il nostro metodo proposto, CoRAG (Generazione potenziata da catena di recupero), consente al modello di riformulare dinamicamente la query in base allo stato in evoluzione. Per addestrare in modo efficace CoRAG, utilizziamo il campionamento di rifiuto per generare automaticamente catene di recupero intermedie, aumentando così i dataset RAG esistenti che forniscono solo la risposta finale corretta. Al momento del test, proponiamo varie strategie di decodifica per scalare il calcolo del modello durante il test controllando la lunghezza e il numero di catene di recupero campionate. I risultati sperimentali su più benchmark convalidano l'efficacia di CoRAG, in particolare nei compiti di risposta a domande multi-hop, dove osserviamo un miglioramento di oltre 10 punti nel punteggio EM rispetto alle basi solide. Sul benchmark KILT, CoRAG stabilisce un nuovo stato dell'arte in una vasta gamma di compiti ricchi di conoscenza. Inoltre, offriamo analisi approfondite per comprendere il comportamento di scalabilità di CoRAG, gettando le basi per futura ricerca volta allo sviluppo di modelli di base fattuali e fondati.

3

RealCritic: Verso una Valutazione Orientata all'Efficienza dei Modelli Linguistici
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24
ByZhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
33
2

Le critiche sono importanti per migliorare le prestazioni dei Grandi Modelli di Linguaggio (LLM), consentendo sia l'auto-miglioramento che un feedback costruttivo per gli altri identificando difetti e suggerendo miglioramenti. Tuttavia, valutare le capacità critiche dei LLM rappresenta una sfida significativa a causa della natura aperta del compito. In questo lavoro, presentiamo un nuovo benchmark progettato per valutare le capacità critiche dei LLM. A differenza dei benchmark esistenti, che di solito funzionano in modo open-loop, il nostro approccio utilizza una metodologia closed-loop che valuta la qualità delle correzioni generate dalle critiche. Inoltre, il benchmark incorpora funzionalità come l'auto-critica, la critica incrociata e la critica iterativa, che sono cruciali per distinguere le capacità dei modelli di ragionamento avanzati da quelli più classici. Implementiamo questo benchmark utilizzando otto compiti di ragionamento impegnativi. Abbiamo fatto diverse scoperte interessanti. In primo luogo, nonostante dimostrino prestazioni comparabili nella generazione diretta di catene di pensiero, i LLM classici rimangono significativamente indietro rispetto al modello basato sul ragionamento avanzato o1-mini in tutti gli scenari di critica. In secondo lu luogo, nei contesti di auto-critica e critica iterativa, i LLM classici potrebbero addirittura avere prestazioni inferiori rispetto alle loro capacità di base. Speriamo che questo benchmark possa servire come risorsa preziosa per guidare futuri progressi. Il codice e i dati sono disponibili su https://github.com/tangzhy/RealCritic.

4

Principi di Ridondanza per i Benchmark dei Modelli Linguistici Multilingua (MLLMs)
Redundancy Principles for MLLMs Benchmarks

Jan 20
ByZicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
29
2

Con l'iterazione rapida dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) e le esigenze in evoluzione del settore, il numero di benchmark prodotti annualmente è aumentato fino a raggiungere centinaia di unità. La crescita rapida ha inevitabilmente portato a una significativa ridondanza tra i benchmark. Pertanto, è cruciale fare un passo indietro e valutare criticamente lo stato attuale della ridondanza e proporre principi mirati per la costruzione di benchmark MLLM efficaci. In questo articolo, ci concentriamo sulla ridondanza da tre prospettive chiave: 1) Ridondanza delle dimensioni delle capacità del benchmark, 2) Ridondanza nel numero di domande di test e 3) Ridondanza tra benchmark all'interno di specifici domini. Attraverso un'analisi approfondita delle performance di centinaia di MLLM su oltre 20 benchmark, miriamo a misurare quantitativamente il livello di ridondanza presente nelle valutazioni esistenti dei MLLM, fornire preziose intuizioni per guidare lo sviluppo futuro dei benchmark MLLM e offrire strategie per affinare ed affrontare efficacemente le problematiche legate alla ridondanza.

5

RL + Transformer = Un Risolutore di Problemi a Uso Generale
RL + Transformer = A General-Purpose Problem Solver

Jan 24
ByMicah Rentschler, Jesse Roberts
28
2

E se l'intelligenza artificiale non solo potesse risolvere problemi per i quali è stata addestrata, ma imparasse anche a insegnare a se stessa a risolvere nuovi problemi (cioè, meta-apprendimento)? In questo studio, dimostriamo che un trasformatore pre-addestrato, affinato con apprendimento per rinforzo su più episodi, sviluppa la capacità di risolvere problemi che non ha mai incontrato prima - una capacità emergente chiamata Apprendimento per Rinforzo In-Contesto (ICRL). Questo potente meta-apprendista eccelle non solo nel risolvere ambienti non visti all'interno della distribuzione con notevole efficienza campionaria, ma mostra anche una forte performance in ambienti fuori dalla distribuzione. Inoltre, mostriamo che dimostra robustezza rispetto alla qualità dei suoi dati di addestramento, unisce senza soluzione di continuità comportamenti dal suo contesto e si adatta a ambienti non stazionari. Questi comportamenti dimostrano che un trasformatore addestrato con RL può migliorare iterativamente le proprie soluzioni, rendendolo un eccellente risolutore di problemi generico.

6

Avatar Codec Gaussiano per Corpi Interi Ricreabili
Relightable Full-Body Gaussian Codec Avatars

Jan 24
ByShaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
10
2

Proponiamo Avatar Gaussiani a Codec a Corpo Intero Relightable, un nuovo approccio per modellare avatar a corpo intero relightable con dettagli finemente dettagliati inclusi viso e mani. La sfida unica per illuminare gli avatar a corpo intero risiede nelle grandi deformazioni causate dall'articolazione del corpo e nell'impatto risultante sull'aspetto causato dal trasporto della luce. I cambiamenti nella posa del corpo possono cambiare drasticamente l'orientamento delle superfici corporee rispetto alle luci, risultando in cambiamenti nell'aspetto locale dovuti a cambiamenti nelle funzioni di trasporto locale della luce, così come cambiamenti non locali dovuti all'occlusione tra le parti del corpo. Per affrontare questo problema, decomponiamo il trasporto della luce in effetti locali e non locali. I cambiamenti nell'aspetto locale sono modellati utilizzando armoniche zonali apprendibili per il trasferimento di radianza diffusa. A differenza delle armoniche sferiche, le armoniche zonali sono altamente efficienti da ruotare sotto articolazione. Ciò ci consente di apprendere il trasferimento di radianza diffusa in un frame di coordinate locale, che disaccoppia il trasferimento di radianza locale dall'articolazione del corpo. Per tener conto dei cambiamenti nell'aspetto non locale, introduciamo una rete di ombre che predice le ombre date le irradiazioni in arrivo precalcolate su una maglia di base. Ciò facilita l'apprendimento dell'ombreggiatura non locale tra le parti del corpo. Infine, utilizziamo un approccio di shading differito per modellare il trasferimento di radianza speculare e catturare meglio riflessi e punti luminosi come bagliori negli occhi. Dimostriamo che il nostro approccio modella con successo sia il trasporto della luce locale che non locale richiesto per gli avatar a corpo intero relightable, con una capacità di generalizzazione superiore in condizioni di illuminazione nuove e pose non viste.

7

Rispondere alle domande sui record medici dei pazienti con LLMs private sintonizzate finemente
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23
BySara Kothari, Ayush Gupta
9
2

I sistemi sanitari generano continuamente vaste quantità di cartelle cliniche elettroniche (EHR), comunemente memorizzate nello standard Fast Healthcare Interoperability Resources (FHIR). Nonostante la ricchezza di informazioni in queste registrazioni, la loro complessità e volume rendono difficile per gli utenti recuperare e interpretare informazioni cruciali sulla salute. Gli avanzamenti recenti nei Large Language Models (LLM) offrono una soluzione, consentendo la risposta semantica alle domande (QA) sui dati medici, permettendo agli utenti di interagire in modo più efficace con le proprie cartelle cliniche. Tuttavia, garantire la privacy e la conformità richiede implementazioni locali e private dei LLM. Questo articolo propone un approccio innovativo alla risposta semantica alle domande sulle EHR identificando innanzitutto le risorse FHIR più rilevanti per una query dell'utente (Task1) e successivamente rispondendo alla query basandosi su tali risorse (Task2). Esaminiamo le prestazioni dei LLM sintonizzati finemente ospitati privatamente, valutandoli rispetto a modelli di riferimento come GPT-4 e GPT-4o. I nostri risultati dimostrano che i LLM sintonizzati finemente, pur essendo 250 volte più piccoli in dimensioni, superano i modelli della famiglia GPT-4 dello 0,55% nel punteggio F1 su Task1 e del 42% nel compito Meteor su Task2. Inoltre, esaminiamo aspetti avanzati dell'uso dei LLM, inclusa la sintonizzazione sequenziale, l'autovalutazione del modello (autovalutazione narcisistica) e l'impatto delle dimensioni dei dati di addestramento sulle prestazioni. I modelli e i set di dati sono disponibili qui: https://huggingface.co/genloop

8

GeoPixel: Modello Multimodale di Grandi Dimensioni per l'Anchoring dei Pixel nel Telerilevamento
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23
ByAkashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
8
2

I recenti progressi nei grandi modelli multimodali (LMM) hanno riconosciuto il grounding dettagliato come un fattore imprescindibile per la comprensione visiva e il dialogo. Tuttavia, i benefici di tale rappresentazione nei LMM sono limitati al dominio delle immagini naturali, e questi modelli si comportano male per il rilevamento remoto (RS). La prospettiva aerea distinta, la variazione di scala e la presenza di oggetti di piccole dimensioni nelle immagini ad alta risoluzione di RS presentano una sfida unica nella comprensione a livello di regione. Inoltre, lo sviluppo della capacità di conversazione basata sul grounding dei LMM all'interno del RS è ostacolato dalla mancanza di dati granulari specifici del dominio RS. Affrontando queste limitazioni, proponiamo GeoPixel - il primo RS-LMM ad alta risoluzione end-to-end che supporta il grounding a livello di pixel. Questa capacità consente una percezione visiva dettagliata generando maschere intercalate nella conversazione. GeoPixel supporta risoluzioni fino a 4K HD in qualsiasi rapporto d'aspetto, ideale per l'analisi di immagini di RS ad alta precisione. Per supportare la generazione di conversazioni basate sul grounding (GCG) nelle immagini di RS, curiamo un dataset visualmente basato, GeoPixelD, attraverso un flusso di lavoro semi-automatico che utilizza prompt di insiemi di segni e priorità spaziali adattati ai dati di RS per controllare metodicamente il processo di generazione dei dati. GeoPixel dimostra prestazioni superiori nella comprensione a livello di pixel, superando i LMM esistenti sia nei compiti di segmentazione a singolo bersaglio che multi-bersaglio. I nostri studi metodologici di ablation convalidano l'efficacia di ciascun componente nell'architettura complessiva. Il nostro codice e i dati saranno resi pubblici.

9

L'equiarianza multiview migliora la comprensione della corrispondenza 3D con un minimo di raffinamento delle caratteristiche.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29
ByYang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
6
2

I modelli fondamentali di visione, in particolare la famiglia ViT, hanno rivoluzionato la comprensione delle immagini fornendo ricche caratteristiche semantiche. Tuttavia, nonostante il loro successo nella comprensione 2D, le loro capacità di comprendere le relazioni spaziali in 3D sono ancora poco chiare. In questo lavoro valutiamo e potenziamo la consapevolezza in 3D dei modelli basati su ViT. Iniziamo valutando sistematicamente la loro capacità di apprendere caratteristiche 3D equivarianti, esaminando specificamente la coerenza degli embedding semantici tra diversi punti di vista. I nostri risultati indicano che un'equiarianza 3D migliorata porta a migliori prestazioni su varie attività derivate, inclusa la stima della posa, il tracciamento e il trasferimento semantico. Sulla base di questa intuizione, proponiamo una strategia di fine-tuning semplice ma efficace basata su corrispondenze 3D, che potenzia significativamente la comprensione delle corrispondenze 3D dei modelli di visione esistenti. Sorprendentemente, anche il fine-tuning su un singolo oggetto per una sola iterazione porta a notevoli miglioramenti delle prestazioni. Tutto il codice e le risorse saranno resi pubblicamente disponibili per supportare ulteriori progressi nei modelli di visione consapevoli in 3D. Il nostro codice è disponibile su https://github.com/qq456cvb/3DCorrEnhance.

10

CatV2TON: Addomesticare i Trasformatori di Diffusione per il Virtual Try-On basato sulla Visione con Concatenazione Temporale
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20
ByZheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
5
3

La tecnologia di prova virtuale (VTON) ha attirato l'attenzione per il suo potenziale nel trasformare il commercio online consentendo una visualizzazione realistica dell'abbigliamento tramite immagini e video. Tuttavia, la maggior parte dei metodi esistenti fatica a ottenere risultati di alta qualità nelle attività di prova di immagini e video, specialmente in scenari di video lunghi. In questo lavoro, presentiamo CatV2TON, un metodo di prova virtuale basato sulla visione (V2TON) semplice ed efficace che supporta sia le attività di prova di immagini che di video con un singolo modello trasformatore a diffusione. Concatenando temporalmente gli input di indumenti e persone e addestrandosi su un mix di set di dati di immagini e video, CatV2TON raggiunge prestazioni di prova robuste in impostazioni statiche e dinamiche. Per una generazione efficiente di video lunghi, proponiamo una strategia di inferenza basata su clip sovrapposte che utilizza una guida di frame sequenziale e la Normalizzazione Adattiva delle Clip (AdaCN) per mantenere la coerenza temporale con minori richieste di risorse. Presentiamo inoltre ViViD-S, un dataset raffinato di prova video, ottenuto filtrando i frame rivolti all'indietro e applicando un'ottimizzazione della maschera 3D per una maggiore coerenza temporale. Esperimenti completi dimostrano che CatV2TON supera i metodi esistenti sia nelle attività di prova di immagini che di video, offrendo una soluzione versatile e affidabile per prove virtuali realistiche in scenari diversi.

11

AdaIR: Ripristino Adattivo All-in-One delle Immagini tramite Estrazione e Modulazione in Frequenza
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21
ByYuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
4
2

Nel processo di acquisizione delle immagini, sono spesso introdotte varie forme di degrado, tra cui rumore, foschia e pioggia. Questi degradi derivano tipicamente dai limiti intrinseci delle fotocamere o dalle condizioni ambientali sfavorevoli. Per ripristinare immagini pulite dalle versioni degradate, sono stati sviluppati numerosi metodi specializzati di ripristino, ognuno mirato a un tipo specifico di degrado. Recentemente, gli algoritmi "all-in-one" hanno attirato notevole attenzione affrontando diversi tipi di degrado all'interno di un singolo modello senza richiedere informazioni preliminari sul tipo di degrado in ingresso. Tuttavia, questi metodi operano esclusivamente nel dominio spaziale e non approfondiscono le distinte variazioni di frequenza proprie dei diversi tipi di degrado. Per colmare questa lacuna, proponiamo una rete di ripristino di immagini "all-in-one" adattiva basata sull'estrazione e sulla modulazione delle frequenze. Il nostro approccio è motivato dall'osservazione che diversi tipi di degrado influenzano il contenuto dell'immagine su diverse sottobande di frequenza, richiedendo quindi trattamenti diversi per ciascun compito di ripristino. In particolare, estraiamo inizialmente informazioni a bassa e alta frequenza dalle caratteristiche in ingresso, guidati spettralmente in modo adattivo dall'immagine degradata. Le caratteristiche estratte vengono poi modulate da un operatore bidirezionale per facilitare le interazioni tra i diversi componenti di frequenza. Infine, le caratteristiche modulate vengono fuse nell'input originale per un ripristino guidato in modo progressivo. Con questo approccio, il modello raggiunge una ricostruzione adattiva accentuando le sottobande di frequenza informative in base ai diversi degradi in ingresso. Estesi esperimenti dimostrano che il metodo proposto raggiunge prestazioni all'avanguardia su diversi compiti di ripristino delle immagini, tra cui denoising, dehazing, deraining, motion deblurring e miglioramento delle immagini a bassa luminosità. Il nostro codice è disponibile su https://github.com/c-yn/AdaIR.

12

Denoising come Adattamento: Adattamento del Dominio dello Spazio del Rumore per il Ripristino delle Immagini
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26
ByKang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
4
2

Sebbene i metodi di ripristino delle immagini basati sull'apprendimento abbiano fatto progressi significativi, faticano ancora a generalizzare in scenari del mondo reale a causa della notevole differenza di dominio causata dall'addestramento su dati sintetici. I metodi esistenti affrontano questo problema migliorando i flussi di sintesi dei dati, stimando i kernel di degradazione, utilizzando l'apprendimento interno profondo e eseguendo l'adattamento di dominio e la regolarizzazione. I metodi precedenti di adattamento di dominio hanno cercato di colmare il divario di dominio apprendendo conoscenze invarianti al dominio nello spazio delle caratteristiche o dei pixel. Tuttavia, queste tecniche spesso faticano ad estendersi a compiti di visione a basso livello all'interno di un framework stabile e compatto. In questo articolo, mostriamo che è possibile eseguire l'adattamento di dominio tramite lo spazio del rumore utilizzando modelli di diffusione. In particolare, sfruttando la proprietà unica di come gli input condizionali ausiliari influenzano il processo di denoising a più passaggi, deriviamo una perdita di diffusione significativa che guida il modello di ripristino nell'allineare progressivamente sia le uscite sintetiche ripristinate che quelle del mondo reale con una distribuzione pulita di destinazione. Ci riferiamo a questo metodo come adattamento tramite denoising. Per evitare scorciatoie durante l'addestramento congiunto, presentiamo strategie cruciali come lo strato di channel-shuffling e il contrastive learning di residual-swapping nel modello di diffusione. Queste sfumano implicitamente i confini tra dati sintetici condizionati e reali e impediscono al modello di fare affidamento su caratteristiche facilmente distinguibili. I risultati sperimentali su tre classici compiti di ripristino delle immagini, ovvero denoising, deblurring e deraining, dimostrano l'efficacia del metodo proposto.

Jan 24
Jan 27
Jan 28