Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Attenzione a Stelle: Inferenza Efficient di LLM su Sequenze Lunghe
Star Attention: Efficient LLM Inference over Long Sequences

Nov 26

ByShantanu Acharya, Fei Jia, Boris Ginsburg

L'inferenza con modelli linguistici di grandi dimensioni (LLM) basati su Transformer su sequenze lunghe è sia costosa che lenta a causa della complessità quadratica del meccanismo di autoattenzione. Introduciamo Star Attention, un'approximazione blocco-sparso a due fasi che migliora l'efficienza computazionale suddividendo l'attenzione su più host riducendo al minimo il costo della comunicazione. Nella prima fase, il contesto viene elaborato utilizzando un'attenzione locale a blocchi tra gli host, in parallelo. Nella seconda fase, i token di query e risposta si concentrano su tutti i token memorizzati in precedenza attraverso un'attenzione globale alla sequenza. Star Attention si integra perfettamente con la maggior parte dei LLM basati su Transformer addestrati con attenzione globale, riducendo i requisiti di memoria e il tempo di inferenza fino a 11 volte pur conservando il 95-100% di accuratezza.

Viaggio di replicazione O1 - Parte 2: Superare O1-preview attraverso Semplice Distillazione, Grande Progresso o Amara Lezione?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25

ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu

Questo articolo presenta un'esaminazione critica degli approcci attuali per replicare le capacità del modello O1 di OpenAI, con particolare attenzione sull'ampio ma spesso non dichiarato utilizzo delle tecniche di distillazione della conoscenza. Mentre il nostro lavoro precedente ha esplorato il percorso tecnico fondamentale per replicare O1, questo studio rivela come una semplice distillazione dall'API di O1, combinata con il fine-tuning supervisionato, possa raggiungere prestazioni superiori su compiti complessi di ragionamento matematico. Attraverso estesi esperimenti, mostriamo che un modello di base sintonizzato su semplicemente decine di migliaia di campioni distillati da O1 supera le prestazioni di O1-preview nell'American Invitational Mathematics Examination (AIME) con una complessità tecnica minima. Inoltre, la nostra indagine si estende oltre il ragionamento matematico per esplorare le capacità di generalizzazione dei modelli distillati da O1 su diversi compiti: allucinazione, sicurezza e domande aperte di dominio generale. In particolare, nonostante l'allenamento solo su dati di risoluzione di problemi matematici, i nostri modelli hanno dimostrato una forte capacità di generalizzazione su compiti di domande aperte e sono diventati significativamente meno suscettibili alla lusinga dopo il fine-tuning. Rendiamo deliberatamente pubblica questa scoperta per promuovere la trasparenza nella ricerca sull'IA e per sfidare l'attuale tendenza delle affermazioni tecniche oscure nel settore. Il nostro lavoro include: (1) Una dettagliata esposizione tecnica del processo di distillazione e della sua efficacia, (2) Un ampio framework di benchmark per valutare e categorizzare i tentativi di replicazione di O1 in base alla trasparenza tecnica e alla riproducibilità, (3) Una discussione critica dei limiti e dei potenziali rischi di fare troppo affidamento sugli approcci di distillazione, la nostra analisi culmina in una lezione amara cruciale: mentre è importante perseguire sistemi di intelligenza artificiale più capaci, lo sviluppo di ricercatori radicati nel pensiero dei primi principi è fondamentale.

Materiale Qualsiasi: Generazione di Materiali per Qualsiasi Oggetto 3D tramite Diffusione
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22

ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang

Presentiamo Material Anything, un framework di diffusione unificato completamente automatizzato progettato per generare materiali basati sulla fisica per oggetti 3D. A differenza dei metodi esistenti che si basano su pipeline complesse o ottimizzazioni specifiche per casi, Material Anything offre una soluzione robusta e completa adattabile a oggetti in diverse condizioni di illuminazione. Il nostro approccio sfrutta un modello di diffusione di immagini preaddestrato, potenziato con un'architettura a tre teste e una perdita di rendering per migliorare la stabilità e la qualità del materiale. Inoltre, introduciamo maschere di confidenza come commutatore dinamico all'interno del modello di diffusione, consentendogli di gestire efficacemente oggetti con texture e senza texture in condizioni di illuminazione variabili. Applicando una strategia progressiva di generazione di materiali guidata da queste maschere di confidenza, insieme a un raffinatore di materiali nello spazio UV, il nostro metodo garantisce output di materiali coerenti e pronti per UV. Estesi esperimenti dimostrano che il nostro approccio supera i metodi esistenti in una vasta gamma di categorie di oggetti e condizioni di illuminazione.

Dalla Generazione al Giudizio: Opportunità e Sfide di LLM-come-giudice
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25

ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu

Valutazione e analisi sono da tempo sfide critiche nell'intelligenza artificiale (AI) e nell'elaborazione del linguaggio naturale (NLP). Tuttavia, i metodi tradizionali, che siano basati su corrispondenza o su embedding, spesso non riescono a valutare attributi sottili e a fornire risultati soddisfacenti. I recenti progressi nei Grandi Modelli Linguistici (LLM) ispirano il paradigma "LLM-come-giudice", dove i LLM sono impiegati per eseguire valutazioni, classificazioni o selezioni in varie attività e applicazioni. Questo articolo fornisce un'esaustiva panoramica sulla valutazione e giudizio basati su LLM, offrendo una visione approfondita per far progredire questo campo emergente. Iniziamo fornendo definizioni dettagliate da prospettive sia di input che di output. Successivamente introduciamo una tassonomia completa per esplorare il concetto di LLM-come-giudice da tre dimensioni: cosa giudicare, come giudicare e dove giudicare. Infine, raccogliamo benchmark per valutare il LLM-come-giudice e evidenziamo le sfide principali e le direzioni promettenti, con l'obiettivo di offrire preziose intuizioni e ispirare futuri studi in questa promettente area di ricerca. La lista degli articoli e ulteriori risorse su LLM-come-giudice sono disponibili su https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge e https://llm-as-a-judge.github.io.

GMAI-VL & GMAI-VL-5.5M: Un grande modello visione-linguaggio e un dataset multimodale completo verso l'IA medica generale
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21

ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

Nonostante significativi progressi nell'intelligenza artificiale generale, come GPT-4, la loro efficacia nel dominio medico (intelligenza artificiale medica generale, GMAI) rimane limitata a causa dell'assenza di conoscenze mediche specializzate. Per affrontare questa sfida, presentiamo GMAI-VL-5.5M, un ampio dataset medico multimodale creato convertendo centinaia di dataset medici specializzati in coppie immagine-testo attentamente costruite. Questo dataset offre una copertura completa delle attività, diverse modalità e dati immagine-testo di alta qualità. Basandoci su questo dataset multimodale, proponiamo GMAI-VL, un modello di visione-linguaggio medico generale con una strategia di addestramento progressivo a tre fasi. Questo approccio migliora significativamente le capacità del modello integrando informazioni visive e testuali, migliorando così la sua capacità di elaborare dati multimodali e supportare diagnosi accurate e decisioni cliniche. Valutazioni sperimentali dimostrano che GMAI-VL raggiunge risultati all'avanguardia in una vasta gamma di attività mediche multimodali, come risposte a domande visive e diagnosi di immagini mediche. I nostri contributi includono lo sviluppo del dataset GMAI-VL-5.5M, l'introduzione del modello GMAI-VL e l'istituzione di nuovi benchmark in diversi domini medici. Il codice e il dataset saranno rilasciati su https://github.com/uni-medical/GMAI-VL.

Riflessioni dal 2024 Hackathon del Grande Modello Linguistico (LLM) per Applicazioni in Scienza dei Materiali e Chimica
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20

ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik

Qui presentiamo i risultati del secondo Hackathon del Grande Modello Linguistico (LLM) per Applicazioni in Scienza dei Materiali e Chimica, che ha coinvolto partecipanti in diverse sedi ibride globali, portando a 34 proposte di squadra. Le proposte hanno coperto sette aree applicative chiave e hanno dimostrato l'ampia utilità dei LLM per applicazioni in (1) previsione di proprietà molecolari e materiali; (2) progettazione molecolare e dei materiali; (3) automazione e interfacce innovative; (4) comunicazione scientifica e educazione; (5) gestione e automazione dei dati di ricerca; (6) generazione e valutazione di ipotesi; e (7) estrazione di conoscenza e ragionamento dalla letteratura scientifica. Ogni proposta di squadra è presentata in una tabella riassuntiva con collegamenti al codice e brevi articoli nell'allegato. Oltre ai risultati delle squadre, discutiamo dell'evento dell'hackathon e del suo formato ibrido, che includeva sedi fisiche a Toronto, Montreal, San Francisco, Berlino, Losanna e Tokyo, insieme a un'hub online globale per consentire la collaborazione locale e virtuale. Complessivamente, l'evento ha evidenziato significativi miglioramenti nelle capacità dei LLM rispetto all'hackathon dell'anno precedente, suggerendo un continuo ampliamento dei LLM per applicazioni nella ricerca scientifica dei materiali e della chimica. Questi risultati dimostrano la duplice utilità dei LLM come modelli multipurpose per diverse attività di apprendimento automatico e piattaforme per la prototipazione rapida di applicazioni personalizzate nella ricerca scientifica.

Una Diffusione per Generarli Tutti
One Diffusion to Generate Them All

Nov 25

ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu

Introduciamo OneDiffusion, un modello di diffusione versatile su larga scala che supporta in modo fluido la sintesi e la comprensione bidirezionale delle immagini attraverso diverse attività. Consente la generazione condizionale da input come testo, profondità, posa, layout e mappe semantiche, gestendo anche attività come lo sbiadimento delle immagini, l'ingrandimento e processi inversi come la stima della profondità e la segmentazione. Inoltre, OneDiffusion consente la generazione multi-vista, la stima della posa della fotocamera e la personalizzazione istantanea utilizzando input sequenziali di immagini. Il nostro modello adotta un approccio semplice ma efficace trattando tutte le attività come sequenze di frame con varie scale di rumore durante l'addestramento, consentendo a qualsiasi frame di agire come immagine condizionante al momento dell'inferenza. Il nostro framework unificato di addestramento elimina la necessità di architetture specializzate, supporta l'addestramento multi-attività scalabile e si adatta facilmente a qualsiasi risoluzione, migliorando sia la generalizzazione che la scalabilità. I risultati sperimentali dimostrano prestazioni competitive in varie attività sia di generazione che di previsione come testo-immagine, generazione multi-vista, conservazione dell'ID, stima della profondità e stima della posa della fotocamera nonostante il dataset di addestramento relativamente piccolo. Il nostro codice e il checkpoint sono liberamente disponibili su https://github.com/lehduong/OneDiffusion

MH-MoE: Misto di Esperti a Testa Multipla
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25

ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei

Il modello Multi-Head Mixture-of-Experts (MH-MoE) dimostra prestazioni superiori utilizzando il meccanismo multi-head per attentamente considerare le informazioni provenienti da vari spazi di rappresentazione all'interno di differenti esperti. In questo articolo, presentiamo una nuova implementazione di MH-MoE che mantiene sia il numero di operazioni in virgola mobile (FLOPs) che il numero di parametri paragonabile con i modelli sparsi Mixture of Experts. I risultati sperimentali sui modelli linguistici mostrano che la nuova implementazione porta a miglioramenti qualitativi rispetto sia ai modelli MoE standard che ai modelli MoE a grana fine. Inoltre, i nostri esperimenti dimostrano che MH-MoE è compatibile con i Large Language Models (LLM) a 1 bit come BitNet.

Segmentazione interattiva di immagini mediche: un dataset di riferimento e basi di confronto
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19

ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He

La segmentazione interattiva delle immagini mediche (IMIS) è stata a lungo limitata dalla limitata disponibilità di set di dati ampi, diversificati e densamente annotati, che ostacola la generalizzazione dei modelli e la valutazione coerente tra modelli diversi. In questo articolo, presentiamo il dataset di benchmark IMed-361M, un significativo avanzamento nella ricerca generale di IMIS. Inizialmente, raccogliamo e standardizziamo oltre 6,4 milioni di immagini mediche e le relative maschere di verità dal terreno da diverse fonti di dati. Successivamente, sfruttando le forti capacità di riconoscimento degli oggetti di un modello fondamentale di visione, generiamo automaticamente maschere interattive dense per ciascuna immagine e ne garantiamo la qualità attraverso un rigoroso controllo qualità e gestione della granularità. A differenza dei dataset precedenti, limitati da specifiche modalità o annotazioni sparse, IMed-361M copre 14 modalità e 204 obiettivi di segmentazione, per un totale di 361 milioni di maschere, con una media di 56 maschere per immagine. Infine, sviluppiamo una rete di base IMIS su questo dataset che supporta la generazione di maschere di alta qualità attraverso input interattivi, inclusi clic, bounding box, prompt di testo e le loro combinazioni. Valutiamo le sue prestazioni su compiti di segmentazione delle immagini mediche da molteplici prospettive, dimostrando un'accuratezza e scalabilità superiori rispetto ai modelli di segmentazione interattiva esistenti. Per agevolare la ricerca sui modelli fondamentali nella visione artificiale medica, rilasciamo IMed-361M e il modello su https://github.com/uni-medical/IMIS-Bench.

SegBook: Una linea guida semplice e un manuale per la segmentazione di immagini mediche volumetriche
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21

ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He

La Tomografia Computerizzata (TC) è una delle modalità più popolari per l'imaging medico. Le immagini TC hanno contribuito in modo significativo ai più grandi set di dati disponibili pubblicamente per compiti di segmentazione medica volumetrica, coprendo le strutture anatomiche dell'intero corpo. Grandi quantità di immagini TC a tutto corpo offrono l'opportunità di pre-addestrare modelli potenti, ad esempio STU-Net pre-addestrato in modo supervisionato, per segmentare numerose strutture anatomiche. Tuttavia, rimane poco chiaro in quali condizioni questi modelli pre-addestrati possano essere trasferiti a vari compiti di segmentazione medica successivi, in particolare per la segmentazione di altre modalità e obiettivi diversi. Per affrontare questo problema, è cruciale avere un benchmark su larga scala per una valutazione completa al fine di individuare queste condizioni. Pertanto, abbiamo raccolto 87 set di dati pubblici variabili in termini di modalità, obiettivo e dimensioni campione per valutare la capacità di trasferimento dei modelli pre-addestrati su TC a tutto corpo. Abbiamo quindi impiegato un modello rappresentativo, STU-Net con molteplici scale di modello, per condurre l'apprendimento di trasferimento tra diverse modalità e obiettivi. I nostri risultati sperimentali mostrano che (1) potrebbe esserci un effetto di bottleneck riguardante le dimensioni del set di dati nel fine-tuning, con un miglioramento maggiore sia su set di dati di piccole che di grandi dimensioni rispetto a quelli di dimensioni medie. (2) I modelli pre-addestrati su TC a tutto corpo dimostrano un efficace trasferimento di modalità, adattandosi bene ad altre modalità come la risonanza magnetica (MRI). (3) Il pre-addestramento su TC a tutto corpo non solo supporta una forte performance nella rilevazione delle strutture, ma mostra anche efficacia nella rilevazione delle lesioni, dimostrando adattabilità tra compiti obiettivo. Speriamo che questa valutazione aperta su larga scala dell'apprendimento di trasferimento possa indirizzare la ricerca futura nella segmentazione di immagini mediche volumetriche.

DreamRunner: Generazione di video di narrazione dettagliata con Adattamento del Movimento potenziato dal Recupero
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25

ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal

La generazione di video per il racconto (SVG) è emersa di recente come un compito per creare video lunghi, multi-movimento, multi-scena che rappresentino in modo coerente la storia descritta nello script di testo in input. SVG ha un grande potenziale per la creazione di contenuti diversificati nei media e nell'intrattenimento; tuttavia, presenta anche significativi sfide: (1) gli oggetti devono mostrare una gamma di movimenti complessi e dettagliati, (2) diversi oggetti devono comparire in modo coerente tra le scene e (3) i soggetti possono richiedere molteplici movimenti con transizioni fluide all'interno di una singola scena. Per affrontare queste sfide, proponiamo DreamRunner, un nuovo metodo di generazione di video da storia: Innanzitutto, strutturiamo lo script di input utilizzando un grande modello di linguaggio (LLM) per facilitare sia la pianificazione delle scene a grana grossa che la pianificazione dettagliata a livello di oggetto e movimento. Successivamente, DreamRunner presenta un adattamento al test con recupero potenziato per catturare i priori di movimento desiderati per gli oggetti in ciascuna scena, supportando la personalizzazione del movimento in base ai video recuperati, facilitando così la generazione di nuovi video con movimenti complessi e scriptati. Infine, proponiamo un nuovo modulo di attenzione 3D basato su regioni spazio-temporali e iniezione di priori SR3AI per il vincolo del movimento dettagliato degli oggetti e il controllo semantico frame-by-frame. Confrontiamo DreamRunner con vari baselines di SVG, dimostrando prestazioni all'avanguardia nella coerenza dei personaggi, allineamento del testo e transizioni fluide. Inoltre, DreamRunner mostra una forte capacità di seguire condizioni dettagliate nella generazione compositiva di testo-a-video, superando significativamente i baselines su T2V-ComBench. Infine, convalidiamo la robusta capacità di DreamRunner di generare interazioni multi-oggetto con esempi qualitativi.

Ottimizzatori Cauti: Migliorare l'Addestramento con una Sola Linea di Codice
Cautious Optimizers: Improving Training with One Line of Code

Nov 25

ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu

AdamW è stato l'ottimizzatore predefinito per il preaddestramento del transformer. Per molti anni, la nostra comunità ha cercato ottimizzatori più veloci e stabili con risultati positivi limitati. In questo lavoro, proponiamo una modifica in una sola riga in Pytorch a qualsiasi ottimizzatore basato sul momentum, che rinominiamo Ottimizzatore Cautelativo, ad esempio C-AdamW e C-Lion. Il nostro risultato teorico mostra che questa modifica preserva la funzione Hamiltoniana di Adam e non compromette la garanzia di convergenza sotto l'analisi di Lyapunov. Inoltre, la nostra intuizione teorica rivela una nuova famiglia di ottimizzatori. Tra questi, scegliamo il più semplice per esperimenti empirici, mostrando un aumento di velocità nel preaddestramento di Llama e MAE fino a 1,47 volte. Il codice è disponibile su https://github.com/kyleliang919/C-Optim

Tokenizzazione visuale fattorizzata e generazione
Factorized Visual Tokenization and Generation

Nov 25

ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou

I tokenizzatori visivi sono fondamentali per la generazione di immagini. Essi convertono i dati visivi in token discreti, consentendo ai modelli basati su trasformatori di eccellere nella generazione di immagini. Nonostante il loro successo, i tokenizzatori basati su VQ come VQGAN affrontano significative limitazioni dovute alle dimensioni limitate del vocabolario. Espandere semplicemente il codebook spesso porta a instabilità nell'addestramento e a una diminuzione delle prestazioni, rendendo la scalabilità una sfida critica. In questo lavoro, introduciamo la Quantizzazione Fattorizzata (FQ), un approccio innovativo che rivitalizza i tokenizzatori basati su VQ decomponendo un ampio codebook in più sub-codebook indipendenti. Questa fattorizzazione riduce la complessità della ricerca dei grandi codebook, consentendo una tokenizzazione visiva più efficiente e scalabile. Per garantire che ciascun sub-codebook catturi informazioni distinte e complementari, proponiamo una regolarizzazione della disentanglement che riduce esplicitamente la ridondanza, promuovendo la diversità tra i sub-codebook. Inoltre, integriamo l'apprendimento della rappresentazione nel processo di addestramento, sfruttando modelli di visione preaddestrati come CLIP e DINO per infondere ricchezza semantica nelle rappresentazioni apprese. Questo design garantisce che il nostro tokenizer catturi diversi livelli semantici, portando a rappresentazioni più espressive e disentangolate. Gli esperimenti mostrano che il modello proposto FQGAN migliora sostanzialmente la qualità della ricostruzione dei tokenizzatori visivi, raggiungendo prestazioni all'avanguardia. Dimostriamo inoltre che questo tokenizer può essere efficacemente adattato alla generazione di immagini auto-regressiva. https://showlab.github.io/FQGAN

VisualLens: Personalizzazione attraverso la Storia Visiva
VisualLens: Personalization through Visual History

Nov 25

ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong

Ipotizziamo che la storia visiva di un utente con immagini che riflettono la sua vita quotidiana offra preziose intuizioni sui suoi interessi e preferenze, e possa essere sfruttata per la personalizzazione. Tra le molte sfide per raggiungere questo obiettivo, la principale è rappresentata dalla diversità e dai rumori nella storia visiva, che contiene immagini non necessariamente correlate a un compito di raccomandazione, non riflettendo necessariamente l'interesse dell'utente, o addirittura non rilevanti per le preferenze. I sistemi di raccomandazione esistenti si basano o sui log di interazione specifici del compito dell'utente, come la storia degli acquisti online per le raccomandazioni di acquisto, o si concentrano sui segnali di testo. Proponiamo un approccio innovativo, VisualLens, che estrae, filtra e affina le rappresentazioni delle immagini, e sfrutta questi segnali per la personalizzazione. Abbiamo creato due nuovi benchmark con storie visive agnostiche rispetto al compito, e dimostriamo che il nostro metodo migliora le raccomandazioni all'avanguardia del 5-10% su Hit@3, e migliora rispetto a GPT-4o del 2-5%. Il nostro approccio apre la strada per raccomandazioni personalizzate in scenari in cui i metodi tradizionali falliscono.

TEXGen: un modello generativo a diffusione per le texture a maglia
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22

ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

Sebbene le mappe di texture di alta qualità siano essenziali per la resa realistica degli asset 3D, pochi studi hanno esplorato l'apprendimento direttamente nello spazio delle texture, in particolare su set di dati su larga scala. In questo lavoro, ci discostiamo dall'approccio convenzionale che si basa su modelli di diffusione 2D preaddestrati per l'ottimizzazione delle texture 3D al momento del test. Invece, ci concentriamo sul problema fondamentale dell'apprendimento nello spazio delle texture UV stesso. Per la prima volta, addestriamo un ampio modello di diffusione in grado di generare direttamente mappe di texture ad alta risoluzione in modo feed-forward. Per facilitare un apprendimento efficiente negli spazi UV ad alta risoluzione, proponiamo un'architettura di rete scalabile che interseca convoluzioni sulle mappe UV con strati di attenzione sui cloud di punti. Sfruttando questo design architetturale, addestriamo un modello di diffusione con 700 milioni di parametri in grado di generare mappe di texture UV guidate da prompt di testo e immagini a singola vista. Una volta addestrato, il nostro modello supporta naturalmente varie applicazioni estese, tra cui il completamento di texture guidato dal testo, il completamento di texture a vista sparuta e la sintesi di texture guidata dal testo. La pagina del progetto si trova su http://cvmi-lab.github.io/TEXGen/.

Trasferimento di Conoscenza tra Modalità con Supervisione di Linguaggio Naturale
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23

ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto

Presentiamo un modo per apprendere concetti nuovi utilizzando esclusivamente la loro descrizione testuale. Chiamiamo questo metodo Trasferimento di Conoscenza. Analogamente alla percezione umana, sfruttiamo l'interazione cross-modale per introdurre nuovi concetti. Ipotizziamo che in un codificatore visivo pre-addestrato ci siano abbastanza caratteristiche a basso livello già apprese (ad es. forma, aspetto, colore) che possono essere utilizzate per descrivere concetti ad alto livello precedentemente sconosciuti. Fornita una descrizione testuale del concetto nuovo, il nostro metodo funziona allineando le caratteristiche a basso livello conosciute del codificatore visivo alla sua descrizione testuale ad alto livello. Dimostriamo che il Trasferimento di Conoscenza può introdurre con successo concetti nuovi in modelli multimodali, in modo molto efficiente, richiedendo solo una singola descrizione del concetto target. Il nostro approccio è compatibile sia con codificatori testuali e visivi separati (ad es. CLIP) sia con parametri condivisi tra le modalità. Mostriamo inoltre che, seguendo lo stesso principio, il Trasferimento di Conoscenza può migliorare i concetti già noti al modello. Sfruttando il Trasferimento di Conoscenza miglioriamo le prestazioni zero-shot su diversi compiti come classificazione, segmentazione, recupero immagine-testo e didascalia.

Da CISC a RISC: trasposizione dell'assembly guidata dal modello linguistico.
From CISC to RISC: language-model guided assembly transpilation

Nov 25

ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud

La transizione dall'architettura x86 a quella ARM sta diventando sempre più comune in vari settori, principalmente guidata dall'efficienza energetica di ARM e dalle prestazioni migliorate in settori tradizionali. Tuttavia, questa transizione dell'ISA presenta significativi sfide, principalmente a causa dell'ampio ecosistema legacy di software x86 e della mancanza di portabilità tra ecosistemi proprietari e stack software. Questo articolo introduce CRT, un trascompiler leggero basato su LLM che converte automaticamente l'assembly x86 in ARM. Il nostro approccio colma il divario architetturale fondamentale tra il CISC di x86 e il RISC di ARM preservando la semantica del programma e ottimizzando le prestazioni. Valutiamo CRT su diverse applicazioni reali, raggiungendo una precisione di traduzione del 79,25% da x86 ad ARMv5 nel nostro completo insieme di test e un'accuratezza dell'88,68% da x86 a RISC-V. Nelle implementazioni pratiche sull'hardware Apple M2 (ARMv8), il nostro codice trascompilato ottiene un aumento di velocità del 1,73 rispetto al motore di virtualizzazione Rosetta 2 di Apple, offrendo anche un'efficienza di memoria 2,41 volte superiore e un consumo energetico migliore del 1,47. Attraverso test e analisi, dimostriamo che CRT naviga con successo tra la divisione CISC/RISC e genera correttamente codice RISC eseguibile nonostante le barriere del "linguaggio" macchina. Rilasciamo il nostro codice, modelli, set di dati di addestramento e benchmark su: https://ahmedheakl.github.io/asm2asm/.

SplatFlow: Modello di flusso rettificato multi-vista per lo sprofondamento gaussiano 3D
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25

ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim

La generazione e modifica basate su testo di scene 3D hanno un notevole potenziale per ottimizzare la creazione di contenuti attraverso interazioni utente intuitive. Mentre i recenti progressi sfruttano lo Splatting Gaussiano 3D (3DGS) per rendering ad alta fedeltà e in tempo reale, i metodi esistenti sono spesso specializzati e focalizzati su compiti specifici, mancando di un quadro unificato per generazione e modifica. In questo articolo, presentiamo SplatFlow, un framework completo che affronta questa lacuna consentendo la generazione e la modifica dirette tramite 3DGS. SplatFlow è composto da due componenti principali: un modello di flusso rettificato multi-vista (RF) e un Decodificatore di Splatting Gaussiano (GSDecoder). Il modello RF multi-vista opera nello spazio latente, generando immagini multi-vista, profondità e posizioni della fotocamera simultaneamente, condizionate a prompt di testo, affrontando così sfide come diverse scale di scene e complesse traiettorie della fotocamera in contesti reali. Successivamente, il GSDecoder traduce efficientemente queste uscite latenti in rappresentazioni 3DGS attraverso un metodo 3DGS feed-forward. Sfruttando tecniche di inversione e inpainting senza addestramento, SplatFlow consente una modifica 3DGS senza soluzione di continuità e supporta una vasta gamma di compiti 3D, tra cui modifica degli oggetti, sintesi di nuove visuali e stima della posa della fotocamera, all'interno di un framework unificato senza richiedere pipeline complesse aggiuntive. Confermiamo le capacità di SplatFlow sui set di dati MVImgNet e DL3DV-7K, dimostrandone la versatilità e l'efficacia in vari compiti di generazione 3D, modifica e inpainting.

Tutte le lingue contano: Valutazione dei LMM su 100 lingue culturalmente diverse
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25

ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan

I modelli multimodali di grandi dimensioni (LMMs) esistenti si concentrano generalmente solo su alcune regioni e lingue. Man mano che i LMMs continuano a migliorare, è sempre più importante garantire che essi comprendano i contesti culturali, rispettino le sensibilità locali e supportino le lingue a risorse limitate, il tutto integrando efficacemente i segnali visivi corrispondenti. Nella ricerca di modelli multimodali globali culturalmente diversi, il nostro proposto All Languages Matter Benchmark (ALM-bench) rappresenta il più grande e completo sforzo ad oggi per valutare i LMMs in 100 lingue. ALM-bench sfida i modelli esistenti testando la loro capacità di comprendere e ragionare su immagini culturalmente diverse abbinate a testo in varie lingue, incluse molte lingue a risorse limitate tradizionalmente sotto-rappresentate nella ricerca sui LMMs. Il benchmark offre un quadro di valutazione robusto e sfumato con vari formati di domande, tra cui vero/falso, a scelta multipla e domande aperte, che sono ulteriormente divise in categorie di risposte brevi e lunghe. Il design di ALM-bench garantisce una valutazione completa della capacità di un modello di gestire vari livelli di difficoltà nel ragionamento visivo e linguistico. Per catturare la ricca varietà delle culture globali, ALM-bench cura attentamente i contenuti di 13 aspetti culturali distinti, che vanno dalle tradizioni e rituali alle personalità famose e celebrazioni. Attraverso questo, ALM-bench non solo fornisce un rigoroso campo di prova per i LMMs open e closed-source all'avanguardia, ma evidenzia anche l'importanza dell'inclusività culturale e linguistica, incoraggiando lo sviluppo di modelli che possano servire in modo efficace popolazioni globali diverse. Il nostro benchmark è disponibile pubblicamente.

Le LLM non pensano passo dopo passo nell'argomentazione implicita.
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24

ByYijiong Yu

È ben noto che la Catena di Pensiero può notevolmente migliorare le prestazioni dei LLM su compiti complessi. Tuttavia, poiché introduce anche velocità di inferenza più lente e costi computazionali più elevati, molti ricercatori hanno cercato di utilizzare la CoT implicita, che non richiede ai LLM di generare esplicitamente i passaggi intermedi. Tuttavia, esiste ancora un divario tra la loro efficacia e i tipici metodi espliciti di CoT. Ciò ci porta a dubitare se la CoT implicita sia davvero equivalente alla CoT esplicita. Pertanto, in questo studio, affrontiamo questa questione attraverso esperimenti. Esaminiamo le informazioni dei passaggi intermedi dagli stati nascosti del modello quando esegue la CoT implicita. I risultati indicano sorprendentemente che i LLM pensano a malapena ai passaggi intermedi, suggerendo che potrebbero fare affidamento sull'esperienza piuttosto che su un ragionamento rigoroso passo dopo passo. Inoltre, scopriamo che le capacità di ragionamento implicito dei LLM sono suscettibili e instabili, confermando la necessità di una CoT esplicita per supportare efficacemente compiti complessi.

Il meglio di entrambi i mondi: Vantaggi dei Modelli Ibridi di Sequenza di Grafi
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23

ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni

I moderni modelli sequenziali (ad esempio, i Transformers, le RNN lineari, ecc.) sono emersi come colonne portanti predominanti nei recenti framework di apprendimento profondo, principalmente grazie alla loro efficienza, potenza rappresentativa e/o capacità di catturare dipendenze a lungo raggio. L'adozione di questi modelli sequenziali per dati strutturati a grafo ha recentemente guadagnato popolarità come alternativa alle Reti Neurali a Passaggio di Messaggi (MPNNs). Tuttavia, manca una base comune su cosa costituisca un buon modello sequenziale a grafo e una descrizione matematica dei vantaggi e dei difetti nell'adozione di diversi modelli sequenziali per l'apprendimento su grafi. A questo scopo, presentiamo innanzitutto il Modello Sequenziale a Grafo (GSM), un framework unificante per l'adozione di modelli sequenziali per grafi, composto da tre passaggi principali: (1) Tokenizzazione, che traduce il grafo in un insieme di sequenze; (2) Codifica Locale, che codifica i vicini locali attorno a ciascun nodo; e (3) Codifica Globale, che impiega un modello sequenziale scalabile per catturare dipendenze a lungo raggio all'interno delle sequenze. Questo framework ci consente di comprendere, valutare e confrontare la potenza delle diverse colonne portanti dei modelli sequenziali nelle attività sui grafi. Le nostre valutazioni teoriche della potenza di rappresentazione dei Transformers e dei moderni modelli ricorrenti attraverso il prisma delle attività globali e locali sui grafi mostrano che ci sono aspetti negativi e positivi per entrambi i tipi di modelli. Sulla base di questa osservazione, presentiamo GSM++, un modello ibrido veloce che utilizza l'algoritmo di Clustering di Affinità Gerarchica (HAC) per tokenizzare il grafo in sequenze gerarchiche, e poi impiega un'architettura ibrida di Transformer per codificare queste sequenze. I nostri risultati teorici e sperimentali supportano il design di GSM++, mostrando che GSM++ supera i modelli di riferimento nella maggior parte delle valutazioni di benchmark.

Trova Qualsiasi Parte in 3D
Find Any Part in 3D

Nov 20

ByZiqi Ma, Yisong Yue, Georgia Gkioxari

Studiamo la segmentazione di parti in un mondo aperto in 3D: segmentando qualsiasi parte in qualsiasi oggetto basandosi su qualsiasi query di testo. I metodi precedenti sono limitati nelle categorie di oggetti e nei vocabolari delle parti. Recenti progressi nell'ambito dell'IA hanno dimostrato efficaci capacità di riconoscimento in un mondo aperto in 2D. Ispirati da questi sviluppi, proponiamo un modello di predizione diretta per la segmentazione di parti in 3D in un mondo aperto che può essere applicato in zero-shot a qualsiasi oggetto. Il nostro approccio, chiamato Find3D, addestra un modello di embedding di punti di categoria generale su asset 3D su larga scala provenienti da internet senza alcuna annotazione umana. Combina un motore di dati, alimentato da modelli fondamentali per l'annotazione dei dati, con un metodo di addestramento contrastivo. Otteniamo ottime prestazioni e generalizzazione su più dataset, con un miglioramento fino a 3 volte in mIoU rispetto al metodo successivo migliore. Il nostro modello è da 6 a oltre 300 volte più veloce rispetto ai baselines esistenti. Per incoraggiare la ricerca nella segmentazione di parti in 3D in un mondo aperto di categoria generale, rilasciamo anche un benchmark per oggetti e parti generali. Sito del progetto: https://ziqi-ma.github.io/find3dsite/

DreamMix: Decoupling degli attributi degli oggetti per una maggiore modificabilità nell'Inpainting personalizzato delle immagini
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26

ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu

L'inpainting delle immagini guidato dal soggetto è emerso come un compito popolare nell'editing delle immagini insieme ai recenti progressi nei modelli di diffusione. I metodi precedenti si concentrano principalmente sulla conservazione dell'identità ma faticano a mantenere l'editabilità degli oggetti inseriti. In risposta, questo articolo introduce DreamMix, un modello generativo basato sulla diffusione capace di inserire oggetti target in scene date in posizioni specificate dall'utente consentendo contemporaneamente modifiche arbitrarie guidate dal testo ai loro attributi. In particolare, sfruttiamo modelli avanzati di inpainting fondamentali e introduciamo un framework di inpainting locale-globale disaccoppiato per bilanciare l'accurata inserzione locale degli oggetti con un'efficace coerenza visiva globale. Inoltre, proponiamo un Meccanismo di Decoupling degli Attributi (ADM) e un modulo di Sostituzione degli Attributi Testuali (TAS) per migliorare rispettivamente la diversità e la capacità discriminativa dell'orientamento degli attributi basato sul testo. Estesi esperimenti dimostrano che DreamMix bilancia efficacemente la conservazione dell'identità e l'editabilità degli attributi attraverso vari scenari di applicazione, inclusi l'inserimento di oggetti, l'editing degli attributi e l'inpainting di piccoli oggetti. Il nostro codice è pubblicamente disponibile su https://github.com/mycfhs/DreamMix.

Prevedere le Capacità Emergenti tramite il Finetuning
Predicting Emergent Capabilities by Finetuning

Nov 25

ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine

Una sfida aperta fondamentale nello scaling moderno dei LLM è la mancanza di comprensione delle capacità emergenti. In particolare, si sa che la perdita di preaddestramento del modello linguistico è altamente prevedibile come funzione del calcolo. Tuttavia, le capacità derivate sono molto meno prevedibili - a volte mostrano addirittura salti emergenti - il che rende difficile anticipare le capacità dei modelli futuri. In questo lavoro, poniamo innanzitutto il compito della previsione dell'emergenza: avendo accesso ai LLM attuali che hanno un'accuratezza casuale a pochi colpi su un compito, possiamo prevedere se i futuri modelli (GPT-N+1) avranno un'accuratezza non banale su quel compito? Successivamente scopriamo un'intuizione semplice per questo problema: il raffinamento dei LLM su un determinato compito può spostare il punto in cui si verifica l'emergenza verso modelli meno capaci. Per operazionalizzare questa intuizione, possiamo raffinare i LLM con varie quantità di dati e adattare una funzione parametrica che prevede quando si verificherà l'emergenza (ossia, "leggi dell'emergenza"). Convalidiamo questo approccio utilizzando quattro benchmark standard di NLP in cui i LLM open-source su larga scala dimostrano già l'emergenza (MMLU, GSM8K, CommonsenseQA e CoLA). Utilizzando solo LLM su piccola scala, scopriamo che, in alcuni casi, possiamo prevedere con precisione se i modelli addestrati con fino a 4 volte più calcolo sono emersi. Infine, presentiamo uno studio di caso di due utilizzi realistici per la previsione dell'emergenza.

Il Test Impossibile: Un Dataset Insolubile del 2024 e una Possibilità per un AGI Quiz
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20

ByDavid Noever, Forrest McKee

Questa ricerca introduce un nuovo quadro di valutazione progettato per valutare la capacità dei grandi modelli linguistici (LLM) di riconoscere l'incertezza su 675 problemi fondamentalmente insolubili. Utilizzando un dataset curato di domande sfide di livello universitario con risposte intenzionalmente ignote, abbiamo valutato dodici LLM all'avanguardia, inclusi modelli open source e closed source, sulla propensione a ammettere l'ignoranza piuttosto che generare risposte plausibili ma errate. I migliori modelli hanno ottenuto punteggi nell'intervallo di accuratezza del 62-68% nel riconoscere che la soluzione del problema era sconosciuta in campi che vanno dalla biologia alla filosofia e alla matematica. Abbiamo osservato una relazione inversa tra la difficoltà del problema e l'accuratezza del modello, con il GPT-4 che ha dimostrato tassi più elevati di riconoscimento dell'incertezza su problemi più impegnativi (35,8%) rispetto a quelli più semplici (20,0%). Questo modello indica che i modelli potrebbero essere più inclini a generare risposte speculative quando i problemi sembrano più trattabili. Lo studio ha anche rivelato variazioni significative tra le categorie di problemi, con i modelli che mostrano difficoltà nel riconoscere l'incertezza nei problemi di invenzione e NP-hard, mentre si comportano relativamente meglio nelle sfide filosofiche e psicologiche. Questi risultati contribuiscono al crescente corpo di ricerca sull'intelligenza artificiale generale (AGI) evidenziando l'importanza del riconoscimento dell'incertezza come componente critica della valutazione futura dell'intelligenza artificiale. Questo test di impossibilità estende quindi i precedenti quadri teorici per il test dell'intelligenza universale fornendo prove empiriche delle attuali limitazioni nella capacità dei LLM di riconoscere i propri limiti di conoscenza, suggerendo nuove direzioni per migliorare le architetture di addestramento dei modelli e gli approcci di valutazione.

Predizione del Peso degli Archi per la Stima della Posizione Agnostica alla Categoria
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25

ByOr Hirschorn, Shai Avidan

La stima della posa agnostica alla categoria (CAPE) localizza i punti chiave attraverso diverse categorie di oggetti con un singolo modello, utilizzando una o poche immagini di supporto annotate. Lavori recenti hanno dimostrato che l'utilizzo di un grafo di posa (cioè trattare i punti chiave come nodi in un grafo anziché punti isolati) aiuta a gestire le occlusioni e a rompere la simmetria. Tuttavia, questi metodi assumono un grafo di posa statico con archi di peso uguale, portando a risultati subottimali. Introduciamo EdgeCape, un nuovo framework che supera queste limitazioni prevedendo i pesi degli archi del grafo che ottimizzano la localizzazione. Per sfruttare ulteriormente i vincoli strutturali, proponiamo di integrare il Bias Strutturale Markoviano, che modula l'interazione di autoattenzione tra i nodi in base al numero di salti tra di essi. Dimostriamo che ciò migliora la capacità del modello di catturare le dipendenze spaziali globali. Valutato sul benchmark MP-100, che include 100 categorie e oltre 20.000 immagini, EdgeCape raggiunge risultati all'avanguardia nell'impostazione 1-shot e si posiziona al primo posto tra i metodi di dimensioni simili nell'impostazione 5-shot, migliorando significativamente l'accuratezza della localizzazione dei punti chiave. Il nostro codice è disponibile pubblicamente.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Attenzione a Stelle: Inferenza Efficient di LLM su Sequenze Lunghe
Star Attention: Efficient LLM Inference over Long Sequences

Nov 26

ByShantanu Acharya, Fei Jia, Boris Ginsburg

Viaggio di replicazione O1 - Parte 2: Superare O1-preview attraverso Semplice Distillazione, Grande Progresso o Amara Lezione?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25

ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu

Materiale Qualsiasi: Generazione di Materiali per Qualsiasi Oggetto 3D tramite Diffusione
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22

ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang

Dalla Generazione al Giudizio: Opportunità e Sfide di LLM-come-giudice
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25

ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu