Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il campo della diagnosi medica ha subito una significativa trasformazione con l'avvento dei grandi modelli linguistici (LLM), tuttavia le sfide legate all'interpretabilità di questi modelli rimangono in gran parte irrisolte. Questo studio introduce la Catena di Diagnosi (CoD) per migliorare l'interpretabilità delle diagnosi mediche basate su LLM. CoD trasforma il processo diagnostico in una catena diagnostica che riflette il processo di pensiero di un medico, fornendo un percorso di ragionamento trasparente. Inoltre, CoD produce la distribuzione della confidenza della malattia per garantire la trasparenza nel processo decisionale. Questa interpretabilità rende le diagnosi del modello controllabili e aiuta a identificare i sintomi critici da indagare attraverso la riduzione dell'entropia delle confidenze. Con CoD, abbiamo sviluppato DiagnosisGPT, in grado di diagnosticare 9604 malattie. I risultati sperimentali dimostrano che DiagnosisGPT supera altri LLM nei benchmark diagnostici. Inoltre, DiagnosisGPT fornisce interpretabilità garantendo al contempo la controllabilità del rigore diagnostico.
Questo articolo non introduce un nuovo metodo. Piuttosto, offre un confronto più equo e completo tra i modelli KAN e MLP in vari ambiti, tra cui apprendimento automatico, visione artificiale, elaborazione audio, elaborazione del linguaggio naturale e rappresentazione di formule simboliche. In particolare, controlliamo il numero di parametri e le FLOP per confrontare le prestazioni di KAN e MLP. La nostra osservazione principale è che, ad eccezione dei compiti di rappresentazione di formule simboliche, MLP generalmente supera KAN. Abbiamo anche condotto studi di ablazione su KAN e scoperto che il suo vantaggio nella rappresentazione di formule simboliche deriva principalmente dalla sua funzione di attivazione B-spline. Quando la B-spline viene applicata a MLP, le prestazioni nella rappresentazione di formule simboliche migliorano significativamente, superando o eguagliando quelle di KAN. Tuttavia, in altri compiti in cui MLP già eccelle rispetto a KAN, la B-spline non migliora sostanzialmente le prestazioni di MLP. Inoltre, abbiamo riscontrato che il problema di dimenticanza di KAN è più grave rispetto a quello di MLP in un contesto standard di apprendimento continuo incrementale per classe, il che differisce dai risultati riportati nell'articolo su KAN. Speriamo che questi risultati forniscano spunti per future ricerche su KAN e altre alternative a MLP. Link del progetto: https://github.com/yu-rp/KANbeFair
I recenti progressi nella generazione di video si sono principalmente basati su modelli di diffusione per contenuti di breve durata. Tuttavia, questi approcci spesso non riescono a modellare narrazioni complesse e a mantenere la coerenza dei personaggi per periodi prolungati, un aspetto essenziale per la produzione di video di lunga durata come i film. Proponiamo MovieDreamer, un nuovo framework gerarchico che integra i punti di forza dei modelli autoregressivi con il rendering basato su diffusione per pionierizzare la generazione di video di lunga durata con progressioni narrative intricate e alta fedeltà visiva. Il nostro approccio utilizza modelli autoregressivi per garantire la coerenza narrativa globale, prevedendo sequenze di token visivi che vengono successivamente trasformati in fotogrammi video di alta qualità attraverso il rendering di diffusione. Questo metodo è simile ai processi tradizionali di produzione cinematografica, in cui storie complesse vengono scomposte in scene gestibili. Inoltre, impieghiamo uno script multimodale che arricchisce le descrizioni delle scene con informazioni dettagliate sui personaggi e sullo stile visivo, migliorando la continuità e l'identità dei personaggi tra le scene. Presentiamo esperimenti estesi su vari generi cinematografici, dimostrando che il nostro approccio non solo raggiunge una qualità visiva e narrativa superiore, ma estende anche in modo significativo la durata dei contenuti generati, superando le attuali capacità. Homepage: https://aim-uofa.github.io/MovieDreamer/.
Il Virtual Try-On (VTON) è diventata una tecnologia rivoluzionaria, consentendo agli utenti di sperimentare con la moda senza dover fisicamente provare i capi di abbigliamento. Tuttavia, i metodi esistenti spesso incontrano difficoltà nel generare risultati ad alta fedeltà e con dettagli coerenti. Sebbene i modelli di diffusione, come la serie Stable Diffusion, abbiano dimostrato la loro capacità nel creare immagini di alta qualità e fotorealistiche, affrontano sfide significative negli scenari di generazione condizionata come il VTON. In particolare, questi modelli faticano a mantenere un equilibrio tra controllo e coerenza quando generano immagini per prove virtuali di abbigliamento. OutfitAnyone affronta queste limitazioni sfruttando un modello di diffusione condizionata a due flussi, permettendogli di gestire abilmente la deformazione degli indumenti per risultati più realistici. Si distingue per fattori di modulazione della scalabilità come la posa, la forma del corpo e un'ampia applicabilità, estendendosi dalle immagini anime a quelle in contesti reali. Le prestazioni di OutfitAnyone in scenari diversificati ne sottolineano l'utilità e la prontezza per il dispiegamento nel mondo reale. Per maggiori dettagli e risultati animati, consultare https://humanaigc.github.io/outfit-anyone/.
I modelli di generazione testo-video (T2V) hanno compiuto progressi significativi, ma la loro capacità di comporre oggetti, attributi, azioni e movimenti in un video rimane ancora inesplorata. Anche i precedenti benchmark per la generazione testo-video hanno trascurato questa importante abilità nella valutazione. In questo lavoro, conduciamo il primo studio sistematico sulla generazione testo-video composizionale. Proponiamo T2V-CompBench, il primo benchmark specificamente progettato per la generazione testo-video composizionale. T2V-CompBench abbraccia diversi aspetti della composizionalità, tra cui il legame coerente degli attributi, il legame dinamico degli attributi, le relazioni spaziali, il legame dei movimenti, il legame delle azioni, le interazioni tra oggetti e la numerazione generativa. Abbiamo inoltre progettato con cura metriche di valutazione basate su MLLM, metriche basate sul rilevamento e metriche basate sul tracciamento, che possono riflettere meglio la qualità della generazione testo-video composizionale in sette categorie proposte con 700 prompt testuali. L'efficacia delle metriche proposte è verificata dalla correlazione con le valutazioni umane. Abbiamo anche valutato vari modelli generativi testo-video e condotto un'analisi approfondita tra diversi modelli e diverse categorie composizionali. Scopriamo che la generazione testo-video composizionale è estremamente impegnativa per i modelli attuali, e speriamo che il nostro tentativo possa illuminare la ricerca futura in questa direzione.
I dataset e i modelli esistenti per l'interazione uomo-oggetto in 3D (HOI) si limitano ad allineare descrizioni globali con la lunga sequenza HOI, mancando di una comprensione dettagliata degli stati intermedi e delle transizioni tra di essi. In questo articolo, sosteniamo che l'allineamento semantico fine, che utilizza descrizioni a livello di stato, offre un paradigma promettente per apprendere rappresentazioni HOI semanticamente ricche. Per raggiungere questo obiettivo, introduciamo Semantic-HOI, un nuovo dataset che comprende oltre 20K stati HOI accoppiati con descrizioni dettagliate per ciascuno stato HOI e i movimenti del corpo che avvengono tra due stati consecutivi. Sfruttando il dataset proposto, progettiamo tre task HOI a livello di stato per ottenere un allineamento semantico fine all'interno della sequenza HOI. Inoltre, proponiamo un modello unificato chiamato F-HOI, progettato per sfruttare istruzioni multimodali e potenziare il Large Language Model Multimodale per gestire in modo efficiente diversi task HOI. F-HOI offre numerosi vantaggi: (1) Utilizza una formulazione unificata del task che supporta l'uso di input multimodali versatili. (2) Mantiene la coerenza dell'HOI negli spazi 2D, 3D e linguistico. (3) Sfrutta una supervisione testuale fine per l'ottimizzazione diretta, evitando una modellazione complessa degli stati HOI. Esperimenti estensivi rivelano che F-HOI allinea efficacemente gli stati HOI con descrizioni semantiche dettagliate, affrontando con successo task di comprensione, ragionamento, generazione e ricostruzione.
Con i progressi nella disponibilità dei dati e nelle risorse computazionali, i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno dimostrato capacità in vari campi. Tuttavia, la complessità quadratica dell'encoder visivo negli MLLM limita la risoluzione delle immagini in input. La maggior parte degli approcci attuali mitiga questo problema ritagliando immagini ad alta risoluzione in sotto-immagini più piccole, che vengono poi elaborate indipendentemente dall'encoder visivo. Nonostante catturino dettagli locali sufficienti, queste sotto-immagini mancano di contesto globale e non interagiscono tra loro. Per affrontare questa limitazione, proponiamo un nuovo MLLM, INF-LLaVA, progettato per una percezione efficace delle immagini ad alta risoluzione. INF-LLaVA incorpora due componenti innovative. In primo luogo, introduciamo un Modulo di Ritaglio a Doppia Prospettiva (DCM), che garantisce che ogni sotto-immagine contenga dettagli continui da una prospettiva locale e informazioni complete da una prospettiva globale. In secondo luogo, introduciamo un Modulo di Miglioramento a Doppia Prospettiva (DEM) per consentire il miglioramento reciproco delle caratteristiche globali e locali, permettendo a INF-LLaVA di elaborare efficacemente immagini ad alta risoluzione catturando simultaneamente dettagli locali e contesto globale completo. Estesi studi di ablazione convalidano l'efficacia di questi componenti, e esperimenti su un insieme diversificato di benchmark dimostrano che INF-LLaVA supera gli MLLM esistenti. Il codice e il modello pre-addestrato sono disponibili all'indirizzo https://github.com/WeihuangLin/INF-LLaVA.
Nonostante la disponibilità di competizioni internazionali con premi in denaro, veicoli in scala e ambienti di simulazione, la ricerca sulla guida autonoma in ambito sportivo e sul controllo di auto da corsa che operano al limite delle prestazioni è stata limitata dagli elevati costi di acquisizione e gestione dei veicoli, nonché dalla precisione fisica limitata dei simulatori open-source. In questo articolo, proponiamo una piattaforma di simulazione per corse basata sul simulatore Assetto Corsa per testare, validare e confrontare algoritmi di guida autonoma, tra cui il reinforcement learning (RL) e il classico Model Predictive Control (MPC), in scenari realistici e impegnativi. I nostri contributi includono lo sviluppo di questa piattaforma di simulazione, diversi algoritmi all'avanguardia adattati all'ambiente delle corse e un dataset completo raccolto da piloti umani. Inoltre, valutiamo gli algoritmi nell'ambito dell'RL offline. Tutto il codice necessario (incluso l'ambiente e i benchmark), esempi funzionanti, dataset e video sono pubblicamente disponibili e possono essere trovati al seguente indirizzo: https://assetto-corsa-gym.github.io.
Il pretraining basato su video offre un potenziale enorme per apprendere rappresentazioni visive robuste su una scala senza precedenti. Recentemente, i metodi di modellazione video mascherata hanno dimostrato una promettente scalabilità, ma risultano carenti nel catturare semantiche di livello superiore a causa della ricostruzione di target predefiniti di basso livello, come i pixel. Per affrontare questo problema, presentiamo SIGMA (Sinkhorn-guided Masked Video Modelling), un nuovo metodo di pretraining video che apprende congiuntamente il modello video insieme a uno spazio di feature target utilizzando una rete di proiezione. Tuttavia, questa semplice modifica implica che la classica funzione di perdita di ricostruzione L2 porterà a soluzioni banali poiché entrambe le reti sono ottimizzate congiuntamente. Come soluzione, distribuiamo le feature dei tubi spazio-temporali in modo uniforme su un numero limitato di cluster apprendibili. Formulando questo come un problema di trasporto ottimo, imponiamo un’elevata entropia nelle feature generate all’interno del batch, infondendo significato semantico e temporale nello spazio delle feature. Le assegnazioni risultanti ai cluster sono utilizzate come target per un compito di predizione simmetrica in cui il modello video predice l’assegnazione ai cluster della rete di proiezione e viceversa. I risultati sperimentali su dieci dataset attraverso tre benchmark convalidano l’efficacia di SIGMA nell’apprendere rappresentazioni video più performanti, temporalmente consapevoli e robuste, migliorando rispetto ai metodi all’avanguardia. Il sito del progetto con il codice è disponibile all’indirizzo: https://quva-lab.github.io/SIGMA.
Il dispiegamento di modelli linguistici (LM) richiede che gli output siano di alta qualità e conformi alle linee guida di sicurezza. Sebbene le barriere di sicurezza al momento dell'inferenza (Inference-Time Guardrails, ITG) offrano soluzioni che spostano le distribuzioni degli output del modello verso la conformità, riscontriamo che i metodi attuali faticano a bilanciare sicurezza e utilità. I metodi ITG che affrontano in modo sicuro le query non conformi mostrano una minore utilità, mentre quelli che privilegiano l'utilità compromettono la sicurezza. Definiamo questo compromesso come la "tassa delle barriere di sicurezza", analoga alla "tassa di allineamento". Per affrontare questo problema, proponiamo PrimeGuard, un nuovo metodo ITG che utilizza un flusso di controllo strutturato. PrimeGuard indirizza le richieste a diverse auto-istanziazioni del LM con istruzioni variabili, sfruttando le sue capacità intrinseche di seguire le istruzioni e l'apprendimento in contesto. Il nostro approccio senza sintonizzazione compila dinamicamente le linee guida del progettista del sistema per ogni query. Costruiamo e rilasciamo safe-eval, un benchmark di sicurezza diversificato per red team. Valutazioni estensive dimostrano che PrimeGuard, senza sintonizzazione, supera la tassa delle barriere di sicurezza (1) aumentando significativamente la resistenza agli attacchi di jailbreak iterativi e (2) raggiungendo risultati all'avanguardia nella protezione della sicurezza, mentre (3) eguaglia i punteggi di utilità dei modelli sintonizzati per l'allineamento. Valutazioni estensive dimostrano che PrimeGuard, senza sintonizzazione, supera tutte le baseline concorrenti e supera la tassa delle barriere di sicurezza migliorando la frazione di risposte sicure dal 61% al 97% e aumentando i punteggi medi di utilità da 4,17 a 4,29 sui modelli più grandi, riducendo il tasso di successo degli attacchi dal 100% all'8%. L'implementazione di PrimeGuard è disponibile all'indirizzo https://github.com/dynamofl/PrimeGuard e il dataset safe-eval è disponibile all'indirizzo https://huggingface.co/datasets/dynamoai/safe_eval.
L'applicazione di modelli visione-linguaggio (VLMs) ha ottenuto un successo impressionante in vari compiti di robotica, ma ci sono poche esplorazioni riguardo ai modelli di base utilizzati nella navigazione di robot quadrupedi. Introduciamo il Cross Anything System (CAS), un sistema innovativo composto da un modulo di ragionamento di alto livello e una politica di controllo di basso livello, che consente al robot di navigare attraverso terreni 3D complessi e raggiungere la posizione obiettivo. Per il ragionamento di alto livello e la pianificazione del movimento, proponiamo un nuovo sistema algoritmico che sfrutta un VLM, con un design di scomposizione dei compiti e un meccanismo di esecuzione a ciclo chiuso dei sotto-compiti. Per il controllo della locomozione di basso livello, utilizziamo il metodo Probability Annealing Selection (PAS) per addestrare una politica di controllo tramite apprendimento per rinforzo. Numerosi esperimenti dimostrano che il nostro sistema completo può navigare in modo accurato e robusto attraverso terreni 3D complessi, e la sua forte capacità di generalizzazione garantisce applicazioni in diversi scenari e terreni sia interni che esterni. Pagina del progetto: https://cross-anything.github.io/