Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli visione-linguaggio (VLM) hanno mostrato notevoli progressi nei compiti di ragionamento multimodale. Tuttavia, spesso generano risposte inaccurate o non pertinenti a causa di problemi come comprensioni immaginarie delle immagini o percorsi di ragionamento non raffinati. Per affrontare queste sfide, presentiamo Critic-V, un nuovo framework ispirato al paradigma Attore-Critico per potenziare la capacità di ragionamento dei VLM. Questo framework separa il processo di ragionamento dal processo critico integrando due componenti indipendenti: il Ragionatore, che genera percorsi di ragionamento basati su input visivi e testuali, e il Critico, che fornisce critiche costruttive per perfezionare questi percorsi. In questo approccio, il Ragionatore genera risposte di ragionamento in base a prompt testuali, che possono evolversi iterativamente come politica basata sul feedback del Critico. Questo processo di interazione è teoricamente guidato da un framework di apprendimento per rinforzo in cui il Critico offre critiche in linguaggio naturale invece di ricompense scalari, consentendo un feedback più sfumato per potenziare la capacità del Ragionatore in compiti di ragionamento complessi. Il modello Critico è addestrato utilizzando l'ottimizzazione delle preferenze dirette (DPO), sfruttando un dataset di preferenze di critiche classificate da Ricompensa Basata su Regole (RBR) per potenziare le sue capacità critiche. I risultati dell'valutazione mostrano che il framework Critic-V supera significativamente i metodi esistenti, inclusi GPT-4V, su 5 su 8 benchmark, in particolare per quanto riguarda l'accuratezza e l'efficienza del ragionamento. Combinare una politica dinamica basata su testo per il Ragionatore e un feedback costruttivo dal Critico ottimizzato per le preferenze consente un processo di ragionamento multimodale più affidabile e sensibile al contesto. Il nostro approccio fornisce una soluzione promettente per migliorare l'affidabilità dei VLM, potenziando le loro prestazioni in applicazioni multimodali del mondo reale che richiedono un ragionamento intenso, come la guida autonoma e l'intelligenza incorporata.
Questo articolo introduce il Virtual Try-Off (VTOFF), un nuovo compito incentrato sulla generazione di immagini standardizzate di capi di abbigliamento da singole foto di individui vestiti. A differenza del tradizionale Virtual Try-On (VTON), che veste digitalmente i modelli, il VTOFF mira a estrarre un'immagine canonica del capo, presentando sfide uniche nella cattura della forma, della texture e dei motivi intricati del capo. Questo obiettivo ben definito rende il VTOFF particolarmente efficace per valutare la fedeltà di ricostruzione nei modelli generativi. Presentiamo TryOffDiff, un modello che adatta Stable Diffusion con condizionamento visivo basato su SigLIP per garantire un'alta fedeltà e una dettagliata conservazione. Gli esperimenti su un dataset modificato VITON-HD mostrano che il nostro approccio supera i metodi di base basati sul trasferimento di pose e sul virtual try-on con minori passaggi di pre- e post-elaborazione. La nostra analisi rivela che le metriche tradizionali di generazione di immagini valutano in modo inadeguato la qualità della ricostruzione, spingendoci a fare affidamento su DISTS per una valutazione più accurata. I nostri risultati evidenziano il potenziale del VTOFF nel migliorare le immagini di prodotto nelle applicazioni di e-commerce, far progredire la valutazione dei modelli generativi e ispirare lavori futuri sulla ricostruzione ad alta fedeltà. Demo, codice e modelli sono disponibili su: https://rizavelioglu.github.io/tryoffdiff/
Nonostante i significativi progressi nei modelli generativi di testo-immagine (T2I), gli utenti spesso si trovano di fronte a una sfida di tentativi ed errori in scenari pratici. Questa sfida deriva dalla complessità e dall'incertezza di passaggi noiosi come la creazione di prompt adatti, la selezione di modelli appropriati e la configurazione di argomenti specifici, costringendo gli utenti a tentativi laboriosi per ottenere le immagini desiderate. Questo articolo propone la generazione automatica T2I, che mira ad automatizzare questi passaggi noiosi, consentendo agli utenti di descrivere semplicemente le proprie esigenze in modo conversazionale libero. Per studiare sistematicamente questo problema, introduciamo prima ChatGenBench, un nuovo benchmark progettato per la generazione automatica T2I. Presenta dati accoppiati di alta qualità con input conversazionali diversificati, consentendo una valutazione completa dei modelli T2I automatici in tutti i passaggi. Inoltre, riconoscendo la generazione automatica T2I come un complesso compito di ragionamento multi-step, proponiamo ChatGen-Evo, una strategia evolutiva multi-stadio che equipaggia progressivamente i modelli con competenze di automazione essenziali. Attraverso una valutazione approfondita della precisione step-by-step e della qualità delle immagini, ChatGen-Evo migliora significativamente le prestazioni rispetto a vari baselines. La nostra valutazione rivela anche preziose intuizioni per far progredire la generazione automatica T2I. Tutti i nostri dati, codici e modelli saranno disponibili su https://chengyou-jia.github.io/ChatGen-Home
Proponiamo SelfSplat, un nuovo modello di Splatting Gaussiano 3D progettato per eseguire una ricostruzione 3D generalizzabile senza posa e senza precedenti 3D da immagini multi-view non posate. Queste impostazioni sono intrinsecamente mal poste a causa della mancanza di dati di verità terrena, informazioni geometriche apprese e della necessità di ottenere una ricostruzione 3D accurata senza raffinamenti, rendendo difficile per i metodi convenzionali raggiungere risultati di alta qualità. Il nostro modello affronta queste sfide integrando efficacemente rappresentazioni 3D esplicite con tecniche di stima della profondità e della posa auto-supervisionate, con conseguenti miglioramenti reciproci sia nella precisione della posa che nella qualità della ricostruzione 3D. Inoltre, incorporiamo una rete di stima della posa consapevole della corrispondenza e un modulo di perfezionamento della profondità per migliorare la coerenza geometrica tra le viste, garantendo ricostruzioni 3D più accurate e stabili. Per presentare le prestazioni del nostro metodo, lo abbiamo valutato su dataset reali su larga scala, tra cui RealEstate10K, ACID e DL3DV. SelfSplat ottiene risultati superiori rispetto ai metodi precedenti all'avanguardia sia per l'aspetto che per la qualità geometrica, dimostrando inoltre forti capacità di generalizzazione tra dataset. Studi di ablation estesi e analisi convalidano anche l'efficacia dei nostri metodi proposti. Il codice e i modelli preaddestrati sono disponibili su https://gynjn.github.io/selfsplat/
I modelli di diffusione hanno ottenuto risultati impressionanti in compiti generativi come la sintesi testo-immagine (T2I) e testo-video (T2V). Tuttavia, ottenere un'allineamento accurato del testo nella generazione T2V rimane sfidante a causa della complessa dipendenza temporale tra i frame. Gli approcci esistenti basati sull'apprendimento per rinforzo (RL) per migliorare l'allineamento del testo spesso richiedono funzioni di ricompensa differenziabili o sono vincolati a prompt limitati, ostacolando la loro scalabilità e applicabilità. In questo articolo, proponiamo Free^2Guide, un nuovo framework senza gradienti per allineare video generati con prompt di testo senza richiedere ulteriore addestramento del modello. Sfruttando i principi del controllo dell'integrale di percorso, Free^2Guide approssima la guida per i modelli di diffusione utilizzando funzioni di ricompensa non differenziabili, consentendo così l'integrazione di potenti modelli Large Vision-Language Models (LVLMs) come modello di ricompensa. Inoltre, il nostro framework supporta l'ensemble flessibile di più modelli di ricompensa, inclusi modelli basati su immagini su larga scala, per potenziare sinergicamente l'allineamento senza incorrere in un notevole sovraccarico computazionale. Dimostriamo che Free^2Guide migliora significativamente l'allineamento del testo su varie dimensioni e migliora la qualità complessiva dei video generati.
In un'era di sovraccarico di informazioni, annotare manualmente il vasto e crescente corpus di documenti e articoli accademici è sempre più impraticabile. L'estrazione automatica di parole chiave affronta questa sfida identificando termini rappresentativi all'interno dei testi. Tuttavia, la maggior parte dei metodi esistenti si concentra su documenti brevi (fino a 512 token), lasciando una lacuna nel trattamento di documenti con un contesto lungo. In questo articolo, presentiamo LongKey, un nuovo framework per l'estrazione di parole chiave da documenti lunghi, che utilizza un modello linguistico basato su encoder per catturare le complessità del testo esteso. LongKey utilizza un embedder di max-pooling per migliorare la rappresentazione dei candidati parole chiave. Validato sui completi set di dati LDKP e su sei set di dati diversi e inediti, LongKey supera costantemente i metodi esistenti di estrazione di parole chiave non supervisionati e basati su modelli linguistici. I nostri risultati dimostrano la versatilità e le prestazioni superiori di LongKey, segnando un progresso nell'estrazione di parole chiave per varie lunghezze e domini di testo.
I recenti progressi nelle prestazioni dei grandi modelli linguistici (LLM) su benchmark di domande a scelta multipla (MCQ) nel campo medico hanno suscitato interesse da parte di operatori sanitari e pazienti a livello globale. In particolare, nei paesi a basso e medio reddito (LMICs) che affrontano carenze di medici e mancanza di specialisti, i LLM offrono un percorso potenzialmente scalabile per migliorare l'accesso alle cure sanitarie e ridurre i costi. Tuttavia, la loro efficacia nel Global South, in particolare in tutto il continente africano, deve ancora essere stabilita. In questo lavoro, presentiamo AfriMed-QA, il primo ampio dataset pan-africano in lingua inglese per domande e risposte mediche multi-specialistiche, con 15.000 domande (aperte e chiuse) provenienti da oltre 60 scuole di medicina in 16 paesi, che coprono 32 specialità mediche. Valutiamo inoltre 30 LLM su diversi aspetti, inclusa la correttezza e il bias demografico. I nostri risultati mostrano una significativa variazione delle prestazioni tra le specialità e le geografie, con le prestazioni delle MCQ chiaramente inferiori rispetto al USMLE (MedQA). Abbiamo riscontrato che i LLM biomedici hanno prestazioni inferiori rispetto ai modelli generali e i LLM più piccoli e adatti ai dispositivi periferici faticano a ottenere un punteggio sufficiente. In modo interessante, le valutazioni umane mostrano una costante preferenza dei consumatori per le risposte e le spiegazioni dei LLM rispetto alle risposte dei clinici.
La generazione del movimento umano svolge un ruolo vitale in applicazioni come gli umani digitali e il controllo dei robot umanoidi. Tuttavia, la maggior parte degli approcci esistenti trascura i vincoli fisici, portando alla frequente produzione di movimenti fisicamente non plausibili con evidenti artefatti come il galleggiamento e lo scivolamento dei piedi. In questo articolo, proponiamo Morph, un framework di ottimizzazione della fisica senza movimento, composto da un Generatore di Movimento e un modulo di Perfezionamento della Fisica del Movimento, per migliorare la plausibilità fisica senza ricorrere a costosi dati di movimento del mondo reale. In particolare, il Generatore di Movimento è responsabile della fornitura di dati di movimento sintetici su larga scala, mentre il Modulo di Perfezionamento della Fisica del Movimento utilizza questi dati sintetici per addestrare un imitatore di movimento all'interno di un simulatore fisico, imponendo vincoli fisici per proiettare i movimenti rumorosi in uno spazio fisicamente plausibile. Questi movimenti fisicamente raffinati, a loro volta, vengono utilizzati per perfezionare il Generatore di Movimento, migliorandone ulteriormente le capacità. Gli esperimenti su entrambi i compiti di generazione di testo-a-movimento e musica-a-danza dimostrano che il nostro framework raggiunge una qualità di generazione del movimento all'avanguardia migliorando drasticamente la plausibilità fisica.