Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un'impressionante versatilità come modelli generici. Tuttavia, la loro ampia applicabilità comporta un elevato sovraccarico computazionale, in particolare nel decoding auto-regressivo, dove ogni passaggio richiede un forward pass. In contesti specifici per dominio, le capacità generali non sono necessarie e possono essere scambiate per efficienza. In questo lavoro, adottiamo una prospettiva innovativa sull'adattamento di dominio, riducendo la latenza e i costi computazionali adattando il vocabolario a domini di interesse specifici. Introduciamo AdaptiVocab, un approccio end-to-end per l'adattamento del vocabolario, progettato per migliorare l'efficienza degli LLM in domini a basso contenuto di risorse. AdaptiVocab può essere applicato a qualsiasi tokenizer e architettura, modificando il vocabolario sostituendo i token con token basati su n-grammi specifici per dominio, riducendo così il numero di token necessari sia per l'elaborazione dell'input che per la generazione dell'output. AdaptiVocab inizializza i nuovi embedding di n-token utilizzando una combinazione ponderata esponenzialmente degli embedding esistenti e impiega una fase di fine-tuning leggera che può essere eseguita in modo efficiente su una singola GPU. Valutiamo due LLM da 7B in tre domini di nicchia, valutando l'efficienza, la qualità della generazione e le prestazioni nelle attività finali. I nostri risultati mostrano che AdaptiVocab riduce l'uso dei token di oltre il 25% senza compromettere le prestazioni.
Il Reinforcement Learning from Human Feedback (RLHF) è cruciale per allineare i grandi modelli linguistici alle preferenze umane. Mentre la ricerca recente si è concentrata sui miglioramenti algoritmici, l'importanza della costruzione dei dati di prompt è stata trascurata. Questo articolo affronta questa lacuna esplorando i colli di bottiglia basati sui dati nella scalabilità delle prestazioni dell'RLHF, in particolare il reward hacking e la diminuzione della diversità delle risposte. Introduciamo un sistema di ricompensa ibrido che combina verificatori di task di ragionamento (RTV) e un modello di ricompensa generativo (GenRM) per mitigare il reward hacking. Proponiamo inoltre un nuovo metodo di selezione dei prompt, Pre-PPO, per mantenere la diversità delle risposte e migliorare l'efficacia dell'apprendimento. Inoltre, scopriamo che dare priorità ai task matematici e di codifica all'inizio dell'addestramento RLHF migliora significativamente le prestazioni. Esperimenti condotti su due dimensioni di modello convalidano l'efficacia e la scalabilità dei nostri metodi. I risultati mostrano che l'RTV è più resistente al reward hacking, seguito dal GenRM con ground truth, e poi dal GenRM con risposte SFT Best-of-N. Le nostre strategie consentono di catturare rapidamente sottili distinzioni specifiche del task, portando a sostanziali miglioramenti nelle prestazioni complessive dell'RLHF. Questo lavoro evidenzia l'importanza di una attenta costruzione dei dati e fornisce metodi pratici per superare le barriere prestazionali nell'RLHF.
I recenti Large Reasoning Models (LRM), come DeepSeek-R1 e OpenAI o1, hanno dimostrato significativi miglioramenti nelle prestazioni aumentando la lunghezza del ragionamento a catena (Chain-of-Thought, CoT) durante l'inferenza. Tuttavia, una preoccupazione crescente riguarda la loro tendenza a produrre tracce di ragionamento eccessivamente lunghe, spesso piene di contenuti ridondanti (ad esempio, definizioni ripetute), analisi eccessiva di problemi semplici e esplorazione superficiale di percorsi di ragionamento multipli per compiti più complessi. Questa inefficienza introduce sfide significative per l'addestramento, l'inferenza e il dispiegamento nel mondo reale (ad esempio, in sistemi basati su agenti), dove l'economia dei token è cruciale. In questa rassegna, forniamo una panoramica completa dei recenti sforzi mirati a migliorare l'efficienza del ragionamento negli LRM, con un particolare focus sulle sfide uniche che emergono in questo nuovo paradigma. Identifichiamo modelli comuni di inefficienza, esaminiamo i metodi proposti lungo l'intero ciclo di vita degli LRM, ovvero dal pre-addestramento all'inferenza, e discutiamo promettenti direzioni future per la ricerca. Per supportare lo sviluppo in corso, manteniamo anche un repository GitHub in tempo reale che traccia i progressi recenti nel campo. Speriamo che questa rassegna serva come base per ulteriori esplorazioni e ispiri innovazione in quest'area in rapida evoluzione.
La Raccomandazione Sequenziale (SeqRec) mira a prevedere il prossimo elemento catturando i modelli sequenziali dalle interazioni storiche degli utenti, svolgendo un ruolo cruciale in molti sistemi di raccomandazione del mondo reale. Tuttavia, gli approcci esistenti adottano prevalentemente un paradigma di calcolo diretto in avanti, in cui lo stato nascosto finale del codificatore sequenziale funge da rappresentazione dell'utente. Sosteniamo che questo paradigma di inferenza, a causa della sua profondità computazionale limitata, fatica a modellare la natura complessa e in evoluzione delle preferenze degli utenti e manca di una comprensione sfumata degli elementi di coda lunga, portando a prestazioni subottimali. Per affrontare questo problema, proponiamo ReaRec, il primo framework di calcolo al momento dell'inferenza per i sistemi di raccomandazione, che migliora le rappresentazioni degli utenti attraverso un ragionamento implicito a più passi. Nello specifico, ReaRec alimenta autoregressivamente l'ultimo stato nascosto della sequenza nel raccomandatore sequenziale, incorporando speciali incorporamenti di posizione di ragionamento per disaccoppiare lo spazio di codifica originale degli elementi dallo spazio di ragionamento a più passi. Inoltre, introduciamo due metodi di apprendimento leggeri basati sul ragionamento, l'Apprendimento per Ragionamento Ensemble (ERL) e l'Apprendimento per Ragionamento Progressivo (PRL), per sfruttare ulteriormente in modo efficace il potenziale di ragionamento di ReaRec. Esperimenti estesi su cinque dataset pubblici del mondo reale e diverse architetture SeqRec dimostrano la generalità e l'efficacia del nostro ReaRec proposto. Notevolmente, analisi post-hoc rivelano che ReaRec eleva significativamente il limite di prestazione di molteplici backbones di raccomandazione sequenziale di circa il 30\%-50\%. Pertanto, crediamo che questo lavoro possa aprire una nuova e promettente strada per la ricerca futura nel calcolo al momento dell'inferenza per la raccomandazione sequenziale.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno guadagnato un'attenzione significativa per la loro capacità di elaborare diversi tipi di dati in input e generare output coerenti e contestualmente rilevanti in varie applicazioni. Sebbene il fine-tuning supervisionato (SFT) sia stato l'approccio predominante per migliorare le capacità degli MLLM nell'ottimizzazione specifica per compiti, spesso non riesce a favorire cruciali abilità di ragionamento generalizzato. Sebbene l'apprendimento per rinforzo (RL) prometta di superare queste limitazioni, incontra due sfide significative: (1) le sue capacità generalizzate nei compiti multimodali rimangono in gran parte inesplorate e (2) i suoi vincoli di addestramento, inclusa la costante divergenza di Kullback-Leibler o la strategia di clamp, spesso portano a colli di bottiglia subottimali. Per affrontare queste sfide, proponiamo OThink-MR1, un MLLM avanzato dotato di profonde capacità di comprensione e ragionamento nei compiti multimodali. Nello specifico, introduciamo l'ottimizzazione delle politiche relative di gruppo con una strategia dinamica di Kullback-Leibler (GRPO-D), che migliora significativamente le prestazioni dell'apprendimento per rinforzo (RL). Per Qwen2-VL-2B-Instruct, GRPO-D ottiene un miglioramento relativo di oltre il 5,72% rispetto a SFT e di oltre il 13,59% rispetto a GRPO nella valutazione sullo stesso compito su due dataset adattati. Inoltre, GRPO-D dimostra notevoli capacità di generalizzazione cross-task, con un miglioramento relativo medio di oltre il 61,63% rispetto a SFT nella valutazione cross-task. Questi risultati evidenziano che l'MLLM addestrato con GRPO-D su un compito multimodale può essere efficacemente trasferito a un altro compito, sottolineando le superiori capacità di ragionamento generalizzato del nostro modello proposto OThink-MR1.
Presentiamo ORIGEN, il primo metodo zero-shot per il grounding dell'orientamento 3D nella generazione di immagini da testo, applicabile a più oggetti e categorie diverse. Mentre i precedenti lavori sul grounding spaziale nella generazione di immagini si sono principalmente concentrati sul posizionamento 2D, mancano di controllo sull'orientamento 3D. Per affrontare questo problema, proponiamo un approccio di campionamento guidato da ricompensa utilizzando un modello discriminativo pre-addestrato per la stima dell'orientamento 3D e un modello generativo di flusso one-step da testo a immagine. Sebbene l'ottimizzazione basata su ascesa del gradiente sia una scelta naturale per la guida basata su ricompensa, essa fatica a mantenere il realismo dell'immagine. Invece, adottiamo un approccio basato sul campionamento utilizzando la dinamica di Langevin, che estende l'ascesa del gradiente semplicemente iniettando rumore casuale—richiedendo solo una singola riga di codice aggiuntiva. Inoltre, introduciamo un ridimensionamento temporale adattivo basato sulla funzione di ricompensa per accelerare la convergenza. I nostri esperimenti dimostrano che ORIGEN supera sia i metodi basati su addestramento che quelli di guida al momento del test, sia nelle metriche quantitative che negli studi con utenti.
I recenti progressi nella generazione di teste parlanti 3D guidate dalla voce hanno compiuto significativi passi avanti nella sincronizzazione labiale. Tuttavia, i modelli esistenti faticano ancora a catturare l'allineamento percettivo tra le diverse caratteristiche del parlato e i corrispondenti movimenti delle labbra. In questo lavoro, sosteniamo che tre criteri -- Sincronizzazione Temporale, Leggibilità Labiale ed Espressività -- siano cruciali per ottenere movimenti labiali percettivamente accurati. Motivati dalla nostra ipotesi che esista uno spazio di rappresentazione desiderabile per soddisfare questi tre criteri, introduciamo una rappresentazione sincronizzata voce-mesh che cattura le intricate corrispondenze tra i segnali vocali e le mesh facciali 3D. Abbiamo scoperto che la nostra rappresentazione appresa mostra caratteristiche desiderabili, e la integriamo nei modelli esistenti come una perdita percettiva per allineare meglio i movimenti delle labbra al parlato dato. Inoltre, utilizziamo questa rappresentazione come metrica percettiva e introduciamo altre due metriche di sincronizzazione labiale basate su principi fisici per valutare quanto bene le teste parlanti 3D generate si allineano a questi tre criteri. Gli esperimenti dimostrano che l'addestramento di modelli di generazione di teste parlanti 3D con la nostra perdita percettiva migliora significativamente tutti e tre gli aspetti della sincronizzazione labiale percettivamente accurata. Codici e dataset sono disponibili all'indirizzo https://perceptual-3d-talking-head.github.io/.
Presentiamo Free4D, un nuovo framework senza necessità di tuning per la generazione di scene 4D a partire da una singola immagine. I metodi esistenti si concentrano principalmente sulla generazione a livello di oggetto, rendendo impossibile la generazione a livello di scena, oppure si basano su dataset di video multi-vista su larga scala per un addestramento costoso, con una capacità di generalizzazione limitata a causa della scarsità di dati di scene 4D. Al contrario, la nostra intuizione chiave è quella di distillare modelli di fondazione pre-addestrati per una rappresentazione coerente di scene 4D, che offre vantaggi promettenti come efficienza e generalizzabilità. 1) Per raggiungere questo obiettivo, animiamo prima l'immagine di input utilizzando modelli di diffusione da immagine a video, seguiti da un'inizializzazione della struttura geometrica 4D. 2) Per trasformare questa struttura approssimativa in video multi-vista coerenti spazio-temporalmente, progettiamo un meccanismo di guida adattivo con una strategia di denoising guidata da punti per la coerenza spaziale e una nuova strategia di sostituzione latente per la coerenza temporale. 3) Per elevare queste osservazioni generate in una rappresentazione 4D coerente, proponiamo un affinamento basato sulla modulazione per mitigare le incoerenze sfruttando appieno le informazioni generate. La rappresentazione 4D risultante consente un rendering controllabile in tempo reale, segnando un significativo avanzamento nella generazione di scene 4D basata su singola immagine.
I Vision Transformer (ViT) hanno dimostrato prestazioni e scalabilità notevoli in vari compiti di visione artificiale. Per applicare i ViT a singola scala alla segmentazione delle immagini, i metodi esistenti adottano un adattatore convoluzionale per generare caratteristiche multi-scala, un decodificatore di pixel per fondere queste caratteristiche e un decodificatore Transformer che utilizza le caratteristiche fuse per fare previsioni. In questo articolo, dimostriamo che i bias induttivi introdotti da questi componenti specifici per il compito possono invece essere appresi dal ViT stesso, dati modelli sufficientemente grandi e un pre-addestramento estensivo. Sulla base di queste osservazioni, introduciamo l'Encoder-only Mask Transformer (EoMT), che ripropone l'architettura semplice del ViT per condurre la segmentazione delle immagini. Con modelli su larga scala e pre-addestramento, EoMT ottiene un'accuratezza di segmentazione simile a quella dei modelli all'avanguardia che utilizzano componenti specifici per il compito. Allo stesso tempo, EoMT è significativamente più veloce di questi metodi grazie alla sua semplicità architetturale, ad esempio fino a 4 volte più veloce con ViT-L. In una gamma di dimensioni del modello, EoMT dimostra un equilibrio ottimale tra accuratezza di segmentazione e velocità di previsione, suggerendo che le risorse computazionali sono meglio impiegate nel ridimensionare il ViT stesso piuttosto che nell'aggiungere complessità architetturale. Codice: https://www.tue-mps.org/eomt/.
Il perfezionamento della sintesi incontra sfide quando si estende a più dimensioni. In questo articolo, introduciamo ReFeed, una potente pipeline di perfezionamento della sintesi che migliora più dimensioni attraverso un ragionamento riflessivo sul feedback. Per raggiungere questo obiettivo, rilasciamo SumFeed-CoT, un dataset su larga scala basato su Long-CoT ottimizzato per addestrare un modello leggero con ragionamento riflessivo. I nostri esperimenti rivelano come il numero di dimensioni, l'esposizione al feedback e la politica di ragionamento influenzino le prestazioni di perfezionamento, evidenziando che il ragionamento riflessivo e l'attenzione simultanea a più feedback sono cruciali per mitigare i compromessi tra le dimensioni. Inoltre, ReFeed è robusto rispetto a feedback rumorosi e all'ordine del feedback. Infine, la nostra scoperta sottolinea che la creazione di dati con un obiettivo e delle linee guida appropriate costituisce un pilastro fondamentale per un ragionamento efficace. Il dataset e il modello saranno rilasciati.
Recentemente, la generazione di video multi-vista o 4D è emersa come un importante argomento di ricerca. Tuttavia, gli approcci recenti alla generazione 4D continuano a confrontarsi con limitazioni fondamentali, poiché si basano principalmente sull'utilizzo di più modelli di diffusione video con ulteriori addestramenti o su un addestramento computazionalmente intensivo di un modello completo di diffusione 4D, con dati 4D reali limitati e costi computazionali elevati. Per affrontare queste sfide, qui proponiamo il primo metodo di generazione di video 4D senza addestramento che sfrutta modelli di diffusione video già disponibili per generare video multi-vista a partire da un singolo video di input. Il nostro approccio si compone di due passaggi chiave: (1) Designando i frame ai bordi nella griglia di campionamento spazio-temporale come frame chiave, li sintetizziamo inizialmente utilizzando un modello di diffusione video, sfruttando una tecnica di deformazione basata sulla profondità come guida. Questo approccio garantisce una coerenza strutturale tra i frame generati, preservando la coerenza spaziale e temporale. (2) Successivamente, interpoliamo i frame rimanenti utilizzando un modello di diffusione video, costruendo una griglia di campionamento completamente popolata e temporalmente coerente, preservando la coerenza spaziale e temporale. Attraverso questo approccio, estendiamo un singolo video in un video multi-vista lungo nuove traiettorie della telecamera, mantenendo la coerenza spazio-temporale. Il nostro metodo è privo di addestramento e sfrutta appieno un modello di diffusione video già disponibile, offrendo una soluzione pratica ed efficace per la generazione di video multi-vista.
La segmentazione di oggetti in movimento è un compito cruciale per ottenere una comprensione avanzata delle scene visive e ha numerose applicazioni a valle. Gli esseri umani possono segmentare senza sforzo gli oggetti in movimento nei video. Il lavoro precedente si è basato principalmente sul flusso ottico per fornire indicazioni di movimento; tuttavia, questo approccio spesso porta a previsioni imperfette a causa di sfide come il movimento parziale, le deformazioni complesse, lo sfuocamento da movimento e le distrazioni dello sfondo. Proponiamo un nuovo approccio per la segmentazione di oggetti in movimento che combina indicazioni di movimento a lungo raggio basate su traiettorie con caratteristiche semantiche basate su DINO e sfrutta SAM2 per la densificazione delle maschere a livello di pixel attraverso una strategia di prompt iterativi. Il nostro modello utilizza l'attenzione spaziotemporale alle traiettorie e l'incorporamento decuplicato di movimento-semantica per dare priorità al movimento integrando il supporto semantico. Test estesi su diversi dataset dimostrano prestazioni all'avanguardia, eccellendo in scenari complessi e nella segmentazione fine di più oggetti. Il nostro codice è disponibile all'indirizzo https://motion-seg.github.io/.
Presentiamo PHYSICS, un benchmark completo per la risoluzione di problemi di fisica a livello universitario. Contiene 1297 problemi annotati da esperti, che coprono sei aree fondamentali: meccanica classica, meccanica quantistica, termodinamica e meccanica statistica, elettromagnetismo, fisica atomica e ottica. Ogni problema richiede una conoscenza avanzata della fisica e un ragionamento matematico. Abbiamo sviluppato un sistema di valutazione automatizzato robusto per una validazione precisa e affidabile. La nostra valutazione dei principali modelli di base rivela limitazioni significative. Anche il modello più avanzato, o3-mini, raggiunge solo un'accuratezza del 59,9%, evidenziando sfide considerevoli nella risoluzione di problemi scientifici di alto livello. Attraverso un'analisi completa degli errori, l'esplorazione di diverse strategie di prompting e l'aumento della conoscenza basato su Retrieval-Augmented Generation (RAG), identifichiamo aree chiave per il miglioramento, gettando le basi per futuri progressi.
Motivati in parte dalla loro rilevanza per l'addestramento a bassa precisione e la quantizzazione, le attivazioni massive nei grandi modelli linguistici (LLM) sono recentemente emerse come un argomento di interesse. Tuttavia, le analisi esistenti sono limitate nell'ambito e la generalizzabilità tra le architetture non è chiara. Questo articolo contribuisce a colmare alcune di queste lacune conducendo un'analisi delle attivazioni massive su un'ampia gamma di LLM, includendo sia architetture basate su GLU che non basate su GLU. Le nostre scoperte mettono in discussione diverse ipotesi precedenti, in particolare: (1) non tutte le attivazioni massive sono dannose, ovvero sopprimerle non porta a un'esplosione della perplessità o a un crollo delle prestazioni nei task downstream; (2) le strategie di mitigazione proposte, come il bias Attention KV, sono specifiche per il modello e inefficaci in alcuni casi. Di conseguenza, indaghiamo nuove strategie di mitigazione ibride; in particolare, l'abbinamento di Target Variance Rescaling (TVR) con Attention KV bias o Dynamic Tanh (DyT) bilancia con successo la mitigazione delle attivazioni massive con il mantenimento delle prestazioni del modello downstream negli scenari che abbiamo esaminato. Il nostro codice è disponibile all'indirizzo: https://github.com/bluorion-com/refine_massive_activations.
Con la crescente domanda di modelli 3D ad alta fedeltà a partire da immagini 2D, i metodi esistenti continuano a fronteggiare sfide significative nel riprodurre accuratamente dettagli geometrici di fine granularità a causa di limitazioni nei gap di dominio e delle ambiguità intrinseche delle immagini RGB. Per affrontare questi problemi, proponiamo Hi3DGen, un nuovo framework per la generazione di geometrie 3D ad alta fedeltà da immagini tramite il bridging delle normali. Hi3DGen è composto da tre componenti chiave: (1) un estimatore da immagine a normale che disaccoppia il pattern di frequenza bassa-alta dell'immagine con l'iniezione di rumore e l'addestramento dual-stream per ottenere una stima generalizzabile, stabile e nitida; (2) un approccio di apprendimento da normale a geometria che utilizza l'apprendimento a diffusione latente regolarizzato dalle normali per migliorare la fedeltà della generazione della geometria 3D; e (3) una pipeline di sintesi di dati 3D che costruisce un dataset di alta qualità per supportare l'addestramento. Esperimenti estensivi dimostrano l'efficacia e la superiorità del nostro framework nella generazione di ricchi dettagli geometrici, superando i metodi all'avanguardia in termini di fedeltà. Il nostro lavoro fornisce una nuova direzione per la generazione di geometrie 3D ad alta fedeltà da immagini sfruttando le mappe delle normali come rappresentazione intermedia.
In questo articolo, presentiamo un metodo per ricostruire esseri umani in 3D da una singola immagine utilizzando un modello scheletrico biomeccanicamente accurato. Per raggiungere questo obiettivo, addestriamo un transformer che prende un'immagine come input e stima i parametri del modello. A causa della mancanza di dati di addestramento per questo compito, costruiamo una pipeline per produrre parametri di modello pseudo ground truth per immagini singole e implementiamo una procedura di addestramento che affina iterativamente queste etichette pseudo. Rispetto ai metodi all'avanguardia per il recupero di mesh umane in 3D, il nostro modello raggiunge prestazioni competitive su benchmark standard, mentre li supera significativamente in contesti con pose e punti di vista 3D estremi. Inoltre, dimostriamo che i precedenti metodi di ricostruzione violano frequentemente i limiti degli angoli articolari, portando a rotazioni innaturali. Al contrario, il nostro approccio sfrutta i gradi di libertà biomeccanicamente plausibili, ottenendo stime di rotazione articolare più realistiche. Validiamo il nostro approccio su più benchmark di stima della posa umana. Rendiamo disponibili il codice, i modelli e i dati all'indirizzo: https://isshikihugh.github.io/HSMR/
La creazione di mesh 3D ad alta fedeltà con topologia arbitraria, incluse superfici aperte e interni complessi, rimane una sfida significativa. I metodi esistenti basati su campi impliciti spesso richiedono una conversione costosa e degradante in termini di dettagli verso superfici chiuse, mentre altri approcci faticano a gestire risoluzioni elevate. Questo articolo introduce SparseFlex, una nuova rappresentazione isosuperficiale a struttura sparsa che consente la ricostruzione differenziabile di mesh a risoluzioni fino a 1024^3 direttamente dalle perdite di rendering. SparseFlex combina la precisione di Flexicubes con una struttura voxel sparsa, concentrando il calcolo sulle regioni adiacenti alla superficie e gestendo in modo efficiente le superfici aperte. In modo cruciale, introduciamo una strategia di addestramento voxel sezionale consapevole del frustum che attiva solo i voxel rilevanti durante il rendering, riducendo drasticamente il consumo di memoria e consentendo l'addestramento ad alta risoluzione. Ciò permette, per la prima volta, la ricostruzione degli interni delle mesh utilizzando solo la supervisione del rendering. Basandoci su questo, dimostriamo una pipeline completa di modellazione delle forme addestrando un autoencoder variazionale (VAE) e un trasformatore a flusso rettificato per la generazione di forme 3D di alta qualità. I nostri esperimenti mostrano un'accuratezza di ricostruzione all'avanguardia, con una riduzione del ~82% nella distanza di Chamfer e un aumento del ~88% nell'F-score rispetto ai metodi precedenti, e dimostrano la generazione di forme 3D ad alta risoluzione e dettagliate con topologia arbitraria. Consentendo la ricostruzione e la generazione differenziabile di mesh ad alta risoluzione con perdite di rendering, SparseFlex avanza significativamente lo stato dell'arte nella rappresentazione e modellazione delle forme 3D.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato impressionanti capacità di comprensione di immagini/video 2D. Tuttavia, non esistono benchmark pubblici standardizzati per valutare le capacità degli MLLMs nella comprensione di oggetti 4D (oggetti 3D con evoluzione temporale nel tempo). In questo articolo, introduciamo 4D-Bench, il primo benchmark progettato per valutare le capacità degli MLLMs nella comprensione di oggetti 4D, caratterizzato da compiti di Risposta a Domande su Oggetti 4D (4D object QA) e di Descrizione di Oggetti 4D (4D object captioning). 4D-Bench fornisce oggetti 4D con categorie diversificate, annotazioni di alta qualità e compiti che richiedono una comprensione spaziale-temporale multi-vista, differenziandosi dai benchmark esistenti basati su immagini/video 2D. Utilizzando 4D-Bench, abbiamo valutato un'ampia gamma di MLLMs open-source e closed-source. I risultati dell'esperimento di descrizione di oggetti 4D indicano che gli MLLMs generalmente mostrano una comprensione temporale più debole rispetto alla comprensione dell'aspetto, in particolare, mentre i modelli open-source si avvicinano alle prestazioni dei modelli closed-source nella comprensione dell'aspetto, mostrano gap di prestazione più ampi nella comprensione temporale. La Risposta a Domande su Oggetti 4D ha prodotto risultati sorprendenti: anche con semplici video a singolo oggetto, gli MLLMs performano male, con il più avanzato GPT-4o che raggiunge solo il 63% di accuratezza rispetto al baseline umano del 91%. Questi risultati evidenziano un gap sostanziale nella comprensione di oggetti 4D e la necessità di ulteriori progressi negli MLLMs.
Lo sviluppo di sistemi di intelligenza artificiale affidabili per assistere i clinici umani nella diagnosi medica multi-modale è da tempo un obiettivo chiave per i ricercatori. Recentemente, i Modelli Linguistici Multi-modali di Grande Scala (MLLMs) hanno attirato notevole attenzione e ottenuto successi in vari ambiti. Grazie alle loro forti capacità di ragionamento e alla capacità di eseguire compiti diversificati in base alle istruzioni dell'utente, essi presentano un grande potenziale per migliorare la diagnosi medica. Tuttavia, l'applicazione diretta degli MLLMs al dominio medico presenta ancora delle sfide. Essi mancano di una percezione dettagliata degli input visivi, limitando la loro capacità di eseguire analisi quantitative delle immagini, che sono cruciali per la diagnostica medica. Inoltre, gli MLLMs spesso mostrano allucinazioni e incoerenze nel ragionamento, mentre le diagnosi cliniche devono aderire rigorosamente a criteri stabiliti. Per affrontare queste sfide, proponiamo MedAgent-Pro, un sistema agente di ragionamento basato su evidenze progettato per ottenere diagnosi mediche affidabili, spiegabili e precise. Questo viene realizzato attraverso un flusso di lavoro gerarchico: a livello di compito, il ragionamento basato sulla conoscenza genera piani diagnostici affidabili per specifiche malattie seguendo i criteri clinici recuperati. A livello di caso, invece, più agenti strumentali elaborano input multi-modali, analizzano diversi indicatori secondo il piano e forniscono una diagnosi finale basata su evidenze sia quantitative che qualitative. Esperimenti completi su compiti di diagnosi medica 2D e 3D dimostrano la superiorità e l'efficacia di MedAgent-Pro, mentre studi di caso ne evidenziano ulteriormente l'affidabilità e l'interpretabilità. Il codice è disponibile all'indirizzo https://github.com/jinlab-imvr/MedAgent-Pro.
La classificazione tradizionale delle immagini richiede un elenco predefinito di categorie semantiche. Al contrario, i Large Multimodal Models (LMM) possono aggirare questo requisito classificando le immagini direttamente utilizzando il linguaggio naturale (ad esempio, rispondendo alla domanda "Qual è l'oggetto principale nell'immagine?"). Nonostante questa notevole capacità, la maggior parte degli studi esistenti sulle prestazioni di classificazione degli LMM è sorprendentemente limitata nell'ambito, spesso assumendo un contesto di mondo chiuso con un insieme predefinito di categorie. In questo lavoro, affrontiamo questa lacuna valutando approfonditamente le prestazioni di classificazione degli LMM in un contesto veramente aperto. Prima formalizziamo il compito e introduciamo un protocollo di valutazione, definendo varie metriche per valutare l'allineamento tra le classi previste e quelle reali. Successivamente, valutiamo 13 modelli su 10 benchmark, comprendendo classi prototipiche, non prototipiche, a grana fine e a grana molto fine, dimostrando le sfide che gli LMM affrontano in questo compito. Ulteriori analisi basate sulle metriche proposte rivelano i tipi di errori commessi dagli LMM, evidenziando le sfide legate alla granularità e alle capacità a grana fine, mostrando come prompt e ragionamenti mirati possano alleviarle.
L'IA per l'ingegneria del software ha compiuto progressi notevoli di recente, diventando un successo significativo all'interno dell'IA generativa. Nonostante ciò, ci sono ancora molte sfide da affrontare prima che l'ingegneria del software automatizzata raggiunga il suo pieno potenziale. Dovrebbe essere possibile raggiungere livelli elevati di automazione in cui gli esseri umani possano concentrarsi sulle decisioni critiche su cosa costruire e su come bilanciare compromessi difficili, mentre la maggior parte dello sforzo di sviluppo di routine viene automatizzato. Raggiungere questo livello di automazione richiederà notevoli sforzi di ricerca e ingegneria sia in ambito accademico che industriale. In questo articolo, miriamo a discutere i progressi verso questo obiettivo in tre modi. Innanzitutto, forniamo una tassonomia strutturata di compiti concreti nell'IA per l'ingegneria del software, evidenziando i molti altri compiti nell'ingegneria del software oltre alla generazione e al completamento del codice. In secondo luogo, delineiamo diversi colli di bottiglia chiave che limitano gli approcci attuali. Infine, forniamo una lista opinabile di direzioni di ricerca promettenti per progredire su questi colli di bottiglia, sperando di ispirare future ricerche in questo campo in rapida maturazione.
La ricostruzione tomografica computerizzata quadridimensionale (4D CT) è fondamentale per catturare i cambiamenti anatomici dinamici, ma deve affrontare limitazioni intrinseche dei flussi di lavoro convenzionali basati sulla suddivisione in fasi. I metodi attuali discretizzano la risoluzione temporale in fasi fisse utilizzando dispositivi di gating respiratorio, introducendo disallineamenti nel movimento e limitando la praticità clinica. In questo articolo, proponiamo X^2-Gaussian, un nuovo framework che consente la ricostruzione 4D-CT in tempo continuo integrando lo splatting gaussiano radiante dinamico con l'apprendimento auto-supervisionato del movimento respiratorio. Il nostro approccio modella la dinamica anatomica attraverso un'architettura codificatore-decodificatore spazio-temporale che prevede deformazioni gaussiane variabili nel tempo, eliminando la discretizzazione in fasi. Per rimuovere la dipendenza da dispositivi di gating esterni, introduciamo una funzione di perdita di consistenza periodica guidata dalla fisiologia che apprende i cicli respiratori specifici del paziente direttamente dalle proiezioni tramite ottimizzazione differenziabile. Esperimenti estensivi dimostrano prestazioni all'avanguardia, ottenendo un guadagno di 9.93 dB nel PSNR rispetto ai metodi tradizionali e un miglioramento di 2.25 dB rispetto alle precedenti tecniche di splatting gaussiano. Unificando la modellazione continua del movimento con l'apprendimento periodico senza hardware, X^2-Gaussian avanza la ricostruzione 4D CT ad alta fedeltà per l'imaging clinico dinamico. Sito web del progetto: https://x2-gaussian.github.io/.
L'intento, tipicamente formulato in modo chiaro e pianificato, funge da quadro cognitivo per il ragionamento e la risoluzione di problemi. Questo articolo introduce il concetto di Parlare con Intento (Speaking with Intent, SWI) nei grandi modelli linguistici (LLM), dove l'intento generato esplicitamente incapsula l'intenzione sottostante del modello e fornisce una pianificazione di alto livello per guidare le successive analisi e comunicazioni. Emulando pensieri deliberati e intenzionali della mente umana, si ipotizza che SWI possa migliorare le capacità di ragionamento e la qualità della generazione degli LLM. Esperimenti estesi su benchmark di ragionamento matematico dimostrano costantemente la superiorità di Parlare con Intento rispetto alla Baseline (cioè, generazione senza intento esplicito). Inoltre, SWI supera i metodi di prompting basati su risposte come Catena di Pensiero (Chain-of-Thought) e Pianifica e Risolvi (Plan-and-Solve) e mantiene prestazioni competitive con il metodo forte ARR (Analisi, Recupero e Ragionamento). L'efficacia e la generalizzabilità di SWI sono ulteriormente confermate su benchmark di risposta a domande (QA) ad alta intensità di ragionamento e di riassunto testuale, dove SWI apporta miglioramenti consistenti rispetto alla generazione Baseline. Nei riassunti testuali, i riassunti generati da SWI mostrano maggiore accuratezza, concisione e correttezza fattuale, con meno allucinazioni. Inoltre, valutazioni umane verificano la coerenza, l'efficacia e l'interpretabilità dell'intento prodotto da SWI. Questo studio proof-of-concept apre una nuova strada per migliorare le capacità di ragionamento degli LLM con nozioni cognitive.