Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre i grandi modelli linguistici (LLM) eccellono nelle attività di generazione, la loro architettura basata solo sul decoder spesso limita il loro potenziale come modelli di embedding se non viene applicato alcun ulteriore raffinamento della rappresentazione. Questo contraddice la loro pretesa di essere generalisti? Per rispondere a questa domanda, esaminiamo più da vicino i modelli linguistici a Mischia di Esperti (MoE). Il nostro studio mostra che i router degli esperti nei LLM MoE possono fungere da modelli di embedding pronti all'uso con prestazioni promettenti su una variegata classe di compiti focalizzati sull'embedding, senza richiedere alcun raffinamento ulteriore. Inoltre, la nostra approfondita analisi dimostra che i pesi di routing MoE sono complementari allo stato nascosto (HS) dei LLM, un embedding ampiamente utilizzato. Rispetto a HS, scopriamo che i pesi di routing sono più robusti nella scelta delle prompt e si concentrano su semantica di alto livello. Motivati dall'analisi, proponiamo MoEE che combina i pesi di routing e lo stato nascosto, ottenendo prestazioni migliori rispetto all'utilizzo separato di ognuno. La nostra esplorazione della loro combinazione e della strategia di prompt ha portato a diverse nuove intuizioni, ad esempio, una somma pesata delle similarità tra pesi di routing e stato nascosto supera la similarità della loro concatenazione. I nostri esperimenti sono stati condotti su 6 compiti di embedding con 20 set di dati provenienti dal Massive Text Embedding Benchmark (MTEB). I risultati dimostrano il significativo miglioramento apportato da MoEE all'embedding basato su LLM senza ulteriori raffinamenti.
L'adattamento dei Large Language Models medici alle lingue locali può ridurre le barriere all'accesso ai servizi sanitari, ma la scarsità di dati rimane una sfida significativa, in particolare per le lingue a bassa risorsa. Per affrontare questo problema, costruiamo innanzitutto un dataset medico di alta qualità e conduciamo un'analisi per garantirne la qualità. Al fine di sfruttare la capacità di generalizzazione dei Large Language Models multilingue per scalare efficientemente verso lingue più limitate di risorse, esploriamo il flusso di informazioni interna dei Large Language Models da una prospettiva multilingue utilizzando il modularità Mixture of Experts (MoE). Tecnicamente, proponiamo un nuovo metodo di routing MoE che impiega esperti specifici per la lingua e routing cross-linguistico. Ispirandoci alla teoria dei circuiti, la nostra analisi del routing ha rivelato un meccanismo di flusso di informazioni Spread Out in the End: mentre gli strati precedenti concentrano il flusso di informazioni cross-linguistiche, gli strati successivi mostrano una divergenza specifica della lingua. Questa intuizione ha portato direttamente allo sviluppo dell'architettura Post-MoE, che applica un routing sparso solo negli strati successivi mantenendo densi gli altri. I risultati sperimentali dimostrano che questo approccio migliora la generalizzazione dei modelli multilingue ad altre lingue preservando l'interpretabilità. Infine, per scalare efficientemente il modello a 50 lingue, introduciamo il concetto di esperti della famiglia linguistica, basandoci su priorità linguistiche, che consente di aumentare il numero di lingue senza aggiungere parametri aggiuntivi.
L'ampliamento della finestra di contesto dei grandi modelli linguistici (LLM) è diventato un'area di ricerca cruciale, specialmente per le applicazioni che coinvolgono testi estremamente lunghi. In questo lavoro, proponiamo un nuovo framework privo di addestramento per elaborare testi lunghi, utilizzando una strategia divide-et-impera per ottenere una comprensione completa dei documenti. Il framework proposto LLMtimesMapReduce suddivide l'intero documento in diversi segmenti affinché i LLM possano leggerli e poi aggrega le risposte intermedie per produrre l'output finale. La sfida principale per i framework di elaborazione di testi lunghi divide-et-impera risiede nel rischio di perdere informazioni essenziali a lungo raggio durante la suddivisione del documento, il che potrebbe portare il modello a produrre risposte incomplete o errate basate sui testi segmentati. Le informazioni a lungo raggio interrotte possono essere classificate in due categorie: dipendenza tra segmenti e conflitto tra segmenti. Progettiamo un protocollo strutturato per gestire meglio la dipendenza tra segmenti e un meccanismo di calibrazione della fiducia in contesto per risolvere i conflitti tra segmenti. I risultati sperimentali dimostrano che LLMtimesMapReduce può superare i LLM con contesto lungo open-source e commerciali rappresentativi ed è applicabile a diversi modelli differenti.
Mentre la scalabilità dei grandi modelli linguistici basati su Transformer (LLM) ha dimostrato prestazioni promettenti in varie attività, introduce anche architetture ridondanti, ponendo sfide di efficienza per l'implementazione nel mondo reale. Nonostante il riconoscimento di una certa ridondanza nei LLM, la variabilità della ridondanza tra diverse architetture nei transformer, come strati MLP e di Attention, è poco esplorata. In questo lavoro, indaghiamo la ridondanza tra diversi moduli all'interno dei Transformer, inclusi i Blocchi, gli strati MLP e di Attention, utilizzando una metrica basata sulla similarità. Sorprendentemente, nonostante il ruolo critico degli strati di attention nel distinguere i transformer da altre architetture, abbiamo scoperto che una grande parte di questi strati mostra una similarità eccessivamente alta e può essere potata senza degradare le prestazioni. Ad esempio, Llama-2-70B ha ottenuto un aumento della velocità del 48,4% con solo una diminuzione delle prestazioni del 2,4% potando la metà degli strati di attention. Inoltre, tracciando i checkpoint del modello durante il processo di addestramento, abbiamo osservato che la ridondanza degli strati di attention è intrinseca e costante tra le fasi di addestramento. Inoltre, proponiamo un metodo che abbatte congiuntamente gli strati di Attention e MLP, consentendoci di abbandonare più aggressivamente ulteriori strati. Ad esempio, eliminando 31 strati (Attention + MLP), Llama-2-13B mantiene comunque il 90% delle prestazioni nel compito MMLU. Il nostro lavoro fornisce preziose intuizioni per il futuro design dell'architettura di rete. Il codice è disponibile su: https://github.com/Shwai-He/LLM-Drop.
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) mostrano frequentemente fenomeni di allucinazione, ma le ragioni sottostanti rimangono poco comprese. In questo articolo, presentiamo un'analisi empirica e scopriamo che, sebbene i MLLMs generino in modo errato gli oggetti nell'output finale, sono effettivamente in grado di riconoscere gli oggetti visivi nei livelli precedenti. Speculiamo che ciò possa essere dovuto ai forti priori di conoscenza del modello linguistico che sopprimono le informazioni visive, portando alle allucinazioni. Motivati da ciò, proponiamo un nuovo metodo di decodifica correttiva dinamica per i MLLMs (DeCo), che seleziona in modo adattivo i livelli precedenti appropriati e integra proporzionalmente la conoscenza nell'ultimo livello per regolare i logit di output. Si noti che DeCo è indipendente dal modello e può essere incorporato senza problemi con varie strategie di decodifica classiche e applicato a diversi MLLMs. Valutiamo DeCo su benchmark ampiamente utilizzati, dimostrando che può ridurre notevolmente i tassi di allucinazione rispetto alle baselines, evidenziando il suo potenziale nel mitigare le allucinazioni. Il codice è disponibile su https://github.com/zjunlp/DeCo.
Le tecniche di valutazione contemporanee risultano inadeguate per i sistemi agentici. Questi approcci si concentrano esclusivamente sui risultati finali, ignorando la natura passo-passo dei sistemi agentici, oppure richiedono un eccessivo lavoro manuale. Per affrontare questa problematica, introduciamo il framework Agente-come-Giudice, in cui i sistemi agentici vengono impiegati per valutare altri sistemi agentici. Questa è un'estensione organica del framework LLM-come-Giudice, che incorpora caratteristiche agentiche che consentono un feedback intermedio per l'intero processo di risoluzione del compito. Applichiamo l'Agente-come-Giudice al compito di generazione di codice. Per superare le problematiche legate ai benchmark esistenti e fornire un banco di prova di concetto per l'Agente-come-Giudice, presentiamo DevAI, un nuovo benchmark di 55 realistici compiti di sviluppo automatico di intelligenza artificiale. Esso include ricche annotazioni manuali, come un totale di 365 requisiti utente gerarchici. Valutiamo tre dei popolari sistemi agentici utilizzando l'Agente-come-Giudice e scopriamo che esso supera nettamente il LLM-come-Giudice ed è altrettanto affidabile del nostro riferimento di valutazione umana. Complessivamente, riteniamo che l'Agente-come-Giudice segni un concreto passo avanti per i moderni sistemi agentici, fornendo segnali di ricompensa ricchi e affidabili necessari per un auto-miglioramento dinamico e scalabile.
L'efficacia dei modelli di generazione video dipende fortemente dalla qualità dei loro set di dati di addestramento. La maggior parte dei modelli di generazione video precedenti è stata addestrata su brevi clip video, mentre di recente c'è stato un crescente interesse nell'addestrare modelli di generazione video lunghi direttamente su video più lunghi. Tuttavia, la mancanza di video lunghi di alta qualità ostacola l'avanzamento della generazione di video lunghi. Per promuovere la ricerca nella generazione di video lunghi, desideriamo un nuovo dataset con quattro caratteristiche chiave essenziali per l'addestramento di modelli di generazione video lunghi: (1) video lunghi che coprono almeno 10 secondi, (2) video in un'unica ripresa senza tagli, (3) ampio movimento e contenuti diversi, e (4) didascalie temporalmente dense. Per raggiungere questo obiettivo, introduciamo una nuova pipeline per la selezione di video in un'unica ripresa di alta qualità e la generazione di didascalie temporalmente dense. In particolare, definiamo un insieme di metriche per valutare quantitativamente la qualità del video, inclusi tagli di scena, gradi dinamici e qualità a livello semantico, che ci consentono di filtrare video in un'unica ripresa di alta qualità da una grande quantità di video sorgente. Successivamente, sviluppiamo una pipeline gerarchica di didascalie video per annotare video lunghi con didascalie temporalmente dense. Con questa pipeline, curiamo il primo dataset di video in un'unica ripresa, LVD-2M, composto da 2 milioni di video in un'unica ripresa, ciascuno della durata di più di 10 secondi e annotato con didascalie temporalmente dense. Inoltre, convalidiamo l'efficacia di LVD-2M adattando finemente i modelli di generazione video per generare video lunghi con movimenti dinamici. Crediamo che il nostro lavoro contribuirà significativamente alla futura ricerca nella generazione di video lunghi.
I Large Language Models (LLM) hanno mostrato enormi miglioramenti nelle capacità di ragionamento e presa di decisioni e possono intrattenere conversazioni naturali con gli utenti. Di recente, sono state proposte molte serie di dati di riferimento sull'uso degli strumenti. Tuttavia, i set di dati esistenti presentano le seguenti limitazioni: (1). Scenari di valutazione insufficienti (ad esempio, coprono solo scene di utilizzo limitato degli strumenti). (2). Elevati costi di valutazione (ad esempio, costi API di GPT). Per affrontare queste limitazioni, in questo lavoro proponiamo un benchmark sull'uso degli strumenti a multi-granularità per i grandi modelli linguistici chiamato MTU-Bench. Per la proprietà di "multi-granularità", il nostro MTU-Bench copre cinque scene di utilizzo degli strumenti (cioè, singola interazione e singolo strumento, singola interazione e strumenti multipli, interazioni multiple e singolo strumento, interazioni multiple e strumenti multipli, e compiti fuori distribuzione). Inoltre, tutte le metriche di valutazione del nostro MTU-Bench si basano sui risultati delle previsioni e sulla verità fondamentale senza utilizzare alcuna metrica di valutazione GPT o umana. Inoltre, il nostro MTU-Bench è stato raccolto trasformando serie di dati esistenti di alta qualità per simulare scenari reali di utilizzo degli strumenti, e proponiamo anche un set di dati di istruzioni chiamato dati MTU-Instruct per potenziare le capacità di utilizzo degli strumenti dei LLM esistenti. I risultati sperimentali esaustivi dimostrano l'efficacia del nostro MTU-Bench. Il codice e i dati saranno rilasciati su https://github.com/MTU-Bench-Team/MTU-Bench.git.
Come uno dei modelli generativi più popolari e ricercati degli ultimi anni, i modelli di diffusione hanno suscitato l'interesse di molti ricercatori e hanno costantemente dimostrato eccellenti vantaggi in varie attività generative come la sintesi di immagini, la generazione di video, la progettazione di molecole, il rendering di scene 3D e la generazione multimodale, basandosi sui loro densi principi teorici e affidabili pratiche applicative. Il notevole successo di questi recenti sforzi sui modelli di diffusione deriva principalmente dai progressivi principi progettuali e dall'efficiente architettura, metodologie di addestramento, inferenza e distribuzione. Tuttavia, non è stata ancora condotta una revisione completa e approfondita per riassumere questi principi e pratiche al fine di facilitare la comprensione e l'applicazione rapida dei modelli di diffusione. In questa indagine, forniamo una nuova prospettiva orientata all'efficienza su questi sforzi esistenti, che si concentra principalmente sui principi profondi e sulle pratiche efficienti nei design architetturali, nell'addestramento del modello, nell'inferenza veloce e nella distribuzione affidabile, per guidare ulteriori ricerche teoriche, migrazioni di algoritmi e applicazioni di modelli per nuovi scenari in modo accessibile ai lettori. https://github.com/ponyzym/Efficient-DMs-Survey
I grandi modelli linguistici (LLM) combinati con l'apprendimento degli strumenti hanno ottenuto risultati impressionanti nelle applicazioni del mondo reale. Durante l'apprendimento degli strumenti, i LLM possono richiamare più strumenti in ordini nidificati, dove il richiamo dello strumento successivo può prendere la risposta precedente come parametri di input. Tuttavia, la ricerca attuale sulle capacità di apprendimento degli strumenti nidificati è ancora poco esplorata, poiché i benchmark esistenti mancano di istanze di dati rilevanti. Per affrontare questo problema, presentiamo NesTools per colmare il divario attuale nelle valutazioni complete dell'apprendimento degli strumenti nidificati. NesTools comprende un nuovo metodo automatico di generazione dei dati per costruire richiami di strumenti nidificati su larga scala con diverse strutture nidificate. Con una revisione e un perfezionamento manuali, il dataset è di alta qualità e strettamente allineato con scenari del mondo reale. Pertanto, NesTools può fungere da nuovo benchmark per valutare le capacità di apprendimento degli strumenti nidificati dei LLM. Conduciamo ampi esperimenti su 22 LLM e forniamo analisi approfondite con NesTools, che mostra che i LLM attuali soffrono ancora del complesso compito di apprendimento degli strumenti nidificati.
L'ecocardiografia è la modalità di imaging cardiaco più ampiamente utilizzata, che acquisisce dati video ad ultrasuoni per valutare la struttura e la funzione cardiaca. L'intelligenza artificiale (IA) nell'ecocardiografia ha il potenziale per ottimizzare compiti manuali e migliorare la riproducibilità e la precisione. Tuttavia, la maggior parte dei modelli di IA in ecocardiografia sono sistemi single-view, single-task che non sintetizzano informazioni complementari da visualizzazioni multiple acquisite durante un esame completo, e quindi portano a prestazioni e ambiti di applicazione limitati. Per affrontare questo problema, presentiamo EchoPrime, un modello fondamentale vision-language basato su video, multi-view e view-informed, addestrato su oltre 12 milioni di coppie video-report. EchoPrime utilizza l'apprendimento contrastivo per addestrare un modello di embedding unificato per tutte le visualizzazioni standard in uno studio ecocardiografico completo con rappresentazione di malattie e diagnosi sia rare che comuni. EchoPrime utilizza quindi la classificazione delle visualizzazioni e un modello di attenzione anatomica informato dalla visualizzazione per pesare le interpretazioni specifiche del video che mappano accuratamente la relazione tra le visualizzazioni ecocardiografiche e le strutture anatomiche. Con l'interpretazione potenziata dal recupero, EchoPrime integra le informazioni da tutti i video ecocardiografici in uno studio completo e esegue un'interpretazione ecocardiografica clinica completa ed olistica. Nei dataset di due sistemi sanitari indipendenti, EchoPrime raggiunge prestazioni all'avanguardia su 23 diversi benchmark di forma e funzione cardiaca, superando le prestazioni sia degli approcci specifici per compiti che dei modelli fondamentali precedenti. Dopo una rigorosa valutazione clinica, EchoPrime può assistere i medici nella valutazione preliminare automatizzata dell'ecocardiografia completa.
L'esistenza di lavori precedenti ha stabilito diversi benchmark per evidenziare i rischi di sicurezza associati a Code GenAI. Questi rischi si riflettono principalmente in due ambiti: il potenziale di un modello di generare codice non sicuro (codifica non sicura) e la sua utilità negli attacchi informatici (utilità per gli attacchi informatici). Sebbene questi benchmark abbiano compiuto progressi significativi, rimangono opportunità per ulteriori miglioramenti. Ad esempio, molti benchmark attuali tendono a concentrarsi maggiormente sulla capacità di un modello di fornire suggerimenti per gli attacchi piuttosto che sulla sua capacità di generare attacchi eseguibili. Inoltre, la maggior parte dei benchmark si basa pesantemente su metriche di valutazione statiche, che potrebbero non essere così precise come le metriche dinamiche come i casi di test superati. Al contrario, i benchmark verificati dagli esperti, pur offrendo dati di alta qualità, operano spesso su una scala più ridotta. Per colmare queste lacune, sviluppiamo SecCodePLT, una piattaforma di valutazione unificata e completa per i rischi dei Code GenAI. Per il codice non sicuro, introduciamo una nuova metodologia per la creazione di dati che combina esperti con la generazione automatica. La nostra metodologia garantisce la qualità dei dati consentendo al contempo una generazione su larga scala. Associamo inoltre campioni con casi di test per condurre una valutazione dinamica relativa al codice. Per l'utilità per gli attacchi informatici, creiamo un ambiente reale e costruiamo campioni per sollecitare un modello a generare attacchi effettivi, insieme a metriche dinamiche nel nostro ambiente. Conduci...
Presentiamo una rappresentazione basata su Gaussiane spaziali e angolari e un processo di triplo splatting, per la sintesi in tempo reale e di alta qualità di illuminazione e vista innovative da immagini di input multi-view puntualmente illuminate. Per descrivere un aspetto complesso, utilizziamo una funzione di riflettanza efficace per ciascuna Gaussiana spaziale, composta da una componente lambertiana e una miscela di Gaussiane angolari. Per generare l'auto-ombreggiatura, splattiamo tutte le Gaussiane spaziali verso la sorgente luminosa per ottenere i valori dell'ombra, che vengono ulteriormente raffinati da un piccolo perceptron multi-strato. Per compensare altri effetti come l'illuminazione globale, un altro network è addestrato per calcolare e aggiungere una tupla RGB per ciascuna Gaussiana spaziale. L'efficacia della nostra rappresentazione è dimostrata su 30 campioni con ampia variazione nella geometria (da solida a soffice) e nell'aspetto (da traslucido ad anisotropico), utilizzando anche diverse forme di dati di input, tra cui immagini renderizzate di oggetti sintetici/ricostruiti, fotografie catturate con una fotocamera portatile e un flash, o provenienti da un lightstage professionale. Otteniamo un tempo di addestramento di 40-70 minuti e una velocità di rendering di 90 fps su una singola GPU di base. I nostri risultati si confrontano favorevolmente con le tecniche all'avanguardia in termini di qualità/prestazioni. Il nostro codice e i dati sono pubblicamente disponibili su https://GSrelight.github.io/.
I recenti progressi in CV e NLP sono stati in gran parte determinati dall'incremento del numero di parametri di rete, nonostante le teorie tradizionali suggeriscano che reti più grandi siano inclini all'overfitting. Queste reti di grandi dimensioni evitano l'overfitting integrando componenti che inducono un bias verso la semplicità, guidando i modelli verso soluzioni semplici e generalizzabili. Tuttavia, nel deep RL, la progettazione e l'incremento delle reti sono state meno esplorate. Motivati da questa opportunità, presentiamo SimBa, un'architettura progettata per aumentare i parametri nel deep RL introducendo un bias verso la semplicità. SimBa è composto da tre componenti: (i) uno strato di normalizzazione delle osservazioni che standardizza gli input con statistiche in esecuzione, (ii) un blocco feedforward residuale per fornire un percorso lineare dall'input all'output, e (iii) una normalizzazione di livello per controllare le grandezze delle caratteristiche. Aumentando i parametri con SimBa, l'efficienza campionaria di vari algoritmi deep RL, inclusi quelli off-policy, on-policy e non supervisionati, viene costantemente migliorata. Inoltre, solo integrando l'architettura SimBa in SAC, essa si equipara o supera i metodi deep RL all'avanguardia con un'elevata efficienza computazionale su DMC, MyoSuite e HumanoidBench. Questi risultati dimostrano la vasta applicabilità ed efficacia di SimBa attraverso diversi algoritmi e ambienti di RL.
La crescente domanda di sistemi robotici versatili per operare in ambienti diversi e dinamici ha sottolineato l'importanza di una politica generalista, che sfrutti un ampio corpus di dati intercorpo per facilitare un'ampia adattabilità e un ragionamento di alto livello. Tuttavia, il generalista potrebbe avere difficoltà con un'infereza inefficiente e un addestramento costoso. La politica specialistica, invece, è curata per dati di dominio specifico ed eccelle nella precisione a livello di attività con efficienza. Tuttavia, manca della capacità di generalizzazione per una vasta gamma di applicazioni. Ispirati a queste osservazioni, presentiamo RoboDual, un sistema duale sinergico che integra i meriti sia della politica generalista che di quella specialistica. Viene ideato un esperto basato su trasformatori per rollout di azioni multi-step, accuratamente condizionato alla comprensione delle attività di alto livello e all'output di azioni discretizzate di un generalista basato su visione-linguaggio-azione (VLA). Rispetto a OpenVLA, RoboDual ottiene un miglioramento del 26,7% in un contesto reale e un aumento del 12% su CALVIN introducendo una politica specialistica con soli 20M di parametri addestrabili. Mantiene elevate prestazioni con soli il 5% dei dati dimostrativi e consente una frequenza di controllo 3,8 volte superiore nell'implementazione nel mondo reale. Il codice sarà reso pubblicamente disponibile. La nostra pagina del progetto è ospitata su: https://opendrivelab.com/RoboDual/
Approcci recenti cercano di adattare potenti modelli di segmentazione interattiva, come SAM, al tracciamento interattivo e di perfezionare i modelli basati su set di dati di tracciamento sintetici. Tuttavia, i modelli addestrati su dati sintetici falliscono nel generalizzare a scene complesse e con occlusioni. Affrontiamo questa sfida proponendo un nuovo set di dati di tracciamento basato sul dataset COCO, chiamato COCO-Matting. In particolare, la costruzione del nostro COCO-Matting include la fusione degli accessori e il passaggio da maschere a tracciati, che seleziona immagini complesse del mondo reale da COCO e converte le maschere di segmentazione semantica in etichette di tracciamento. Il COCO-Matting creato comprende una vasta raccolta di 38.251 tracciati alfa a livello di istanza umana in scenari naturali complessi. Inoltre, i metodi di tracciamento basati su SAM esistenti estraggono caratteristiche intermedie e maschere da un SAM congelato e addestrano solo un decoder di tracciamento leggero tramite perdite di tracciamento end-to-end, che non sfruttano appieno il potenziale del SAM pre-addestrato. Pertanto, proponiamo SEMat che rivoluziona l'architettura della rete e gli obiettivi di addestramento. Per quanto riguarda l'architettura della rete, il transformer allineato alle caratteristiche proposto impara ad estrarre caratteristiche di bordo e trasparenza dettagliate. Il decoder allineato al tracciato proposto mira a segmentare oggetti specifici del tracciamento e convertire maschere grossolane in tracciati ad alta precisione. Per gli obiettivi di addestramento, la regolarizzazione proposta e la perdita di trimap mirano a mantenere le informazioni precedenti dal modello pre-addestrato e spingere i logit di tracciamento estratti dal decoder della maschera a contenere informazioni semantiche basate sul trimap. Estesi esperimenti su sette diversi set di dati dimostrano le prestazioni superiori del nostro metodo, dimostrandone l'efficacia nel tracciamento interattivo di immagini naturali. Mettiamo a disposizione il nostro codice, modelli e set di dati open-source su https://github.com/XiaRho/SEMat.
L'Effetto di Rinforzo reciproco (MRE) indaga la relazione sinergica tra le classificazioni a livello di parole e a livello di testo nei compiti di classificazione del testo. Si ipotizza che le prestazioni di entrambi i livelli di classificazione possano essere reciprocamente potenziate. Tuttavia, questo meccanismo non è stato adeguatamente dimostrato o spiegato nella ricerca precedente. Per affrontare questa lacuna, utilizziamo esperimenti empirici per osservare e confermare la teoria MRE. I nostri esperimenti su 21 set di dati MRE misti hanno rivelato la presenza di MRE nel modello e il suo impatto. In particolare, abbiamo condotto esperimenti di confronto utilizzando il fine-tuning. I risultati dei confronti degli esperimenti confermano l'esistenza di MRE. Inoltre, abbiamo esteso l'applicazione di MRE all'apprendimento guidato, utilizzando le informazioni a livello di parole come verbalizzatore per rafforzare la previsione del modello delle etichette di classificazione a livello di testo. Nel nostro esperimento finale, l'F1-score ha superato significativamente il valore di base in 18 dei 21 set di dati MRE misti, confermando ulteriormente l'idea che le informazioni a livello di parole migliorano la comprensione del modello linguistico del testo nel suo insieme.
Recuperare ed elaborare efficientemente informazioni da collezioni multimodali su larga scala è diventato una sfida critica. Tuttavia, i dataset esistenti per il recupero video presentano limitazioni di portata, concentrandosi principalmente sull'abbinamento di query descrittive ma vaghe con piccole collezioni di video professionalmente editati, prevalentemente in lingua inglese. Per colmare questa lacuna, presentiamo MultiVENT 2.0, un benchmark di recupero video centrato sugli eventi su larga scala e multilingue che include una raccolta di oltre 218.000 video di notizie e 3.906 query mirate a eventi mondiali specifici. Queste query mirano specificamente alle informazioni presenti nei contenuti visivi, nell'audio, nel testo integrato e nei metadati testuali dei video, richiedendo che i sistemi sfruttino tutte queste fonti per avere successo nel compito. I risultati preliminari mostrano che i modelli di visione-linguaggio all'avanguardia faticano significativamente con questo compito e, sebbene approcci alternativi mostrino promesse, sono ancora insufficienti per affrontare adeguatamente questo problema. Queste scoperte sottolineano la necessità di sistemi di recupero multimodali più robusti, poiché il recupero video efficace è un passo cruciale verso compiti di comprensione e generazione di contenuti multimodali.