Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rapido avanzamento dei Grandi Modelli Linguistici (LLM) ha dimostrato un notevole progresso nelle complesse attività di ragionamento. Tuttavia, persiste una significativa discrepanza tra le prestazioni di riferimento e le applicazioni reali. Identifichiamo questa lacuna come derivante principalmente dai protocolli di valutazione attuali e dalle metriche, che catturano in modo inadeguato l'intero spettro delle capacità dei LLM, in particolare nelle complesse attività di ragionamento dove sia l'accuratezza che la coerenza sono cruciali. Questo lavoro apporta due contributi chiave. In primo luogo, introduciamo G-Pass@k, una nuova metrica di valutazione che fornisce una valutazione continua delle prestazioni del modello attraverso molteplici tentativi di campionamento, quantificando sia il potenziale massimo di prestazioni del modello sia la sua stabilità. In secondo luogo, presentiamo LiveMathBench, un benchmark dinamico che comprende problemi matematici sfidanti e contemporanei progettati per minimizzare i rischi di fuga di dati durante la valutazione. Attraverso estesi esperimenti utilizzando G-Pass@k su LLM all'avanguardia con LiveMathBench, forniamo approfondite intuizioni sia sulle loro capacità massime che sulla coerenza operativa. Le nostre scoperte rivelano un ampio margine di miglioramento nelle capacità di ragionamento "realistiche" dei LLM, evidenziando la necessità di metodi di valutazione più robusti. Il benchmark e i risultati dettagliati sono disponibili su: https://github.com/open-compass/GPassK.
Come tipica e pratica applicazione dei Large Language Models (LLM), le tecniche di Generazione con Recupero potenziato (RAG) hanno attirato ampia attenzione, in particolare nei settori verticali in cui i LLM potrebbero mancare di conoscenze specifiche del dominio. In questo articolo, presentiamo un benchmark RAG onnicomprensivo e automatico, OmniEval, nel settore finanziario. Il nostro benchmark è caratterizzato dal suo quadro di valutazione multidimensionale, che include (1) un sistema di valutazione degli scenari RAG basato su matrici che categorizza le query in cinque classi di compiti e 16 argomenti finanziari, portando a una valutazione strutturata di diversi scenari di query; (2) un approccio di generazione dati multidimensionale, che combina la generazione automatica basata su GPT-4 e l'annotazione umana, raggiungendo un tasso di accettazione dell'87,47\% nelle valutazioni umane su istanze generate; (3) un sistema di valutazione a più stadi che valuta sia le prestazioni di recupero che di generazione, risultando in una valutazione completa del processo RAG; e (4) metriche di valutazione robuste derivate da quelle basate su regole e su LLM, migliorando l'affidabilità delle valutazioni attraverso annotazioni manuali e il raffinamento supervisionato di un valutatore LLM. I nostri esperimenti dimostrano la completezza di OmniEval, che include ampi set di dati di test e mette in luce le variazioni delle prestazioni dei sistemi RAG su argomenti e compiti diversificati, rivelando significative opportunità per i modelli RAG di migliorare le proprie capacità nei settori verticali. Rilasciamo il codice del nostro benchmark come open source su https://github.com/RUC-NLPIR/OmniEval.
Il campo in rapida evoluzione dei grandi modelli multimodali (LMM) ha portato all'emergere di modelli diversi con capacità notevoli. Tuttavia, i benchmark esistenti non riescono a valutare in modo esaustivo, obiettivo e accurato se i LMM siano in linea con le diverse esigenze umane in scenari reali. Per colmare questa lacuna, proponiamo il benchmark Multi-Dimensional Insights (MDI), che include oltre 500 immagini che coprono sei scenari comuni della vita umana. In particolare, il MDI-Benchmark offre due vantaggi significativi rispetto alle valutazioni esistenti: (1) Ogni immagine è accompagnata da due tipi di domande: domande semplici per valutare la comprensione del modello dell'immagine e domande complesse per valutare la capacità del modello di analizzare e ragionare oltre il contenuto di base. (2) Riconoscendo che le persone di diverse fasce d'età hanno esigenze e prospettive diverse di fronte allo stesso scenario, il nostro benchmark suddivide le domande in tre categorie di età: giovani, adulti di mezza età e anziani. Questo design consente una valutazione dettagliata delle capacità dei LMM nel soddisfare le preferenze e le esigenze di diverse fasce d'età. Con il MDI-Benchmark, modelli potenti come il GPT-4o raggiungono un'accuratezza del 79% nei compiti legati all'età, indicando che i LMM esistenti hanno ancora ampio margine di miglioramento nell'affrontare applicazioni reali. Guardando avanti, prevediamo che il MDI-Benchmark aprirà nuove vie per allineare la personalizzazione nel mondo reale nei LMM. I dati e il codice di valutazione del MDI-Benchmark sono disponibili su https://mdi-benchmark.github.io/
Il decoding a catena di pensiero (CoT) consente ai modelli linguistici di migliorare le prestazioni di ragionamento a discapito di un'elevata latenza nella generazione durante il decoding. Proposte recenti hanno esplorato varianti dei token di contemplazione, un termine che introduciamo e che si riferisce a token speciali utilizzati durante l'inferenza per consentire un calcolo aggiuntivo. Lavori precedenti hanno considerato sequenze di lunghezza fissa tratte da un insieme discreto di embedding come token di contemplazione. Qui proponiamo Catena-di-Pensiero Compressa (CCoT), un framework per generare token di contemplazione significativi e continui di lunghezza di sequenza variabile. I token di contemplazione generati sono rappresentazioni compressate di catene di ragionamento esplicite, e il nostro metodo può essere applicato ai modelli linguistici decoder pronti all'uso. Attraverso esperimenti, illustreremo come CCoT consenta un ragionamento aggiuntivo su rappresentazioni dense e significative per ottenere miglioramenti corrispondenti in termini di accuratezza. Inoltre, i miglioramenti nel ragionamento possono essere modificati in modo adattivo su richiesta controllando il numero di token di contemplazione generati.
Comprendere le informazioni da una collezione di documenti multipli, in particolare quelli con elementi visivamente ricchi, è importante per la risposta a domande basata sui documenti. Questo articolo introduce VisDoMBench, il primo benchmark completo progettato per valutare i sistemi di QA in contesti multi-documento con contenuti multimodali ricchi, inclusi tabelle, grafici e diapositive di presentazione. Proponiamo VisDoMRAG, un nuovo approccio di Recupero Aumentato Generativo (RAG) multimodale che utilizza simultaneamente il RAG visuale e testuale, combinando robuste capacità di recupero visivo con sofisticato ragionamento linguistico. VisDoMRAG impiega un processo di ragionamento a più passaggi che comprende la cura delle prove e il ragionamento a catena per pipeline RAG testuali e visive concorrenti. Una novità chiave di VisDoMRAG è il suo meccanismo di fusione modale vincolato alla coerenza, che allinea i processi di ragionamento tra modalità al momento dell'inferezza per produrre una risposta finale coerente. Ciò porta a un'accuratezza migliorata in scenari in cui le informazioni critiche sono distribuite tra le modalità e a un'ulteriore verificabilità delle risposte attraverso l'attribuzione implicita del contesto. Attraverso estesi esperimenti che coinvolgono modelli linguistici large open-source e proprietari, valutiamo i metodi di QA sui documenti all'avanguardia su VisDoMBench. I risultati estesi mostrano che VisDoMRAG supera i baselines LLM unimodali e a lungo contesto per il QA multimodale end-to-end dei documenti del 12-20%.
Gli esseri umani distillano esperienze complesse in astrazioni fondamentali che consentono un apprendimento e un adattamento rapidi. Allo stesso modo, i trasformatori autoregressivi mostrano un apprendimento adattivo attraverso l'apprendimento in contesto (ICL), il che solleva la questione del come. In questo articolo, proponiamo un meccanismo di codifica-decodifica concettuale per spiegare l'ICL studiando come i trasformatori formano e utilizzano astrazioni interne nelle loro rappresentazioni. Su compiti sintetici di ICL, analizziamo la dinamica di addestramento di un piccolo trasformatore e riportiamo l'emergere congiunto della codifica e decodifica dei concetti. Man mano che il modello impara a codificare diversi concetti latenti (ad esempio, "Trovare il primo sostantivo in una frase.") in rappresentazioni distinte e separabili, costruisce contemporaneamente algoritmi di decodifica condizionale e migliora le sue prestazioni di ICL. Confermiamo l'esistenza di questo meccanismo attraverso modelli preaddestrati di varie dimensioni (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Inoltre, attraverso interventi meccanicistici e fine-tuning controllato, dimostriamo che la qualità della codifica concettuale è causalmente correlata e predittiva delle prestazioni di ICL. Le nostre intuizioni empiriche gettano luce su una migliore comprensione delle modalità di successo e di fallimento dei grandi modelli linguistici attraverso le loro rappresentazioni.
Recenti lavori sull'accelerazione dei Modelli Visione-Linguaggio mostrano che è possibile mantenere elevate prestazioni in una varietà di compiti visione-linguaggio nonostante la compressione elevata delle informazioni visive. In questo studio, esaminiamo l'approccio di accelerazione popolare del pruning precoce dei token visivi all'interno del modello linguistico e scopriamo che le sue elevate prestazioni in molti compiti non sono dovute a un'eccezionale capacità di comprimere le informazioni visive, ma piuttosto alla limitata capacità dei benchmark di valutare le capacità visive dettagliate. In particolare, dimostriamo un problema fondamentale con l'approccio di accelerazione in cui la maggior parte dei token nella parte superiore dell'immagine viene eliminata. Tuttavia, questo problema si riflette solo nelle prestazioni per un piccolo sottoinsieme di compiti come la localizzazione. Per gli altri compiti valutati, si mantengono elevate prestazioni con la strategia di pruning difettosa. Notando le limitate capacità visive della tecnica di accelerazione studiata, proponiamo FEATHER (Accelerazione Veloce ed Efficace con Criteri di Insieme), un approccio diretto che (1) risolve il problema identificato con il pruning precoce dei livelli iniziali, (2) incorpora un campionamento uniforme per garantire una copertura su tutte le regioni dell'immagine e (3) applica il pruning in due fasi per consentire ai criteri di diventare più efficaci in un livello successivo pur ottenendo un significativo aumento di velocità attraverso il pruning dei livelli iniziali. Con risparmi computazionali comparabili, scopriamo che FEATHER ha un miglioramento delle prestazioni di oltre 5 volte sui benchmark di localizzazione centrati sulla visione rispetto all'approccio di accelerazione originale.
La visione di un agente ampiamente capace e orientato agli obiettivi, come ad esempio un agente di navigazione su Internet nel mondo digitale e un umanoide domestico nel mondo fisico, ha fatto rapidi progressi, grazie alla capacità di generalizzazione dei modelli di base. Un agente generalista di questo tipo deve avere un vasto e diversificato repertorio di abilità, come ad esempio trovare indicazioni tra due luoghi di viaggio e acquistare articoli specifici su Internet. Se ogni abilità deve essere specificata manualmente attraverso un insieme fisso di istruzioni annotate dall'uomo, il repertorio di abilità dell'agente sarà necessariamente limitato a causa della quantità e della diversità delle istruzioni annotate dall'uomo. In questo lavoro, affrontiamo questa sfida proponendo Proposer-Agent-Evaluator, un efficace sistema di apprendimento che consente agli agenti dei modelli di base di scoprire e praticare autonomamente abilità in ambienti reali. Al cuore di PAE c'è un proposer di compiti consapevole del contesto che propone autonomamente compiti per l'agente da praticare con informazioni di contesto dell'ambiente come dimostrazioni dell'utente o anche solo il nome del sito web stesso per gli agenti di navigazione su Internet. Successivamente, la politica dell'agente tenta tali compiti con pensieri e operazioni concrete nel mondo reale, con le traiettorie risultanti valutate da un valutatore di successo basato su VLM autonomo. La valutazione del successo funge da segnale di ricompensa per l'agente per perfezionare le proprie politiche attraverso RL. Convalidiamo PAE nella navigazione web basata sulla visione, utilizzando sia siti web del mondo reale che auto-ospitati da WebVoyager e WebArena. Per quanto ne sappiamo, questo lavoro rappresenta il primo sistema di apprendimento efficace per applicare proposte di compiti autonome con RL per agenti che generalizzano benchmark annotati dall'uomo nel mondo reale con prestazioni all'avanguardia. I nostri checkpoint e il codice open-source possono essere trovati su https://yanqval.github.io/PAE/
Il completamento della profondità migliora le misurazioni di profondità sparse in mappe di profondità dense guidate da un'immagine convenzionale. I metodi esistenti per questo compito altamente mal posto operano in contesti fortemente vincolati e tendono a incontrare difficoltà quando applicati a immagini al di fuori del dominio di addestramento o quando le misurazioni di profondità disponibili sono sparse, distribuite in modo irregolare o di densità variabile. Ispirandoci ai recenti progressi nella stima della profondità monoculare, riformuliamo il completamento della profondità come generazione di mappe di profondità condizionate all'immagine guidate da misurazioni sparse. Il nostro metodo, Marigold-DC, si basa su un modello di diffusione latente preaddestrato per la stima della profondità monoculare e inserisce le osservazioni di profondità come guida al momento del test tramite uno schema di ottimizzazione che viene eseguito in parallelo con l'inferenza iterativa della diffusione del denoising. Il metodo mostra un'eccellente generalizzazione zero-shot attraverso una vasta gamma di ambienti e gestisce in modo efficace anche una guida estremamente scarsa. I nostri risultati suggeriscono che i priors di profondità monoculare contemporanei rendono notevolmente più robusto il completamento della profondità: potrebbe essere meglio considerare il compito come il recupero di una profondità densa da pixel di immagine (densi), guidato da una profondità scarsa; piuttosto che come un'inpainting di profondità (scarso), guidato da un'immagine. Sito web del progetto: https://MarigoldDepthCompletion.github.io/
Nello sviluppo software del mondo reale, una gestione impropria o mancante delle eccezioni può avere un impatto grave sulla robustezza e affidabilità del codice. I meccanismi di gestione delle eccezioni richiedono ai programmatori di individuare, catturare e gestire le eccezioni secondo standard elevati, ma molti sviluppatori faticano con queste attività, portando a un codice fragile. Questo problema è particolarmente evidente nei progetti open-source e influisce sulla qualità complessiva dell'ecosistema software. Per affrontare questa sfida, esploriamo l'uso di grandi modelli linguistici (LLM) per migliorare la gestione delle eccezioni nel codice. Attraverso un'analisi approfondita, identifichiamo tre problemi chiave: Rilevamento Insensibile del Codice Fragile, Cattura Inaccurata del Blocco di Eccezione e Soluzione di Gestione Distorta. Questi problemi sono diffusi in repository del mondo reale, suggerendo che le pratiche robuste di gestione delle eccezioni spesso vengono trascurate o gestite in modo errato. In risposta, proponiamo Seeker, un framework multi-agente ispirato alle strategie degli sviluppatori esperti per la gestione delle eccezioni. Seeker utilizza agenti: Scanner, Detector, Predator, Ranker e Handler per assistere i LLM nel rilevare, catturare e risolvere le eccezioni in modo più efficace. Il nostro lavoro è il primo studio sistematico sull'utilizzo dei LLM per migliorare le pratiche di gestione delle eccezioni in scenari reali di sviluppo, fornendo preziose intuizioni per futuri miglioramenti nella affidabilità del codice.
Presentiamo SUGAR, un metodo zero-shot per la personalizzazione video guidata dal soggetto. Dato un'immagine di input, SUGAR è in grado di generare video per il soggetto contenuto nell'immagine e allineare la generazione con attributi visivi arbitrari come stile e movimento specificati da testo inserito dall'utente. A differenza dei metodi precedenti, che richiedono un aggiustamento fine al momento del test o non riescono a generare video allineati al testo, SUGAR ottiene risultati superiori senza la necessità di costi aggiuntivi al momento del test. Per abilitare la capacità zero-shot, introduciamo un pipeline scalabile per costruire un dataset sintetico che è specificamente progettato per la personalizzazione guidata dal soggetto, portando a 2,5 milioni di triplette immagine-video-testo. Inoltre, proponiamo diversi metodi per potenziare il nostro modello, inclusi design con attenzione speciale, strategie di addestramento migliorate e un algoritmo di campionamento raffinato. Sono stati condotti ampi esperimenti. Rispetto ai metodi precedenti, SUGAR ottiene risultati all'avanguardia nella conservazione dell'identità, nella dinamica dei video e nell'allineamento video-testo per la personalizzazione video guidata dal soggetto, dimostrando l'efficacia del nostro metodo proposto.
Recenti tecniche di editing video basate sull'IA hanno permesso agli utenti di modificare video attraverso semplici prompt di testo, semplificando notevolmente il processo di editing. Tuttavia, le recenti tecniche di editing video zero-shot si concentrano principalmente su modifiche globali o a singoli oggetti, il che può portare a cambiamenti non intenzionali in altre parti del video. Quando più oggetti richiedono modifiche localizzate, i metodi esistenti affrontano sfide come editing non fedele, perdita di editing e mancanza di set di dati e metriche di valutazione adatti. Per superare tali limitazioni, proponiamo un framework di editing video zero-shot multi-istanza, chiamato MIVE. MIVE è un framework basato su maschere di uso generale, non dedicato a oggetti specifici (ad esempio, persone). MIVE introduce due moduli chiave: (i) Campionamento Multi-istanza Disentangled (DMS) per prevenire la perdita di editing e (ii) Ridistribuzione della Probabilità Centrata sull'Istanza (IPR) per garantire una localizzazione precisa e un editing fedele. Inoltre, presentiamo il nostro nuovo Dataset MIVE che presenta scenari video diversificati e introduciamo il Punteggio di Precisione tra Istanze (CIA) per valutare la perdita di editing in compiti di editing video multi-istanza. Le nostre estese valutazioni qualitative, quantitative e di studio utente dimostrano che MIVE supera significativamente i recenti metodi all'avanguardia in termini di fedeltà all'editing, precisione e prevenzione della perdita, stabilendo un nuovo punto di riferimento per l'editing video multi-istanza. La pagina del progetto è disponibile su https://kaist-viclab.github.io/mive-site/
I Large Language Models (LLM) dimostrano prestazioni eccezionali in una vasta gamma di compiti sfruttando sia la conoscenza pre-addestrata (cioè, conoscenza parametrica) sia la conoscenza esterna (cioè, conoscenza contestuale). Nonostante siano stati compiuti sforzi significativi per sfruttare entrambe le forme di conoscenza, gli scenari in cui il modello manca di conoscenze rilevanti rimangono poco esplorati. Tali limitazioni possono causare problemi come l'allucinazione, riducendo l'affidabilità e comportando potenziali rischi nelle applicazioni ad alto rischio. Per affrontare tali limitazioni, questo articolo estende l'ambito del compito per includere casi in cui la richiesta dell'utente non può essere soddisfatta a causa della mancanza di conoscenza rilevante. A tal fine, presentiamo il Decodifica Contrastiva con Astensione (CDA), un metodo di decodifica privo di addestramento che permette ai LLM di generare risposte quando è disponibile la conoscenza rilevante e di astenersi in caso contrario. CDA valuta la rilevanza di ciascuna conoscenza per una determinata query, determinando in modo adattivo quale conoscenza privilegiare o ignorare completamente. Esperimenti approfonditi condotti su quattro LLM su tre set di dati di domande e risposte dimostrano che CDA può eseguire efficacemente la generazione accurata e l'astensione contemporaneamente. Queste scoperte evidenziano il potenziale di CDA nel ampliare l'applicabilità dei LLM, migliorando l'affidabilità e preservando la fiducia dell'utente.