Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nel tradizionale framework RAG, le unità di recupero di base sono normalmente brevi. I comuni sistemi di recupero come DPR lavorano tipicamente con paragrafi di Wikipedia di 100 parole. Tale design costringe il sistema di recupero a cercare in un ampio corpus per trovare l'unità "ago nel pagliaio". Al contrario, i lettori devono solo estrarre risposte dalle brevi unità recuperate. Questo design sbilanciato, con un recuperatore "pesante" e un lettore "leggero", può portare a prestazioni subottimali. Per alleviare questo squilibrio, proponiamo un nuovo framework chiamato LongRAG, composto da un "recuperatore lungo" e un "lettore lungo". LongRAG elabora l'intera Wikipedia in unità di 4K token, che sono 30 volte più lunghe rispetto al passato. Aumentando la dimensione delle unità, riduciamo significativamente il numero totale di unità da 22 milioni a 700 mila. Questo riduce notevolmente il carico del recuperatore, portando a un punteggio di recupero notevole: recall@1 delle risposte del 71% su NQ (precedentemente 52%) e recall@2 delle risposte del 72% (precedentemente 47%) su HotpotQA (full-wiki). Successivamente, alimentiamo le prime k unità recuperate (circa 30K token) a un LLM a contesto lungo esistente per eseguire l'estrazione delle risposte in modalità zero-shot. Senza richiedere alcun addestramento, LongRAG raggiunge un EM del 62,7% su NQ, che è il miglior risultato noto. LongRAG raggiunge anche il 64,3% su HotpotQA (full-wiki), in linea con il modello SoTA. Il nostro studio offre spunti per il futuro percorso di combinazione di RAG con LLM a contesto lungo.
Offrendo una soluzione promettente alle sfide di scalabilità associate alla valutazione umana, il paradigma LLM-as-a-judge sta rapidamente guadagnando popolarità come approccio per valutare i grandi modelli linguistici (LLM). Tuttavia, rimangono ancora molte domande aperte sui punti di forza e di debolezza di questo paradigma e sui potenziali bias che potrebbe presentare. In questo articolo, presentiamo uno studio completo delle prestazioni di vari LLM che agiscono come giudici. Utilizziamo TriviaQA come benchmark per valutare il ragionamento oggettivo delle conoscenze degli LLM e li valutiamo insieme ad annotazioni umane che abbiamo riscontrato avere un elevato accordo inter-annotatore. Il nostro studio include 9 modelli giudice e 9 modelli esaminatori, sia di base che ottimizzati per istruzioni. Valutiamo l'allineamento del modello giudice rispetto a diverse dimensioni, famiglie e prompt per i giudici. Tra gli altri risultati, la nostra ricerca riscopre l'importanza di utilizzare il kappa di Cohen come metrica di allineamento rispetto al semplice accordo percentuale, dimostrando che giudici con un elevato accordo percentuale possono comunque assegnare punteggi molto diversi. Scopriamo che sia Llama-3 70B che GPT-4 Turbo hanno un eccellente allineamento con gli umani, ma in termini di classificazione dei modelli esaminatori, vengono superati sia da JudgeLM-7B che dal giudice lessicale Contains, che hanno un allineamento umano fino a 34 punti inferiore. Attraverso l'analisi degli errori e vari altri studi, inclusi gli effetti della lunghezza delle istruzioni e del bias di indulgenza, speriamo di fornire lezioni preziose per l'uso futuro degli LLM come giudici.
I creatori di contenuti video necessitano di strumenti efficienti per riutilizzare i contenuti, un compito che spesso richiede ricerche complesse, manuali o automatizzate. Creare un nuovo video da ampie librerie video rimane una sfida. In questo articolo introduciamo il compito di Video Library Question Answering (VLQA) attraverso un'architettura interoperabile che applica il Retrieval Augmented Generation (RAG) alle librerie video. Proponiamo un sistema che utilizza modelli linguistici di grandi dimensioni (LLM) per generare query di ricerca, recuperando momenti video rilevanti indicizzati da metadati vocali e visivi. Un modulo di generazione delle risposte integra quindi le query degli utenti con questi metadati per produrre risposte con specifici timestamp video. Questo approccio mostra promettenti risultati nel recupero di contenuti multimediali e nella creazione di contenuti video assistita dall'IA.
Sebbene i Transformer siano ampiamente utilizzati per le attività di Elaborazione del Linguaggio Naturale, in particolare per la traduzione automatica, mancano di una memoria esplicita per memorizzare i concetti chiave dei testi elaborati. Questo articolo esplora le proprietà del contenuto della memoria di lavoro simbolica aggiunta al decoder del modello Transformer. Tale memoria di lavoro migliora la qualità delle previsioni del modello nel compito di traduzione automatica e funziona come una rappresentazione neurale-simbolica delle informazioni importanti affinché il modello effettui traduzioni corrette. Lo studio del contenuto della memoria ha rivelato che le parole chiave del testo tradotto vengono memorizzate nella memoria di lavoro, indicando la rilevanza del contenuto della memoria rispetto al testo elaborato. Inoltre, la diversità dei token e delle parti del discorso memorizzati nella memoria è correlata alla complessità dei corpora per il compito di traduzione automatica.
Gli ultimi anni hanno assistito a grandi progressi nella generazione di video. Tuttavia, lo sviluppo di metriche automatiche per i video è significativamente in ritardo. Nessuna delle metriche esistenti è in grado di fornire punteggi affidabili sui video generati. La principale barriera è la mancanza di un dataset su larga scala annotato da esseri umani. In questo articolo, presentiamo VideoFeedback, il primo dataset su larga scala contenente punteggi multi-aspetto forniti da esseri umani su 37.6K video sintetizzati da 11 modelli generativi di video esistenti. Addestriamo MantisScore (inizializzato da Mantis) basandoci su VideoFeedback per abilitare la valutazione automatica della qualità dei video. Gli esperimenti mostrano che la correlazione di Spearman tra MantisScore e gli esseri umani può raggiungere 77.1 su VideoFeedback-test, superando le migliori metriche precedenti di circa 50 punti. Ulteriori risultati su altri dataset come EvalCrafter, GenAI-Bench e VBench dimostrano che MantisScore ha una correlazione molto più alta con i giudizi umani rispetto ad altre metriche. Grazie a questi risultati, crediamo che MantisScore possa servire come un ottimo sostituto dei valutatori umani per (1) valutare diversi modelli di video per tracciare i progressi (2) simulare feedback umani dettagliati nel Reinforcement Learning with Human Feedback (RLHF) per migliorare i modelli attuali di generazione di video.
Le sfide nella valutazione automatizzata dei sistemi di Question-Answering (QA) basati su Retrieval-Augmented Generation (RAG) includono problemi di allucinazione nella conoscenza specifica del dominio e la mancanza di benchmark di riferimento per attività interne alle aziende. Ciò comporta difficoltà nel valutare le varianti di RAG, come RAG-Fusion (RAGF), nel contesto di un'attività di QA per il prodotto presso Infineon Technologies. Per risolvere questi problemi, proponiamo un framework di valutazione completo, che sfrutta i Large Language Models (LLM) per generare grandi dataset di query sintetiche basate su query reali degli utenti e documenti di dominio specifico, utilizza LLM-as-a-judge per valutare i documenti e le risposte recuperati, valuta la qualità delle risposte e classifica diverse varianti di agenti RAG attraverso la competizione automatizzata basata su Elo di RAGElo. La valutazione LLM-as-a-judge di un campione casuale di query sintetiche mostra una moderata correlazione positiva con il punteggio degli esperti di dominio in termini di rilevanza, accuratezza, completezza e precisione. Sebbene RAGF abbia superato RAG nel punteggio Elo, un'analisi di significatività rispetto alle annotazioni degli esperti mostra anche che RAGF supera significativamente RAG in completezza, ma è inferiore in precisione. Inoltre, l'assistente RAGF di Infineon ha dimostrato una performance leggermente superiore nella rilevanza dei documenti basata sui punteggi MRR@5. Riteniamo che RAGElo sia in linea con le preferenze degli annotatori umani, sebbene sia ancora necessaria una certa cautela. Infine, l'approccio di RAGF porta a risposte più complete secondo le annotazioni degli esperti e a risposte migliori in generale secondo i criteri di valutazione di RAGElo.
I modelli text-to-image stanno diventando sempre più popolari, rivoluzionando il panorama della creazione artistica digitale grazie alla generazione di contenuti visivi altamente dettagliati e creativi. Questi modelli sono stati ampiamente utilizzati in vari ambiti, in particolare nella generazione artistica, dove facilitano un ampio spettro di espressione creativa e democratizzano l'accesso alla creazione artistica. In questo articolo, presentiamo STYLEBREEDER, un dataset completo di 6,8 milioni di immagini e 1,8 milioni di prompt generati da 95.000 utenti su Artbreeder, una piattaforma che è emersa come un importante hub per l'esplorazione creativa con oltre 13 milioni di utenti. Introduciamo una serie di attività con questo dataset mirate a identificare stili artistici diversi, generare contenuti personalizzati e raccomandare stili basati sugli interessi degli utenti. Documentando stili unici generati dagli utenti che trascendono categorie convenzionali come 'cyberpunk' o 'Picasso', esploriamo il potenziale per stili unici, crowd-sourced, che potrebbero fornire approfondimenti sulla psiche creativa collettiva degli utenti di tutto il mondo. Valutiamo inoltre diversi metodi di personalizzazione per migliorare l'espressione artistica e introduciamo un atlante degli stili, rendendo questi modelli disponibili in formato LoRA per l'uso pubblico. La nostra ricerca dimostra il potenziale dei modelli di diffusione text-to-image nel scoprire e promuovere espressioni artistiche uniche, democratizzando ulteriormente l'IA nell'arte e favorendo una comunità artistica più diversificata e inclusiva. Il dataset, il codice e i modelli sono disponibili su https://stylebreeder.github.io con licenza di Pubblico Dominio (CC0).
La visione basata su eventi ha attirato un'attenzione crescente grazie alle sue caratteristiche uniche, come l'elevata risoluzione temporale e l'ampia gamma dinamica. Recentemente è stata utilizzata nella super-risoluzione video (VSR) per migliorare la stima del flusso e l'allineamento temporale. Piuttosto che per l'apprendimento del movimento, in questo articolo proponiamo il primo metodo VSR che utilizza i segnali di eventi per il miglioramento della texture. Il nostro metodo, chiamato EvTexture, sfrutta i dettagli ad alta frequenza degli eventi per recuperare meglio le regioni di texture nella VSR. Nel nostro EvTexture, viene presentato un nuovo ramo di miglioramento della texture. Introduciamo inoltre un modulo iterativo di miglioramento della texture per esplorare progressivamente le informazioni ad alta risoluzione temporale degli eventi per il ripristino della texture. Ciò consente un affinamento graduale delle regioni di texture attraverso più iterazioni, portando a dettagli ad alta risoluzione più accurati e ricchi. I risultati sperimentali mostrano che il nostro EvTexture raggiunge prestazioni all'avanguardia su quattro dataset. Per il dataset Vid4 con texture ricche, il nostro metodo può ottenere un guadagno fino a 4.67dB rispetto ai recenti metodi basati su eventi. Codice: https://github.com/DachunKai/EvTexture.
La vasta applicabilità e la crescente onnipresenza dei LLM (Large Language Models) hanno stimolato la necessità di allineare le risposte dei LLM alle preferenze degli utenti e degli stakeholder. Sono stati proposti numerosi approcci di ottimizzazione delle preferenze che affinano i parametri dei LLM per ottenere un buon allineamento. Tuttavia, è noto che tale regolazione dei parametri interferisce con le prestazioni del modello in molte attività. Inoltre, tenere il passo con le preferenze degli utenti in continua evoluzione risulta complicato in tali circostanze. L'allineamento al momento della decodifica con la guida di un modello di ricompensa risolve questi problemi al costo di un aumento del tempo di inferenza. Tuttavia, la maggior parte di questi metodi non riesce a trovare il giusto equilibrio tra esplorazione e sfruttamento della ricompensa, spesso a causa della formulazione confusa di questi due aspetti, per fornire risposte ben allineate. Per rimediare a ciò, separiamo questi due aspetti e li implementiamo in modo evolutivo: l'esplorazione viene imposta decodificando da istruzioni mutate, mentre lo sfruttamento è rappresentato come la sostituzione periodica delle generazioni poco premiate con quelle ben premiate. Le evidenze empiriche indicano che questa strategia supera molti approcci di ottimizzazione delle preferenze e di allineamento al momento della decodifica su due benchmark di allineamento ampiamente accettati, AlpacaEval 2 e MT-Bench. La nostra implementazione sarà disponibile al seguente indirizzo: https://darwin-alignment.github.io.
Sebbene la situazione sia migliorata per i modelli basati esclusivamente sul testo, attualmente sembra che i modelli multimodali (testo e immagine) si sviluppino più rapidamente rispetto ai metodi per valutarli. In questo articolo, applichiamo un paradigma di valutazione recentemente sviluppato per i modelli di testo ai modelli multimodali, ovvero la valutazione attraverso il gioco orientato agli obiettivi (auto-gioco), integrando la valutazione basata su riferimenti e quella basata sulle preferenze. Nello specifico, definiamo giochi che mettono alla prova la capacità di un modello di rappresentare una situazione a partire da informazioni visive e di allineare tali rappresentazioni attraverso il dialogo. Scopriamo che i modelli chiusi più grandi performano piuttosto bene nei giochi che definiamo, mentre anche i migliori modelli open-weight faticano a superarli. Un'ulteriore analisi rivela che le eccezionali capacità di descrizione profonda dei modelli più grandi contribuiscono in parte a queste prestazioni. C'è ancora spazio per miglioramenti per entrambi i tipi di modelli, garantendo la continua rilevanza del benchmark.
L'adozione diffusa dei grandi modelli linguistici (LLM) ha sollevato preoccupazioni riguardo alla loro sicurezza e affidabilità, in particolare per quanto concerne la loro vulnerabilità agli attacchi avversari. In questo articolo, proponiamo una nuova prospettiva che attribuisce tale vulnerabilità a una specificazione errata della ricompensa durante il processo di allineamento. Introduciamo una metrica, ReGap, per quantificare l'entità di questa specificazione errata e ne dimostriamo l'efficacia e la robustezza nel rilevare prompt dannosi con backdoor. Sulla base di queste intuizioni, presentiamo ReMiss, un sistema per il red teaming automatizzato che genera prompt avversari contro vari LLM allineati a obiettivi. ReMiss raggiunge tassi di successo d'attacco all'avanguardia sul benchmark AdvBench, preservando al contempo la leggibilità umana dei prompt generati. Un'analisi dettagliata evidenzia i vantaggi unici offerti dall'obiettivo di specificazione errata della ricompensa proposto rispetto ai metodi precedenti.
I modelli linguistici hanno dimostrato capacità impressionanti in vari compiti di elaborazione del linguaggio naturale, ma incontrano difficoltà nei compiti di pianificazione che richiedono simulazioni multi-step. Ispirandosi ai processi cognitivi umani, questo articolo indaga il potere di pianificazione ottimale dei modelli linguistici in grado di costruire una mappa cognitiva di un determinato ambiente. I nostri esperimenti dimostrano che la mappa cognitiva migliora significativamente le prestazioni sia nella generazione di pianificazioni ottimali che raggiungibili nel compito di pianificazione del percorso in Gridworld. Osserviamo che il nostro metodo mostra due caratteristiche chiave simili alla cognizione umana: la generalizzazione della sua capacità di pianificazione a ambienti estrapolati e un rapido adattamento con dati di addestramento limitati. Speriamo che i nostri risultati nel compito di Gridworld forniscano intuizioni sulla modellazione dei processi cognitivi umani nei modelli linguistici, potenzialmente portando allo sviluppo di sistemi più avanzati e robusti che assomiglino meglio alla cognizione umana.
La fioritura delle tecnologie di realtà virtuale e realtà aumentata (VR/AR) ha stimolato una crescente domanda per la creazione di ambienti di alta qualità, immersivi e dinamici. Tuttavia, le tecniche generative esistenti si concentrano esclusivamente su oggetti dinamici o eseguono l'outpainting da una singola immagine prospettica, non riuscendo a soddisfare le esigenze delle applicazioni VR/AR. In questo lavoro, affrontiamo il compito impegnativo di elevare una singola panoramica a un'esperienza immersiva 4D. Per la prima volta, dimostriamo la capacità di generare scene dinamiche omnidirezionali con viste a 360 gradi in risoluzione 4K, offrendo così un'esperienza utente immersiva. Il nostro metodo introduce una pipeline che facilita le animazioni naturali delle scene e ottimizza un insieme di Gaussiane 4D utilizzando tecniche efficienti di splatting per l'esplorazione in tempo reale. Per superare la mancanza di dati e modelli 4D annotati su scala di scena, specialmente in formato panoramico, proponiamo un innovativo Panoramic Denoiser che adatta i prior di diffusione 2D generici per animare in modo coerente immagini a 360 gradi, trasformandole in video panoramici con scene dinamiche nelle regioni target. Successivamente, eleviamo il video panoramico in un ambiente immersivo 4D preservando la coerenza spaziale e temporale. Trasferendo la conoscenza a priori dai modelli 2D nel dominio prospettico al dominio panoramico e al sollevamento 4D con regolarizzazione dell'aspetto spaziale e della geometria, otteniamo per la prima volta una generazione Panorama-to-4D di alta qualità a una risoluzione di (4096 × 2048). Visita il sito del progetto all'indirizzo https://4k4dgen.github.io.
L'opacità nello sviluppo di grandi modelli linguistici (LLM) sta sollevando crescenti preoccupazioni riguardo alla potenziale contaminazione dei benchmark pubblici nei dati di pre-addestramento. I metodi esistenti per il rilevamento della contaminazione si basano tipicamente sulla sovrapposizione testuale tra i dati di addestramento e quelli di valutazione, che può essere troppo superficiale per riflettere forme più profonde di contaminazione. In questo articolo, presentiamo innanzitutto una forma di contaminazione cross-linguale che aumenta artificialmente le prestazioni degli LLM eludendo i metodi di rilevamento attuali, ottenuta sovradimensionando gli LLM sulle versioni tradotte dei set di test dei benchmark. Successivamente, proponiamo approcci basati sulla generalizzazione per smascherare tale contaminazione profondamente nascosta. Nello specifico, esaminiamo la variazione delle prestazioni dell'LLM dopo aver modificato il benchmark originale sostituendo le scelte di risposta errate con quelle corrette provenienti da altre domande. I modelli contaminati faticano a generalizzare in situazioni più semplici, in cui le scelte errate potrebbero non essere nemmeno sbagliate, poiché tutte le opzioni sono corrette nella loro memorizzazione. I risultati sperimentali dimostrano che la contaminazione cross-linguale può facilmente ingannare i metodi di rilevamento esistenti, ma non il nostro. Inoltre, discutiamo il potenziale utilizzo della contaminazione cross-linguale nell'interpretazione dei meccanismi di funzionamento degli LLM e nel post-addestramento degli LLM per migliorare le capacità multilingue. Il codice e il dataset utilizzati possono essere ottenuti da https://github.com/ShangDataLab/Deep-Contam.
Con la proliferazione di modelli specifici per dominio, il merging di modelli è emerso come un insieme di tecniche che combinano le capacità di più modelli in uno solo in grado di svolgere più compiti senza il costo di un addestramento aggiuntivo. In questo articolo, proponiamo una nuova tecnica di merging di modelli, denominata Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), che utilizza una tecnica innovativa di pruning, MAGPRUNE, che mostra vantaggi significativi rispetto a DARE e TIES. MAGPRUNE classifica prima i parametri in base alla loro magnitudine e assegna probabilità di dropout (p) più elevate ai parametri con ranghi inferiori, corrispondenti a magnitudini più basse. Per approssimare gli embedding originali, MAGPRUNE utilizza un'operazione di riscalamento sui parametri che sopravvivono al dropout casuale di 1/(1 - p). Su tre diversi modelli esperti considerati per il merging (LM, Math, Code) e i corrispondenti dataset di benchmark (AlpacaEval, GSM8K, MBPP), DELLA mostra un miglioramento medio di 2,4 punti rispetto ai metodi di base che impiegano il pruning dei parametri delta (un miglioramento di 3,6 punti rispetto a TIES, 1,2 punti rispetto a DARE) e di 11,1 punti rispetto alla baseline senza pruning (TA). Rilasciamo il codice sorgente all'indirizzo: https://github.com/declare-lab/della.
La Generazione Aumentata dal Recupero (RAG) rappresenta un significativo progresso nell'intelligenza artificiale, combinando una fase di recupero con una fase generativa, quest'ultima tipicamente alimentata da modelli linguistici di grandi dimensioni (LLM). Le pratiche comuni attuali nel RAG prevedono l'uso di LLM "istruiti", che vengono perfezionati attraverso un addestramento supervisionato per migliorare la loro capacità di seguire le istruzioni e sono allineati con le preferenze umane utilizzando tecniche all'avanguardia. Contrariamente alla credenza popolare, il nostro studio dimostra che i modelli di base superano le loro controparti istruite nei compiti RAG in media del 20% nelle nostre condizioni sperimentali. Questa scoperta mette in discussione le ipotesi prevalenti sulla superiorità degli LLM istruiti nelle applicazioni RAG. Ulteriori indagini rivelano una situazione più sfumata, mettendo in discussione aspetti fondamentali del RAG e suggerendo la necessità di discussioni più ampie sull'argomento; o, come direbbe Fromm, "Raramente uno sguardo alle statistiche è sufficiente per comprendere il significato delle cifre".
Prevedere l'efficacia e la sicurezza dei farmaci in vivo richiede informazioni sulle risposte biologiche (ad esempio, morfologia cellulare ed espressione genica) alle perturbazioni indotte da piccole molecole. Tuttavia, gli attuali metodi di apprendimento delle rappresentazioni molecolari non forniscono una visione completa degli stati cellulari sotto queste perturbazioni e faticano a rimuovere il rumore, ostacolando la generalizzazione del modello. Introduciamo l'approccio Information Alignment (InfoAlign) per apprendere rappresentazioni molecolari attraverso il metodo del collo di bottiglia informativo nelle cellule. Integriamo molecole e dati di risposta cellulare come nodi in un grafo contestuale, collegandoli con archi ponderati basati su criteri chimici, biologici e computazionali. Per ogni molecola in un batch di addestramento, InfoAlign ottimizza la rappresentazione latente dell'encoder con un obiettivo di minimalità per scartare informazioni strutturali ridondanti. Un obiettivo di sufficienza decodifica la rappresentazione per allinearla con diversi spazi di caratteristiche provenienti dal vicinato della molecola nel grafo contestuale. Dimostriamo che l'obiettivo di sufficienza proposto per l'allineamento è più stringente rispetto ai metodi contrastivi basati su encoder esistenti. Empiricamente, validiamo le rappresentazioni di InfoAlign in due task downstream: previsione delle proprietà molecolari rispetto a fino a 19 metodi di riferimento su quattro dataset, oltre al matching molecola-morfologia zero-shot.
Proponiamo Ruby Teaming, un metodo che migliora Rainbow Teaming includendo una cache di memoria come sua terza dimensione. La dimensione della memoria fornisce indizi al mutatore per generare prompt di qualità superiore, sia in termini di tasso di successo degli attacchi (ASR) che di diversità qualitativa. L'archivio di prompt generato da Ruby Teaming ha un ASR del 74%, che è il 20% più alto rispetto al baseline. In termini di diversità qualitativa, Ruby Teaming supera Rainbow Teaming rispettivamente del 6% e del 3% sull'Indice di Equità di Shannon (SEI) e sull'Indice di Diversità di Simpson (SDI).
Proponiamo una pipeline semplice ma efficace per stilizzare una scena 3D, sfruttando la potenza dei modelli di diffusione di immagini 2D. Dato un modello NeRF ricostruito da un insieme di immagini multi-vista, eseguiamo il trasferimento di stile 3D raffinando il modello NeRF di origine utilizzando immagini stilizzate generate da un modello di diffusione immagine-immagine allineato allo stile. Dato un prompt di stile target, generiamo prima immagini multi-vista percettivamente simili sfruttando un modello di diffusione condizionato dalla profondità con un meccanismo di condivisione dell'attenzione. Successivamente, basandoci sulle immagini multi-vista stilizzate, proponiamo di guidare il processo di trasferimento di stile con la perdita di Wasserstein sezionata basata sulle mappe di caratteristiche estratte da un modello CNN pre-addestrato. La nostra pipeline è composta da passaggi disaccoppiati, consentendo agli utenti di testare varie idee di prompt e visualizzare in anteprima il risultato 3D stilizzato prima di procedere alla fase di fine-tuning del NeRF. Dimostriamo che il nostro metodo può trasferire diversi stili artistici a scene 3D del mondo reale con una qualità competitiva.
Valutare le politiche di guida basate sulla visione è una sfida complessa. Da un lato, la valutazione in open-loop con dati reali è semplice, ma i risultati non riflettono le prestazioni in closed-loop. Dall'altro, la valutazione in closed-loop è possibile in simulazione, ma è difficile da scalare a causa delle sue significative richieste computazionali. Inoltre, i simulatori disponibili oggi mostrano un ampio divario di dominio rispetto ai dati reali. Ciò ha portato all'impossibilità di trarre conclusioni chiare dal crescente corpus di ricerca sulla guida autonoma end-to-end. In questo articolo, presentiamo NAVSIM, un punto intermedio tra questi paradigmi di valutazione, in cui utilizziamo grandi dataset in combinazione con un simulatore non reattivo per abilitare benchmarking su larga scala nel mondo reale. Nello specifico, raccogliamo metriche basate sulla simulazione, come il progresso e il tempo alla collisione, srotolando astrazioni in vista a volo d'uccello delle scene di test per un breve orizzonte di simulazione. La nostra simulazione è non reattiva, ovvero la politica valutata e l'ambiente non si influenzano reciprocamente. Come dimostriamo empiricamente, questo disaccoppiamento consente il calcolo delle metriche in open-loop, pur essendo più allineato con le valutazioni in closed-loop rispetto ai tradizionali errori di spostamento. NAVSIM ha abilitato una nuova competizione tenutasi a CVPR 2024, dove 143 team hanno presentato 463 contributi, portando a diverse nuove intuizioni. Su un ampio set di scenari complessi, osserviamo che metodi semplici con requisiti computazionali moderati come TransFuser possono competere con recenti architetture di guida end-to-end su larga scala come UniAD. Il nostro framework modulare può potenzialmente essere esteso con nuovi dataset, strategie di curatela dei dati e metriche, e sarà continuamente mantenuto per ospitare future sfide. Il nostro codice è disponibile all'indirizzo https://github.com/autonomousvision/navsim.
I modelli generativi su larga scala per il linguaggio e il linguaggio visivo (LLM e VLM) eccellono nell'apprendimento in-context con pochi esempi per il processo decisionale e il seguimento di istruzioni. Tuttavia, richiedono dimostrazioni di alta qualità da includere nella loro finestra di contesto. In questo lavoro, ci chiediamo: gli LLM e i VLM possono generare i propri esempi di prompt a partire da dimostrazioni generiche e sub-ottimali? Proponiamo l'In-Context Abstraction Learning (ICAL), un metodo che costruisce una memoria di intuizioni esperienziali multimodali a partire da dimostrazioni sub-ottimali e feedback umano. Data una dimostrazione rumorosa in un nuovo dominio, i VLM astraggono la traiettoria in un programma generale correggendo azioni inefficienti e annotando astrazioni cognitive: relazioni tra compiti, cambiamenti di stato degli oggetti, sotto-obiettivi temporali e interpretazioni dei compiti. Queste astrazioni vengono affinate e adattate in modo interattivo attraverso il feedback umano mentre l'agente tenta di eseguire la traiettoria in un ambiente simile. Le astrazioni risultanti, quando utilizzate come esempi nel prompt, migliorano significativamente il processo decisionale negli agenti LLM e VLM potenziati dal retrieval. Il nostro agente ICAL supera lo stato dell'arte nel seguimento di istruzioni basato sul dialogo in TEACh, negli agenti web multimodali in VisualWebArena e nell'anticipazione delle azioni in Ego4D. In TEACh, otteniamo un miglioramento del 12,6% nel successo condizionato agli obiettivi. In VisualWebArena, il nostro tasso di successo nei compiti migliora rispetto allo stato dell'arte dal 14,3% al 22,7%. Nella previsione delle azioni in Ego4D, miglioriamo rispetto al GPT-4V con pochi esempi e rimaniamo competitivi con i modelli supervisionati. Mostriamo che il fine-tuning del nostro agente in-context potenziato dal retrieval produce ulteriori miglioramenti. Il nostro approccio riduce significativamente la dipendenza da esempi creati da esperti e supera costantemente l'apprendimento in-context da piani d'azione che mancano di tali intuizioni.
I grandi modelli linguistici (LLM) ottimizzati per il recupero di testo hanno dimostrato risultati all'avanguardia in diversi benchmark di information retrieval (IR). Tuttavia, l'addestramento supervisionato per migliorare questi modelli richiede numerosi esempi etichettati, che generalmente non sono disponibili o sono costosi da acquisire. In questo lavoro, esploriamo l'efficacia dell'estensione dell'adattamento ingegnerizzato inverso al contesto del recupero di informazioni (RE-AdaptIR). Utilizziamo RE-AdaptIR per migliorare i modelli IR basati su LLM utilizzando solo dati non etichettati. Dimostriamo un miglioramento delle prestazioni sia nei domini di addestramento che in modalità zero-shot in domini in cui i modelli non hanno visto alcuna query. Analizziamo i cambiamenti delle prestazioni in vari scenari di fine-tuning e offriamo risultati di immediata utilità per i professionisti.
I Modelli Fondamentali Multimodali (MMFM) hanno dimostrato prestazioni notevoli in vari compiti di visione artificiale ed elaborazione del linguaggio naturale. Tuttavia, le loro prestazioni su compiti specifici come la comprensione dei documenti sono ancora limitate. Inoltre, richiedono maggiori risorse computazionali, temporali e ingegneristiche per il fine-tuning e il deployment rispetto ai tradizionali modelli unimodali. In questo report, presentiamo la Generazione Strutturata Multimodale, un framework generale che vincola i logit di output dei MMFM congelati per costringerli a ragionare prima di rispondere con output strutturati che le API downstream possono analizzare e utilizzare. Forniamo un resoconto dettagliato del nostro approccio, inclusi i dettagli tecnici, le discussioni teoriche e i risultati finali di valutazione nella 2a Sfida sui Modelli Fondamentali Multimodali ospitata dalla conferenza Computer Vision and Pattern Recognition (CVPR). Il nostro approccio ha ottenuto il secondo punteggio più alto nel test set nascosto per la Fase 2 e il terzo più alto in assoluto. Ciò dimostra la capacità del metodo di generalizzare su compiti non visti. E che una semplice ingegneria può superare passaggi di modellazione costosi e complicati, come abbiamo discusso per la prima volta nel nostro articolo, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. Tutti i nostri script, passaggi di deployment e risultati di valutazione sono accessibili su https://github.com/leloykun/MMFM-Challenge.
Presentiamo un nuovo approccio basato sull'algoritmo di Apprendimento Federato Personalizzato MeritFed, che può essere applicato a compiti di elaborazione del linguaggio naturale con dati eterogenei. Lo valutiamo sul compito di Traduzione Automatica a Risorse Limitare, utilizzando il dataset della Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) e il sottoinsieme delle lingue Sami del benchmark multilingue per le lingue ugrofinniche. Oltre alla sua efficacia, MeritFed è altamente interpretabile, poiché può essere applicato per tracciare l'impatto di ciascuna lingua utilizzata per l'addestramento. La nostra analisi rivela che la dimensione del dataset target influisce sulla distribuzione dei pesi tra le lingue ausiliarie, che le lingue non correlate non interferiscono con l'addestramento e che i parametri ausiliari dell'ottimizzatore hanno un impatto minimo. Il nostro approccio è facile da applicare con poche righe di codice e forniamo script per riprodurre gli esperimenti all'indirizzo https://github.com/VityaVitalich/MeritFed.
I modelli esistenti per il rilevamento di contenuti tossici presentano limitazioni significative, come la mancanza di trasparenza, personalizzazione e riproducibilità. Queste sfide derivano dalla natura closed-source dei loro dati di addestramento e dalla scarsità di spiegazioni riguardo al loro meccanismo di valutazione. Per affrontare questi problemi, proponiamo un meccanismo di creazione di dataset che integra processi di voto e di ragionamento a catena (chain-of-thought), producendo un dataset open-source di alta qualità per il rilevamento di contenuti tossici. La nostra metodologia garantisce metriche di classificazione diversificate per ciascun campione e include sia i punteggi di classificazione che il ragionamento esplicativo per le classificazioni. Utilizziamo il dataset creato attraverso il nostro meccanismo proposto per addestrare il nostro modello, che viene poi confrontato con i rilevatori ampiamente utilizzati esistenti. Il nostro approccio non solo migliora la trasparenza e la personalizzabilità, ma facilita anche un migliore fine-tuning per casi d'uso specifici. Questo lavoro contribuisce con un framework robusto per lo sviluppo di modelli di rilevamento di contenuti tossici, enfatizzando l'apertura e l'adattabilità, aprendo così la strada a soluzioni di moderazione dei contenuti più efficaci e specifiche per l'utente.
I Large Language Model (LLM) cercano di imitare il comportamento umano rispondendo alle persone in modo da compiacerle, incluso l'aderire ai loro valori. Tuttavia, gli esseri umani provengono da culture diverse con valori differenti. È fondamentale comprendere se i LLM mostrano valori diversi all'utente in base ai valori stereotipati del paese di provenienza dell'utente. Abbiamo sottoposto diversi LLM a una serie di richieste di consiglio basate sulle 5 Dimensioni Culturali di Hofstede, un modo quantificabile di rappresentare i valori di un paese. In ogni prompt, abbiamo incorporato personaggi rappresentativi di 36 paesi diversi e, separatamente, lingue prevalentemente associate a ciascun paese, per analizzare la coerenza nella comprensione culturale dei LLM. Attraverso l'analisi delle risposte, abbiamo scoperto che i LLM sono in grado di distinguere tra un lato di un valore e l'altro, nonché di comprendere che i paesi hanno valori diversi, ma non sempre rispettano questi valori quando forniscono consigli, e non riescono a comprendere la necessità di rispondere in modo diverso in base a diversi valori culturali. Basandoci su questi risultati, presentiamo raccomandazioni per l'addestramento di LLM allineati ai valori e sensibili alle culture. Ancora più importante, la metodologia e il framework sviluppati qui possono aiutare a comprendere e mitigare ulteriormente i problemi di allineamento culturale e linguistico con i LLM.