Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sviluppo e la valutazione dei Grandi Modelli Linguistici (LLM) si sono concentrati principalmente sulle capacità individuali. Tuttavia, questo trascura l'intersezione di molteplici abilità attraverso diversi tipi di competenze spesso richieste per compiti reali, che definiamo come capacità trasversali. Per esplorare sistematicamente questo concetto, definiamo innanzitutto sette capacità individuali fondamentali e le accoppiamo per formare sette capacità trasversali comuni, ciascuna supportata da una tassonomia costruita manualmente. Sulla base di queste definizioni, presentiamo CrossEval, un benchmark composto da 1.400 prompt annotati da umani, con 100 prompt per ciascuna capacità individuale e trasversale. Per garantire una valutazione affidabile, coinvolgiamo annotatori esperti per valutare 4.200 risposte del modello, raccogliendo 8.400 valutazioni umane con spiegazioni dettagliate da utilizzare come esempi di riferimento. I nostri risultati rivelano che, sia nelle valutazioni statiche che nei tentativi di potenziare capacità specifiche, i LLM attuali mostrano costantemente la "Legge del Punto più Debole", dove le prestazioni trasversali sono significativamente limitate dal componente più debole. In particolare, su 58 punteggi di capacità trasversale provenienti da 17 modelli, 38 punteggi sono inferiori a tutte le capacità individuali, mentre 20 si collocano tra forte e debole, ma più vicini alla capacità più debole. Questi risultati mettono in luce la sotto-performance dei LLM nei compiti trasversali, rendendo l'identificazione e il miglioramento delle capacità più deboli una priorità critica per la ricerca futura al fine di ottimizzare le prestazioni in scenari complessi e multidimensionali.
L'elaborazione delle grandi modelli si sta spostando dal cloud al bordo a causa delle preoccupazioni sulla privacy dei dati di interazione degli utenti. Tuttavia, i dispositivi edge spesso faticano con limitata potenza di calcolo, memoria e larghezza di banda, richiedendo la collaborazione tra più dispositivi per eseguire e velocizzare l'inferenza dei grandi modelli linguaggio (LLM). Il parallelismo di pipeline, la soluzione più diffusa, è inefficiente per scenari con un singolo utente, mentre il parallelismo di tensori lotta con le frequenti comunicazioni. In questo articolo, sosteniamo che il parallelismo di tensori può essere più efficace della pipeline su dispositivi con risorse limitate e presentiamo un sistema di inferenza parallelo di tensori efficiente dal punto di vista computazionale e di memoria, chiamato TPI-LLM, per gestire modelli su scala di 70 miliardi di parametri. TPI-LLM mantiene i dati grezzi sensibili locali nei dispositivi degli utenti e introduce un programmatore di memoria a finestra scorrevole per gestire dinamicamente i pesi dei layer durante l'inferenza, sovrapponendo la latenza di I/O del disco con il calcolo e la comunicazione. Ciò consente ai modelli più grandi di funzionare senza intoppi su dispositivi con memoria limitata. Analizziamo il collo di bottiglia della comunicazione e scopriamo che la latenza del collegamento, non la larghezza di banda, emerge come il problema principale, quindi viene implementato un algoritmo di allreduce a stella. Attraverso estesi esperimenti su entrambi i testbed emulati e reali, TPI-LLM ha dimostrato un tempo fino al primo token e una latenza del token di oltre l'80% inferiori rispetto ad Accelerate e oltre il 90% rispetto a Transformers e Galaxy, riducendo nel contempo l'impronta di memoria massima di Llama 2-70 miliardi di parametri del 90%, richiedendo solo 3,1 GB di memoria per modelli su scala di 70 miliardi di parametri.
Introduciamo Atlas-Chat, la prima collezione mai realizzata di grandi modelli linguistici sviluppati appositamente per l'arabo dialettale. Concentrandoci sull'arabo marocchino, noto anche come Darija, costruiamo il nostro set di istruzioni consolidando le risorse linguistiche esistenti in Darija, creando set di dati sia manualmente che sinteticamente e traducendo istruzioni in inglese con rigoroso controllo di qualità. I modelli Atlas-Chat-9B e 2B, sintonizzati sul set di dati, mostrano una capacità superiore nel seguire istruzioni in Darija e nel svolgere compiti standard di elaborazione del linguaggio naturale. In particolare, i nostri modelli superano sia i modelli LLM all'avanguardia che quelli specializzati in arabo come LLaMa, Jais e AceGPT, ad esempio ottenendo un aumento delle prestazioni del 13% rispetto a un modello più grande da 13B su DarijaMMLU, nella nostra nuova suite di valutazione introdotta per il Darija che copre sia compiti discriminativi che generativi. Inoltre, conduciamo un'analisi sperimentale di varie strategie di sintonizzazione e scelte di modelli di base per determinare configurazioni ottimali. Tutte le nostre risorse sono pubblicamente accessibili e riteniamo che il nostro lavoro offra metodologie di progettazione complete per la sintonizzazione delle istruzioni per varianti linguistiche a bassa risorsa, spesso trascurate a favore delle lingue ricche di dati dai LLM contemporanei.
La generazione di contenuti 3D di alta qualità da testo, singole immagini o immagini di vista sparse rimane un compito impegnativo con ampie applicazioni. I metodi esistenti di solito impiegano modelli di diffusione multi-vista per sintetizzare immagini multi-vista, seguiti da un processo feed-forward per la ricostruzione 3D. Tuttavia, questi approcci sono spesso vincolati da un numero ridotto e fisso di viste di input, limitando la loro capacità di catturare punti di vista diversi e, ancora peggio, portando a risultati di generazione subottimali se le viste sintetizzate sono di scarsa qualità. Per affrontare queste limitazioni, proponiamo Flex3D, un nuovo framework a due fasi in grado di sfruttare un numero arbitrario di viste di input di alta qualità. La prima fase consiste in un flusso di lavoro di generazione e cura delle viste candidate. Utilizziamo un modello di diffusione di immagini multi-vista ottimizzato e un modello di diffusione video per generare un pool di viste candidate, consentendo una rappresentazione ricca dell'oggetto 3D target. Successivamente, un flusso di selezione delle viste filtra queste viste in base alla qualità e alla coerenza, garantendo che solo le viste di alta qualità e affidabili siano utilizzate per la ricostruzione. Nella seconda fase, le viste curate vengono alimentate in un Modello di Ricostruzione Flessibile (FlexRM), basato su un'architettura transformer in grado di elaborare efficacemente un numero arbitrario di input. FlexRM produce direttamente punti Gaussiani 3D sfruttando una rappresentazione tri-piano, consentendo una generazione 3D efficiente e dettagliata. Attraverso un'ampia esplorazione di strategie di progettazione e addestramento, ottimizziamo FlexRM per ottenere prestazioni superiori sia nella ricostruzione che nelle attività di generazione. I nostri risultati dimostrano che Flex3D raggiunge prestazioni all'avanguardia, con un tasso di successo in uno studio utente superiore al 92% nelle attività di generazione 3D rispetto a diversi dei più recenti modelli generativi 3D feed-forward.
Introduciamo VideoLISA, un grande modello linguistico multimodale basato su video progettato per affrontare il problema della segmentazione del ragionamento istruito dal linguaggio nei video. Sfruttando le capacità di ragionamento e la conoscenza del mondo dei grandi modelli linguistici, e potenziato dal Modello Segment Anything, VideoLISA genera maschere di segmentazione temporalmente coerenti nei video basandosi sulle istruzioni linguistiche. I metodi esistenti basati sull'immagine, come LISA, faticano con compiti video a causa della dimensione temporale aggiuntiva, che richiede una comprensione dinamica temporale e una segmentazione coerente tra i frame. VideoLISA affronta queste sfide integrando una strategia di campionamento sparso denso nel video-LLM, che bilancia il contesto temporale e il dettaglio spaziale entro vincoli computazionali. Inoltre, proponiamo un approccio One-Token-Seg-All utilizzando un token appositamente progettato <TRK>, consentendo al modello di segmentare e tracciare oggetti attraverso più frame. Valutazioni estese su diversi benchmark, inclusi il nostro nuovo benchmark ReasonVOS, dimostrano le prestazioni superiori di VideoLISA nei compiti di segmentazione degli oggetti video che coinvolgono ragionamenti complessi, comprensione temporale e tracciamento degli oggetti. Pur essendo ottimizzato per i video, VideoLISA mostra anche una promettente generalizzazione alla segmentazione delle immagini, rivelando il suo potenziale come modello fondamentale unificato per la segmentazione degli oggetti istruita dal linguaggio. Il codice e il modello saranno disponibili su: https://github.com/showlab/VideoLISA.
In questo lavoro, condividiamo le intuizioni per raggiungere una qualità all'avanguardia nel nostro modello generativo di immagini anime da testo a immagine, chiamato Illustrious. Per ottenere immagini ad alta risoluzione, con un'ampia gamma dinamica di colori e un'elevata capacità di ripristino, ci concentriamo su tre approcci critici per il miglioramento del modello. In primo luogo, approfondiamo il significato della dimensione del batch e del controllo della disattivazione, che consente un apprendimento più rapido delle attivazioni concettuali basate su token controllabili. In secondo luogo, aumentiamo la risoluzione di addestramento delle immagini, influenzando la rappresentazione accurata dell'anatomia dei personaggi a risoluzioni molto più elevate, estendendo la capacità di generazione oltre i 20MP con metodi appropriati. Infine, proponiamo le didascalie multi-livello raffinate, che coprono tutti i tag e varie didascalie in linguaggio naturale come fattore critico per lo sviluppo del modello. Attraverso un'ampia analisi e sperimentazioni, Illustrious dimostra prestazioni all'avanguardia in termini di stile animato, superando modelli ampiamente utilizzati nei settori dell'illustrazione, facilitando una personalizzazione e una personalizzazione più semplici con la natura open source. Abbiamo in programma di rilasciare pubblicamente la serie di modelli Illustrious aggiornati in modo sequenziale, nonché piani sostenibili per miglioramenti.
I modelli di diffusione sono emersi come una potente tecnologia generativa e si sono dimostrati applicabili in vari scenari. La maggior parte dei modelli di diffusione fondamentali esistenti è principalmente progettata per la generazione visuale guidata dal testo e non supporta condizioni multimodali, che sono essenziali per molte attività di editing visuale. Questa limitazione impedisce a questi modelli di diffusione fondamentali di fungere da modello unificato nel campo della generazione visuale, come GPT-4 nel campo dell'elaborazione del linguaggio naturale. In questo lavoro, proponiamo ACE, un Creatore e Editore All-round, che raggiunge prestazioni comparabili rispetto a quei modelli esperti in una vasta gamma di compiti di generazione visuale. Per raggiungere questo obiettivo, introduciamo innanzitutto un formato di condizione unificato denominato Unità di Condizione a Lungo Contesto (LCU) e proponiamo un nuovo modello di diffusione basato su Transformer che utilizza LCU come input, mirando alla formazione congiunta attraverso vari compiti di generazione e editing. Inoltre, proponiamo un approccio efficiente alla raccolta dati per affrontare il problema dell'assenza di dati di addestramento disponibili. Coinvolge l'acquisizione di immagini a coppie con pipeline basate sulla sintesi o sul clustering e la fornitura di queste coppie con istruzioni testuali accurate sfruttando un modello di linguaggio multimodale di grandi dimensioni sintonizzato. Per valutare in modo esaustivo le prestazioni del nostro modello, istituiamo un benchmark di dati di coppie annotate manualmente su una varietà di compiti di generazione visuale. I risultati sperimentali estensivi dimostrano la superiorità del nostro modello nei campi della generazione visuale. Grazie alle capacità all-in-one del nostro modello, possiamo facilmente costruire un sistema di chat multimodale che risponde a qualsiasi richiesta interattiva di creazione di immagini utilizzando un singolo modello per fungere da backend, evitando la complicata pipeline tipicamente impiegata negli agenti visivi. Il codice e i modelli saranno disponibili sulla pagina del progetto: https://ali-vilab.github.io/ace-page/.
Il progresso della guida autonoma si basa sempre più su set di dati annotati di alta qualità, specialmente nel compito di previsione dell'occupazione 3D, dove le etichette di occupazione richiedono un'annotazione 3D densa con un significativo sforzo umano. In questo articolo, proponiamo SyntheOcc, che indica un modello di diffusione che sintetizza immagini fotorealistiche e geometricamente controllate condizionando le etichette di occupazione in scenari di guida. Ciò produce una quantità illimitata di set di dati diversi, annotati e controllabili per applicazioni come l'addestramento di modelli di percezione e simulazione. SyntheOcc affronta la sfida critica di come codificare efficientemente le informazioni geometriche 3D come input condizionale a un modello di diffusione 2D. Il nostro approccio incorpora in modo innovativo immagini semantiche multi-piano 3D (MPI) per fornire descrizioni complete e spazialmente allineate della scena 3D per il condizionamento. Di conseguenza, SyntheOcc può generare immagini e video fotorealistici multi-vista che si allineano fedelmente alle etichette geometriche fornite (semantica nello spazio voxel 3D). Valutazioni qualitative e quantitative estese di SyntheOcc sul dataset nuScenes ne dimostrano l'efficacia nella generazione di set di dati di occupazione controllabili che fungono da efficace aumento dei dati per i modelli di percezione.
I Large Multimodal Models (LMM) hanno dimostrato un'ottima performance nei compiti di comprensione di brevi video ma affrontano grandi sfide quando applicati alla comprensione di video lunghi. Al contrario, i Large Language Models (LLM) mostrano capacità eccezionali nel modellare testi lunghi. Lavori esistenti cercano di affrontare questo problema introducendo coppie video-testo lunghi durante l'addestramento. Tuttavia, questi approcci richiedono consistenti risorse computazionali e di dati. In questo articolo, affrontiamo la sfida della comprensione di video lunghi dal punto di vista delle finestre di contesto, con l'obiettivo di applicare i LMM ai compiti di video lunghi senza riallenare su dataset video lunghi. Conduciamo innanzitutto un'analisi approfondita sul motivo per cui i LMM preaddestrati faticano a comprendere contenuti video lunghi, identificando che le discrepanze tra le modalità visiva e linguistica portano a diverse finestre di contesto per i token visivi e linguistici, rendendo difficile estendere direttamente i token visivi per adattarli alla finestra di contesto linguistica. Sulla base di ciò, proponiamo di adattare i LMM ai compiti di comprensione di video lunghi estendendo la finestra di contesto visivo, eliminando la necessità di riallenamento su grandi dataset video lunghi. Per mitigare ulteriormente il significativo consumo di memoria causato da sequenze lunghe, introduciamo una strategia di inferenza di raggruppamento progressivo che regola selettivamente la risoluzione spaziale degli embedding dei frame, riducendo il numero di token visivi mantenendo informazioni spaziali importanti. Attraverso diversi benchmark di comprensione di video lunghi, il nostro metodo migliora costantemente le prestazioni all'aumentare del numero di frame video. Sul benchmark MLVU, il nostro metodo supera GPT-4o, anche se la dimensione del nostro modello è solo di 7B. Inoltre, nell'impostazione a 256 frame, il nostro metodo riduce l'uso della memoria di circa il 45% rispetto al valore di base, senza introdurre alcuna perdita di prestazioni.
Gli algoritmi di ripristino di immagini fotorealistiche vengono tipicamente valutati mediante misure di distorsione (ad esempio, PSNR, SSIM) e misure di qualità percettiva (ad esempio, FID, NIQE), dove l'obiettivo è ottenere la minima distorsione possibile senza compromettere la qualità percettiva. Per raggiungere questo obiettivo, i metodi attuali tentano tipicamente di campionare dalla distribuzione posteriore, o di ottimizzare una somma pesata di una perdita di distorsione (ad esempio, MSE) e una perdita di qualità percettiva (ad esempio, GAN). A differenza dei lavori precedenti, questo articolo si occupa specificamente dell'estimatore ottimale che minimizza l'MSE sotto un vincolo di indice percettivo perfetto, ovvero dove la distribuzione delle immagini ricostruite è uguale a quella delle immagini di riferimento. Un recente risultato teorico mostra che tale stimatore può essere costruito trasportando ottimamente la previsione media posteriore (stima MMSE) alla distribuzione delle immagini di riferimento. Ispirandoci a questo risultato, introduciamo il Flusso Raddrizzato della Media Posteriore (PMRF), un algoritmo semplice ma altamente efficace che approssima questo stimatore ottimale. In particolare, PMRF prevede prima la media posteriore, e poi trasporta il risultato a un'immagine di alta qualità utilizzando un modello di flusso raddrizzato che approssima la mappa di trasporto ottimale desiderata. Indaghiamo sull'utilità teorica di PMRF e dimostriamo che supera costantemente i metodi precedenti in una varietà di compiti di ripristino di immagini.
Presentiamo un metodo per ricostruire modelli di corpo umano temporalmente consistenti da video monoculari, concentrandoci su abiti estremamente larghi o interazioni con oggetti tenuti in mano. Lavori precedenti sulla ricostruzione umana sono limitati a indumenti aderenti senza interazioni con oggetti, oppure richiedono acquisizioni multivista calibrate o scansioni di modelli personalizzati che sono costose da raccogliere su larga scala. La nostra intuizione chiave per una ricostruzione di alta qualità e flessibile è la combinazione attenta di priori umani generici riguardanti la forma del corpo articolato (appresi da dati di addestramento su larga scala) con deformazioni articolate specifiche del video "bag-of-bones" (adattate a un singolo video tramite ottimizzazione al momento del test). Realizziamo ciò apprendendo un modello implicito neurale che disaccoppia le deformazioni del corpo rispetto agli abiti come strati di modelli di movimento separati. Per catturare la sottile geometria degli abiti, sfruttiamo priori basati sull'immagine come posa del corpo umano, normali della superficie e flusso ottico durante l'ottimizzazione. I campi neurali risultanti possono essere estratti in mesh temporalmente consistenti, o ulteriormente ottimizzati come gaussiane 3D esplicite per un rendering interattivo ad alta fedeltà. Su set di dati con deformazioni degli abiti e interazioni con oggetti altamente complesse, DressRecon produce ricostruzioni 3D di maggiore fedeltà rispetto alla letteratura precedente. Pagina del progetto: https://jefftan969.github.io/dressrecon/
I metodi basati sull'apprendimento hanno ottenuto ottime prestazioni per la locomozione quadrupede. Tuttavia, diversi ostacoli impediscono ai quadrupedi di apprendere abilità utili in ambienti interni che richiedono interazione con l'ambiente e gli esseri umani: mancanza di effettori terminali per la manipolazione, limitata comprensione semantica utilizzando solo dati di simulazione e limitata capacità di attraversamento e raggiungibilità negli ambienti interni. Presentiamo un sistema per la manipolazione mobile quadrupede in ambienti interni. Esso utilizza un gripper montato frontalmente per la manipolazione degli oggetti, un controllore a basso livello addestrato in simulazione utilizzando la profondità egocentrica per abilità agili come l'arrampicata e l'inclinazione dell'intero corpo, e modelli visione-linguaggio pre-addestrati (VLM) con una telecamera fisheye in terza persona e una telecamera RGB egocentrica per la comprensione semantica e la generazione di comandi. Valutiamo il nostro sistema in due ambienti non visti senza alcuna raccolta di dati o addestramento nel mondo reale. Il nostro sistema può generalizzare a zero-shot a questi ambienti e completare compiti, come seguire i comandi dell'utente per recuperare un giocattolo casualmente posizionato dopo essere salito su un letto queen-size, con un tasso di successo del 60%. Sito web del progetto: https://helpful-doggybot.github.io/
Il bias di genere nella traduzione automatica (MT) è riconosciuto come un problema che può danneggiare le persone e la società. Eppure, gli avanzamenti nel settore coinvolgono raramente le persone, gli utenti finali della MT, o informano su come potrebbero essere influenzati dalle tecnologie di traduzione con bias. Le valutazioni attuali sono spesso limitate a metodi automatici, che offrono una stima opaca di quale potrebbe essere l'impatto a valle delle disparità di genere. Conduciamo uno studio umano-centrico esteso per esaminare se e in che misura il bias nella MT comporta danni con costi tangibili, come disparità nella qualità del servizio tra donne e uomini. A questo scopo, raccogliamo dati comportamentali da 90 partecipanti, che hanno post-editato le traduzioni MT per garantire una corretta traduzione di genere. Attraverso diversi dataset, lingue e tipi di utenti, il nostro studio mostra che la post-edizione femminile richiede significativamente più sforzo tecnico e temporale, corrispondente anche a costi finanziari più elevati. Tuttavia, le attuali misurazioni del bias non riflettono le disparità trovate. I nostri risultati sostengono approcci centrati sull'essere umano che possono informare sull'impatto sociale del bias.
Non c'è limite a quanto un robot possa esplorare e imparare, ma tutte quelle conoscenze devono essere ricercabili e utilizzabili. Nella ricerca linguistica, il recupero potenziato dalla generazione (RAG) è diventato il pilastro della conoscenza non parametrica su larga scala, tuttavia le tecniche esistenti non si trasferiscono direttamente nel dominio incorporato, che è multimodale, i dati sono altamente correlati e la percezione richiede astrazione. Per affrontare queste sfide, presentiamo Embodied-RAG, un framework che potenzia il modello fondamentale di un agente incorporato con un sistema di memoria non parametrico in grado di costruire autonomamente conoscenze gerarchiche sia per la navigazione che per la generazione di linguaggio. Embodied-RAG gestisce una vasta gamma di risoluzioni spaziali e semantiche in diversi ambienti e tipi di query, sia per un oggetto specifico che per una descrizione olistica dell'ambiente. Al suo nucleo, la memoria di Embodied-RAG è strutturata come una foresta semantica, che memorizza descrizioni linguistiche a diversi livelli di dettaglio. Questa organizzazione gerarchica consente al sistema di generare in modo efficiente output sensibili al contesto su diverse piattaforme robotiche. Dimostriamo che Embodied-RAG collega efficacemente RAG al dominio della robotica, gestendo con successo oltre 200 query di spiegazione e navigazione in 19 ambienti, evidenziando il suo potenziale come sistema non parametrico generico per agenti incorporati.