Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ragionamento matematico visivo, come abilità fondamentale di ragionamento visivo, ha ricevuto ampia attenzione dalla comunità dei Large Multimodal Models (LMM). I benchmark esistenti, come MathVista e MathVerse, si concentrano maggiormente sulle prestazioni orientate ai risultati, trascurando i principi sottostanti nell'acquisizione e generalizzazione della conoscenza. Ispirati dal ragionamento matematico umano, introduciamo WE-MATH, il primo benchmark specificamente progettato per esplorare i principi di risoluzione dei problemi oltre le prestazioni end-to-end. Abbiamo meticolosamente raccolto e categorizzato 6.5K problemi di matematica visiva, che coprono 67 concetti di conoscenza gerarchici e cinque livelli di granularità della conoscenza. Scomponiamo i problemi compositi in sottoproblemi in base ai concetti di conoscenza richiesti e introduciamo una nuova metrica quadridimensionale, ovvero Conoscenza Insufficiente (IK), Generalizzazione Inadeguata (IG), Padronanza Completa (CM) e Memorizzazione Meccanica (RM), per valutare gerarchicamente i problemi intrinseci nel processo di ragionamento degli LMM. Con WE-MATH, conduciamo una valutazione approfondita degli LMM esistenti nel ragionamento matematico visivo e riveliamo una correlazione negativa tra i passaggi di risoluzione e le prestazioni specifiche del problema. Confermiamo che il problema IK degli LMM può essere efficacemente migliorato attraverso strategie di ampliamento della conoscenza. Ancora più significativamente, la principale sfida di GPT-4o è passata in modo significativo da IK a IG, stabilendolo come il primo LMM a progredire verso la fase di generalizzazione della conoscenza. Al contrario, altri LMM mostrano una marcata inclinazione verso la Memorizzazione Meccanica: risolvono correttamente problemi compositi che coinvolgono più concetti di conoscenza, ma non riescono a rispondere ai sottoproblemi. Anticipiamo che WE-MATH aprirà nuove strade per i progressi nel ragionamento matematico visivo per gli LMM. I dati di WE-MATH e il codice di valutazione sono disponibili su https://github.com/We-Math/We-Math.
Presentiamo un framework per la programmazione intuitiva di robot da parte di non esperti, sfruttando prompt in linguaggio naturale e informazioni contestuali dal Robot Operating System (ROS). Il nostro sistema integra modelli linguistici di grandi dimensioni (LLM), consentendo ai non esperti di articolare i requisiti delle attività al sistema attraverso un'interfaccia chat. Le caratteristiche principali del framework includono: l'integrazione di ROS con un agente di IA connesso a una vasta gamma di LLM open-source e commerciali, l'estrazione automatica di un comportamento dall'output dell'LLM e l'esecuzione di azioni/servizi ROS, il supporto per tre modalità di comportamento (sequenza, albero comportamentale, macchina a stati), l'apprendimento per imitazione per aggiungere nuove azioni robot alla libreria di azioni possibili e la riflessione dell'LLM tramite feedback umano e ambientale. Esperimenti estensivi convalidano il framework, dimostrando robustezza, scalabilità e versatilità in diversi scenari, tra cui attività a lungo termine, riorganizzazioni su tavolo e controllo supervisionato remoto. Per facilitare l'adozione del nostro framework e supportare la riproduzione dei nostri risultati, abbiamo reso il nostro codice open-source. È possibile accedervi all'indirizzo: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
I documenti sono strutture visivamente ricche che veicolano informazioni attraverso il testo, così come tabelle, figure, layout di pagina o caratteri tipografici. Sebbene i moderni sistemi di recupero documenti mostrino prestazioni solide nell'abbinamento query-testo, faticano a sfruttare in modo efficiente gli indizi visivi, limitando le loro prestazioni in applicazioni pratiche di recupero documenti come il Retrieval Augmented Generation. Per valutare i sistemi attuali nel recupero di documenti visivamente ricchi, introduciamo il benchmark Visual Document Retrieval Benchmark ViDoRe, composto da varie attività di recupero a livello di pagina che abbracciano più domini, lingue e contesti. Le carenze intrinseche dei sistemi moderni motivano l'introduzione di una nuova architettura di modello di recupero, ColPali, che sfrutta le capacità di comprensione documentale dei recenti Vision Language Models per produrre embedding contestualizzati di alta qualità esclusivamente da immagini di pagine di documenti. Combinato con un meccanismo di abbinamento a interazione tardiva, ColPali supera ampiamente le pipeline moderne di recupero documenti, essendo drasticamente più veloce e addestrabile end-to-end.
Recenti ricerche suggeriscono che gli algoritmi di ricerca ad albero (ad esempio, il Monte Carlo Tree Search) possono migliorare drasticamente le prestazioni dei modelli linguistici di grandi dimensioni (LLM) in compiti complessi di ragionamento matematico. Tuttavia, spesso richiedono più di 10 volte le risorse computazionali rispetto al decoding greedy a causa di strategie di ricerca inefficienti, rendendoli difficili da implementare in applicazioni pratiche. Questo studio introduce un innovativo algoritmo di ricerca ad albero guidato con selezione dinamica dei nodi e calcolo del budget di esplorazione a livello di nodo (numero massimo di figli) per affrontare questo problema. Considerando il progresso della ricerca verso la risposta finale (storia) e la guida di una rete di valore (futuro) addestrata senza annotazioni passo-passo, il nostro algoritmo seleziona iterativamente il nodo dell'albero più promettente prima di espanderlo entro i limiti del budget computazionale allocato. Gli esperimenti condotti sui dataset GSM8K e TabMWP dimostrano che il nostro approccio non solo offre prestazioni competitive, ma comporta anche costi computazionali significativamente inferiori rispetto ai metodi di riferimento.
La miscela di dati per il pre-addestramento di modelli linguistici di grandi dimensioni influisce significativamente sulle prestazioni, ma come determinare una miscela efficace rimane poco chiaro. Proponiamo RegMix per identificare automaticamente una miscela di dati ad alte prestazioni formulandola come un task di regressione. RegMix prevede l'addestramento di un insieme di piccoli modelli con diverse miscele di dati e l'adattamento di un modello di regressione per prevedere le loro prestazioni date le rispettive miscele. Con il modello di regressione adattato, simuliamo la miscela con il punteggio più alto e la utilizziamo per addestrare un modello su larga scala con un ordine di grandezza maggiore di risorse computazionali. Per validare empiricamente RegMix, addestriamo 512 modelli con 1 milione di parametri per 1 miliardo di token di diverse miscele per adattare il modello di regressione e trovare la miscela ottimale. Utilizzando questa miscela, addestriamo un modello da 1 miliardo di parametri per 25 miliardi di token (cioè 1000 volte più grande e 25 volte più lungo) che risulta essere il migliore tra 64 modelli candidati da 1 miliardo di parametri con altre miscele. Inoltre, il nostro metodo dimostra prestazioni superiori rispetto alla selezione umana e ottiene risultati che eguagliano o superano DoReMi, utilizzando solo il 10% del budget computazionale. I nostri esperimenti mostrano anche che: (1) Le miscele di dati influiscono significativamente sulle prestazioni, con variazioni delle prestazioni su singoli task fino al 14,6%; (2) I corpora web, piuttosto che dati percepiti come di alta qualità come Wikipedia, hanno la correlazione positiva più forte con le prestazioni downstream; (3) I domini interagiscono in modi complessi spesso contrari al senso comune, rendendo necessari approcci automatici come RegMix; (4) Gli effetti della miscela di dati trascendono le leggi di scala, e il nostro approccio cattura la complessità considerando tutti i domini insieme. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/regmix.
I Large Multimodal Model (LMM) dimostrano impressionanti capacità di comprensione e ragionamento cross-modale, spesso valutate attraverso domande a scelta multipla (MCQ) che includono un'immagine, una domanda e diverse opzioni. Tuttavia, molti benchmark utilizzati per tali valutazioni soffrono di bias sistematici. Sorprendentemente, i Large Language Model (LLM) senza alcuna capacità di percezione visiva raggiungono prestazioni non trascurabili, minando la credibilità di queste valutazioni. Per affrontare questo problema mantenendo l'efficienza delle valutazioni MCQ, proponiamo MMEvalPro, un benchmark progettato per evitare errori di Tipo-I attraverso una pipeline di valutazione trilogica e metriche più rigorose. Per ogni domanda originale proveniente dai benchmark esistenti, annotatori umani la arricchiscono creando una domanda di percezione e una domanda ancorata alla conoscenza attraverso un processo di annotazione meticoloso. MMEvalPro comprende 2.138 triplette di domande, per un totale di 6.414 domande distinte. Due terzi di queste domande sono etichettate manualmente da esperti umani, mentre il resto è tratto da benchmark esistenti (MMMU, ScienceQA e MathVista). Rispetto ai benchmark esistenti, i nostri esperimenti con i più recenti LLM e LMM dimostrano che MMEvalPro è più impegnativo (il miglior LMM è in ritardo rispetto alle prestazioni umane del 31,73%, rispetto a un divario medio dell'8,03% nei benchmark precedenti) e più affidabile (il miglior LLM è in ritardo rispetto al miglior LMM del 23,09%, mentre il divario per i benchmark precedenti è solo del 14,64%). La nostra analisi approfondita spiega il motivo del grande divario di prestazioni e giustifica l'affidabilità della valutazione, sottolineando il suo significativo potenziale per far progredire la ricerca futura.
In questo articolo, adottiamo un nuovo approccio alla generazione autoregressiva di immagini basato su due ingredienti principali. Il primo è la codifica delle immagini tramite wavelet, che consente di tokenizzare i dettagli visivi di un'immagine dai più grossolani ai più fini, ordinando le informazioni a partire dai bit più significativi dei coefficienti wavelet più rilevanti. Il secondo è una variante di un trasformatore linguistico la cui architettura è stata riprogettata e ottimizzata per sequenze di token in questo "linguaggio wavelet". Il trasformatore apprende le significative correlazioni statistiche all'interno di una sequenza di token, che sono la manifestazione delle ben note correlazioni tra le sottobande wavelet a varie risoluzioni. Presentiamo risultati sperimentali con condizionamento sul processo di generazione.
Questo articolo introduce un metodo per il ripristino video zero-shot utilizzando modelli di diffusione pre-addestrati per il ripristino delle immagini. I metodi tradizionali di ripristino video spesso richiedono un nuovo addestramento per diverse configurazioni e faticano a generalizzare efficacemente su vari tipi di degradazione e dataset. Il nostro approccio utilizza una strategia gerarchica di fusione dei token per i fotogrammi chiave e i fotogrammi locali, combinata con un meccanismo ibrido di corrispondenza che unisce il flusso ottico e l'abbinamento dei vicini più prossimi basato su caratteristiche (fusione latente). Dimostriamo che il nostro metodo non solo raggiunge prestazioni eccellenti nel ripristino video zero-shot, ma supera significativamente i modelli addestrati nella generalizzazione su diversi dataset e degradazioni estreme (super-risoluzione 8x e denoising video con deviazione standard elevata). Presentiamo prove attraverso metriche quantitative e confronti visivi su vari dataset impegnativi. Inoltre, la nostra tecnica funziona con qualsiasi modello di diffusione 2D per il ripristino, offrendo uno strumento versatile e potente per i compiti di miglioramento video senza la necessità di un ampio riaddestramento. Questa ricerca porta a tecnologie di ripristino video più efficienti e ampiamente applicabili, supportando i progressi nei campi che richiedono un output video di alta qualità. Consulta la nostra pagina del progetto per i risultati video all'indirizzo https://jimmycv07.github.io/DiffIR2VR_web/.
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) si è dimostrata efficace nel migliorare le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) su compiti downstream come il ragionamento e l'allineamento. In questo lavoro, proponiamo la DPO controllata a passi (Step-Controlled DPO, SCDPO), un metodo per fornire automaticamente una supervisione degli errori passo-passo creando campioni negativi di ragionamenti matematici che iniziano a commettere errori in un passaggio specificato. Applicando questi campioni nell'addestramento DPO, SCDPO può allineare meglio il modello per comprendere gli errori di ragionamento e produrre passaggi di ragionamento accurati. Applichiamo SCDPO sia a soluzioni integrate con codice che a soluzioni a catena di pensiero (chain-of-thought), dimostrando empiricamente che migliora costantemente le prestazioni rispetto alla DPO semplice su tre diversi modelli SFT, inclusi un modello SFT esistente e due modelli che abbiamo perfezionato. L'analisi qualitativa dell'assegnazione del credito di SCDPO e DPO dimostra l'efficacia di SCDPO nell'identificare gli errori nelle soluzioni matematiche. Successivamente, applichiamo SCDPO a un modello InternLM2-20B, ottenendo un modello da 20B che raggiunge punteggi elevati dell'88,5% su GSM8K e del 58,1% su MATH, rivaleggiando con tutti gli altri LLM open-source, mostrando il grande potenziale del nostro metodo.
Il trasferimento di stile è un processo creativo progettato per generare un'immagine che mantiene l'essenza dell'originale mentre adotta lo stile visivo di un'altra. Sebbene i modelli di diffusione abbiano dimostrato un impressionante potere generativo in applicazioni personalizzate guidate da soggetti o stili, i metodi all'avanguardia esistenti incontrano ancora difficoltà nel raggiungere un equilibrio armonioso tra la preservazione del contenuto e l'enhancement dello stile. Ad esempio, amplificare l'influenza dello stile può spesso compromettere l'integrità strutturale del contenuto. Per affrontare queste sfide, scomponiamo il compito di trasferimento di stile in tre elementi fondamentali: 1) Stile, focalizzato sulle caratteristiche estetiche dell'immagine; 2) Struttura Spaziale, riguardante la disposizione geometrica e la composizione degli elementi visivi; e 3) Contenuto Semantico, che cattura il significato concettuale dell'immagine. Guidati da questi principi, introduciamo InstantStyle-Plus, un approccio che priorizza l'integrità del contenuto originale integrando in modo fluido lo stile target. Nello specifico, il nostro metodo realizza l'iniezione dello stile attraverso un processo efficiente e leggero, sfruttando il framework all'avanguardia InstantStyle. Per rafforzare la preservazione del contenuto, iniziamo il processo con un rumore latente del contenuto invertito e un versatile tile ControlNet plug-and-play per mantenere il layout intrinseco dell'immagine originale. Incorporiamo inoltre un adattatore semantico globale per migliorare la fedeltà del contenuto semantico. Per proteggere dalla diluizione delle informazioni stilistiche, viene utilizzato un estrattore di stile come discriminatore per fornire una guida stilistica supplementare. I codici saranno disponibili su https://github.com/instantX-research/InstantStyle-Plus.
Questo articolo presenta Embarrassingly Easy Text-to-Speech (E2 TTS), un sistema di sintesi vocale completamente non autoregressivo e zero-shot che offre una naturalezza di livello umano, una somiglianza del parlante e un'intelligibilità all'avanguardia. Nel framework E2 TTS, l'input testuale viene convertito in una sequenza di caratteri con token di riempimento. Il generatore di spettrogrammi mel basato su flow-matching viene quindi addestrato basandosi sul compito di riempimento audio. A differenza di molti lavori precedenti, non richiede componenti aggiuntivi (ad esempio, un modello di durata, grapheme-to-phoneme) o tecniche complesse (ad esempio, ricerca di allineamento monotono). Nonostante la sua semplicità, E2 TTS raggiunge capacità zero-shot TTS all'avanguardia che sono comparabili o superiori ai lavori precedenti, inclusi Voicebox e NaturalSpeech 3. La semplicità di E2 TTS consente anche flessibilità nella rappresentazione dell'input. Proponiamo diverse varianti di E2 TTS per migliorare l'usabilità durante l'inferenza. Vedi https://aka.ms/e2tts/ per esempi dimostrativi.
I miglioramenti nelle capacità dei modelli linguistici hanno spinto le loro applicazioni verso contesti più lunghi, rendendo la valutazione e lo sviluppo di contesti lunghi un'area di ricerca attiva. Tuttavia, molti casi d'uso disparati sono raggruppati sotto il termine ombrello di "contesto lungo", definito semplicemente dalla lunghezza totale dell'input del modello, includendo, ad esempio, compiti di "Needle-in-a-Haystack", riassumizzazione di libri e aggregazione di informazioni. Data la loro varietà di difficoltà, in questo position paper sosteniamo che confondere diversi compiti in base alla lunghezza del contesto è improduttivo. Come comunità, abbiamo bisogno di un vocabolario più preciso per comprendere cosa rende simili o diversi i compiti a contesto lungo. Proponiamo di scomporre la tassonomia del contesto lungo in base alle proprietà che li rendono più difficili con contesti più estesi. Proponiamo due assi ortogonali di difficoltà: (I) Diffusione: quanto è difficile trovare le informazioni necessarie nel contesto? (II) Ampiezza: quante informazioni necessarie ci sono da trovare? Esaminiamo la letteratura sul contesto lungo, forniamo una giustificazione per questa tassonomia come descrittore informativo e collochiamo la letteratura rispetto ad essa. Concludiamo che le impostazioni più difficili e interessanti, in cui le informazioni necessarie sono molto lunghe e altamente diffuse all'interno dell'input, sono gravemente poco esplorate. Utilizzando un vocabolario descrittivo e discutendo le proprietà rilevanti della difficoltà nel contesto lungo, possiamo implementare una ricerca più informata in questo ambito. Invitiamo a una progettazione attenta di compiti e benchmark con contesti chiaramente lunghi, tenendo conto delle caratteristiche che li rendono qualitativamente diversi dai contesti più brevi.
La generazione di volti guidata da audio generico per persone è un compito impegnativo nel campo della visione artificiale. I metodi precedenti hanno ottenuto progressi significativi nella sincronizzazione audio-visiva, ma esiste ancora un divario considerevole tra i risultati attuali e le applicazioni pratiche. Le sfide sono duplici: 1) Preservare i tratti individuali unici per ottenere una sincronizzazione labiale ad alta precisione. 2) Generare rendering facciali di alta qualità con prestazioni in tempo reale. In questo articolo, proponiamo un nuovo framework generalizzato guidato da audio chiamato RealTalk, che consiste in un trasformatore audio-espressione e un renderer espressione-volto ad alta fedeltà. Nel primo componente, consideriamo sia le caratteristiche di identità che le variazioni intra-personali legate ai movimenti labiali durante il parlato. Incorporando un'attenzione cross-modale sui precedenti facciali arricchiti, possiamo allineare efficacemente i movimenti labiali con l'audio, ottenendo così una maggiore precisione nella previsione delle espressioni. Nel secondo componente, progettiamo un modulo leggero di allineamento dell'identità facciale (FIA) che include una struttura di controllo della forma delle labbra e una struttura di riferimento della texture del volto. Questo design innovativo ci consente di generare dettagli fini in tempo reale, senza dipendere da moduli di allineamento delle caratteristiche complessi e inefficienti. I nostri risultati sperimentali, sia quantitativi che qualitativi, su dataset pubblici dimostrano i chiari vantaggi del nostro metodo in termini di sincronizzazione labiale-parola e qualità di generazione. Inoltre, il nostro metodo è efficiente e richiede meno risorse computazionali, rendendolo adatto a soddisfare le esigenze delle applicazioni pratiche.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno dotato gli agenti LLM della capacità di raccogliere autonomamente informazioni sul mondo, su cui condurre ragionamenti per risolvere problemi complessi. Data questa capacità, è cresciuto l'interesse nell'impiegare agenti LLM per prevedere eventi internazionali, che possono influenzare il processo decisionale e modellare lo sviluppo di politiche su scala globale. Nonostante questo crescente interesse, manca un benchmark rigoroso per valutare la capacità e l'affidabilità predittiva degli agenti LLM. Per colmare questa lacuna, introduciamo MIRAI, un nuovo benchmark progettato per valutare sistematicamente gli agenti LLM come previsori temporali nel contesto di eventi internazionali. Il nostro benchmark presenta un ambiente agentico con strumenti per accedere a un ampio database di eventi storici strutturati e articoli di notizie testuali. Abbiamo raffinato il database di eventi GDELT con un'attenta pulizia e analisi per curare una serie di task di previsione relazionale con diversi orizzonti temporali, valutando le capacità degli agenti LLM dalla previsione a breve termine a quella a lungo termine. Inoltre, implementiamo API per consentire agli agenti LLM di utilizzare diversi strumenti tramite un'interfaccia basata su codice. In sintesi, MIRAI valuta in modo completo le capacità degli agenti in tre dimensioni: 1) reperire e integrare autonomamente informazioni critiche da grandi database globali; 2) scrivere codici utilizzando API e librerie specifiche del dominio per l'uso degli strumenti; e 3) ragionare congiuntamente su conoscenze storiche provenienti da formati e periodi diversi per prevedere con precisione eventi futuri. Attraverso un benchmarking completo, miriamo a stabilire un framework affidabile per valutare le capacità degli agenti LLM nella previsione di eventi internazionali, contribuendo così allo sviluppo di modelli più accurati e affidabili per l'analisi delle relazioni internazionali.
I Large Language Model (LLM) hanno dimostrato un'impressionante competenza in vari compiti di elaborazione del linguaggio naturale (NLP), che coinvolgono ragionamenti sempre più complessi. Il ragionamento basato sulla conoscenza, un tipo primario di ragionamento, mira a derivare nuove conoscenze da quelle esistenti. Sebbene sia stato ampiamente studiato nel contesto delle knowledge graph (KG), il ragionamento basato sulla conoscenza nei LLM rimane ancora poco esplorato. In questo articolo, introduciamo Chain-of-Knowledge, un framework completo per il ragionamento basato sulla conoscenza, che include metodologie sia per la costruzione di dataset che per l'apprendimento del modello. Per la costruzione del dataset, creiamo KnowReason tramite il mining di regole sulle KG. Per l'apprendimento del modello, osserviamo un overfitting delle regole indotto da un addestramento ingenuo. Pertanto, potenziamo CoK con un meccanismo di prova ed errore che simula il processo umano di esplorazione interna della conoscenza. Condividiamo esperimenti estensivi con KnowReason. I nostri risultati dimostrano l'efficacia di CoK nel perfezionare i LLM non solo nel ragionamento basato sulla conoscenza, ma anche nei benchmark di ragionamento generale.
Presentiamo OmniJARVIS, un innovativo modello Vision-Language-Action (VLA) per agenti che seguono istruzioni in mondi aperti in Minecraft. Rispetto ai lavori precedenti che emettono obiettivi testuali per controllori separati o producono direttamente i comandi di controllo, OmniJARVIS segue un percorso diverso per garantire sia capacità di ragionamento avanzate che di decisione efficiente attraverso la tokenizzazione unificata di dati di interazione multimodale. In primo luogo, introduciamo un approccio auto-supervisionato per apprendere un codificatore di comportamento che produce token discretizzati per traiettorie di comportamento tau = {o_0, a_0, dots} e un decodificatore di politica di apprendimento per imitazione (IL) condizionato su questi token. Questi token di comportamento aggiuntivi verranno integrati nel vocabolario di Modelli Linguistici Multimodali (MLM) pre-addestrati. Con questo codificatore, impacchettiamo quindi interazioni multimodali a lungo termine che coinvolgono istruzioni di task, memorie, pensieri, osservazioni, risposte testuali, traiettorie di comportamento, ecc. in sequenze di token unificate e le modelliamo con trasformatori autoregressivi. Grazie ai token di comportamento semanticamente significativi, il modello VLA risultante, OmniJARVIS, può ragionare (producendo catene di pensiero), pianificare, rispondere a domande e agire (producendo token di comportamento per il decodificatore di politica IL). OmniJARVIS dimostra prestazioni eccellenti su una vasta gamma di task atomici, programmatici e aperti in Minecraft. La nostra analisi rivela ulteriormente i principi di progettazione cruciali nella formazione dei dati di interazione, nella tokenizzazione unificata e nel suo potenziale di scalabilità.
I modelli basati su diffusione hanno dimostrato un grande potenziale nella generazione di immagini di alta qualità con vari layout, il che può beneficiare le attività di percezione a valle. Tuttavia, una generazione completamente automatica di layout guidata solo dal linguaggio e una metrica adatta per misurare più istanze generate non sono state ancora esplorate a fondo. In questo lavoro, presentiamo Auto Cherry-Picker (ACP), un framework innovativo che genera esempi di addestramento multimodali di alta qualità per potenziare la percezione e l'addestramento multimodale. Partendo da una semplice lista di concetti in linguaggio naturale, utilizziamo modelli linguistici di grandi dimensioni (LLM) per generare una descrizione dettagliata e progettare layout ragionevoli. Successivamente, impieghiamo un modello text-to-image predefinito per generare più immagini. Poi, i dati generati vengono raffinati utilizzando una metrica progettata in modo completo per garantire la qualità. In particolare, introduciamo una nuova metrica, Composite Layout and Image Score (CLIS), per valutare in modo equo le immagini generate. I nostri esempi sintetici di alta qualità migliorano le prestazioni in vari scenari personalizzando la lista iniziale di concetti, specialmente nel risolvere le sfide associate alla distribuzione a coda lunga e ai dataset sbilanciati. I risultati sperimentali sulle attività a valle dimostrano che Auto Cherry-Picker può migliorare significativamente le prestazioni dei modelli esistenti. Inoltre, abbiamo approfondito la correlazione tra CLIS e i miglioramenti delle prestazioni nelle attività a valle, e abbiamo scoperto che un punteggio CLIS migliore porta a prestazioni migliori. Questa scoperta evidenzia il potenziale delle metriche di valutazione nel ruolo di varie attività di percezione visiva e MLLM. Il codice sarà disponibile.
Il dispiegamento di Large Language Models (LLM) su dispositivi edge sta diventando sempre più importante per migliorare l'intelligenza on-device. La quantizzazione dei pesi è cruciale per ridurre l'impronta di memoria degli LLM sui dispositivi. Tuttavia, gli LLM a basso bit richiedono la moltiplicazione di matrici a precisione mista (mpGEMM) tra pesi a bassa precisione e attivazioni ad alta precisione durante l'inferenza. I sistemi esistenti, privi di supporto nativo per mpGEMM, ricorrono alla dequantizzazione dei pesi per eseguire calcoli ad alta precisione. Questo approccio indiretto può portare a un significativo sovraccarico durante l'inferenza. In questo articolo, introduciamo T-MAC, un metodo innovativo basato su lookup table (LUT) progettato per un'inferenza efficiente di LLM a basso bit (ovvero LLM con pesi quantizzati) su CPU. T-MAC supporta direttamente mpGEMM senza dequantizzazione, eliminando contemporaneamente le moltiplicazioni e riducendo le addizioni necessarie. Nello specifico, T-MAC trasforma la tradizionale moltiplicazione centrata sul tipo di dati in una ricerca bit-wise su tabella, consentendo una soluzione mpGEMM unificata e scalabile. I nostri kernel basati su LUT scalano linearmente rispetto alla larghezza in bit dei pesi. Valutato su modelli a basso bit come Llama e BitNet, T-MAC dimostra un aumento fino a 4x della velocità di elaborazione e una riduzione del 70% nel consumo energetico rispetto a llama.cpp. Per BitNet-b1.58-3B, T-MAC offre una velocità di generazione di token di 30 token/s con un singolo core e 71 token/s con otto core su M2-Ultra, e 11 token/s su dispositivi di fascia bassa come Raspberry Pi 5, superando significativamente la velocità media di lettura di un adulto. T-MAC, con il paradigma di calcolo basato su LUT, apre la strada al dispiegamento pratico di LLM a basso bit su dispositivi edge con risorse limitate senza compromettere l'efficienza computazionale. Il sistema è open-source all'indirizzo https://github.com/microsoft/T-MAC.
I modelli di generazione video hanno dimostrato grandi capacità nel produrre video monoculari impressionanti, tuttavia, la generazione di video stereoscopici 3D rimane ancora poco esplorata. Proponiamo un approccio senza pose e senza addestramento per generare video stereoscopici 3D utilizzando un modello di generazione video monoculare disponibile sul mercato. Il nostro metodo deforma un video monoculare generato in viste della camera su una baseline stereoscopica utilizzando la profondità video stimata e impiega un nuovo framework di inpaiting video basato su matrici di frame. Il framework sfrutta il modello di generazione video per riempire i frame osservati da diversi timestamp e viste. Questo approccio efficace genera video stereoscopici coerenti e semanticamente coesi senza ottimizzazione della scena o fine-tuning del modello. Inoltre, sviluppiamo uno schema di re-iniezione dei bordi di disocclusione che migliora ulteriormente la qualità dell'inpainting video mitigando gli effetti negativi propagati dalle aree disoccluse nello spazio latente. Validiamo l'efficacia del nostro metodo proposto conducendo esperimenti su video provenienti da vari modelli generativi, tra cui Sora [4], Lumiere [2], WALT [8] e Zeroscope [42]. Gli esperimenti dimostrano che il nostro metodo offre un miglioramento significativo rispetto ai metodi precedenti. Il codice sarà rilasciato su https://daipengwa.github.io/SVG_ProjectPage.
L'apprendimento auto-supervisionato (SSL) ha contribuito a estendere le tecnologie vocali a un maggior numero di lingue riducendo la necessità di dati etichettati. Tuttavia, i modelli sono ancora lontani dal supportare le oltre 7000 lingue del mondo. Proponiamo XEUS, un Codificatore Cross-linguale per il Linguaggio Universale (Cross-lingual Encoder for Universal Speech), addestrato su oltre 1 milione di ore di dati in 4057 lingue, estendendo di 4 volte la copertura linguistica dei modelli SSL. Combiniamo 1 milione di ore di parlato provenienti da corpora pubblicamente accessibili con un nuovo corpus creato di oltre 7400 ore in 4057 lingue, che verrà rilasciato pubblicamente. Per gestire le condizioni eterogenee dei dati vocali multilingue, integriamo il tipico approccio SSL di predizione mascherata con un nuovo obiettivo di dereverberazione, aumentando la robustezza. Valutiamo XEUS su diversi benchmark e dimostriamo che supera costantemente o ottiene risultati comparabili ai modelli SSL all'avanguardia (SOTA) in una varietà di task. XEUS stabilisce un nuovo SOTA sul benchmark ML-SUPERB: supera MMS 1B e w2v-BERT 2.0 v2 rispettivamente dello 0,8% e del 4,4%, nonostante abbia meno parametri o dati di pre-addestramento. Checkpoint, codice e dati sono disponibili su https://www.wavlab.org/activities/2024/xeus/.
Recentemente, sono emersi diversi modelli linguistici di grandi dimensioni (LLM) specializzati e ottimizzati per istruzioni nel campo del Riconoscimento di Entità Nominate (NER). Rispetto agli approcci tradizionali al NER, questi modelli possiedono forti capacità di generalizzazione. Gli LLM esistenti si concentrano principalmente sul NER zero-shot in distribuzioni fuori dominio, essendo stati ottimizzati su un ampio numero di classi di entità che spesso si sovrappongono in modo significativo o completo con i set di test. In questo lavoro, invece, proponiamo SLIMER, un approccio progettato per affrontare tag di entità nominate mai visti prima, istruendo il modello su un numero ridotto di esempi e sfruttando un prompt arricchito con definizioni e linee guida. Gli esperimenti dimostrano che l'uso di definizioni e linee guida produce prestazioni migliori, un apprendimento più rapido e robusto, in particolare quando si etichettano entità nominate mai viste. Inoltre, SLIMER si comporta in modo comparabile agli approcci all'avanguardia nel NER zero-shot fuori dominio, pur essendo addestrato su un set ridotto di tag.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una strategia popolare per allineare i grandi modelli linguistici (LLM) con comportamenti desiderati. La modellazione della ricompensa è un passaggio cruciale nel RLHF. Tuttavia, la raccolta di dati di preferenza accoppiati per addestrare i modelli di ricompensa è spesso costosa e dispendiosa in termini di tempo, specialmente per preferenze specifiche di dominio che richiedono annotazioni di esperti. Per affrontare questa sfida, proponiamo il Domain knowledge merged Reward Model (DogeRM), un nuovo framework che integra conoscenze specifiche del dominio in un modello di ricompensa generale attraverso la fusione di modelli. Gli esperimenti dimostrano che DogeRM migliora le prestazioni su diversi benchmark e fornisce un'analisi dettagliata che mostra gli effetti della fusione di modelli, evidenziando il grande potenziale di facilitare l'allineamento dei modelli.
L'eliminazione esatta (exact unlearning) è stata inizialmente introdotta come meccanismo di privacy che consentiva a un utente di ritirare i propri dati dai modelli di machine learning su richiesta. Poco dopo, sono stati proposti schemi approssimati (inexact schemes) per mitigare i costi impraticabili associati all'eliminazione esatta. Più recentemente, l'eliminazione è spesso discussa come un approccio per la rimozione di conoscenze non consentite, ovvero conoscenze che il modello non dovrebbe possedere, come informazioni coperte da copyright non autorizzate, inaccurate o malevole. La promessa è che se il modello non possiede una determinata capacità malevola, allora non può essere utilizzato per lo scopo malevolo associato. In questo articolo, esaminiamo nuovamente il paradigma in cui l'eliminazione viene utilizzata nei Large Language Models (LLM) e mettiamo in luce un'incongruenza sottostante derivante dall'apprendimento contestuale (in-context learning). L'eliminazione può essere un meccanismo di controllo efficace per la fase di addestramento, ma non impedisce al modello di compiere un'azione non consentita durante l'inferenza. Introduciamo il concetto di "ununlearning", in cui la conoscenza eliminata viene reintrodotta contestualmente, rendendo di fatto il modello capace di comportarsi come se conoscesse la conoscenza dimenticata. Di conseguenza, sosteniamo che sarà necessario un filtraggio dei contenuti per le conoscenze non consentite e che persino gli schemi di eliminazione esatta non sono sufficienti per una regolamentazione efficace dei contenuti. Discutiamo la fattibilità dell'"ununlearning" per i moderni LLM ed esaminiamo le implicazioni più ampie.
I LLM elaborano il testo come sequenze di token che corrispondono approssimativamente a parole, dove le parole meno comuni sono rappresentate da più token. Tuttavia, i singoli token spesso non sono semanticamente correlati ai significati delle parole o dei concetti che compongono. Ad esempio, il tokenizer di Llama-2-7b suddivide la parola "northeastern" nei token ['_n', 'ort', 'he', 'astern'], nessuno dei quali corrisponde a unità semanticamente significative come "north" o "east". Allo stesso modo, i significati complessivi di entità denominate come "Neil Young" e di espressioni composte da più parole come "break a leg" non possono essere dedotti direttamente dai loro token costituenti. Meccanicamente, come fanno i LLM a convertire tali gruppi arbitrari di token in rappresentazioni di livello superiore utili? In questo lavoro, scopriamo che le rappresentazioni dell'ultimo token per entità denominate e parole composte da più token mostrano un marcato effetto di "cancellazione", in cui le informazioni sui token precedenti e correnti vengono rapidamente dimenticate nei primi strati. Utilizzando questa osservazione, proponiamo un metodo per "leggere" il vocabolario implicito di un LLM autoregressivo esaminando le differenze nelle rappresentazioni dei token tra gli strati, e presentiamo i risultati di questo metodo per Llama-2-7b e Llama-3-8B. A nostra conoscenza, questo è il primo tentativo di sondare il vocabolario implicito di un LLM.
Descriviamo la previsione accurata delle affinità di interazione ligando-proteina (LPI), note anche come interazioni farmaco-bersaglio (DTI), utilizzando piccoli modelli linguistici generativi (SLM) pre-addestrati e affinati tramite istruzioni. Abbiamo ottenuto previsioni accurate per un intervallo di valori di affinità associati alle interazioni ligando-proteina su dati fuori campione in un contesto zero-shot. Sono stati utilizzati solo la stringa SMILES del ligando e la sequenza di amminoacidi della proteina come input del modello. I nostri risultati dimostrano un chiaro miglioramento rispetto ai metodi basati sull'apprendimento automatico (ML) e sulla perturbazione dell'energia libera (FEP+) nella previsione accurata di un intervallo di affinità di interazione ligando-proteina, che può essere sfruttato per accelerare ulteriormente le campagne di scoperta di farmaci contro bersagli terapeutici complessi.
Seguire più istruzioni è un'abilità cruciale per i grandi modelli linguistici (LLM). Valutare questa capacità presenta sfide significative: (i) coerenza limitata tra più istruzioni, (ii) bias posizionale in cui l'ordine delle istruzioni influisce sulle prestazioni del modello e (iii) mancanza di compiti oggettivamente verificabili. Per affrontare questi problemi, introduciamo un benchmark progettato per valutare le capacità dei modelli di seguire più istruzioni attraverso compiti di sequenziale istruzione seguente (SIFo). In SIFo, il completamento con successo di più istruzioni è verificabile esaminando solo l'istruzione finale. Il nostro benchmark valuta il seguire le istruzioni utilizzando quattro compiti (modifica del testo, risposta a domande, matematica e rispetto delle regole di sicurezza), ciascuno dei quali valuta diversi aspetti del seguire istruzioni sequenziali. La nostra valutazione di popolari LLM, sia closed-source che open-source, mostra che i modelli più recenti e di maggiori dimensioni superano significativamente le loro controparti più vecchie e più piccole nei compiti SIFo, convalidando l'efficacia del benchmark. Tutti i modelli faticano a seguire sequenze di istruzioni, suggerendo una mancanza importante di robustezza negli attuali modelli linguistici.
I sistemi di intelligenza artificiale di frontiera, inclusi i grandi modelli linguistici (LLM), esercitano un'influenza crescente sull'epistemologia degli utenti umani. Tale influenza può rafforzare i valori sociali prevalenti, contribuendo potenzialmente al consolidamento di convinzioni morali errate e, di conseguenza, alla perpetuazione su larga scala di pratiche morali problematiche. Introduciamo l'allineamento progressivo come soluzione tecnica per mitigare questo rischio imminente. Gli algoritmi di allineamento progressivo imparano a emulare i meccanismi del progresso morale umano, affrontando così la vulnerabilità dei metodi di allineamento esistenti ai punti ciechi morali contemporanei. Per favorire la ricerca nell'allineamento progressivo, presentiamo ProgressGym, un framework sperimentale che consente l'apprendimento dei meccanismi del progresso morale dalla storia, al fine di facilitare futuri progressi nelle decisioni morali del mondo reale. Utilizzando 9 secoli di testi storici e 18 LLM storici, ProgressGym permette di codificare le sfide dell'allineamento progressivo nel mondo reale in benchmark concreti. In particolare, introduciamo tre sfide fondamentali: tracciare l'evoluzione dei valori (PG-Follow), anticipare preventivamente il progresso morale (PG-Predict) e regolare il ciclo di feedback tra i cambiamenti di valori umani e quelli dell'IA (PG-Coevolve). I metodi di allineamento privi di una dimensione temporale non sono applicabili a questi compiti. In risposta, presentiamo algoritmi lifelong e estrapolativi come metodi di base per l'allineamento progressivo e creiamo una classifica aperta per sollecitare nuovi algoritmi e sfide. Il framework e la classifica sono disponibili rispettivamente su https://github.com/PKU-Alignment/ProgressGym e https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.