Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene la previsione del token successivo sia considerata una via promettente verso l'intelligenza artificiale generale, ha faticato a eccellere nelle attività multimodali, ancora dominate dai modelli a diffusione (ad esempio, Diffusione Stabile) e dagli approcci compositi (ad esempio, CLIP combinato con LLM). In questo articolo, presentiamo Emu3, una nuova serie di modelli multimodali all'avanguardia addestrati esclusivamente con la previsione del token successivo. Tokenizzando immagini, testi e video in uno spazio discreto, addestriamo un singolo trasformatore da zero su una miscela di sequenze multimodali. Emu3 supera diversi modelli specifici per compiti ben consolidati sia nei compiti di generazione che di percezione, superando modelli di punta come SDXL e LLaVA-1.6, eliminando al contempo la necessità di architetture di diffusione o compositive. Emu3 è in grado anche di generare video ad alta fedeltà prevedendo il token successivo in una sequenza video. Semplifichiamo i progetti di modelli multimodali complessi concentrandoci su un singolo obiettivo: i token, sbloccando un grande potenziale per la scalabilità sia durante l'addestramento che nell'inferenza. I nostri risultati dimostrano che la previsione del token successivo è una via promettente per costruire un'intelligenza multimodale generale al di là del linguaggio. Mettiamo a disposizione in open source tecniche e modelli chiave per sostenere ulteriori ricerche in questa direzione.
In questo articolo, presentiamo MIO, un nuovo modello fondamentale basato su token multimodali, in grado di comprendere e generare discorsi, testi, immagini e video in modo end-to-end, autoregressivo. Sebbene l'emergere di grandi modelli linguistici (LLM) e di grandi modelli linguistici multimodali (MM-LLM) spinga gli avanzamenti nell'intelligenza artificiale generale attraverso le loro capacità versatili, mancano ancora di una vera comprensione e generazione any-to-any. Recentemente, il rilascio di GPT-4o ha mostrato il notevole potenziale dei LLM any-to-any per compiti reali complessi, consentendo un input e un output omnidirezionali attraverso immagini, discorsi e testi. Tuttavia, è closed-source e non supporta la generazione di sequenze multimodali interlacciate. Per affrontare questa lacuna, presentiamo MIO, che è addestrato su una miscela di token discreti attraverso quattro modalità utilizzando la modellazione multimodale causale. MIO passa attraverso un processo di addestramento a quattro fasi: (1) pre-addestramento dell'allineamento, (2) pre-addestramento interlacciato, (3) pre-addestramento potenziato dal discorso e (4) un'esaustiva messa a punto supervisionata su varie attività testuali, visive e di discorso. I nostri risultati sperimentali indicano che MIO mostra prestazioni competitive e, in alcuni casi, superiori rispetto ai precedenti baselines dual-modal, baselines any-to-any e persino baselines specifici della modalità. Inoltre, MIO dimostra capacità avanzate intrinseche alla sua funzionalità any-to-any, come la generazione video-testo interlacciata, il ragionamento a catena del pensiero visivo, la generazione di linee guida visive, la modifica di immagini istruttive, ecc.
L'onestà è un principio fondamentale per allineare i grandi modelli linguistici (LLM) con i valori umani, richiedendo a questi modelli di riconoscere ciò che sanno e non sanno e di essere in grado di esprimere fedelmente le loro conoscenze. Nonostante le promesse, i LLM attuali mostrano ancora comportamenti significativamente disonesti, come presentare con sicurezza risposte sbagliate o non riuscire a esprimere ciò che sanno. Inoltre, la ricerca sull'onestà dei LLM affronta sfide, tra cui definizioni variabili di onestà, difficoltà nel distinguere tra conoscenze note e sconosciute e una mancanza di comprensione esaustiva della ricerca correlata. Per affrontare questi problemi, forniamo un'indagine sull'onestà dei LLM, che copre la sua chiarificazione, gli approcci di valutazione e le strategie per il miglioramento. Inoltre, offriamo spunti per la ricerca futura, con l'obiettivo di ispirare ulteriori esplorazioni in questo importante settore.
L'analisi dei contenuti dei documenti è stata un'area di ricerca cruciale nell'ambito della visione artificiale. Nonostante significativi progressi nei metodi come OCR, rilevamento del layout e riconoscimento delle formule, le soluzioni open-source esistenti faticano a fornire in modo coerente un'estrazione di contenuti di alta qualità a causa della diversità nei tipi di documenti e nei contenuti. Per affrontare queste sfide, presentiamo MinerU, una soluzione open-source per l'estrazione di contenuti di documenti ad alta precisione. MinerU sfrutta i sofisticati modelli di PDF-Extract-Kit per estrarre contenuti da documenti diversi in modo efficace e utilizza regole di pre-elaborazione e post-elaborazione accuratamente tarate per garantire l'accuratezza dei risultati finali. I risultati sperimentali dimostrano che MinerU raggiunge in modo coerente alte prestazioni su vari tipi di documenti, migliorando significativamente la qualità e la coerenza dell'estrazione dei contenuti. Il progetto open-source MinerU è disponibile su https://github.com/opendatalab/MinerU.
L'ingrandimento della dimensione del modello rappresenta una sfida significativa per la distribuzione e l'elaborazione di Grandi Modelli Linguistici (LLM). A causa della ridondanza nei pesi dei LLM, recenti ricerche si sono concentrate sulla quantizzazione basata esclusivamente sui pesi fino a un numero estremamente basso di bit (anche fino a 2 bit). Ciò riduce i requisiti di memoria, ottimizza i costi di archiviazione e riduce le esigenze di larghezza di banda della memoria durante l'elaborazione. Tuttavia, a causa delle limitazioni della rappresentazione numerica, la quantizzazione tradizionale basata su scalari lotta per raggiungere un numero così basso di bit. Recenti ricerche sulla Quantizzazione Vettoriale (VQ) per i LLM hanno dimostrato il potenziale di quantizzazione del modello a basso numero di bit comprimendo vettori in indici utilizzando tabelle di ricerca. In questo articolo, presentiamo la Quantizzazione Post-Training Vettoriale (VPTQ) per la quantizzazione a basso numero di bit estremamente dei LLM. Utilizziamo Ottimizzazione di Secondo Ordine per formulare il problema VQ dei LLM e guidare la progettazione del nostro algoritmo di quantizzazione risolvendo l'ottimizzazione. Perfezioniamo ulteriormente i pesi utilizzando l'Ottimizzazione di Secondo Ordine Indipendente dal Canale per una VQ granulare. Inoltre, decomponendo il problema di ottimizzazione, proponiamo un algoritmo di inizializzazione del codebook breve ed efficace. Estendiamo inoltre il VPTQ per supportare la quantizzazione residua e degli outlier, che migliorano la precisione del modello e comprimono ulteriormente il modello. I nostri risultati sperimentali mostrano che il VPTQ riduce la perplessità della quantizzazione del modello di 0,01-0,34 su LLaMA-2, 0,38-0,68 su Mistral-7B, 4,41-7,34 su LLaMA-3 rispetto a SOTA a 2 bit, con un miglioramento medio dell'accuratezza del 0,79-1,5% su LLaMA-2, 1% su Mistral-7B, 11-22% su LLaMA-3 nei compiti di QA in media. Utilizziamo solo il 10,4-18,6% del tempo di esecuzione dell'algoritmo di quantizzazione, ottenendo un aumento del throughput di elaborazione di 1,6-1,8 volte rispetto a SOTA.
Presentiamo PhysGen, un nuovo metodo di generazione di video da immagine che converte una singola immagine e una condizione di input (ad esempio, forza e coppia applicate a un oggetto nell'immagine) per produrre un video realistico, fisicamente plausibile e temporalmente coerente. La nostra intuizione chiave è integrare la simulazione fisica basata su modelli con un processo di generazione video basato sui dati, consentendo dinamiche plausibili nello spazio delle immagini. Al cuore del nostro sistema ci sono tre componenti principali: (i) un modulo di comprensione dell'immagine che cattura efficacemente la geometria, i materiali e i parametri fisici dell'immagine; (ii) un modello di simulazione delle dinamiche nello spazio delle immagini che utilizza la fisica dei corpi rigidi e i parametri inferiti per simulare comportamenti realistici; e (iii) un modulo di rendering e perfezionamento basato sull'immagine che sfrutta la diffusione video generativa per produrre sequenze video realistiche con il movimento simulato. I video risultanti sono realistici sia dal punto di vista fisico che estetico e sono addirittura precisamente controllabili, mostrando risultati superiori rispetto ai lavori esistenti di generazione di video da immagine basati sui dati attraverso confronti quantitativi e uno studio utente completo. I video risultanti di PhysGen possono essere utilizzati per varie applicazioni successive, come trasformare un'immagine in un'animazione realistica o consentire agli utenti di interagire con l'immagine e creare varie dinamiche. Pagina del progetto: https://stevenlsw.github.io/physgen/
I metodi di ottimizzazione delle preferenze in genere iniziano l'addestramento con un modello SFT ben addestrato come modello di riferimento. In RLHF e DPO, durante il processo di ottimizzazione delle preferenze viene utilizzato un termine di regolarizzazione per evitare che il modello di policy si discosti troppo dalla distribuzione del modello di riferimento, evitando così la generazione di risposte anomale. Quando il modello di riferimento è già ben allineato con i dati forniti o richiede solo lievi aggiustamenti, questo approccio può produrre un modello ben allineato. Tuttavia, se il modello di riferimento non è allineato con i dati forniti e richiede una deviazione significativa dal suo stato attuale, un termine di regolarizzazione potrebbe effettivamente ostacolare l'allineamento del modello. In questo studio, proponiamo l'Ottimizzazione delle Preferenze con Intervento Modulato (MIPO) per affrontare questo problema. MIPO modula il grado di intervento dal modello di riferimento in base a quanto i dati forniti siano allineati con esso. Se i dati sono ben allineati, l'intervento viene aumentato per evitare che il modello di policy si discosti significativamente dal modello di riferimento. Al contrario, se l'allineamento è scarso, l'interferenza viene ridotta per facilitare un addestramento più esteso. Confrontiamo le prestazioni di MIPO e DPO utilizzando Mistral-7B e Llama3-8B in Alpaca Eval 2.0 e MT-Bench. I risultati sperimentali dimostrano che MIPO supera costantemente DPO in vari scenari di valutazione.
Questo articolo introduce un nuovo approccio all'utilizzo di Grandi Modelli Linguistici (GML) per compiti di classificazione, che vengono tipicamente gestiti utilizzando modelli di Apprendimento Automatico (AA). A differenza dei modelli di AA che si basano pesantemente sulla pulizia dei dati e sull'ingegneria delle caratteristiche, questo metodo semplifica il processo utilizzando i GML. Questo articolo propone un nuovo concetto chiamato "Apprendimento del Modello Linguistico (LML)" alimentato da un nuovo metodo chiamato "Predizione con Dati Aggiunti (DAP)". La classificazione viene eseguita dai GML utilizzando un metodo simile a quello in cui gli esseri umani esplorano manualmente e comprendono i dati e decidono le classificazioni utilizzando i dati come riferimento. I dati di addestramento vengono riassunti e valutati per determinare le caratteristiche che portano alla classificazione di ciascuna etichetta nel modo più efficace. Nel processo di DAP, il sistema utilizza il riassunto dei dati per creare automaticamente una query, che viene utilizzata per recuperare righe rilevanti dal dataset. Una classificazione viene generata dai GML utilizzando il riassunto dei dati e le righe rilevanti, garantendo un'accuratezza soddisfacente anche con dati complessi. L'utilizzo del riassunto dei dati e di dati simili in DAP garantisce una presa di decisioni consapevole del contesto. Il metodo proposto utilizza le parole "Agire come un Modello di Apprendimento Automatico Esplicabile" nel prompt per migliorare l'interpretabilità delle previsioni consentendo agli utenti di esaminare la logica dietro ciascuna previsione. In alcuni casi di test, il sistema ha ottenuto un'accuratezza superiore al 90%, dimostrando l'efficacia del sistema e il suo potenziale per superare i modelli di AA convenzionali in vari scenari. Il codice è disponibile su https://github.com/Pro-GenAI/LML-DAP
La memoria a lungo termine è significativa per gli agenti, in cui le intuizioni svolgono un ruolo cruciale. Tuttavia, l'emergere di intuizioni non rilevanti e la mancanza di intuizioni generali possono compromettere notevolmente l'efficacia delle intuizioni. Per risolvere questo problema, in questo articolo presentiamo il Multi-Scale Insight Agent (MSI-Agent), un agente incorporato progettato per migliorare la capacità di pianificazione e decisione degli LLMs mediante la sintesi e l'utilizzo efficace delle intuizioni attraverso diverse scale. MSI raggiunge questo obiettivo attraverso il selettore di esperienze, il generatore di intuizioni e il selettore di intuizioni. Sfruttando un pipeline a tre parti, MSI può generare intuizioni specifiche per compiti e di alto livello, memorizzarle in un database e quindi utilizzare le intuizioni rilevanti per aiutare nella presa di decisioni. I nostri esperimenti mostrano che MSI supera un'altra strategia di intuizione nella pianificazione da parte di GPT3.5. Inoltre, approfondiamo le strategie per la selezione di esperienze iniziali e intuizioni, mirando a fornire agli LLM intuizioni più utili e pertinenti per una migliore presa di decisioni. Le nostre osservazioni indicano anche che MSI mostra una maggiore robustezza di fronte a scenari di cambiamento di dominio.
Nonostante i recenti progressi nei modelli linguistici di grandi dimensioni (LLM), le loro prestazioni su problemi di ragionamento complessi che richiedono pensiero a più passaggi e combinazione di varie abilità sono ancora limitate. Per affrontare ciò, proponiamo un nuovo framework HDFlow per il ragionamento complesso con LLM che combina modalità di pensiero veloce e lento in modo adattivo. Il nostro approccio è composto da due componenti chiave: 1) un nuovo approccio per il ragionamento lento e deliberato chiamato Flusso Dinamico, che scompone automaticamente problemi complessi in sotto-task più gestibili e progetta dinamicamente un flusso di lavoro per assemblare strumenti LLM specializzati o di ragionamento simbolico per risolvere i sotto-task; 2) Pensiero Ibrido, un framework generale che combina in modo dinamico pensiero veloce e lento in base alla complessità del problema. Infine, proponiamo un metodo facile da scalare per la sintesi automatica di un dataset su larga scala di 27K problemi di ragionamento impegnativi per il ragionamento complesso e un metodo di sintonizzazione del pensiero ibrido che addestra LLM più piccoli su questo dataset per interiorizzare le strategie di ragionamento ibrido veloce/lento. Gli esperimenti su quattro dataset di benchmark di ragionamento dimostrano che il nostro pensiero lento con flussi di lavoro dinamici supera significativamente Chain-of-Thought, e il pensiero ibrido raggiunge la massima accuratezza fornendo un efficace equilibrio tra efficienza computazionale e prestazioni. Il raffinamento utilizzando il nostro approccio di pensiero ibrido potenzia significativamente le capacità di ragionamento complesso dei modelli linguistici open-source. I risultati mostrano la promessa del pensiero lento, dei flussi di lavoro dinamici e del pensiero ibrido nell'espandere il fronte della risoluzione di problemi complessi con LLM. Il codice e i dati saranno rilasciati su \url{https://github.com/wenlinyao/HDFlow.}