Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il crescente interesse per i modelli visione-linguaggio (VLMs) è stato alimentato dai progressi nei grandi modelli linguistici e nei vision transformer. Nonostante l'abbondanza di letteratura su questo argomento, osserviamo che le decisioni critiche riguardanti la progettazione dei VLMs spesso non sono giustificate. Sosteniamo che queste decisioni non supportate ostacolino i progressi nel campo, rendendo difficile identificare quali scelte migliorino le prestazioni del modello. Per affrontare questo problema, conduciamo esperimenti approfonditi sui modelli pre-addestrati, sulla scelta dell'architettura, sui dati e sui metodi di addestramento. La nostra sintesi dei risultati include lo sviluppo di Idefics2, un efficiente VLM di base da 8 miliardi di parametri. Idefics2 raggiunge prestazioni all'avanguardia nella sua categoria di dimensioni su vari benchmark multimodali, spesso alla pari con modelli quattro volte più grandi. Rilasciamo il modello (base, istruito e chat) insieme ai dataset creati per il suo addestramento.
Presentiamo il flusso di lavoro dell'Apprendimento per Rinforzo Iterativo Online da Feedback Umano (RLHF) in questo rapporto tecnico, che è ampiamente riportato superare di gran lunga la sua controparte offline nella recente letteratura sui modelli linguistici di grandi dimensioni (LLM). Tuttavia, i progetti open-source esistenti di RLHF sono ancora in gran parte confinati all'impostazione di apprendimento offline. In questo rapporto tecnico, miriamo a colmare questa lacuna e fornire una ricetta dettagliata e facilmente riproducibile per l'RLHF iterativo online. In particolare, poiché il feedback umano online è solitamente impraticabile per le comunità open-source con risorse limitate, iniziamo costruendo modelli di preferenza utilizzando un insieme diversificato di dataset open-source e utilizziamo il modello di preferenza proxy costruito per approssimare il feedback umano. Successivamente, discutiamo le intuizioni teoriche e i principi algoritmici alla base dell'RLHF iterativo online, seguiti da un'implementazione pratica dettagliata. Il nostro LLM addestrato, SFR-Iterative-DPO-LLaMA-3-8B-R, ottiene prestazioni impressionanti sui benchmark per chatbot LLM, tra cui AlpacaEval-2, Arena-Hard e MT-Bench, nonché su altri benchmark accademici come HumanEval e TruthfulQA. Abbiamo dimostrato che l'addestramento supervisionato (SFT) e l'RLHF iterativo possono ottenere prestazioni all'avanguardia utilizzando dataset completamente open-source. Inoltre, abbiamo reso pubblicamente disponibili i nostri modelli, i dataset curati e guide dettagliate passo-passo con codice completo. Per ulteriori informazioni dettagliate, consultare https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF.
In questo articolo presentiamo SUTRA, un'architettura di Large Language Model multilingue in grado di comprendere, ragionare e generare testo in oltre 50 lingue. Il design di SUTRA separa in modo unico la comprensione concettuale di base dall'elaborazione specifica per lingua, facilitando un allineamento e un apprendimento multilingue scalabile ed efficiente. Utilizzando un framework Mixture of Experts sia nell'elaborazione linguistica che concettuale, SUTRA dimostra sia efficienza computazionale che reattività. Attraverso valutazioni estensive, SUTRA supera modelli esistenti come GPT-3.5 e Llama2 del 20-30% sui principali benchmark di Massive Multitask Language Understanding (MMLU) per compiti multilingue. I modelli SUTRA sono anche LLM online in grado di utilizzare conoscenze provenienti da internet per fornire risposte prive di allucinazioni, fattuali e aggiornate, mantenendo al contempo le loro capacità multilingue. Inoltre, esploriamo le implicazioni più ampie della sua architettura per il futuro dell'IA multilingue, evidenziando il suo potenziale nel democratizzare l'accesso alla tecnologia IA a livello globale e nel migliorare l'equità e l'utilità dell'IA nelle regioni con lingue prevalentemente non inglesi. I nostri risultati suggeriscono che SUTRA non solo colma lacune cruciali nelle capacità dei modelli multilingue, ma stabilisce anche un nuovo standard per l'efficienza operativa e la scalabilità nelle applicazioni di IA.
I modelli linguistici monolitici di grandi dimensioni (LLM) come GPT-4 hanno aperto la strada alle moderne applicazioni di intelligenza artificiale generativa. Tuttavia, l'addestramento, il servizio e la manutenzione di LLM monolitici su larga scala rimangono proibitivamente costosi e complessi. L'aumento sproporzionato del rapporto tra capacità di calcolo e memoria negli acceleratori AI moderni ha creato un "muro della memoria", rendendo necessari nuovi metodi per implementare l'AI. La Composizione di Esperti (CoE) è un approccio modulare alternativo che riduce i costi e la complessità dell'addestramento e del servizio. Tuttavia, questo approccio presenta due sfide principali quando si utilizza hardware convenzionale: (1) senza operazioni fuse, i modelli più piccoli hanno un'intensità operativa inferiore, rendendo più difficile raggiungere un'elevata utilizzazione; e (2) ospitare un gran numero di modelli può essere proibitivamente costoso o lento quando si passa dinamicamente tra di essi. In questo articolo, descriviamo come la combinazione di CoE, flusso di dati in streaming e un sistema di memoria a tre livelli affronti il muro della memoria dell'AI. Presentiamo Samba-CoE, un sistema CoE con 150 esperti e un totale di mille miliardi di parametri. Implementiamo Samba-CoE sull'Unità di Flusso di Dati Riconfigurabile (RDU) SambaNova SN40L, un'architettura commerciale di acceleratore a flusso di dati co-progettata per applicazioni di inferenza e addestramento aziendali. Il chip introduce un nuovo sistema di memoria a tre livelli con SRAM distribuita on-chip, HBM on-package e DRAM DDR off-package. Una rete dedicata inter-RDU consente di scalare verticalmente e orizzontalmente su più socket. Dimostriamo accelerazioni che vanno da 2x a 13x su vari benchmark eseguiti su otto socket RDU rispetto a una baseline non fusa. Mostriamo che, per le implementazioni di inferenza CoE, il nodo RDU a 8 socket riduce l'ingombro delle macchine fino a 19x, accelera il tempo di commutazione del modello da 15x a 31x e raggiunge un'accelerazione complessiva di 3,7x rispetto a un DGX H100 e di 6,6x rispetto a un DGX A100.
I recenti progressi nei modelli di grandi dimensioni hanno evidenziato l'importanza cruciale della scala dei dati, delle etichette e delle modalità. In questo articolo, presentiamo MS MARCO Web Search, il primo dataset web su larga scala ricco di informazioni, caratterizzato da milioni di etichette query-documento cliccate reali. Questo dataset riproduce fedelmente la distribuzione di documenti e query del mondo reale, fornisce informazioni dettagliate per vari tipi di task downstream e incoraggia la ricerca in diverse aree, come modelli neurali end-to-end generici per l'indicizzazione, modelli di embedding generici e sistemi di accesso alle informazioni di nuova generazione basati su modelli linguistici di grandi dimensioni. MS MARCO Web Search offre un benchmark di retrieval con tre task di sfida per il recupero di informazioni web che richiedono innovazioni sia nel campo dell'apprendimento automatico che in quello dei sistemi di information retrieval. Come primo dataset che soddisfa i requisiti di grandi dimensioni, realismo e ricchezza dei dati, MS MARCO Web Search apre la strada a futuri progressi nella ricerca sull'IA e sui sistemi. Il dataset MS MARCO Web Search è disponibile all'indirizzo: https://github.com/microsoft/MS-MARCO-Web-Search.
I notevoli progressi dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno attirato una significativa attenzione grazie alle loro prestazioni superiori in contesti visivi. Tuttavia, le loro capacità nel convertire figure visive in codice eseguibile non sono state valutate in modo approfondito. Per affrontare questa lacuna, introduciamo Plot2Code, un benchmark completo di codifica visiva progettato per una valutazione equa e approfondita degli MLLMs. Abbiamo raccolto con cura 132 grafici matplotlib di alta qualità, selezionati manualmente e suddivisi in sei tipologie, provenienti da gallerie matplotlib pubblicamente disponibili. Per ciascun grafico, forniamo attentamente il codice sorgente e un'istruzione descrittiva riassunta da GPT-4. Questo approccio consente a Plot2Code di valutare estensivamente le capacità di codifica degli MLLMs attraverso varie modalità di input. Inoltre, proponiamo tre metriche di valutazione automatica, tra cui il tasso di successo del codice, il rapporto di corrispondenza testuale e la valutazione complessiva di GPT-4V, per un'analisi granulare del codice generato e delle immagini renderizzate. Invece di limitarci a giudicare semplicemente il successo o il fallimento, utilizziamo GPT-4V per effettuare una valutazione complessiva tra le immagini generate e quelle di riferimento, dimostrando coerenza con la valutazione umana. I risultati della valutazione, che includono analisi di 14 MLLMs come il proprietario GPT-4V, Gemini-Pro e l'open-source Mini-Gemini, evidenziano le sostanziali sfide poste da Plot2Code. Con Plot2Code, riveliamo che la maggior parte degli MLLMs esistenti fatica nella codifica visiva per grafici con testo denso, dipendendo fortemente dalle istruzioni testuali. Speriamo che i risultati della valutazione di Plot2Code sulla codifica visiva guidino lo sviluppo futuro degli MLLMs. Tutti i dati relativi a Plot2Code sono disponibili all'indirizzo https://huggingface.co/datasets/TencentARC/Plot2Code.
In questo rapporto presentiamo Piccolo2, un modello di embedding che supera altri modelli nella valutazione complessiva su 6 task del benchmark CMTEB, stabilendo un nuovo stato dell'arte. Piccolo2 sfrutta principalmente un approccio di addestramento efficiente con perdita ibrida multi-task, utilizzando in modo efficace dati testuali ed etichette provenienti da diversi task downstream. Inoltre, Piccolo2 aumenta la dimensione dell'embedding e utilizza l'addestramento MRL per supportare dimensioni vettoriali più flessibili. Le informazioni più aggiornate sui modelli Piccolo sono accessibili all'indirizzo: https://huggingface.co/sensenova/
I loghi animati rappresentano un modo accattivante e ubiquitario con cui individui e brand si presentano online. La creazione manuale di questi loghi può richiedere notevoli competenze artistiche e sforzi. Per aiutare i designer principianti ad animare i loghi, gli strumenti di design attualmente offrono modelli e preset di animazione. Tuttavia, queste soluzioni possono essere limitate nella loro gamma espressiva. I modelli linguistici di grandi dimensioni hanno il potenziale di aiutare i designer principianti a creare loghi animati generando codice di animazione personalizzato in base al loro contenuto. In questo articolo, presentiamo LogoMotion, un sistema basato su LLM che prende in input un documento stratificato e genera loghi animati attraverso la sintesi di programmi visivamente fondati. Introduciamo tecniche per creare una rappresentazione HTML di una canvas, identificare elementi primari e secondari, sintetizzare codice di animazione e correggere visivamente gli errori di animazione. Confrontato con uno strumento standard del settore, LogoMotion produce animazioni più consapevoli del contenuto e di qualità paragonabile. Concludiamo con una discussione sulle implicazioni delle animazioni generate da LLM per il design del movimento.
Lo sviluppo di modelli di dominio rappresenta uno dei pochi ambiti che richiedono ancora un intervento manuale umano nella pianificazione AI. Pertanto, per rendere la pianificazione più accessibile, è auspicabile automatizzare il processo di generazione dei modelli di dominio. A tal fine, indaghiamo se i grandi modelli linguistici (LLM) possano essere utilizzati per generare modelli di dominio di pianificazione a partire da semplici descrizioni testuali. Nello specifico, introduciamo un framework per la valutazione automatizzata dei domini generati dagli LLM confrontando gli insiemi di piani per le istanze di dominio. Infine, conduciamo un'analisi empirica di 7 grandi modelli linguistici, inclusi modelli di codifica e di chat, su 9 diversi domini di pianificazione e sotto tre classi di descrizioni in linguaggio naturale dei domini. I nostri risultati indicano che gli LLM, in particolare quelli con un numero elevato di parametri, mostrano un livello moderato di competenza nella generazione di domini di pianificazione corretti a partire da descrizioni in linguaggio naturale. Il nostro codice è disponibile all'indirizzo https://github.com/IBM/NL2PDDL.