Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi anni, i Grandi Modelli Linguistici (LLM) hanno dimostrato notevoli capacità in varie attività (ad esempio, comprensione del contesto lungo), e sono stati proposti molti benchmark. Tuttavia, osserviamo che le capacità di generazione di testi lunghi non sono ben indagate. Pertanto, introduciamo il Benchmark Gerarchico per la Generazione di Testi Lunghi (HelloBench), un benchmark completo, in condizioni reali e aperto per valutare le prestazioni dei LLM nella generazione di testi lunghi. Basandoci sulla Taxonomia di Bloom, HelloBench categorizza le attività di generazione di testi lunghi in cinque sotto-task: domande aperte, riassunti, chat, completamento di testi e generazione di testi euristici. Inoltre, proponiamo la Valutazione Gerarchica di Testi Lunghi (HelloEval), un metodo di valutazione allineato con l'umano che riduce significativamente il tempo e lo sforzo richiesti per la valutazione umana mantenendo una forte correlazione con la valutazione umana. Abbiamo condotto ampi esperimenti su circa 30 LLM di mainstream e osservato che i LLM attuali mancano di capacità di generazione di testi lunghi. In particolare, in primo luogo, indipendentemente dal fatto che le istruzioni includano vincoli di lunghezza espliciti o impliciti, osserviamo che la maggior parte dei LLM non riesce a generare testi più lunghi di 4000 parole. In secondo luogo, osserviamo che mentre alcuni LLM possono generare testi più lunghi, esistono molti problemi (ad esempio, ripetizioni gravi e degrado della qualità). In terzo luogo, per dimostrare l'efficacia di HelloEval, confrontiamo HelloEval con metriche tradizionali (ad esempio, ROUGE, BLEU, ecc.) e metodi LLM-come-Giudice, che mostrano che HelloEval ha la più alta correlazione con la valutazione umana. Rilasciamo il nostro codice su https://github.com/Quehry/HelloBench.
La sintesi video dei personaggi mira a produrre video realistici di personaggi animabili all'interno di scene realistiche. Come problema fondamentale nella comunità della visione artificiale e della grafica, i lavori in 3D richiedono tipicamente catture multi-view per l'addestramento caso per caso, il che limita gravemente la loro capacità di modellare personaggi arbitrari in breve tempo. I metodi 2D recenti superano questa limitazione tramite modelli di diffusione pre-addestrati, ma faticano con la generalità delle pose e l'interazione con la scena. A questo scopo, proponiamo MIMO, un nuovo framework che non solo può sintetizzare video di personaggi con attributi controllabili (cioè, personaggio, movimento e scena) forniti da semplici input utente, ma può anche raggiungere contemporaneamente una scalabilità avanzata per personaggi arbitrari, generalità per nuovi movimenti in 3D e applicabilità a scene interattive del mondo reale in un framework unificato. L'idea principale è codificare il video 2D in codici spaziali compatti, considerando la natura intrinseca in 3D dell'occorrenza del video. Concretamente, eleviamo i pixel del frame 2D in 3D utilizzando stimatori di profondità monoculare e decomponiamo il video in tre componenti spaziali (cioè, principale umano, scena sottostante e occlusione fluttuante) in strati gerarchici basati sulla profondità in 3D. Queste componenti vengono ulteriormente codificate in codice di identità canonica, codice di movimento strutturato e codice di scena completa, che vengono utilizzati come segnali di controllo del processo di sintesi. Il design della modellazione spaziale decomposta consente un controllo flessibile da parte dell'utente, un'espressione di movimento complessa, nonché una sintesi consapevole del 3D per le interazioni della scena. I risultati sperimentali dimostrano l'efficacia e la robustezza del metodo proposto.
I grandi modelli linguistici (LLM) con architetture basate solo sul decoder dimostrano notevoli capacità di apprendimento contestuale (ICL). Questa caratteristica consente loro di gestire efficacemente sia compiti familiari che nuovi utilizzando gli esempi forniti all'interno del loro contesto di input. Riconoscendo il potenziale di questa capacità, proponiamo di sfruttare la funzionalità ICL nei LLM per migliorare il processo di generazione dell'incorporamento del testo. A tal fine, presentiamo un modello innovativo bge-en-icl, che utilizza pochi esempi per produrre incorporamenti di testo di alta qualità. Il nostro approccio integra direttamente gli esempi correlati al compito nel lato della query, ottenendo significativi miglioramenti su vari compiti. Inoltre, abbiamo studiato come utilizzare efficacemente i LLM come modelli di incorporamento, inclusi vari meccanismi di attenzione, metodi di pooling, ecc. I nostri risultati suggeriscono che mantenere il framework originale spesso produce i migliori risultati, sottolineando che la semplicità è la migliore scelta. I risultati sperimentali sui benchmark MTEB e AIR-Bench dimostrano che il nostro approccio stabilisce nuove prestazioni all'avanguardia (SOTA). Il nostro modello, codice e dataset sono liberamente disponibili su https://github.com/FlagOpen/FlagEmbedding.
Gli sviluppi recenti nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno mirato a integrare e interpretare i dati attraverso diverse modalità. Tuttavia, la capacità di questi modelli di elaborare e ragionare contemporaneamente su più modalità rimane insufficientemente esplorata, in parte a causa della mancanza di benchmark completi per modalità. Presentiamo OmniBench, un nuovo benchmark progettato per valutare rigorosamente la capacità dei modelli di riconoscere, interpretare e ragionare contemporaneamente su input visivi, acustici e testuali. Definiamo i modelli capaci di tale elaborazione trimodale come modelli omnilinguaggio (OLM). OmniBench si distingue per le annotazioni umane di alta qualità, garantendo che risposte accurate richiedano una comprensione integrata e un ragionamento attraverso tutte e tre le modalità. Le nostre principali scoperte rivelano che: i) i modelli OLM open-source mostrano limitazioni critiche nelle capacità di seguire istruzioni e ragionare all'interno di contesti trimodali; e ii) i modelli di base hanno prestazioni scadenti (sotto il 50% di accuratezza) anche quando vengono fornite rappresentazioni testuali alternative di immagini e audio. Questi risultati suggeriscono che la capacità di costruire un contesto coerente da testo, immagine e audio viene spesso trascurata nei paradigmi di addestramento MLLM esistenti. Sosteniamo la necessità che future ricerche si concentrino sullo sviluppo di tecniche di integrazione trimodale più robuste e strategie di addestramento per migliorare le prestazioni degli OLM attraverso diverse modalità. I codici e la classifica in tempo reale sono disponibili su https://m-a-p.ai/OmniBench.
La qualità dei LLM open-weight ha visto un significativo miglioramento, tuttavia rimangono prevalentemente concentrati sull'inglese. In questo articolo, presentiamo il progetto EuroLLM, mirato allo sviluppo di una serie di LLM multilingue open-weight capaci di comprendere e generare testo in tutte le lingue ufficiali dell'Unione Europea, nonché in diverse lingue aggiuntive rilevanti. Illustreremo i progressi compiuti fino ad oggi, dettagliando il nostro processo di raccolta e filtraggio dei dati, lo sviluppo delle leggi di scalabilità, la creazione del nostro tokenizzatore multilingue e le configurazioni di miscelazione dei dati e di modellizzazione. Inoltre, rilasceremo i nostri modelli iniziali: EuroLLM-1.7B e EuroLLM-1.7B-Instruct e ne riporteremo le prestazioni su benchmark multilingue generali e traduzione automatica.
Il continuo rilascio di modelli di generazione di immagini sempre nuovi e migliori aumenta la domanda di rilevatori di immagini sintetiche. In un campo così dinamico, i rilevatori devono essere in grado di generalizzare ampiamente e essere robusti alle alterazioni non controllate. Il presente lavoro è motivato da questo contesto, quando si esamina il ruolo del tempo, delle trasformazioni delle immagini e delle fonti di dati, per la generalizzazione del rilevatore. In questi esperimenti, nessuno dei rilevatori valutati è universale, ma i risultati indicano che un insieme potrebbe esserlo. Gli esperimenti sui dati raccolti in condizioni reali mostrano che questa attività è più impegnativa rispetto a quella definita dai dataset su larga scala, evidenziando un divario tra sperimentazione e pratica effettiva. Infine, osserviamo un effetto di equilibrio nella corsa, dove generatori migliori portano a rilevatori migliori, e viceversa. Ipotizziamo che ciò spinga il settore verso una corsa perpetuamente serrata tra generatori e rilevatori.
La maggior parte dei metodi di multimodalità esistenti utilizzano backbones separati per la generazione di testo discreto basata sull'autoregressione e la generazione visiva continua basata sulla diffusione, o lo stesso backbone mediante la discretizzazione dei dati visivi per utilizzare l'autoregressione sia per il testo che per la generazione visiva. In questo articolo, proponiamo di studiare un'idea semplice: condividere un transformer sia per l'autoregressione che per la diffusione. La fattibilità deriva da due aspetti principali: (i) il Transformer è applicato con successo alla diffusione per la generazione visiva, e (ii) l'addestramento del transformer per l'autoregressione e la diffusione è molto simile, e la differenza risiede semplicemente nel fatto che la diffusione utilizza una maschera di attenzione bidirezionale e l'autoregressione utilizza una maschera di attenzione causale. I risultati sperimentali mostrano che il nostro approccio raggiunge prestazioni di generazione di immagini comparabili ai metodi attuali all'avanguardia e mantiene la capacità di generazione di testo. Il progetto è pubblicamente disponibile su https://monoformer.github.io/.
I modelli trasformatore mascherati per la generazione di immagini condizionate alla classe stanno diventando un'alternativa convincente rispetto ai modelli di diffusione. Tipicamente composti da due fasi - un modello VQGAN iniziale per la transizione tra lo spazio latente e lo spazio delle immagini, e un successivo modello Trasformatore per la generazione di immagini all'interno dello spazio latente - questi framework offrono promettenti vie per la sintesi delle immagini. In questo studio, presentiamo due contributi principali: In primo luogo, un'esame empirico e sistematico dei VQGAN, che porta a un VQGAN modernizzato. In secondo luogo, una rete di generazione innovativa senza embedding che opera direttamente sui bit token - una rappresentazione quantizzata binaria dei token con ricca semantica. Il primo contributo fornisce un modello VQGAN trasparente, riproducibile e ad alte prestazioni, migliorando l'accessibilità e corrispondendo alle prestazioni dei metodi all'avanguardia attuali, rivelando dettagli precedentemente non divulgati. Il secondo contributo dimostra che la generazione di immagini senza embedding utilizzando bit token raggiunge un nuovo FID all'avanguardia di 1,52 sul benchmark ImageNet 256x256, con un modello generatore compatto di soli 305M parametri.
Il sistema visivo umano è ben adattato per rilevare volti di tutte le forme e dimensioni. Sebbene ciò porti ovvie vantaggi in termini di sopravvivenza, come una maggiore probabilità di individuare predatori sconosciuti nella boscaglia, porta anche a rilevamenti di volti spurii. La "pareidolia dei volti" descrive la percezione di una struttura simile a un volto tra stimoli altrimenti casuali: vedere volti in macchie di caffè o nuvole nel cielo. In questo articolo, studiamo la pareidolia dei volti da una prospettiva di visione artificiale. Presentiamo un dataset di immagini di "Volti nelle Cose", composto da cinquemila immagini web con volti pareidolici annotati da umani. Utilizzando questo dataset, esaminiamo fino a che punto un rilevatore di volti umani all'avanguardia mostra pareidolia e troviamo una significativa discrepanza comportamentale tra umani e macchine. Scopriamo che la necessità evolutiva per gli esseri umani di rilevare volti animali, così come volti umani, potrebbe spiegare parte di questa discrepanza. Infine, proponiamo un semplice modello statistico di pareidolia nelle immagini. Attraverso studi su soggetti umani e i nostri rilevatori di volti pareidolici, confermiamo una previsione chiave del nostro modello riguardante le condizioni dell'immagine più probabili per indurre la pareidolia. Dataset e Sito Web: https://aka.ms/faces-in-things
Il deep learning per la previsione delle serie temporali ha visto significativi progressi negli ultimi decenni. Tuttavia, nonostante il successo del pre-training su larga scala nei domini del linguaggio e della visione, i modelli pre-addestrati per le serie temporali rimangono limitati in scala e operano a un costo elevato, ostacolando lo sviluppo di modelli di previsione più grandi e capaci nelle applicazioni del mondo reale. In risposta, presentiamo Time-MoE, un'architettura scalabile e unificata progettata per pre-addestrare modelli fondamentali di previsione più grandi e più capaci riducendo i costi di inferenza. Sfruttando un design a misto di esperti (MoE) sparso, Time-MoE migliora l'efficienza computazionale attivando solo un sottoinsieme di reti per ogni previsione, riducendo il carico computazionale mantenendo alta la capacità del modello. Ciò consente a Time-MoE di scalare efficacemente senza un aumento corrispondente nei costi di inferenza. Time-MoE comprende una famiglia di modelli transformer solo decoder che operano in modo auto-regressivo e supportano orizzonti di previsione flessibili con varie lunghezze di contesto di input. Abbiamo pre-addestrato questi modelli sui nostri nuovi dati su larga scala Time-300B, che si estende su 9 domini e comprende oltre 300 miliardi di punti temporali. Per la prima volta, abbiamo scalato un modello fondamentale per serie temporali fino a 2,4 miliardi parametri, ottenendo una precisione di previsione significativamente migliorata. I nostri risultati convalidano l'applicabilità delle leggi di scala per l'addestramento di token e la dimensione del modello nel contesto della previsione delle serie temporali. Rispetto ai modelli densi con lo stesso numero di parametri attivati o budget di calcolo equivalente, i nostri modelli li superano costantemente di gran lunga. Questi progressi posizionano Time-MoE come una soluzione all'avanguardia per affrontare le sfide della previsione delle serie temporali nel mondo reale con capacità, efficienza e flessibilità superiori.
In questo rapporto tecnico, documentiamo le modifiche apportate a SDXL nel processo di addestramento di NovelAI Diffusion V3, il nostro modello di generazione di immagini anime all'avanguardia.
Come possono le politiche di manipolazione dei robot generalizzarsi a compiti nuovi che coinvolgono tipi di oggetti non visti e nuovi movimenti? In questo articolo, forniamo una soluzione in termini di previsione delle informazioni sui movimenti dai dati web attraverso la generazione di video umani e il condizionamento di una politica del robot sul video generato. Invece di cercare di scalare la raccolta di dati del robot, che è costosa, mostriamo come possiamo sfruttare modelli di generazione video addestrati su dati web facilmente disponibili, per consentire la generalizzazione. Il nostro approccio Gen2Act trasforma la manipolazione condizionata dal linguaggio in generazione di video umani a zero-shot seguita dall'esecuzione con una singola politica condizionata sul video generato. Per addestrare la politica, utilizziamo un ordine di grandezza inferiore di dati di interazione del robot rispetto a quelli su cui il modello di previsione video è stato addestrato. Gen2Act non richiede affatto il raffinamento del modello video e utilizziamo direttamente un modello pre-addestrato per generare video umani. I nostri risultati su scenari reali diversi mostrano come Gen2Act consenta di manipolare tipi di oggetti non visti e eseguire movimenti nuovi per compiti non presenti nei dati del robot. I video sono disponibili su https://homangab.github.io/gen2act/
Rispetto ai Grandi Modelli di Linguaggio (LLM), i Grandi Modelli Visione-Linguaggio (LVLM) possono anche accettare immagini in input, mostrando così capacità emergenti più interessanti e dimostrando prestazioni impressionanti su varie attività visione-linguaggio. Motivati dal prompting di testo nei LLM, è stata esplorata la tecnica del prompting visivo per potenziare le capacità dei LVLM nel percepire informazioni visive. Tuttavia, le tecniche di prompting visivo precedenti elaborano esclusivamente input visivi senza considerare le query di testo, limitando la capacità dei modelli di seguire istruzioni testuali per completare compiti. Per colmare questa lacuna, in questo lavoro proponiamo una nuova tecnica di prompting chiamata Attention Prompting on Image, che sovrappone semplicemente una mappa di attenzione guidata dalla query di testo sull'immagine di input originale e potenzia efficacemente i LVLM su vari compiti. In particolare, generiamo una mappa di attenzione per l'immagine di input dipendente dalla query di testo con un modello ausiliario come CLIP. Successivamente, la mappa di attenzione moltiplica semplicemente i valori dei pixel dell'immagine originale per ottenere l'effettiva immagine di input per il LVLM. Estesi esperimenti su vari benchmark visione-linguaggio confermano l'efficacia della nostra tecnica. Ad esempio, Attention Prompting on Image migliora LLaVA-1.5 del 3.8% e del 2.9% rispettivamente sui benchmark MM-Vet e LLaVA-Wild.
Man mano che i Large Language Models (LLM) continuano a progredire verso forme più avanzate di intelligenza, il Reinforcement Learning from Human Feedback (RLHF) è sempre più considerato come un percorso chiave per raggiungere l'Intelligenza Artificiale Generale (AGI). Tuttavia, il ricorso ai metodi di allineamento basati su modelli di ricompensa (RM-based) introduce significativi ostacoli a causa dell'instabilità e delle imperfezioni intrinseche dei Reward Models (RMs), che possono portare a problemi critici come il reward hacking e la mancata corrispondenza con le intenzioni umane. In questo articolo, presentiamo un framework RLHF robusto alle ricompense mirato ad affrontare queste sfide fondamentali, aprendo la strada a un apprendimento più affidabile e resistente nei LLM. Il nostro approccio introduce un nuovo obiettivo di ottimizzazione che bilancia attentamente le prestazioni e la robustezza incorporando Bayesian Reward Model Ensembles (BRME) per modellare l'insieme di incertezza delle funzioni di ricompensa. Ciò consente al framework di integrare sia le prestazioni nominali che i segnali minimi di ricompensa, garantendo un apprendimento più stabile anche con modelli di ricompensa imperfetti. I risultati empirici dimostrano che il nostro framework supera costantemente il RLHF tradizionale su diversi benchmark, mostrando un'accuratezza migliorata e una stabilità a lungo termine. Forniamo anche un'analisi teorica, dimostrando che l'approccio reward-robust RLHF si avvicina alla stabilità delle impostazioni di ricompensa costante, dimostrandosi efficace in un'analisi dei casi stocastici. Insieme, questi contributi evidenziano il potenziale del framework nel migliorare sia le prestazioni che la stabilità dell'allineamento dei LLM con il RLHF.
Gli approcci tradizionali al Riconoscimento delle Entità Nominative (NER) inquadrano il compito in un problema di etichettatura sequenziale BIO. Sebbene questi sistemi eccellano spesso nel compito successivo, richiedono dati annotati estensivi e faticano a generalizzare a domini di input al di fuori della distribuzione e a tipi di entità non visti in precedenza. Al contrario, i Grandi Modelli Linguistici (LLM) hanno dimostrato forti capacità di zero-shot. Mentre diversi lavori affrontano il NER Zero-Shot in inglese, poco è stato fatto in altre lingue. In questo articolo, definiamo un framework di valutazione per il NER Zero-Shot, applicandolo alla lingua italiana. Inoltre, presentiamo SLIMER-IT, la versione italiana di SLIMER, un approccio di addestramento istruzionale per il NER zero-shot che sfrutta prompt arricchiti con definizioni e linee guida. Confronti con altri modelli all'avanguardia dimostrano la superiorità di SLIMER-IT su etichette di entità mai viste prima.
I modelli di ricompensa (RMs) svolgono un ruolo cruciale nell'allineare i grandi modelli linguistici (LLMs) con le preferenze umane. Tuttavia, la formazione tradizionale dei RM, che si basa su coppie di risposte legate a prompt specifici, fatica a separare le preferenze guidate dal prompt dagli artefatti indipendenti dal prompt, come la lunghezza e il formato della risposta. In questo lavoro, mettiamo in luce una limitazione fondamentale dei metodi attuali di formazione dei RM, in cui i RM non riescono a distinguere efficacemente tra segnali contestuali e artefatti irrilevanti nella determinazione delle preferenze. Per affrontare questo problema, introduciamo un quadro causale che apprende preferenze indipendenti da tali artefatti e proponiamo una nuova tecnica di aumento dei dati progettata per eliminarli. Estesi esperimenti mostrano che il nostro approccio filtra con successo gli artefatti indesiderati, producendo un modello di ricompensa più robusto (RRM). Il nostro RRM migliora le prestazioni di un modello di ricompensa a coppie addestrato su Gemma-2-9b-it, su RewardBench, aumentando l'accuratezza dall'80,61% all'84,15%. Inoltre, addestriamo due politiche DPO utilizzando sia il RM che il RRM, dimostrando che il RRM migliora significativamente le politiche allineate a DPO, migliorando i punteggi di MT-Bench da 7,27 a 8,31 e le percentuali di vittorie controllate in base alla lunghezza in AlpacaEval-2 dal 33,46% al 52,49%.
L'apprendimento per imitazione si è dimostrato uno strumento potente per addestrare politiche visuomotorie complesse. Tuttavia, i metodi attuali spesso richiedono centinaia o migliaia di dimostrazioni di esperti per gestire osservazioni visive ad alta dimensionalità. Una delle principali ragioni di questa scarsa efficienza dei dati è che le rappresentazioni visive sono prevalentemente preaddestrate su dati fuori dominio o addestrate direttamente attraverso un obiettivo di clonazione del comportamento. In questo lavoro, presentiamo DynaMo, un nuovo metodo in-dominio e auto-supervisionato per imparare rappresentazioni visive. Dato un insieme di dimostrazioni di esperti, apprendiamo congiuntamente un modello di dinamica inversa latente e un modello di dinamica diretta su una sequenza di incorporamenti di immagini, prevedendo il frame successivo nello spazio latente, senza aumenti, campionamento contrastivo o accesso ad azioni veritiere. È importante sottolineare che DynaMo non richiede alcun dato fuori dominio come set di dati Internet o set di dati incrociati. Su una serie di sei ambienti simulati e reali, mostriamo che le rappresentazioni apprese con DynaMo migliorano significativamente le prestazioni dell'apprendimento per imitazione a valle rispetto agli obiettivi di apprendimento auto-supervisionati precedenti e alle rappresentazioni preaddestrate. I vantaggi derivanti dall'uso di DynaMo si applicano a diverse classi di politiche come Behavior Transformer, Diffusion Policy, MLP e vicini più prossimi. Infine, analizziamo i componenti chiave di DynaMo e misuriamo il suo impatto sulle prestazioni delle politiche a valle. I video dei robot sono meglio visualizzati su https://dynamo-ssl.github.io
La generazione di dati tabulari sintetici è fondamentale nell'apprendimento automatico, specialmente quando i dati reali sono limitati o sensibili. I modelli generativi tradizionali spesso affrontano sfide a causa delle caratteristiche uniche dei dati tabulari, come tipi di dati misti e distribuzioni varie, e richiedono complessi processi di preelaborazione o modelli preaddestrati di grandi dimensioni. In questo articolo, presentiamo un nuovo metodo di trasformazione binaria senza perdita che converte qualsiasi dato tabulare in rappresentazioni binarie di dimensioni fisse, e un nuovo modello generativo corrispondente chiamato Diffusione Binaria, progettato specificamente per dati binari. Diffusione Binaria sfrutta la semplicità delle operazioni XOR per l'aggiunta e la rimozione di rumore e utilizza la perdita binaria di entropia incrociata per l'addestramento. Il nostro approccio elimina la necessità di elaborazione estensiva, complessa regolazione dei parametri del rumore e preaddestramento su grandi set di dati. Valutiamo il nostro modello su diversi popolari set di dati di benchmark tabulari, dimostrando che la Diffusione Binaria supera i modelli all'avanguardia esistenti nei set di dati di Viaggi, Reddito Adulto e Diabete pur essendo significativamente più piccolo in dimensioni.