Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici hanno effettivamente bisogno di utilizzare solo una frazione esponenziale dei loro neuroni per inferenze individuali. Come prova, presentiamo FastBERT, una variante di BERT che utilizza lo 0,3% dei suoi neuroni durante l'inferenza, pur ottenendo prestazioni paragonabili a modelli BERT simili. FastBERT attiva selettivamente solo 12 neuroni su 4095 per ogni inferenza a livello. Questo risultato è ottenuto sostituendo le reti feedforward con reti feedforward veloci (FFFs). Sebbene non esista attualmente un'implementazione veramente efficiente in grado di sbloccare il pieno potenziale di accelerazione dell'esecuzione neurale condizionale, forniamo un codice ad alto livello per CPU che raggiunge un'accelerazione di 78x rispetto all'implementazione ottimizzata di base delle reti feedforward, e un'implementazione in PyTorch che offre un'accelerazione di 40x rispetto all'inferenza feedforward equivalente in batch. Pubblichiamo il nostro codice di addestramento, la configurazione di benchmarking e i pesi del modello.
Orca 1 apprende da segnali ricchi, come tracce di spiegazione, consentendole di superare i modelli convenzionali ottimizzati per istruzioni su benchmark come BigBench Hard e AGIEval. In Orca 2, continuiamo a esplorare come segnali di addestramento migliorati possano potenziare le capacità di ragionamento di modelli linguistici più piccoli. La ricerca sull'addestramento di modelli linguistici di piccole dimensioni si è spesso basata sull'apprendimento per imitazione per replicare l'output di modelli più capaci. Sosteniamo che un'enfasi eccessiva sull'imitazione possa limitare il potenziale dei modelli più piccoli. Cerchiamo di insegnare ai modelli linguistici di piccole dimensioni a impiegare diverse strategie di soluzione per diversi compiti, potenzialmente diverse da quelle utilizzate dal modello più grande. Ad esempio, mentre i modelli più grandi potrebbero fornire una risposta diretta a un compito complesso, i modelli più piccoli potrebbero non avere la stessa capacità. In Orca 2, insegniamo al modello varie tecniche di ragionamento (passo-passo, ricorda poi genera, ricorda-ragiona-genera, risposta diretta, ecc.). Ancora più crucialmente, miriamo ad aiutare il modello a imparare a determinare la strategia di soluzione più efficace per ogni compito. Valutiamo Orca 2 utilizzando un insieme completo di 15 benchmark diversi (corrispondenti a circa 100 compiti e oltre 36.000 prompt unici). Orca 2 supera significativamente modelli di dimensioni simili e raggiunge livelli di prestazioni simili o migliori rispetto a modelli 5-10 volte più grandi, come valutato su compiti complessi che testano capacità di ragionamento avanzato in contesti zero-shot. Rendiamo disponibile Orca 2 come open-source per incoraggiare ulteriori ricerche sullo sviluppo, la valutazione e l'allineamento di modelli linguistici più piccoli.
La creazione di video ad alta dinamicità, come azioni ricche di movimento ed effetti visivi sofisticati, rappresenta una sfida significativa nel campo dell'intelligenza artificiale. Purtroppo, gli attuali metodi all'avanguardia per la generazione di video, che si concentrano principalmente sulla generazione da testo a video, tendono a produrre clip con movimenti minimi nonostante mantengano un'elevata fedeltà. Sosteniamo che fare affidamento esclusivamente su istruzioni testuali sia insufficiente e subottimale per la generazione di video. In questo articolo, presentiamo PixelDance, un approccio innovativo basato su modelli di diffusione che incorpora istruzioni visive per il primo e l'ultimo fotogramma insieme a istruzioni testuali per la generazione di video. I risultati sperimentali completi dimostrano che PixelDance, addestrato con dati pubblici, mostra una capacità significativamente migliore nel sintetizzare video con scene complesse e movimenti intricati, stabilendo un nuovo standard per la generazione di video.
L'attenzione soft nei modelli linguistici di grandi dimensioni (LLM) basati su Transformer è suscettibile di incorporare informazioni irrilevanti dal contesto nelle sue rappresentazioni latenti, il che influisce negativamente sulla generazione dei token successivi. Per contribuire a risolvere questi problemi, introduciamo System 2 Attention (S2A), che sfrutta la capacità degli LLM di ragionare in linguaggio naturale e seguire istruzioni per decidere a cosa prestare attenzione. S2A rigenera il contesto di input includendo solo le porzioni rilevanti, prima di prestare attenzione al contesto rigenerato per ottenere la risposta finale. Negli esperimenti, S2A supera gli LLM basati su attenzione standard in tre compiti che contengono opinioni o informazioni irrilevanti: domande e risposte, problemi di matematica verbale e generazione di testi lunghi, dove S2A aumenta la fattualità e l'oggettività e riduce la sottomissione acritica.
LoRA raggiunge un'efficienza delle risorse notevole e prestazioni comparabili quando si adattano i LLM per compiti specifici. Da quando ChatGPT ha dimostrato prestazioni superiori in vari compiti, è cresciuto il desiderio di adattare un unico modello per tutti i compiti. Tuttavia, il basso rango esplicito di LoRA limita le prestazioni di adattamento in scenari complessi multi-task. LoRA è dominato da un numero ridotto di vettori singolari principali, mentre il fine-tuning si scompone in una serie di trasformazioni unitarie meno importanti. In questo articolo, proponiamo MultiLoRA per un migliore adattamento multi-task riducendo la dominanza dei vettori singolari principali osservata in LoRA. MultiLoRA scala i moduli LoRA orizzontalmente e modifica l'inizializzazione dei parametri delle matrici di adattamento per ridurre la dipendenza dai parametri, ottenendo così sottospazi unitari più bilanciati. Costruiamo senza precedenti dati di addestramento specializzati mescolando dataset di follow-up di istruzioni, comprensione del linguaggio naturale e conoscenza del mondo, per coprire campioni semanticamente e sintatticamente diversi. Con solo il 2,5% di parametri aggiuntivi, MultiLoRA supera le controparti di LoRA singolo e il fine-tuning su più benchmark e scale di modelli. Un'ulteriore indagine sulle matrici di aggiornamento dei pesi di MultiLoRA mostra una ridotta dipendenza dai vettori singolari principali e contributi più democratici delle trasformazioni unitarie.
Presentiamo GPQA, un dataset impegnativo composto da 448 domande a scelta multipla redatte da esperti di biologia, fisica e chimica. Ci siamo assicurati che le domande fossero di alta qualità e estremamente difficili: esperti che hanno o stanno perseguendo un dottorato di ricerca nei rispettivi domini raggiungono un'accuratezza del 65% (74% se si escludono errori evidenti identificati dagli esperti in retrospettiva), mentre validatori altamente qualificati ma non esperti raggiungono solo il 34% di accuratezza, nonostante abbiano trascorso in media oltre 30 minuti con accesso illimitato al web (ovvero, le domande sono "a prova di Google"). Le domande si rivelano difficili anche per i sistemi di intelligenza artificiale più avanzati, con il nostro modello di riferimento basato su GPT-4 che raggiunge un'accuratezza del 39%. Se intendiamo utilizzare futuri sistemi di IA per aiutarci a rispondere a domande molto complesse, ad esempio nello sviluppo di nuove conoscenze scientifiche, è necessario sviluppare metodi di supervisione scalabili che consentano agli esseri umani di monitorare i loro output, il che potrebbe essere difficile anche se i supervisori sono essi stessi competenti e preparati. La difficoltà di GPQA sia per i non esperti qualificati che per i sistemi di IA all'avanguardia dovrebbe consentire esperimenti realistici di supervisione scalabile, che speriamo possano aiutare a ideare modi affinché gli esperti umani possano ottenere in modo affidabile informazioni veritiere da sistemi di IA che superano le capacità umane.
Introduciamo Adapters, una libreria open-source che unifica il trasferimento di apprendimento parametricamente efficiente e modulare nei grandi modelli linguistici. Integrando 10 diversi metodi di adattamento in un'interfaccia unificata, Adapters offre facilità d'uso e configurazione flessibile. La nostra libreria consente a ricercatori e professionisti di sfruttare la modularità degli adattatori attraverso blocchi di composizione, permettendo la progettazione di configurazioni complesse di adattatori. Dimostriamo l'efficacia della libreria valutando le sue prestazioni rispetto alla messa a punto completa su vari compiti di NLP. Adapters fornisce uno strumento potente per affrontare le sfide dei paradigmi convenzionali di messa a punto e promuovere un trasferimento di apprendimento più efficiente e modulare. La libreria è disponibile all'indirizzo https://adapterhub.ml/adapters.
Introduciamo Style Tailoring, una metodologia per affinare i Modelli di Diffusione Latente (LDMs) in un dominio specifico, garantendo alta qualità visiva, allineamento con i prompt e diversità delle scene. Abbiamo scelto la generazione di immagini di adesivi come dominio target, poiché queste immagini differiscono significativamente dai campioni fotorealistici tipicamente generati da LDMs su larga scala. Partiamo da un modello competente di testo-immagine, come Emu, e dimostriamo che affidarsi all'ingegneria dei prompt con un modello fotorealistico per generare adesivi porta a un scarso allineamento con i prompt e a una limitata diversità delle scene. Per superare questi inconvenienti, iniziamo affinando Emu su milioni di immagini simili ad adesivi raccolte utilizzando una supervisione debole per stimolare la diversità. Successivamente, curiamo dataset di Allineamento e Stile con l'intervento umano (HITL) a partire dalle generazioni del modello, e affiniamo per migliorare rispettivamente l'allineamento con i prompt e l'allineamento stilistico. L'affinamento sequenziale su questi dataset presenta un compromesso tra un migliore allineamento stilistico e i guadagni nell'allineamento con i prompt. Per affrontare questo compromesso, proponiamo un nuovo metodo di affinamento chiamato Style Tailoring, che adatta congiuntamente la distribuzione del contenuto e dello stile, raggiungendo il miglior equilibrio. I risultati di valutazione mostrano che il nostro metodo migliora la qualità visiva del 14%, l'allineamento con i prompt del 16.2% e la diversità delle scene del 15.3%, rispetto all'ingegneria dei prompt applicata al modello base Emu per la generazione di adesivi.
I recenti progressi nella generazione di testo-3D rappresentano una pietra miliare significativa nei modelli generativi, aprendo nuove possibilità per la creazione di asset 3D immaginativi in vari scenari del mondo reale. Sebbene i recenti avanzamenti nella generazione testo-3D abbiano mostrato risultati promettenti, spesso non riescono a produrre modelli 3D dettagliati e di alta qualità. Questo problema è particolarmente evidente poiché molti metodi si basano sul Campionamento di Distillazione del Punteggio (Score Distillation Sampling, SDS). Questo articolo identifica una carenza significativa nell'SDS, ovvero il fatto che fornisce una direzione di aggiornamento inconsistente e di bassa qualità per il modello 3D, causando un effetto di eccessiva levigatezza. Per affrontare questo problema, proponiamo un nuovo approccio chiamato Interval Score Matching (ISM). L'ISM utilizza traiettorie di diffusione deterministiche e impiega il matching del punteggio basato su intervalli per contrastare l'eccessiva levigatezza. Inoltre, integriamo il 3D Gaussian Splatting nella nostra pipeline di generazione testo-3D. Esperimenti estensivi dimostrano che il nostro modello supera ampiamente lo stato dell'arte in termini di qualità ed efficienza di addestramento.
Aumentare il numero di parametri dei modelli linguistici si è dimostrato un approccio efficace per migliorare le prestazioni. Per i modelli densi, incrementare le dimensioni del modello aumenta proporzionalmente l'impronta computazionale. In questo lavoro, cerchiamo di disaccoppiare in modo aggressivo la capacità di apprendimento e i FLOP attraverso modelli di tipo Mixture-of-Experts (MoE) con funzioni di routing basate su un ampio vocabolario ricco di conoscenze e esperti. Il nostro approccio proposto, denominato Mixture of Word Experts (MoWE), può essere visto come un modello aumentato con memoria, in cui un ampio insieme di esperti specifici per le parole svolge il ruolo di una memoria sparsa. Dimostriamo che MoWE performa significativamente meglio rispetto alla famiglia di modelli T5 con un numero simile di FLOP in una varietà di task NLP. Inoltre, MoWE supera i modelli MoE regolari su task intensivi di conoscenza e ha prestazioni simili a approcci più complessi aumentati con memoria che spesso richiedono l'invocazione di meccanismi personalizzati per cercare nella memoria sparsa.
La visualizzazione di storie mira a generare una serie di immagini che corrispondano alla storia descritta nei testi, richiedendo che le immagini generate soddisfino criteri di alta qualità, allineamento con la descrizione testuale e coerenza nelle identità dei personaggi. Data la complessità della visualizzazione di storie, i metodi esistenti semplificano drasticamente il problema considerando solo pochi personaggi e scenari specifici, o richiedendo agli utenti di fornire condizioni di controllo per immagine, come schizzi. Tuttavia, queste semplificazioni rendono tali metodi inadatti per applicazioni reali. A tal fine, proponiamo un sistema automatizzato di visualizzazione di storie in grado di generare efficacemente serie di immagini diversificate, di alta qualità e coerenti, con interazioni umane minime. Nello specifico, sfruttiamo le capacità di comprensione e pianificazione dei modelli linguistici di grandi dimensioni per la pianificazione del layout, e poi utilizziamo modelli di testo-immagine su larga scala per generare immagini sofisticate della storia basate sul layout. Empiricamente, abbiamo riscontrato che condizioni di controllo sparse, come i bounding box, sono adatte per la pianificazione del layout, mentre condizioni di controllo dense, ad esempio schizzi e punti chiave, sono adatte per generare contenuti di immagini di alta qualità. Per ottenere il meglio da entrambi gli approcci, abbiamo ideato un modulo di generazione di condizioni dense per trasformare semplici layout di bounding box in condizioni di controllo come schizzi o punti chiave per la generazione finale delle immagini, il che non solo migliora la qualità delle immagini, ma consente anche interazioni utente facili e intuitive. Inoltre, proponiamo un metodo semplice ma efficace per generare immagini di personaggi coerenti da più punti di vista, eliminando la dipendenza dal lavoro umano per raccogliere o disegnare immagini di personaggi.
Dalle antiche ruote idrauliche all'automazione dei processi robotici (RPA), la tecnologia dell'automazione si è evoluta nel corso della storia per liberare gli esseri umani da compiti gravosi. Tuttavia, l'RPA incontra difficoltà nei compiti che richiedono un'intelligenza simile a quella umana, in particolare nella progettazione elaborata della costruzione dei flussi di lavoro e nel processo decisionale dinamico durante l'esecuzione dei flussi di lavoro. Con l'emergere dei Modelli Linguistici di Grande Scala (LLM) che possiedono un'intelligenza simile a quella umana, questo articolo introduce l'Automazione dei Processi Agente (APA), un paradigma rivoluzionario di automazione che utilizza agenti basati su LLM per un'automazione avanzata, trasferendo il lavoro umano ad agenti associati alla costruzione e all'esecuzione. Successivamente, istanziamo ProAgent, un agente basato su LLM progettato per creare flussi di lavoro a partire dalle istruzioni umane e prendere decisioni complesse coordinando agenti specializzati. Esperimenti empirici sono condotti per dettagliare la sua procedura di costruzione ed esecuzione dei flussi di lavoro, dimostrando la fattibilità dell'APA e rivelando la possibilità di un nuovo paradigma di automazione guidato da agenti. Il nostro codice è pubblico all'indirizzo https://github.com/OpenBMB/ProAgent.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato competenza nell'affrontare compiti che richiedono una combinazione di pianificazione delle attività e l'utilizzo di strumenti esterni, come le API. Tuttavia, i sistemi complessi del mondo reale presentano tre sfide prevalenti riguardanti la pianificazione delle attività e l'uso degli strumenti: (1) Il sistema reale di solito dispone di una vasta gamma di API, quindi è impossibile fornire le descrizioni di tutte le API al prompt degli LLM poiché la lunghezza dei token è limitata; (2) il sistema reale è progettato per gestire compiti complessi, e i LLM di base difficilmente possono pianificare un ordine corretto dei sotto-compiti e delle chiamate API per tali attività; (3) La somiglianza semantica e funzionale tra le API nei sistemi reali crea difficoltà sia per gli LLM che persino per gli esseri umani nel distinguerle. In risposta, questo articolo introduce un framework completo volto a migliorare le capacità di Pianificazione delle Attività e Uso degli Strumenti (TPTU) degli agenti basati su LLM che operano all'interno di sistemi del mondo reale. Il nostro framework comprende tre componenti chiave progettati per affrontare queste sfide: (1) l'API Retriever seleziona le API più pertinenti per il compito dell'utente tra la vasta gamma disponibile; (2) l'LLM Finetuner ottimizza un LLM di base in modo che il LLM ottimizzato sia più capace nella pianificazione delle attività e nelle chiamate API; (3) il Demo Selector recupera in modo adattivo diverse dimostrazioni relative alle API difficili da distinguere, che vengono ulteriormente utilizzate per l'apprendimento contestuale per migliorare le prestazioni finali. Convalidiamo i nostri metodi utilizzando un sistema commerciale del mondo reale e un dataset accademico open-source, e i risultati mostrano chiaramente l'efficacia di ciascun componente individuale così come del framework integrato.
L'attuale panorama della ricerca che sfrutta i grandi modelli linguistici (LLM) sta vivendo una forte crescita. Molti lavori utilizzano le potenti capacità di ragionamento di questi modelli per comprendere varie modalità, come testo, parlato, immagini, video, ecc. Inoltre, impiegano gli LLM per comprendere l'intenzione umana e generare output desiderati come immagini, video e musica. Tuttavia, la ricerca che combina sia la comprensione che la generazione utilizzando gli LLM è ancora limitata e nella sua fase iniziale. Per colmare questa lacuna, introduciamo un framework di Comprensione e Generazione Musicale Multi-modale (M^{2}UGen) che integra le capacità degli LLM di comprendere e generare musica per diverse modalità. Il framework M^{2}UGen è progettato appositamente per sbloccare il potenziale creativo da fonti di ispirazione diverse, abbracciando musica, immagini e video attraverso l'uso rispettivamente dei modelli preaddestrati MERT, ViT e ViViT. Per abilitare la generazione musicale, esploriamo l'uso di AudioLDM 2 e MusicGen. Il collegamento tra la comprensione multi-modale e la generazione musicale è realizzato attraverso l'integrazione del modello LLaMA 2. Inoltre, utilizziamo il modello MU-LLaMA per generare ampi dataset che supportano la generazione da testo/immagine/video a musica, facilitando l'addestramento del nostro framework M^{2}UGen. Effettuiamo una valutazione approfondita del framework proposto. I risultati sperimentali dimostrano che il nostro modello raggiunge o supera le prestazioni dei modelli attuali all'avanguardia.
Introduciamo una pipeline che potenzia un modello linguistico-visivo generico, GPT-4V(ision), integrando osservazioni di azioni umane per facilitare la manipolazione robotica. Questo sistema analizza video di esseri umani che eseguono compiti e crea programmi robotici eseguibili che incorporano intuizioni sulle affordance. Il calcolo inizia analizzando i video con GPT-4V per convertire i dettagli ambientali e delle azioni in testo, seguito da un pianificatore di compiti potenziato da GPT-4. Nelle analisi successive, i sistemi visivi rianalizzano il video con il piano del compito. I nomi degli oggetti vengono ancorati utilizzando un rilevatore di oggetti a vocabolario aperto, mentre l'attenzione sulla relazione mano-oggetto aiuta a rilevare il momento della presa e del rilascio. Questo ancoraggio spaziotemporale consente ai sistemi visivi di raccogliere ulteriori dati sulle affordance (ad esempio, tipo di presa, punti di passaggio e posture del corpo). Esperimenti in vari scenari dimostrano l'efficacia di questo metodo nel far eseguire operazioni a robot reali a partire da dimostrazioni umane in modalità zero-shot. I prompt di GPT-4V/GPT-4 sono disponibili nella pagina del progetto: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/