Articoli di ricerca IA selezionati quotidianamente con traduzioni
I precedenti metodi di pre-addestramento dei modelli linguistici hanno applicato uniformemente una funzione di perdita basata sulla previsione del token successivo a tutti i token di addestramento. Contestando questa norma, ipotizziamo che "Non tutti i token in un corpus siano ugualmente importanti per l'addestramento di un modello linguistico". La nostra analisi iniziale approfondisce le dinamiche di addestramento a livello di token del modello linguistico, rivelando distinti pattern di perdita per diversi token. Sfruttando queste intuizioni, introduciamo un nuovo modello linguistico chiamato Rho-1. A differenza dei modelli linguistici tradizionali che imparano a prevedere ogni token successivo in un corpus, Rho-1 utilizza il Selective Language Modeling (SLM), che addestra selettivamente i token utili allineati con la distribuzione desiderata. Questo approccio prevede la valutazione dei token di pre-addestramento utilizzando un modello di riferimento, seguito dall'addestramento del modello linguistico con una funzione di perdita focalizzata sui token con una perdita eccessiva più elevata. Durante il pre-addestramento continuo sul corpus OpenWebMath da 15B, Rho-1 ottiene un miglioramento assoluto nell'accuratezza few-shot fino al 30% in 9 task matematici. Dopo il fine-tuning, Rho-1-1B e 7B hanno raggiunto risultati all'avanguardia rispettivamente del 40,6% e 51,8% sul dataset MATH, eguagliando DeepSeekMath con solo il 3% dei token di pre-addestramento. Inoltre, durante il pre-addestramento su 80B token generici, Rho-1 ottiene un miglioramento medio del 6,8% su 15 task diversi, aumentando sia l'efficienza che le prestazioni del pre-addestramento del modello linguistico.
Agenti autonomi in grado di svolgere complessi compiti informatici con interventi umani minimi hanno il potenziale di trasformare l'interazione uomo-computer, migliorando significativamente l'accessibilità e la produttività. Tuttavia, i benchmark esistenti mancano di un ambiente interattivo o sono limitati a ambienti specifici per determinate applicazioni o domini, non riuscendo a riflettere la natura diversificata e complessa dell'uso reale del computer, limitando così la gamma di compiti e la scalabilità degli agenti. Per affrontare questo problema, introduciamo OSWorld, il primo ambiente informatico reale scalabile per agenti multimodali, che supporta la configurazione dei compiti, la valutazione basata sull'esecuzione e l'apprendimento interattivo su vari sistemi operativi come Ubuntu, Windows e macOS. OSWorld può servire come ambiente informatico unificato e integrato per valutare compiti aperti che coinvolgono applicazioni arbitrarie. Basandoci su OSWorld, creiamo un benchmark di 369 compiti informatici che coinvolgono applicazioni web e desktop reali in domini aperti, operazioni di I/O su file del sistema operativo e flussi di lavoro che si estendono su più applicazioni. Ogni esempio di compito è derivato da casi d'uso reali del computer e include una configurazione dettagliata dello stato iniziale e uno script di valutazione basato sull'esecuzione per una valutazione affidabile e riproducibile. Una valutazione estensiva degli agenti basati su LLM/VLM all'avanguardia su OSWorld rivela significative carenze nella loro capacità di fungere da assistenti informatici. Mentre gli esseri umani riescono a completare oltre il 72,36% dei compiti, il miglior modello raggiunge solo un tasso di successo del 12,24%, principalmente a causa di difficoltà nella comprensione dell'interfaccia grafica e nella conoscenza operativa. L'analisi approfondita utilizzando OSWorld fornisce preziose intuizioni per lo sviluppo di agenti generalisti multimodali che non erano possibili con i benchmark precedenti. Il nostro codice, ambiente, modelli di base e dati sono pubblicamente disponibili all'indirizzo https://os-world.github.io.
Per migliorare la controllabilità dei modelli di diffusione testo-immagine, gli sforzi esistenti come ControlNet hanno incorporato controlli condizionali basati su immagini. In questo articolo, riveliamo che i metodi esistenti affrontano ancora sfide significative nella generazione di immagini che si allineano ai controlli condizionali basati su immagini. A tal fine, proponiamo ControlNet++, un approccio innovativo che migliora la generazione controllata ottimizzando esplicitamente la consistenza ciclica a livello di pixel tra le immagini generate e i controlli condizionali. Nello specifico, per un controllo condizionale di input, utilizziamo un modello discriminativo pre-addestrato per estrarre la condizione corrispondente delle immagini generate, e poi ottimizziamo la perdita di consistenza tra il controllo condizionale di input e la condizione estratta. Un'implementazione diretta consisterebbe nel generare immagini da rumori casuali e poi calcolare la perdita di consistenza, ma tale approccio richiederebbe la memorizzazione dei gradienti per più passaggi temporali di campionamento, portando a costi considerevoli in termini di tempo e memoria. Per affrontare questo problema, introduciamo una strategia di ricompensa efficiente che disturba deliberatamente le immagini di input aggiungendo rumore, e poi utilizza le immagini denoisate in un singolo passaggio per il fine-tuning della ricompensa. Ciò evita i costi estesi associati al campionamento delle immagini, consentendo un fine-tuning della ricompensa più efficiente. Esperimenti estesi dimostrano che ControlNet++ migliora significativamente la controllabilità sotto vari controlli condizionali. Ad esempio, ottiene miglioramenti rispetto a ControlNet del 7,9% mIoU, 13,4% SSIM e 7,6% RMSE, rispettivamente, per le condizioni di maschera di segmentazione, bordo di line-art e profondità.
Presentiamo RecurrentGemma, un modello linguistico open source che utilizza la nuova architettura Griffin di Google. Griffin combina ricorrenze lineari con attenzione locale per ottenere prestazioni eccellenti nel linguaggio. Possiede uno stato di dimensioni fisse, che riduce l'uso della memoria e consente un'inferenza efficiente su sequenze lunghe. Forniamo un modello pre-addestrato con 2 miliardi di parametri non di embedding e una variante ottimizzata per istruzioni. Entrambi i modelli raggiungono prestazioni comparabili a Gemma-2B nonostante siano stati addestrati su un numero inferiore di token.
Mentre Ferret integra in modo fluido la comprensione regionale nel Large Language Model (LLM) per facilitare le sue capacità di riferimento e ancoraggio, presenta alcune limitazioni: è vincolato dall'encoder visivo pre-addestrato e fisso e non riesce a ottenere buone prestazioni su compiti più ampi. In questo lavoro, presentiamo Ferret-v2, un aggiornamento significativo di Ferret, con tre progettazioni chiave. (1) Riferimento e ancoraggio a qualsiasi risoluzione: un approccio flessibile che gestisce senza sforzo immagini a risoluzione più elevata, migliorando la capacità del modello di elaborare e comprendere immagini con maggiore dettaglio. (2) Codifica visiva multi-granularità: integrando l'encoder aggiuntivo DINOv2, il modello apprende contesti sottostanti migliori e più diversificati per informazioni visive globali e dettagliate. (3) Un paradigma di addestramento in tre fasi: oltre all'allineamento immagine-didascalia, viene proposta una fase aggiuntiva per l'allineamento denso ad alta risoluzione prima della fase finale di ottimizzazione delle istruzioni. Gli esperimenti dimostrano che Ferret-v2 offre miglioramenti sostanziali rispetto a Ferret e ad altri metodi all'avanguardia, grazie alla sua scalabilità ad alta risoluzione e all'elaborazione visiva fine-granulare.
Il successo dei modelli di intelligenza artificiale dipende dalla disponibilità di dataset ampi, diversificati e di alta qualità, che possono essere difficili da ottenere a causa della scarsità di dati, delle preoccupazioni sulla privacy e degli elevati costi. I dati sintetici sono emersi come una soluzione promettente, generando dati artificiali che imitano i modelli del mondo reale. Questo articolo fornisce una panoramica della ricerca sui dati sintetici, discutendone le applicazioni, le sfide e le direzioni future. Presentiamo evidenze empiriche tratte dalla letteratura precedente per dimostrarne l'efficacia e sottolineiamo l'importanza di garantirne la veridicità, la fedeltà e l'imparzialità. Evidenziamo la necessità di un uso responsabile dei dati sintetici per costruire modelli linguistici più potenti, inclusivi e affidabili.
Nel campo della ricerca sugli agenti web, raggiungere sia la generalizzazione che l'accuratezza rimane un problema complesso. A causa dell'elevata variabilità nella struttura dei siti web, gli approcci esistenti spesso falliscono. Inoltre, le tecniche di fine-tuning e apprendimento in contesto attuali non riescono a generalizzare su più siti web. Introduciamo Wilbur, un approccio che utilizza un modello di ranking differenziabile e una nuova tecnica di sintesi delle istruzioni per popolare in modo ottimale il prompt di un modello linguistico di grandi dimensioni (LLM) con dimostrazioni di task provenienti da esecuzioni precedenti. Per massimizzare i tassi di successo end-to-end, proponiamo anche un meccanismo di backtracking intelligente che impara e si riprende dai propri errori. Infine, dimostriamo che il nostro modello di ranking può essere addestrato su dati provenienti da un auto-curriculum generativo che campiona obiettivi rappresentativi da un LLM, esegue l'agente e lo valuta automaticamente, senza annotazioni manuali. Wilbur ottiene risultati all'avanguardia sul benchmark WebVoyager, superando i modelli basati solo su testo dell'8% in generale, e fino al 36% su determinati siti web. Nello stesso benchmark, Wilbur si avvicina entro il 5% a un forte modello multimodale nonostante riceva solo input testuali, e un'analisi più approfondita rivela che un numero significativo di fallimenti è dovuto a sfide ingegneristiche legate all'operatività sul web.
Il processing di contesti lunghi rimane una sfida per i grandi modelli linguistici (LLM) a causa del sovraccarico computazionale e di memoria quadratico del meccanismo di self-attention e delle dimensioni sostanziali della cache KV durante la generazione. Proponiamo un approccio innovativo per affrontare questo problema, apprendendo i contesti offline attraverso la compressione del contesto e il fine-tuning efficiente in termini di parametri all'interno del dominio. Il nostro metodo consente a un LLM di creare una rappresentazione concisa del contesto originale e di recuperare in modo efficiente le informazioni rilevanti per rispondere con precisione alle domande. Introduciamo LLoCO, una tecnica che combina la compressione del contesto, il recupero e il fine-tuning efficiente in termini di parametri utilizzando LoRA. Il nostro approccio estende la finestra di contesto efficace di un modello LLaMA2-7B da 4k token per gestire fino a 128k token. Valutiamo il nostro approccio su diversi dataset di question-answering a contesto lungo, dimostrando che LLoCO supera significativamente l'apprendimento in-context utilizzando 30 volte meno token durante l'inferenza. LLoCO raggiunge un'accelerazione fino a 7,62 volte e riduce sostanzialmente il costo del question-answering su documenti lunghi, rendendolo una soluzione promettente per un'elaborazione efficiente di contesti lunghi. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/jeffreysijuntan/lloco.
La RNN lineare con gate gerarchici (HGRN, Qin et al. 2023) ha dimostrato una velocità di addestramento e prestazioni competitive nella modellazione del linguaggio, offrendo al contempo un'inferenza efficiente. Tuttavia, la dimensione dello stato ricorrente di HGRN rimane relativamente piccola, il che ne limita l'espressività. Per affrontare questo problema, ispirati dall'attenzione lineare, introduciamo un semplice meccanismo di espansione dello stato basato sul prodotto esterno, in modo che la dimensione dello stato ricorrente possa essere significativamente ampliata senza introdurre parametri aggiuntivi. La forma dell'attenzione lineare consente inoltre un addestramento efficiente dal punto di vista hardware. I nostri ampi esperimenti verificano il vantaggio di HGRN2 rispetto a HGRN1 nella modellazione del linguaggio, nella classificazione delle immagini e nel Long Range Arena. Il nostro modello HGRN2 più grande da 3B supera leggermente Mamba e il Transformer dell'architettura LLaMa nella modellazione del linguaggio in un contesto sperimentale controllato; e si comporta in modo competitivo con molti modelli open-source da 3B nella valutazione downstream, pur utilizzando un numero molto inferiore di token totali di addestramento.
La guida è una tecnica cruciale per ottenere le migliori prestazioni dai modelli di diffusione per la generazione di immagini. Tradizionalmente, un peso costante di guida è stato applicato lungo l'intera catena di campionamento di un'immagine. Dimostriamo che la guida è chiaramente dannosa all'inizio della catena (alti livelli di rumore), largamente superflua alla fine (bassi livelli di rumore) e benefica solo nel mezzo. Pertanto, la limitiamo a un intervallo specifico di livelli di rumore, migliorando sia la velocità di inferenza che la qualità dei risultati. Questo intervallo di guida limitato migliora significativamente il record FID in ImageNet-512, passando da 1,81 a 1,40. Mostriamo che è vantaggioso sia quantitativamente che qualitativamente attraverso diversi parametri di campionamento, architetture di rete e dataset, incluso il contesto su larga scala di Stable Diffusion XL. Suggeriamo quindi di esporre l'intervallo di guida come un iperparametro in tutti i modelli di diffusione che utilizzano la guida.
La rilevazione delle corsie è un compito fondamentale nella guida autonoma e ha compiuto notevoli progressi con l'avvento del deep learning. I metodi precedenti basati su ancore spesso progettano ancore dense, che dipendono fortemente dal dataset di addestramento e rimangono fisse durante l'inferenza. Analizziamo che le ancore dense non sono necessarie per la rilevazione delle corsie e proponiamo un framework di rilevazione delle corsie basato su transformer che utilizza un meccanismo di ancore sparse. A tal fine, generiamo ancore sparse con query di corsia consapevoli della posizione e query angolari, invece delle tradizionali ancore esplicite. Adottiamo l'Attenzione Percettiva Orizzontale (HPA) per aggregare le caratteristiche delle corsie lungo la direzione orizzontale e l'Attenzione Incrociata Corsia-Angolo (LACA) per eseguire interazioni tra le query di corsia e le query angolari. Proponiamo inoltre l'Attenzione Percettiva delle Corsie (LPA) basata sull'attenzione incrociata deformabile per perfezionare ulteriormente le previsioni delle corsie. Il nostro metodo, denominato Sparse Laneformer, è facile da implementare e addestrabile end-to-end. Esperimenti estensivi dimostrano che Sparse Laneformer si comporta favorevolmente rispetto ai metodi all'avanguardia, ad esempio superando Laneformer del 3,0% nel punteggio F1 e O2SFormer dello 0,7% nel punteggio F1 con un numero inferiore di MACs su CULane con lo stesso backbone ResNet-34.