Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'introduzione di modelli linguistici di grandi dimensioni ha significativamente avanzato la generazione di codice. Tuttavia, i modelli open-source spesso mancano delle capacità di esecuzione e di raffinamento iterativo di sistemi avanzati come il GPT-4 Code Interpreter. Per affrontare questa lacuna, presentiamo OpenCodeInterpreter, una famiglia di sistemi di codice open-source progettati per generare, eseguire e raffinare iterativamente il codice. Supportato da Code-Feedback, un dataset che include 68K interazioni multi-turn, OpenCodeInterpreter integra l'esecuzione e il feedback umano per una raffinazione dinamica del codice. La nostra valutazione completa di OpenCodeInterpreter su benchmark chiave come HumanEval, MBPP e le loro versioni potenziate da EvalPlus rivela prestazioni eccezionali. In particolare, OpenCodeInterpreter-33B raggiunge un'accuratezza di 83.2 (76.4) sulla media (e versioni plus) di HumanEval e MBPP, avvicinandosi a GPT-4 con 84.2 (76.2) e raggiungendo ulteriormente 91.6 (84.6) con il feedback umano sintetizzato da GPT-4. OpenCodeInterpreter riduce il divario tra i modelli open-source di generazione di codice e i sistemi proprietari come GPT-4 Code Interpreter.
Sebbene i Transformer abbiano permesso progressi significativi in vari contesti applicativi, queste architetture rimangono ancora indietro rispetto ai pianificatori simbolici tradizionali per la risoluzione di compiti decisionali complessi. In questo lavoro, dimostriamo come addestrare i Transformer a risolvere compiti di pianificazione complessi e presentiamo Searchformer, un modello Transformer che risolve in modo ottimale puzzle di Sokoban mai visti prima nel 93,7% dei casi, utilizzando fino al 26,8% in meno di passaggi di ricerca rispetto alla ricerca A^* standard. Searchformer è un modello Transformer encoder-decoder addestrato a prevedere le dinamiche di ricerca di A^*. Questo modello viene poi affinato tramite iterazioni esperte per eseguire meno passaggi di ricerca rispetto alla ricerca A^* pur generando comunque un piano ottimale. Nel nostro metodo di addestramento, le dinamiche di ricerca di A^* sono espresse come una sequenza di token che descrive quando gli stati del compito vengono aggiunti e rimossi dall'albero di ricerca durante la pianificazione simbolica. Nei nostri studi di ablazione sulla navigazione in labirinto, scopriamo che Searchformer supera significativamente i baseline che prevedono direttamente il piano ottimale con una dimensione del modello 5-10 volte più piccola e un dataset di addestramento 10 volte più ridotto. Dimostriamo inoltre come Searchformer si adatti a compiti decisionali più grandi e complessi come Sokoban, migliorando la percentuale di compiti risolti e riducendo le dinamiche di ricerca.
Nel perseguimento di modelli visione-linguaggio (VLMs) più inclusivi, questo studio introduce un modello multilingue multimodale di grandi dimensioni chiamato Palo. Palo offre capacità di ragionamento visivo in 10 lingue principali, tra cui inglese, cinese, hindi, spagnolo, francese, arabo, bengalese, russo, urdu e giapponese, che coprono un totale di circa 5 miliardi di persone (65% della popolazione mondiale). Il nostro approccio prevede un metodo di traduzione semi-automatizzato per adattare il dataset di istruzioni multimodali dall'inglese alle lingue target utilizzando un modello di linguaggio di grandi dimensioni fine-tuned, garantendo così un'elevata fedeltà linguistica e consentendo scalabilità grazie a uno sforzo manuale minimo. L'incorporazione di set di istruzioni diversificati ci aiuta a migliorare le prestazioni complessive in più lingue, in particolare quelle sottorappresentate come hindi, arabo, bengalese e urdu. I modelli risultanti sono addestrati su tre scale (1,7B, 7B e 13B parametri) per dimostrare la generalizzazione e la scalabilità, osservando miglioramenti significativi rispetto a baseline robuste. Proponiamo inoltre il primo benchmark multimodale multilingue per valutare le capacità di ragionamento visione-linguaggio dei futuri approcci in diverse lingue. Codice: https://github.com/mbzuai-oryx/PALO.
Presentiamo il framework TinyLLaVA che offre una prospettiva unificata nella progettazione e analisi di modelli multimodali di grandi dimensioni (LMM) su scala ridotta. Studiamo empiricamente gli effetti di diversi encoder visivi, moduli di connessione, modelli linguistici, dati di addestramento e ricette di training. I nostri ampi esperimenti hanno dimostrato che, combinando una migliore qualità dei dati con ricette di addestramento più efficaci, i LMM più piccoli possono raggiungere prestazioni paragonabili a quelle dei LMM più grandi. All'interno del nostro framework, addestriamo una famiglia di LMM su scala ridotta. Il nostro modello migliore, TinyLLaVA-3.1B, ottiene prestazioni complessive superiori rispetto ai modelli esistenti da 7B come LLaVA-1.5 e Qwen-VL. Speriamo che i nostri risultati possano servire come baseline per future ricerche in termini di scalabilità dei dati, configurazioni di addestramento e selezione dei modelli. I pesi del nostro modello e i codici saranno resi pubblici.
I modelli visivi basati su Transformer tipicamente tokenizzano le immagini in patch quadrate di dimensioni fisse come unità di input, il che manca di adattabilità al contenuto dell'immagine e trascura la struttura intrinseca di raggruppamento dei pixel. Ispirati dalla tokenizzazione a livello di sottoparole ampiamente adottata nei modelli linguistici, proponiamo un tokenizzatore di immagini a livello di sotto-oggetti, dove i sotto-oggetti sono rappresentati da segmenti di immagine semanticamente significativi ottenuti tramite modelli di segmentazione (ad esempio, modelli di segmentazione generica). Per implementare un sistema di apprendimento basato sulla tokenizzazione a livello di sotto-oggetti, abbiamo prima introdotto un AutoEncoder Sequenza-a-Sequenza (SeqAE) per comprimere segmenti di sotto-oggetti di dimensioni e forme variabili in vettori di embedding compatti, quindi abbiamo alimentato gli embedding dei sotto-oggetti in un grande modello linguistico per l'apprendimento visivo-linguistico. I risultati empirici hanno dimostrato che la nostra tokenizzazione a livello di sotto-oggetti facilita significativamente l'apprendimento efficiente della traduzione di immagini in descrizioni di oggetti e attributi rispetto alla tradizionale tokenizzazione a livello di patch. I codici e i modelli saranno resi disponibili open-source su https://github.com/ChenDelong1999/subobjects.
Nel vasto panorama del design sperimentale, la regressione è stata uno strumento potente per prevedere con precisione le metriche di risultato di un sistema o modello dati un insieme di parametri, ma è stata tradizionalmente limitata a metodi applicabili solo a compiti specifici. In questo articolo, proponiamo OmniPred, un framework per addestrare modelli linguistici come regressori universali end-to-end su dati di valutazione (x,y) provenienti da esperimenti reali e diversificati. Utilizzando dati provenienti da Google Vizier, uno dei più grandi database di ottimizzazione blackbox al mondo, i nostri estesi esperimenti dimostrano che, attraverso rappresentazioni testuali di parametri e valori matematici, i modelli linguistici sono in grado di eseguire regressioni numeriche molto precise e, se hanno l'opportunità di addestrarsi su più compiti, possono superare significativamente i tradizionali modelli di regressione.
Con il rapido avanzamento dei Modelli Linguistici di Grande Dimensione (LLM), sono stati compiuti progressi significativi nelle applicazioni multi-agente. Tuttavia, le complessità nel coordinare la cooperazione tra agenti e le prestazioni erratiche dei LLM pongono sfide notevoli nello sviluppo di applicazioni multi-agente robuste ed efficienti. Per affrontare queste sfide, proponiamo AgentScope, una piattaforma multi-agente centrata sullo sviluppatore con lo scambio di messaggi come meccanismo di comunicazione principale. Insieme a strumenti sintattici abbondanti, risorse integrate e interazioni user-friendly, il nostro meccanismo di comunicazione riduce significativamente le barriere sia per lo sviluppo che per la comprensione. Verso applicazioni multi-agente robuste e flessibili, AgentScope fornisce meccanismi di tolleranza ai guasti sia integrati che personalizzabili, ed è inoltre dotato di supporti a livello di sistema per la generazione, l'archiviazione e la trasmissione di dati multi-modali. Inoltre, progettiamo un framework di distribuzione basato su attori, che consente una facile conversione tra implementazioni locali e distribuite e un'ottimizzazione parallela automatica senza sforzi aggiuntivi. Con queste caratteristiche, AgentScope consente agli sviluppatori di costruire applicazioni che realizzano appieno il potenziale degli agenti intelligenti. Abbiamo rilasciato AgentScope all'indirizzo https://github.com/modelscope/agentscope e speriamo che AgentScope inviti una più ampia partecipazione e innovazione in questo campo in rapida evoluzione.
La scarsità di dati nelle lingue a bassa risorsa può essere affrontata mediante traduzioni parola per parola da dati etichettati di task in lingue ad alta risorsa, utilizzando lessici bilingui. Tuttavia, i lessici bilingui spesso presentano una sovrapposizione lessicale limitata con i dati del task, il che si traduce in una scarsa copertura della traduzione e un basso utilizzo del lessico. Proponiamo la generazione di dati condizionata al lessico (LexC-Gen), un metodo che genera dati per task di classificazione in lingue a bassa risorsa su larga scala. Nello specifico, LexC-Gen utilizza prima parole in lingue ad alta risorsa provenienti da lessici bilingui per generare dati di task compatibili con il lessico, e poi li traduce nelle lingue a bassa risorsa tramite traduzione parola per parola utilizzando lessici bilingui. In 17 lingue estremamente a bassa risorsa, i dati generati da LexC-Gen sono competitivi rispetto ai dati gold tradotti da esperti e mostrano, in media, un miglioramento di 5,6 e 8,9 punti rispetto ai metodi esistenti di traduzione parola per parola basati su lessico, rispettivamente per task di analisi del sentiment e classificazione di argomenti. Dimostriamo che il condizionamento sui lessici bilingui è il componente chiave di LexC-Gen. LexC-Gen è anche pratico: richiede solo una singola GPU per generare dati su larga scala. Funziona bene con modelli linguistici di grandi dimensioni (LLM) ad accesso aperto, e il suo costo è un quinto rispetto alla generazione di dati multilingue basata su GPT-4.
Il campionamento da modelli probabilistici di diffusione (DPM) è spesso costoso per la generazione di immagini di alta qualità e richiede tipicamente molti passaggi con un modello di grandi dimensioni. In questo articolo, introduciamo il campionamento Trajectory Stitching T-Stitch, una tecnica semplice ma efficiente per migliorare l'efficienza del campionamento con un degrado minimo o nullo nella generazione. Invece di utilizzare esclusivamente un DPM di grandi dimensioni per l'intera traiettoria di campionamento, T-Stitch sfrutta inizialmente un DPM più piccolo nei primi passi come sostituto economico del DPM più grande, per poi passare al DPM più grande in una fase successiva. La nostra intuizione chiave è che diversi modelli di diffusione apprendono codifiche simili sotto la stessa distribuzione di dati di addestramento e che modelli più piccoli sono in grado di generare buone strutture globali nei primi passi. Esperimenti estesi dimostrano che T-Stitch è privo di addestramento, generalmente applicabile a diverse architetture e complementare alla maggior parte delle tecniche di campionamento veloce esistenti, con compromessi flessibili tra velocità e qualità. Su DiT-XL, ad esempio, il 40% dei primi intervalli di tempo può essere sostituito in modo sicuro con un DiT-S 10 volte più veloce senza perdita di prestazioni nella generazione condizionata alla classe su ImageNet. Mostriamo inoltre che il nostro metodo può essere utilizzato come tecnica di sostituzione non solo per accelerare i popolari modelli pre-addestrati di diffusione stabile (SD), ma anche per migliorare l'allineamento del prompt nei modelli SD stilizzati provenienti dal modello pubblico zoo. Il codice è rilasciato all'indirizzo https://github.com/NVlabs/T-Stitch.
L'integrazione di Large Language Models (LLM) negli ambienti di sviluppo integrati (IDE) è diventata un punto focale nello sviluppo software moderno. LLM come OpenAI GPT-3.5/4 e Code Llama offrono il potenziale di aumentare significativamente la produttività degli sviluppatori fungendo da assistenti di programmazione intelligenti e basati su chat. Tuttavia, utilizzare gli LLM così come sono forniti è improbabile che sia ottimale per qualsiasi scenario specifico. Piuttosto, ogni sistema richiede che l'LLM sia affinato secondo un insieme di euristiche per garantire le migliori prestazioni. In questo articolo, introduciamo il sistema di valutazione Copilot: un insieme di dati e strumenti per valutare le interazioni guidate da LLM negli IDE, coprendo vari scenari di programmazione e linguaggi. Proponiamo le nostre metriche come una valutazione più robusta e ricca di informazioni rispetto ai precedenti sistemi di valutazione all'avanguardia. Progettiamo e calcoliamo metriche di successo sia statiche che basate sull'esecuzione per scenari che comprendono un'ampia gamma di attività degli sviluppatori, tra cui la generazione di codice da linguaggio naturale (generate), la generazione di documentazione dal codice (doc), la generazione di casi di test (test), la correzione di bug (fix) e la comprensione e risoluzione di query all'interno dell'area di lavoro (workspace). Queste metriche di successo sono progettate per valutare le prestazioni degli LLM all'interno di un determinato IDE e del relativo spazio dei parametri. Le nostre osservazioni derivanti dalla valutazione di tre LLM comuni utilizzando queste metriche possono informare lo sviluppo e la validazione di futuri scenari negli IDE guidati da LLM.
I modelli linguistici di grandi dimensioni (LLM) sono strumenti potenti per la moderazione dei contenuti, ma i costi di inferenza e la latenza li rendono proibitivi per un uso casuale su grandi dataset, come il repository di Google Ads. Questo studio propone un metodo per scalare le revisioni tramite LLM per la moderazione dei contenuti in Google Ads. Innanzitutto, utilizziamo euristiche per selezionare i candidati tramite filtraggio e rimozione dei duplicati, e creiamo cluster di annunci per i quali selezioniamo un annuncio rappresentativo per cluster. Successivamente, utilizziamo gli LLM per revisionare solo gli annunci rappresentativi. Infine, propaghiamo le decisioni degli LLM per gli annunci rappresentativi ai rispettivi cluster. Questo metodo riduce il numero di revisioni di oltre 3 ordini di grandezza, ottenendo un richiamo 2 volte superiore rispetto a un modello di base non LLM. Il successo di questo approccio dipende fortemente dalle rappresentazioni utilizzate nel clustering e nella propagazione delle etichette; abbiamo riscontrato che le rappresentazioni di similarità cross-modale producono risultati migliori rispetto alle rappresentazioni uni-modali.
I modelli su larga scala di generazione di immagini da testo consentono una vasta gamma di tecniche di editing delle immagini, utilizzando prompt testuali o persino controlli spaziali. Tuttavia, applicare questi metodi di editing a immagini multi-vista che rappresentano una singola scena porta a risultati non coerenti in 3D. In questo lavoro, ci concentriamo su manipolazioni geometriche basate su controlli spaziali e introduciamo un metodo per consolidare il processo di editing attraverso diverse viste. Partiamo da due intuizioni: (1) mantenere caratteristiche coerenti durante il processo generativo aiuta a ottenere coerenza nell'editing multi-vista, e (2) le query nei livelli di self-attention influenzano significativamente la struttura dell'immagine. Pertanto, proponiamo di migliorare la coerenza geometrica delle immagini modificate imponendo la coerenza delle query. A tal fine, introduciamo QNeRF, un campo di radianza neurale addestrato sulle caratteristiche interne delle query delle immagini modificate. Una volta addestrato, QNeRF può renderizzare query coerenti in 3D, che vengono poi delicatamente reinserite nei livelli di self-attention durante la generazione, migliorando notevolmente la coerenza multi-vista. Affiniamo il processo attraverso un metodo progressivo e iterativo che consolida meglio le query attraverso i passaggi temporali della diffusione. Confrontiamo il nostro metodo con una gamma di tecniche esistenti e dimostriamo che può ottenere una migliore coerenza multi-vista e una maggiore fedeltà alla scena di input. Questi vantaggi ci permettono di addestrare NeRF con meno artefatti visivi, che sono meglio allineati con la geometria target.
L'avvento del 3D Gaussian Splatting (3DGS) ha recentemente portato una rivoluzione nel campo del rendering neurale, facilitando rendering di alta qualità a velocità in tempo reale. Tuttavia, il 3DGS dipende fortemente dalla nuvola di punti inizializzata prodotta dalle tecniche di Structure-from-Motion (SfM). Quando si affrontano scene su larga scala che inevitabilmente contengono superfici prive di texture, le tecniche SfM non riescono a produrre un numero sufficiente di punti su queste superfici e non possono fornire una buona inizializzazione per il 3DGS. Di conseguenza, il 3DGS soffre di un'ottimizzazione difficile e di rendering di bassa qualità. In questo articolo, ispirati dalle classiche tecniche di multi-view stereo (MVS), proponiamo GaussianPro, un metodo innovativo che applica una strategia di propagazione progressiva per guidare la densificazione delle Gaussiane 3D. Rispetto alle semplici strategie di divisione e clonazione utilizzate nel 3DGS, il nostro metodo sfrutta i priori delle geometrie ricostruite esistenti della scena e le tecniche di corrispondenza di patch per produrre nuove Gaussiane con posizioni e orientamenti accurati. Esperimenti su scene sia su larga scala che su piccola scala convalidano l'efficacia del nostro metodo, dove il nostro metodo supera significativamente il 3DGS sul dataset Waymo, mostrando un miglioramento di 1,15 dB in termini di PSNR.
In questo lavoro, affrontiamo il problema complesso del denoising delle interazioni mano-oggetto (HOI). Data una sequenza di interazione errata, l'obiettivo è affinare la traiettoria della mano per rimuovere gli artefatti di interazione e ottenere una sequenza percettivamente realistica. Questa sfida coinvolge rumori di interazione intricati, tra cui pose innaturali della mano e relazioni scorrette tra mano e oggetto, oltre alla necessità di una robusta generalizzazione per nuove interazioni e diversi schemi di rumore. Affrontiamo queste sfide attraverso un approccio innovativo, GeneOH Diffusion, che incorpora due design chiave: una rappresentazione HOI centrata sul contatto chiamata GeneOH e un nuovo schema di denoising generalizzabile a diversi domini. La rappresentazione centrata sul contatto GeneOH parametrizza in modo informativo il processo HOI, facilitando una migliore generalizzazione attraverso vari scenari HOI. Il nuovo schema di denoising consiste in un modello di denoising canonico addestrato per proiettare campioni di dati rumorosi da uno spazio di rumore sbiancato a una varietà di dati puliti e in una strategia di "denoising via diffusione" che può gestire traiettorie di input con vari schemi di rumore diffondendole prima per allinearle allo spazio di rumore sbiancato e poi pulendole tramite il denoiser canonico. Esperimenti estesi su quattro benchmark con significative variazioni di dominio dimostrano l'efficacia superiore del nostro metodo. GeneOH Diffusion mostra anche promesse per varie applicazioni downstream. Sito web del progetto: https://meowuu7.github.io/GeneOH-Diffusion/.
Recenti ricerche hanno dimostrato che i transformer, in particolare i modelli di attenzione lineare, eseguono implicitamente algoritmi simili alla discesa del gradiente sui dati forniti in-context durante il loro passaggio di inferenza in avanti. Tuttavia, la loro capacità di gestire problemi più complessi rimane inesplorata. In questo articolo, dimostriamo che qualsiasi transformer lineare mantiene un modello lineare implicito e può essere interpretato come l'esecuzione di una variante della discesa del gradiente precondizionata. Investigiamo inoltre l'uso dei transformer lineari in uno scenario impegnativo in cui i dati di addestramento sono corrotti con diversi livelli di rumore. In modo notevole, dimostriamo che per questo problema i transformer lineari scoprono un algoritmo di ottimizzazione intricato e altamente efficace, superando o eguagliando in prestazioni molte baseline ragionevoli. Ingegnerizziamo inversamente questo algoritmo e mostriamo che si tratta di un approccio innovativo che incorpora momentum e riscalamento adattivo basato sui livelli di rumore. I nostri risultati mostrano che persino i transformer lineari possiedono la sorprendente capacità di scoprire strategie di ottimizzazione sofisticate.
Come promettente tecnica di generazione 3D, la diffusione multivista (MVD) ha ricevuto molta attenzione grazie ai suoi vantaggi in termini di generalizzabilità, qualità ed efficienza. Ottimizzando modelli di diffusione di immagini pre-addestrati con dati 3D, i metodi MVD generano prima più viste di un oggetto 3D basandosi su un'immagine o un prompt testuale, per poi ricostruire forme 3D attraverso la ricostruzione multivista. Tuttavia, le viste sparse e i dettagli incoerenti nelle immagini generate rendono la ricostruzione 3D una sfida. Presentiamo MVD^2, un metodo efficiente di ricostruzione 3D per immagini di diffusione multivista (MVD). MVD^2 aggrega le caratteristiche delle immagini in un volume di caratteristiche 3D attraverso proiezione e convoluzione, per poi decodificare le caratteristiche volumetriche in una mesh 3D. Addestriamo MVD^2 con collezioni di forme 3D e immagini MVD generate da viste renderizzate di forme 3D. Per affrontare la discrepanza tra le immagini multivista generate e le viste reali delle forme 3D, progettiamo uno schema di addestramento dipendente dalla vista semplice ma efficiente. MVD^2 migliora la qualità della generazione 3D della MVD ed è veloce e robusto rispetto a vari metodi MVD. Dopo l'addestramento, può decodificare efficientemente mesh 3D da immagini multivista in meno di un secondo. Addestriamo MVD^2 con Zero-123++ e il dataset ObjectVerse-LVIS 3D, dimostrando le sue prestazioni superiori nella generazione di modelli 3D da immagini multivista prodotte da diversi metodi MVD, utilizzando sia immagini sintetiche che reali come prompt.
L'apprendimento per imitazione acquisisce una politica a partire da dimostrazioni senza richiedere funzioni di ricompensa progettate manualmente. In molti compiti robotici, come la guida autonoma, le politiche imitate devono modellare dinamiche ambientali complesse e processi decisionali umani. La modellazione sequenziale è altamente efficace nel catturare schemi intricati di sequenze di movimento, ma fatica ad adattarsi a nuovi ambienti o a cambiamenti di distribuzione, comuni nei compiti robotici del mondo reale. Al contrario, l'Apprendimento per Imitazione Adversarial (AIL) può mitigare questo effetto, ma presenta difficoltà con l'inefficienza campionaria e la gestione di schemi di movimento complessi. Pertanto, proponiamo BeTAIL: Behavior Transformer Adversarial Imitation Learning, che combina una politica Behavior Transformer (BeT) derivata da dimostrazioni umane con AIL online. BeTAIL aggiunge una politica residua AIL alla politica BeT per modellare il processo decisionale sequenziale degli esperti umani e correggere stati fuori distribuzione o cambiamenti nelle dinamiche ambientali. Testiamo BeTAIL su tre sfide con dimostrazioni di livello esperto di gameplay umano reale in Gran Turismo Sport. La nostra proposta residua BeTAIL riduce le interazioni con l'ambiente e migliora le prestazioni e la stabilità nella guida, anche quando il BeT è pre-addestrato su piste diverse rispetto all'apprendimento successivo. Video e codice disponibili su: https://sites.google.com/berkeley.edu/BeTAIL/home.
Presentiamo CyberDemo, un approccio innovativo all'apprendimento per imitazione robotica che sfrutta dimostrazioni umane simulate per compiti nel mondo reale. Incorporando un'ampia augmentazione dei dati in un ambiente simulato, CyberDemo supera le tradizionali dimostrazioni in dominio reale quando trasferito nel mondo fisico, gestendo condizioni fisiche e visive diverse. Nonostante la sua economicità e convenienza nella raccolta dati, CyberDemo supera i metodi di riferimento in termini di tassi di successo su vari compiti e mostra generalizzabilità con oggetti mai visti prima. Ad esempio, è in grado di ruotare nuove valvole tetra e penta, nonostante le dimostrazioni umane coinvolgano solo valvole tri. La nostra ricerca dimostra il significativo potenziale delle dimostrazioni umane simulate per compiti di manipolazione abile nel mondo reale. Ulteriori dettagli sono disponibili all'indirizzo https://cyber-demo.github.io.