Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rapido sviluppo di modelli linguistici di grandi dimensioni ha rivoluzionato l'intelligenza del codice nello sviluppo software. Tuttavia, la predominanza di modelli closed-source ha limitato la ricerca e lo sviluppo su larga scala. Per affrontare questa problematica, presentiamo la serie DeepSeek-Coder, una gamma di modelli di codice open-source con dimensioni che vanno da 1,3B a 33B, addestrati da zero su 2 trilioni di token. Questi modelli sono pre-addestrati su un corpus di codice di alta qualità a livello di progetto e impiegano un'attività di riempimento degli spazi vuoti con una finestra di 16K per migliorare la generazione e il completamento del codice. Le nostre valutazioni estensive dimostrano che DeepSeek-Coder non solo raggiunge prestazioni all'avanguardia tra i modelli di codice open-source su più benchmark, ma supera anche i modelli closed-source esistenti come Codex e GPT-3.5. Inoltre, i modelli DeepSeek-Coder sono rilasciati con una licenza permissiva che consente sia la ricerca che l'uso commerciale senza restrizioni.
Con l'aumento dello shopping online, la capacità per gli acquirenti di visualizzare virtualmente i prodotti nel proprio contesto - un fenomeno che definiamo "Virtual Try-All" - è diventata cruciale. I recenti modelli di diffusione contengono intrinsecamente un modello del mondo, rendendoli adatti a questo compito in un contesto di inpainting. Tuttavia, i tradizionali modelli di diffusione condizionati da immagini spesso non riescono a catturare i dettagli più fini dei prodotti. Al contrario, i modelli guidati dalla personalizzazione come DreamPaint sono bravi a preservare i dettagli dell'oggetto, ma non sono ottimizzati per applicazioni in tempo reale. Presentiamo "Diffuse to Choose", un nuovo modello di inpainting condizionato da immagini basato sulla diffusione che bilancia efficientemente un'inferenza veloce con la conservazione di dettagli ad alta fedeltà in un dato oggetto di riferimento, garantendo al contempo manipolazioni semantiche accurate nel contenuto della scena fornita. Il nostro approccio si basa sull'incorporazione di caratteristiche dettagliate dall'immagine di riferimento direttamente nelle mappe di caratteristiche latenti del modello di diffusione principale, insieme a una perdita percettiva per preservare ulteriormente i dettagli dell'oggetto di riferimento. Abbiamo condotto test approfonditi su dataset interni e pubblicamente disponibili, dimostrando che Diffuse to Choose è superiore ai metodi esistenti di inpainting a diffusione zero-shot, nonché agli algoritmi di personalizzazione a diffusione few-shot come DreamPaint.
In questo lavoro, riesaminiamo le dipendenze inter-patch nel meccanismo di decodifica degli autoencoder mascherati (MAE). Scomponiamo questo meccanismo di decodifica per la ricostruzione di patch mascherate in MAE in self-attention e cross-attention. Le nostre indagini suggeriscono che la self-attention tra le patch mascherate non è essenziale per apprendere rappresentazioni di qualità. A tal fine, proponiamo un nuovo framework di pre-addestramento: Cross-Attention Masked Autoencoders (CrossMAE). Il decoder di CrossMAE sfrutta esclusivamente la cross-attention tra token mascherati e visibili, senza alcuna degradazione delle prestazioni downstream. Questo design consente inoltre di decodificare solo un piccolo sottoinsieme di token mascherati, migliorando l'efficienza. Inoltre, ogni blocco del decoder può ora sfruttare diverse caratteristiche dell'encoder, portando a un miglioramento nell'apprendimento delle rappresentazioni. CrossMAE eguaglia le prestazioni di MAE con un calcolo di decodifica da 2,5 a 3,7 volte inferiore. Supera inoltre MAE nella classificazione su ImageNet e nella segmentazione di istanze su COCO a parità di calcolo. Codice e modelli: https://crossmae.github.io
Nel panorama dinamico della NLP generativa, le tradizionali pipeline di elaborazione del testo limitano la flessibilità e la riproducibilità della ricerca, poiché sono progettate per combinazioni specifiche di dataset, task e modelli. La crescente complessità, che coinvolge prompt di sistema, formati specifici per i modelli, istruzioni e altro, richiede un passaggio verso una soluzione strutturata, modulare e personalizzabile. Per rispondere a questa esigenza, presentiamo Unitxt, una libreria innovativa per la preparazione e la valutazione personalizzabile dei dati testuali, progettata per i modelli linguistici generativi. Unitxt si integra nativamente con librerie comuni come HuggingFace e LM-eval-harness e scompone i flussi di elaborazione in componenti modulari, consentendo una facile personalizzazione e condivisione tra i professionisti. Questi componenti includono formati specifici per i modelli, prompt per i task e molte altre definizioni complete di elaborazione dei dataset. Il Unitxt-Catalog centralizza questi componenti, promuovendo la collaborazione e l'esplorazione nei moderni flussi di lavoro sui dati testuali. Oltre a essere uno strumento, Unitxt è una piattaforma guidata dalla comunità, che consente agli utenti di costruire, condividere e far progredire le proprie pipeline in modo collaborativo. Unisciti alla comunità Unitxt su https://github.com/IBM/unitxt!
La quantizzazione a sei bit (FP6) può ridurre efficacemente le dimensioni dei grandi modelli linguistici (LLM) e preservare la qualità del modello in modo coerente in varie applicazioni. Tuttavia, i sistemi esistenti non forniscono supporto per i Tensor Core nella quantizzazione FP6 e faticano a ottenere miglioramenti pratici nelle prestazioni durante l'inferenza degli LLM. È complesso supportare la quantizzazione FP6 sulle GPU a causa di (1) accesso alla memoria non ottimizzato per i pesi del modello con larghezza di bit irregolare e (2) elevato overhead runtime nella de-quantizzazione dei pesi. Per affrontare questi problemi, proponiamo TC-FPx, il primo schema di progettazione di kernel GPU full-stack con supporto unificato dei Tensor Core per pesi in virgola mobile con varie larghezze di bit di quantizzazione. Integriamo il kernel TC-FPx in un sistema di inferenza esistente, fornendo un nuovo supporto end-to-end (chiamato FP6-LLM) per l'inferenza di LLM quantizzati, dove si ottengono migliori compromessi tra costo di inferenza e qualità del modello. Gli esperimenti dimostrano che FP6-LLM consente l'inferenza di LLaMA-70b utilizzando una sola GPU, raggiungendo un throughput di inferenza normalizzato da 1,69x a 2,65x superiore rispetto alla baseline FP16. Il codice sorgente sarà presto disponibile pubblicamente.
In questo studio, esaminiamo le capacità di apprendimento di rappresentazioni dei Modelli di Diffusione Denoising (DDM), originariamente progettati per la generazione di immagini. La nostra filosofia consiste nel decostruire un DDM, trasformandolo gradualmente in un classico Denoising Autoencoder (DAE). Questa procedura decostruttiva ci permette di esplorare come i vari componenti dei moderni DDM influenzano l'apprendimento auto-supervisionato di rappresentazioni. Osserviamo che solo pochissimi componenti moderni sono cruciali per apprendere buone rappresentazioni, mentre molti altri sono non essenziali. Il nostro studio arriva infine a un approccio altamente semplificato che, in larga misura, assomiglia a un classico DAE. Speriamo che il nostro studio possa ravvivare l'interesse per una famiglia di metodi classici nell'ambito del moderno apprendimento auto-supervisionato.
Proponiamo di migliorare i transformer di una specifica modalità utilizzando dati irrilevanti provenienti da altre modalità, ad esempio migliorare un modello ImageNet con dataset audio o di nuvole di punti. Vorremmo sottolineare che i campioni di dati della modalità target sono irrilevanti rispetto alle altre modalità, il che distingue il nostro metodo da altri lavori che utilizzano dati accoppiati (ad esempio, CLIP) o intervallati di diverse modalità. Proponiamo una metodologia denominata Multimodal Pathway: data una modalità target e un transformer progettato per essa, utilizziamo un transformer ausiliario addestrato con dati di un'altra modalità e costruiamo percorsi per collegare i componenti dei due modelli in modo che i dati della modalità target possano essere elaborati da entrambi i modelli. In questo modo, sfruttiamo le capacità universali di modellazione sequenza-a-sequenza dei transformer ottenute da due modalità. Come implementazione concreta, utilizziamo un tokenizer specifico per la modalità e una testa specifica per il compito come di consueto, ma sfruttiamo i blocchi transformer del modello ausiliario attraverso un metodo proposto chiamato Cross-Modal Re-parameterization, che sfrutta i pesi ausiliari senza alcun costo di inferenza. Sui compiti di riconoscimento di immagini, nuvole di punti, video e audio, osserviamo miglioramenti significativi e consistenti delle prestazioni con dati irrilevanti provenienti da altre modalità. Il codice e i modelli sono disponibili all'indirizzo https://github.com/AILab-CVC/M2PT.
Presentiamo pix2gestalt, un framework per la segmentazione amodale zero-shot, che apprende a stimare la forma e l'aspetto di oggetti interi che sono solo parzialmente visibili dietro occlusioni. Sfruttando modelli di diffusione su larga scala e trasferendo le loro rappresentazioni a questo compito, apprendiamo un modello di diffusione condizionale per ricostruire oggetti interi in casi zero-shot complessi, inclusi esempi che violano priorità naturali e fisiche, come l'arte. Come dati di addestramento, utilizziamo un dataset sinteticamente curato contenente oggetti occlusi accoppiati con le loro controparti complete. Gli esperimenti dimostrano che il nostro approccio supera i baseline supervisionati su benchmark consolidati. Il nostro modello può inoltre essere utilizzato per migliorare significativamente le prestazioni dei metodi esistenti di riconoscimento degli oggetti e ricostruzione 3D in presenza di occlusioni.
L'implementazione di robot in ambienti aperti e non strutturati, come le abitazioni, rappresenta un problema di ricerca di lunga data. Tuttavia, i robot sono spesso studiati solo in ambienti di laboratorio chiusi, e i precedenti lavori sulla manipolazione mobile si limitano a operazioni di prelievo-spostamento-posizionamento, che rappresentano solo la punta dell'iceberg in questo campo. In questo articolo, introduciamo il Sistema di Manipolazione Mobile in Mondo Aperto, un approccio full-stack per affrontare l'operazione realistica di oggetti articolati, come porte, armadi, cassetti e frigoriferi nel mondo reale, in ambienti aperti e non strutturati. Il robot utilizza un framework di apprendimento adattivo per apprendere inizialmente da un piccolo set di dati attraverso la clonazione comportamentale, seguito dall'apprendimento tramite pratica online su nuovi oggetti che esulano dalla distribuzione di addestramento. Abbiamo anche sviluppato una piattaforma hardware per la manipolazione mobile a basso costo, capace di adattamento autonomo e sicuro in ambienti non strutturati, con un costo di circa 20.000 USD. Nei nostri esperimenti, utilizziamo 20 oggetti articolati in 4 edifici del campus della CMU. Con meno di un'ora di apprendimento online per ogni oggetto, il sistema è in grado di aumentare il tasso di successo dal 50% del pre-addestramento con clonazione comportamentale al 95% utilizzando l'adattamento online. I risultati video sono disponibili su https://open-world-mobilemanip.github.io/
La mancanza di dati di alta qualità per i task di generazione basata su contenuti è stata identificata come un ostacolo significativo per il progresso in queste attività. Per colmare questa lacuna, proponiamo Genie, un metodo innovativo per generare automaticamente dati di alta qualità basati su contenuti. Il metodo si articola in tre fasi: (a) Preparazione del contenuto, (b) Generazione: creazione di esempi specifici per il task a partire dal contenuto (ad esempio, coppie domanda-risposta o riassunti). (c) Meccanismo di filtraggio volto a garantire la qualità e la fedeltà dei dati generati. Dimostriamo questa metodologia generando tre ampi dataset sintetici, con l'obiettivo di migliorare il Long-Form Question-Answering (LFQA), la summarization e l'estrazione di informazioni. In una valutazione umana, i nostri dati generati sono risultati naturali e di alta qualità. Inoltre, confrontiamo modelli addestrati sui nostri dati con modelli addestrati su dati scritti da esseri umani — ELI5 e ASQA per LFQA e CNN-DailyMail per la summarization. Mostriamo che i nostri modelli sono pari o superiori ai modelli addestrati su dati generati da esseri umani e li superano costantemente in termini di fedeltà. Infine, abbiamo applicato il nostro metodo per creare dati LFQA nel dominio medico e confrontato un modello addestrato su questi dati con modelli addestrati su altri domini.