Articoli di ricerca IA selezionati quotidianamente con traduzioni
Indaghiamo fino a che punto i moderni Modelli Linguistici di Grande Dimensione (LLM) siano in grado di impegnarsi nell'esplorazione, una capacità fondamentale nell'apprendimento per rinforzo e nel processo decisionale. Ci concentriamo sulle prestazioni native degli LLM esistenti, senza interventi di addestramento. Utilizziamo gli LLM come agenti in semplici ambienti di bandit multi-braccio, specificando la descrizione dell'ambiente e la cronologia delle interazioni interamente in-context, ovvero all'interno del prompt dell'LLM. Sperimentiamo con GPT-3.5, GPT-4 e Llama2, utilizzando una varietà di progettazioni di prompt, e scopriamo che i modelli non si impegnano in modo robusto nell'esplorazione senza interventi sostanziali: i) In tutti i nostri esperimenti, solo una configurazione ha prodotto un comportamento esplorativo soddisfacente: GPT-4 con ragionamento a catena di pensiero e una cronologia delle interazioni riassunta esternamente, presentata come statistiche sufficienti; ii) Tutte le altre configurazioni non hanno prodotto un comportamento esplorativo robusto, comprese quelle con ragionamento a catena di pensiero ma con cronologia non riassunta. Sebbene questi risultati possano essere interpretati positivamente, suggeriscono che il riassunto esterno -- che potrebbe non essere possibile in contesti più complessi -- è importante per ottenere un comportamento desiderabile dagli agenti LLM. Concludiamo che potrebbero essere necessari interventi algoritmici non banali, come il fine-tuning o la cura del dataset, per potenziare gli agenti decisionali basati su LLM in contesti complessi.
Presentiamo InternVideo2, un nuovo modello di base per video (ViFM) che raggiunge prestazioni all'avanguardia nel riconoscimento di azioni, in compiti video-testo e nel dialogo centrato sui video. Il nostro approccio adotta un paradigma di addestramento progressivo che unifica diversi framework di apprendimento auto-supervisionato o debolmente supervisionato, tra cui la ricostruzione di token video mascherati, l'apprendimento contrastivo cross-modale e la previsione del token successivo. Le diverse fasi di addestramento guidano il nostro modello a catturare diversi livelli di informazioni strutturali e semantiche attraverso diversi compiti preliminari. A livello di dati, priorizziamo la coerenza spaziotemporale segmentando semanticamente i video e generando didascalie video-audio-parlato. Ciò migliora l'allineamento tra video e testo. Scaliamo sia la quantità di dati che le dimensioni del modello per il nostro InternVideo2. Attraverso esperimenti estesi, validiamo le nostre scelte progettuali e dimostriamo prestazioni all'avanguardia su oltre 60 compiti video e audio. In particolare, il nostro modello supera gli altri su vari benchmark relativi alla creazione di didascalie, al dialogo e alla comprensione di video lunghi, evidenziando la sua capacità di ragionare e comprendere contesti temporali estesi. Codice e modelli sono disponibili su https://github.com/OpenGVLab/InternVideo2/.
I modelli linguistici pre-addestrati di grandi dimensioni (LLM) rappresentano attualmente lo stato dell'arte per risolvere la maggior parte dei compiti di elaborazione del linguaggio naturale. Sebbene molte applicazioni del mondo reale richiedano ancora un fine-tuning per raggiungere livelli di prestazione soddisfacenti, molte di esse operano in contesti con dati limitati, rendendo il fine-tuning una sfida. Per affrontare questo problema, proponiamo LLM2LLM, una strategia di aumento dei dati mirata e iterativa che utilizza un LLM insegnante per arricchire un piccolo dataset iniziale, generando dati aggiuntivi che possono essere utilizzati per il fine-tuning su un compito specifico. LLM2LLM (1) esegue il fine-tuning di un LLM studente di base sui dati iniziali, (2) valuta ed estrae i punti dati che il modello classifica erroneamente, e (3) utilizza un LLM insegnante per generare dati sintetici basati su questi punti dati errati, che vengono poi reinseriti nel dataset di addestramento. Questo approccio amplifica il segnale proveniente dai punti dati predetti in modo errato dall'LLM durante l'addestramento e li reintegra nel dataset per concentrarsi su esempi più complessi per l'LLM. I nostri risultati dimostrano che LLM2LLM migliora significativamente le prestazioni degli LLM in contesti con dati limitati, superando sia il fine-tuning tradizionale che altre tecniche di aumento dei dati. LLM2LLM riduce la dipendenza dalla curatela dei dati, spesso laboriosa, e apre la strada a soluzioni LLM più scalabili e performanti, consentendoci di affrontare domini e compiti con vincoli di dati. Raggiungiamo miglioramenti fino al 24,2% sul dataset GSM8K, 32,6% su CaseHOLD, 32,0% su SNIPS, 52,6% su TREC e 39,8% su SST-2 rispetto al fine-tuning regolare in contesti con dati limitati, utilizzando un modello studente LLaMA2-7B.
In questo studio, introduciamo una metodologia per l'animazione di immagini umane sfruttando un modello parametrico umano 3D all'interno di un framework di diffusione latente per migliorare l'allineamento della forma e la guida del movimento nelle attuali tecniche generative umane. La metodologia utilizza il modello SMPL (Skinned Multi-Person Linear) come modello parametrico umano 3D per stabilire una rappresentazione unificata della forma del corpo e della postura. Ciò facilita la cattura accurata della geometria umana complessa e delle caratteristiche del movimento dai video sorgente. Nello specifico, incorporiamo immagini di profondità renderizzate, mappe normali e mappe semantiche ottenute dalle sequenze SMPL, insieme alla guida del movimento basata sullo scheletro, per arricchire le condizioni del modello di diffusione latente con una forma 3D completa e attributi dettagliati della postura. Un modulo di fusione del movimento multi-strato, che integra meccanismi di self-attention, viene impiegato per fondere le rappresentazioni latenti della forma e del movimento nel dominio spaziale. Rappresentando il modello parametrico umano 3D come guida del movimento, possiamo eseguire l'allineamento parametrico della forma del corpo tra l'immagine di riferimento e il movimento del video sorgente. Le valutazioni sperimentali condotte su dataset di riferimento dimostrano la capacità superiore della metodologia di generare animazioni umane di alta qualità che catturano accuratamente sia le variazioni di postura che di forma. Inoltre, il nostro approccio mostra anche capacità di generalizzazione superiori sul dataset wild proposto. Pagina del progetto: https://fudan-generative-vision.github.io/champ.
Le applicazioni nel mondo reale spesso richiedono una vasta raccolta di asset 3D che condividono un tema coerente. Sebbene siano stati compiuti progressi significativi nella creazione generale di contenuti 3D a partire da testo o immagini, la sintesi di asset 3D personalizzati che seguano il tema condiviso di esemplari 3D di input rimane un problema aperto e complesso. In questo lavoro, presentiamo ThemeStation, un approccio innovativo per la generazione 3D-to-3D consapevole del tema. ThemeStation sintetizza asset 3D personalizzati basandosi su pochi esemplari forniti, con due obiettivi: 1) unità, per generare asset 3D che si allineano tematicamente con gli esemplari forniti, e 2) diversità, per generare asset 3D con un alto grado di variazioni. A tal fine, progettiamo un framework a due stadi che prima disegna un'immagine concettuale, seguito da una fase di modellazione 3D informata da riferimenti. Proponiamo una nuova funzione di perdita a distillazione a doppio punteggio (DSD) per sfruttare congiuntamente i priori sia dagli esemplari di input che dall'immagine concettuale sintetizzata. Esperimenti estesi e studi sugli utenti confermano che ThemeStation supera i lavori precedenti nella produzione di modelli 3D consapevoli del tema con una qualità impressionante. ThemeStation abilita anche varie applicazioni, come la generazione controllata 3D-to-3D.
In questo articolo, proponiamo VidLA, un approccio per l'allineamento video-linguaggio su larga scala. Esistono due principali limitazioni negli approcci precedenti di allineamento video-linguaggio. In primo luogo, non catturano le dipendenze temporali sia a breve che a lungo raggio e tipicamente impiegano architetture di reti neurali profonde gerarchiche complesse, difficili da integrare con i modelli foundation pre-addestrati immagine-testo esistenti. Per affrontare efficacemente questa limitazione, manteniamo invece l'architettura della rete semplice e utilizziamo un insieme di token di dati che operano a diverse risoluzioni temporali in modo gerarchico, tenendo conto della natura temporalmente gerarchica dei video. Utilizzando una semplice architettura a due torri, siamo in grado di inizializzare il nostro modello video-linguaggio con modelli foundation pre-addestrati immagine-testo, migliorando così le prestazioni finali. In secondo luogo, i lavori esistenti sull'allineamento video-linguaggio faticano a causa della mancanza di dati di addestramento su larga scala semanticamente allineati. Per superare questo problema, sfruttiamo i recenti LLM per curare il più grande dataset video-linguaggio fino ad oggi con un migliore grounding visivo. Inoltre, a differenza dei dataset video-testo esistenti che contengono solo clip brevi, il nostro dataset è arricchito con clip video di durata variabile per aiutare i nostri token di dati gerarchici temporali a estrarre rappresentazioni migliori a diverse scale temporali. Nel complesso, i risultati empirici mostrano che il nostro approccio proposto supera i metodi all'avanguardia su molteplici benchmark di retrieval, specialmente su video più lunghi, e si comporta in modo competitivo sui benchmark di classificazione.
I Transformer hanno ampiamente adottato reti di attenzione per il mixing di sequenze e MLP per il mixing di canali, svolgendo un ruolo cruciale nel raggiungimento di progressi in vari domini. Tuttavia, la letteratura recente evidenzia problemi legati alle reti di attenzione, tra cui un basso bias induttivo e una complessità quadratica rispetto alla lunghezza della sequenza di input. I Modelli di Stato Spaziale (SSM) come S4 e altri (Hippo, Global Convolutions, liquid S4, LRU, Mega e Mamba) sono emersi per affrontare tali problematiche, aiutando a gestire sequenze più lunghe. Mamba, pur essendo lo SSM più avanzato, presenta problemi di stabilità quando scalato su reti di grandi dimensioni per dataset di computer vision. Proponiamo SiMBA, una nuova architettura che introduce l'Einstein FFT (EinFFT) per la modellazione dei canali attraverso specifici calcoli di autovalori e utilizza il blocco Mamba per la modellazione delle sequenze. Studi approfonditi sulle prestazioni su benchmark di immagini e serie temporali dimostrano che SiMBA supera gli SSM esistenti, colmando il divario di prestazioni con i Transformer più avanzati. In particolare, SiMBA si afferma come il nuovo SSM più avanzato su ImageNet e benchmark di transfer learning come Stanford Car e Flower, nonché su benchmark di task learning e sette dataset di serie temporali. La pagina del progetto è disponibile su questo sito ~https://github.com/badripatro/Simba.
Presentiamo DragAPart, un metodo che, data un'immagine e una serie di trascinamenti come input, è in grado di generare una nuova immagine dello stesso oggetto in un nuovo stato, compatibile con l'azione dei trascinamenti. A differenza dei lavori precedenti che si concentravano sul riposizionamento degli oggetti, DragAPart prevede interazioni a livello di parti, come aprire e chiudere un cassetto. Studiamo questo problema come un proxy per l'apprendimento di un modello di movimento generalista, non limitato a una specifica struttura cinematica o categoria di oggetti. A tal fine, partiamo da un generatore di immagini pre-addestrato e lo perfezioniamo su un nuovo dataset sintetico, Drag-a-Move, che introduciamo. Combinato con una nuova codifica per i trascinamenti e la randomizzazione del dataset, il nuovo modello generalizza bene a immagini reali e diverse categorie. Rispetto ai generatori controllati dal movimento precedenti, dimostriamo una comprensione molto migliore del movimento a livello di parti.
I moderni Large Language Models (LLM) sono in grado di seguire istruzioni lunghe e complesse che abilitano una vasta gamma di attività utente. Tuttavia, nonostante i modelli di Information Retrieval (IR) utilizzino gli LLM come base delle loro architetture, quasi tutti accettano ancora solo query come input, senza istruzioni. Per i pochi modelli recenti che accettano istruzioni, non è chiaro come le utilizzino. Introduciamo il nostro dataset FollowIR, che include un rigoroso benchmark di valutazione delle istruzioni e un set di addestramento per aiutare i modelli IR a imparare a seguire meglio le istruzioni del mondo reale. FollowIR si basa sulla lunga storia delle conferenze TREC: poiché TREC fornisce agli annotatori umani delle istruzioni (note anche come narrative) per determinare la rilevanza dei documenti, allo stesso modo i modelli IR dovrebbero essere in grado di comprendere e decidere la rilevanza basandosi su queste istruzioni dettagliate. Il nostro benchmark di valutazione parte da tre collezioni TREC giudicate in profondità e modifica le istruzioni degli annotatori, ri-annotando i documenti rilevanti. Attraverso questo processo, possiamo misurare quanto bene i modelli IR seguono le istruzioni, utilizzando un nuovo framework di valutazione a coppie. I nostri risultati indicano che i modelli di retrieval esistenti non riescono a utilizzare correttamente le istruzioni, limitandosi a estrarre parole chiave di base e trovando difficoltà a comprendere informazioni lunghe e articolate. Tuttavia, dimostriamo che è possibile per i modelli IR imparare a seguire istruzioni complesse: il nostro nuovo modello FollowIR-7B mostra miglioramenti significativi (oltre il 13%) dopo il fine-tuning sul nostro set di addestramento.
Il feedback verbatim costituisce un prezioso archivio di esperienze, opinioni e requisiti degli utenti, essenziali per lo sviluppo del software. Estrarre in modo efficace ed efficiente informazioni utili da tali dati rappresenta un compito impegnativo. Questo articolo introduce Allhands, un innovativo framework analitico progettato per l'analisi su larga scala del feedback attraverso un'interfaccia in linguaggio naturale, sfruttando i grandi modelli linguistici (LLM). Allhands segue un flusso di lavoro convenzionale per l'analisi del feedback, iniziando con la classificazione e la modellazione degli argomenti sui feedback per convertirli in un formato strutturalmente arricchito, incorporando gli LLM per migliorare accuratezza, robustezza, generalizzazione e facilità d'uso. Successivamente, un agente LLM viene impiegato per interpretare le diverse domande degli utenti in linguaggio naturale sui feedback, tradurle in codice Python per l'esecuzione e fornire risposte multimodali complete, inclusi testo, codice, tabelle e immagini. Valutiamo Allhands su tre diversi dataset di feedback. Gli esperimenti dimostrano che Allhands raggiunge un'efficacia superiore in tutte le fasi dell'analisi, inclusa la classificazione e la modellazione degli argomenti, offrendo infine agli utenti un'esperienza "chiedimi qualsiasi cosa" con risposte complete, corrette e di facile lettura. Per quanto ne sappiamo, Allhands rappresenta il primo framework completo per l'analisi del feedback che supporta requisiti diversificati e personalizzati per l'estrazione di insight attraverso un'interfaccia in linguaggio naturale.
I recenti approcci di generazione da testo a 3D producono risultati 3D impressionanti, ma richiedono un'ottimizzazione dispendiosa in termini di tempo che può richiedere fino a un'ora per prompt. Metodi ammortizzati come ATT3D ottimizzano più prompt simultaneamente per migliorare l'efficienza, consentendo una sintesi rapida da testo a 3D. Tuttavia, non riescono a catturare dettagli geometrici e di texture ad alta frequenza e faticano a scalare su grandi set di prompt, generalizzando in modo insufficiente. Introduciamo LATTE3D, affrontando queste limitazioni per ottenere una generazione rapida e di alta qualità su un set di prompt significativamente più ampio. Elemento chiave del nostro metodo è 1) la costruzione di un'architettura scalabile e 2) lo sfruttamento di dati 3D durante l'ottimizzazione attraverso prior di diffusione 3D-aware, regolarizzazione della forma e inizializzazione del modello per ottenere robustezza rispetto a prompt di addestramento complessi e diversificati. LATTE3D ammortizza sia la generazione di campi neurali che di superfici texturizzate per produrre mesh texturizzate altamente dettagliate in un singolo passaggio in avanti. LATTE3D genera oggetti 3D in 400ms e può essere ulteriormente migliorato con una rapida ottimizzazione al momento del test.
Introduciamo un nuovo paradigma nell'ottimizzazione dei compilatori basato su Modelli Linguistici di Grande Dimensione (LLM) con feedback del compilatore per ottimizzare le dimensioni del codice dell'assembly LLVM. Il modello prende come input un LLVM IR non ottimizzato e produce un IR ottimizzato, i migliori passaggi di ottimizzazione e i conteggi delle istruzioni sia per il IR non ottimizzato che per quello ottimizzato. Successivamente, compiliamo l'input con i passaggi di ottimizzazione generati e valutiamo se il conteggio delle istruzioni previsto è corretto, se il IR generato è compilabile e se corrisponde al codice compilato. Forniamo questo feedback al LLM e gli diamo un'altra opportunità di ottimizzare il codice. Questo approccio aggiunge un miglioramento aggiuntivo dello 0,53% rispetto a -Oz rispetto al modello originale. Nonostante l'aggiunta di ulteriori informazioni tramite feedback possa sembrare intuitiva, semplici tecniche di campionamento raggiungono prestazioni molto più elevate con 10 o più campioni.