Articoli di ricerca IA selezionati quotidianamente con traduzioni
I metodi della chimica quantistica computazionale forniscono approssimazioni accurate delle proprietà molecolari cruciali per la scoperta di farmaci assistita da computer e altre aree delle scienze chimiche. Tuttavia, l'elevata complessità computazionale limita la scalabilità delle loro applicazioni. I potenziali di rete neurale (NNP) rappresentano una promettente alternativa ai metodi della chimica quantica, ma richiedono grandi e diversificati dataset per l'addestramento. Questo lavoro presenta un nuovo dataset e benchmark chiamato nabla^2DFT, basato su nablaDFT. Esso contiene il doppio delle strutture molecolari, il triplo delle conformazioni, nuovi tipi di dati e task, e modelli all'avanguardia. Il dataset include energie, forze, 17 proprietà molecolari, matrici hamiltoniane e di sovrapposizione, e un oggetto funzione d'onda. Tutti i calcoli sono stati eseguiti a livello DFT (omegaB97X-D/def2-SVP) per ogni conformazione. Inoltre, nabla^2DFT è il primo dataset che contiene traiettorie di rilassamento per un numero significativo di molecole simili a farmaci. Introduciamo anche un nuovo benchmark per valutare gli NNP nella previsione delle proprietà molecolari, nella previsione dell'hamiltoniano e nei task di ottimizzazione conformazionale. Infine, proponiamo un framework estendibile per l'addestramento degli NNP e implementiamo 10 modelli al suo interno.
Il pre-training multitask non supervisionato è stato il metodo cruciale dietro il recente successo dei modelli linguistici (LM). Tuttavia, l'apprendimento multitask supervisionato mantiene ancora un potenziale significativo, poiché il suo ridimensionamento nella fase post-training tende a favorire una migliore generalizzazione. In questo articolo, esploriamo il pre-training multitask supervisionato proponendo l'Instruction Pre-Training, un framework che amplia in modo scalabile enormi corpora grezzi con coppie istruzione-risposta per pre-addestrare i LM. Le coppie istruzione-risposta sono generate da un sintetizzatore di istruzioni efficiente basato su modelli open-source. Nei nostri esperimenti, sintetizziamo 200 milioni di coppie istruzione-risposta che coprono oltre 40 categorie di task per verificare l'efficacia dell'Instruction Pre-Training. Nel pre-training da zero, l'Instruction Pre-Training non solo migliora costantemente i modelli base pre-addestrati, ma trae anche maggior beneficio da un ulteriore tuning delle istruzioni. Nel pre-training continuo, l'Instruction Pre-Training consente a Llama3-8B di essere paragonabile o addirittura superare Llama3-70B. Il nostro modello, codice e dati sono disponibili su https://github.com/microsoft/LMOps.
Il compito di manipolare gli attributi delle immagini reali attraverso l'inversione di StyleGAN è stato ampiamente studiato. Questo processo implica la ricerca di variabili latenti da un generatore StyleGAN ben addestrato che possa sintetizzare un'immagine reale, la modifica di queste variabili latenti e quindi la sintesi di un'immagine con le modifiche desiderate. È necessario trovare un equilibrio tra la qualità della ricostruzione e la capacità di modifica. Studi precedenti hanno utilizzato lo spazio W a bassa dimensionalità per la ricerca latente, che ha facilitato modifiche efficaci ma ha incontrato difficoltà nella ricostruzione di dettagli intricati. Ricerche più recenti si sono rivolte allo spazio delle caratteristiche F ad alta dimensionalità, che inverte con successo l'immagine di input ma perde molti dettagli durante la modifica. In questo articolo, introduciamo StyleFeatureEditor -- un metodo innovativo che consente la modifica sia nei latenti w che nei latenti F. Questa tecnica non solo permette la ricostruzione di dettagli più fini dell'immagine, ma ne garantisce anche la preservazione durante la modifica. Presentiamo inoltre una nuova pipeline di addestramento specificamente progettata per addestrare il nostro modello a modificare accuratamente i latenti F. Il nostro metodo viene confrontato con approcci di codifica all'avanguardia, dimostrando che il nostro modello eccelle in termini di qualità di ricostruzione ed è in grado di modificare anche esempi complessi fuori dominio. Il codice è disponibile all'indirizzo https://github.com/AIRI-Institute/StyleFeatureEditor.
I priori umani svolgono un ruolo cruciale nell'utilizzo efficiente dei dati nel deep learning. Tuttavia, con lo sviluppo dei grandi modelli linguistici (LLM), si sta ponendo sempre più enfasi sulla scalabilità sia delle dimensioni del modello che del volume dei dati, il che spesso riduce l'importanza dei priori umani nella costruzione dei dati. Influenzati da queste tendenze, i piccoli modelli linguistici (SLM) esistenti si basano principalmente su dati di addestramento su larga scala raccolti dal web, trascurando un'adeguata incorporazione dei priori umani. Questa omissione limita l'efficienza dell'addestramento dei modelli linguistici in contesti con risorse limitate. In questo articolo, proponiamo un principio per sfruttare i priori umani nella costruzione dei dati. Questo principio enfatizza il raggiungimento di SLM ad alte prestazioni addestrandoli su un dataset conciso che bilancia la diversità semantica e la coerenza della qualità dei dati, evitando al contempo la fuoriuscita di dati di benchmark. Seguendo questo principio, abbiamo addestrato un SLM denominato HARE-1.1B. Esperimenti estesi su dataset di benchmark su larga scala dimostrano che HARE-1.1B si comporta favorevolmente rispetto agli SLM all'avanguardia, validando l'efficacia del principio proposto. Inoltre, ciò fornisce nuove intuizioni sull'addestramento efficiente dei modelli linguistici in ambienti con risorse limitate dal punto di vista dei priori umani.
I modelli linguistici visivi (VLMs) dimostrano una notevole competenza nell'affrontare un'ampia gamma di domande visive, il che richiede forti capacità di percezione e ragionamento. Valutare queste due competenze in modo indipendente è cruciale per il perfezionamento del modello, nonostante la difficoltà intrinseca dovuta alla natura intrecciata della visione e del ragionamento nei VLMs esistenti. Per affrontare questo problema, presentiamo Prism, un framework innovativo progettato per separare i processi di percezione e ragionamento coinvolti nella risoluzione di domande visive. Prism comprende due fasi distinte: una fase di percezione che utilizza un VLM per estrarre e articolare le informazioni visive in forma testuale, e una fase di ragionamento che formula risposte basate sulle informazioni visive estratte utilizzando un modello linguistico di grandi dimensioni (LLM). Questo design modulare consente il confronto sistematico e la valutazione sia dei VLMs proprietari che di quelli open-source per i loro punti di forza in termini di percezione e ragionamento. Il nostro framework analitico fornisce diverse intuizioni preziose, sottolineando il potenziale di Prism come soluzione economica per i compiti di visione e linguaggio. Combinando un VLM semplificato focalizzato sulla percezione con un potente LLM ottimizzato per il ragionamento, Prism ottiene risultati superiori nei compiti generali di visione e linguaggio, riducendo sostanzialmente i costi di formazione e operativi. Le valutazioni quantitative mostrano che Prism, configurato con un semplice LLaVA da 2B e il liberamente accessibile GPT-3.5, offre prestazioni paragonabili a VLMs 10 volte più grandi sul rigoroso benchmark multimodale MMStar. Il progetto è disponibile all'indirizzo: https://github.com/SparksJoe/Prism.
L'avvento dei grandi modelli visione-linguaggio (LVLM) ha stimolato la ricerca sulle loro applicazioni in contesti multimodali, in particolare nella comprensione video. I tradizionali benchmark VideoQA, nonostante forniscano metriche quantitative, spesso non riescono a coprire l'intero spettro dei contenuti video e valutano in modo inadeguato la comprensione temporale dei modelli. Per affrontare queste limitazioni, introduciamo MMBench-Video, un benchmark quantitativo progettato per valutare rigorosamente la competenza degli LVLM nella comprensione video. MMBench-Video incorpora video lunghi da YouTube e utilizza domande a risposta libera, riflettendo casi d'uso pratici. Il benchmark è stato meticolosamente progettato per sondare le capacità di ragionamento temporale dei modelli, con tutte le domande annotate manualmente secondo una tassonomia delle abilità accuratamente costruita. Utilizziamo GPT-4 per la valutazione automatizzata, dimostrando una precisione e robustezza superiori rispetto alle precedenti valutazioni basate su LLM. Utilizzando MMBench-Video, abbiamo condotto valutazioni complete che includono sia LVLM proprietari che open-source per immagini e video. MMBench-Video si pone come una risorsa preziosa per la comunità di ricerca, facilitando una migliore valutazione degli LVLM e catalizzando i progressi nel campo della comprensione video. Il codice di valutazione di MMBench-Video sarà integrato in VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
La fusione di Large Language Models (LLM) è una tecnica economicamente vantaggiosa per combinare più LLM esperti in un unico modello versatile, preservando le competenze degli originali. Tuttavia, gli approcci attuali spesso trascurano l'importanza dell'allineamento alla sicurezza durante la fusione, portando a modelli fortemente disallineati. Questo lavoro indaga gli effetti della fusione di modelli sull'allineamento. Valutiamo diverse tecniche popolari di fusione di modelli, dimostrando che i metodi esistenti non solo trasferiscono competenze specifiche del dominio, ma propagano anche il disallineamento. Proponiamo un semplice approccio in due fasi per affrontare questo problema: (i) generazione di dati sintetici relativi alla sicurezza e specifici del dominio, e (ii) integrazione di questi dati generati nel processo di ottimizzazione delle tecniche esistenti di fusione di modelli basate sui dati. Ciò ci permette di trattare l'allineamento come una competenza che può essere massimizzata nel LLM risultante dalla fusione. I nostri esperimenti dimostrano l'efficacia dell'integrazione di dati relativi all'allineamento durante la fusione, ottenendo modelli che eccellono sia nelle competenze specifiche del dominio che nell'allineamento.
Quando si trovano di fronte a domande che richiedono pensiero visivo, gli esseri umani passano naturalmente a modalità di ragionamento diverse, spesso formando immagini mentali o disegnando ausili visivi. I grandi modelli linguistici hanno mostrato risultati promettenti nel ragionamento aritmetico e simbolico esprimendo il ragionamento intermedio in testo come una catena di pensiero, ma faticano ad estendere questa capacità per rispondere a query testuali che vengono facilmente risolte attraverso il ragionamento visivo, anche con un ampio pre-addestramento multimodale. Introduciamo un metodo semplice, il prompting "whiteboard-of-thought", per sbloccare le capacità di ragionamento visivo dei grandi modelli linguistici multimodali attraverso diverse modalità. Il prompting "whiteboard-of-thought" fornisce ai grandi modelli linguistici multimodali una "lavagna" metaforica per disegnare i passaggi del ragionamento come immagini, per poi restituire queste immagini al modello per un'ulteriore elaborazione. Abbiamo scoperto che questo può essere realizzato senza dimostrazioni o moduli specializzati, sfruttando invece la capacità esistente dei modelli di scrivere codice con librerie come Matplotlib e Turtle. Questo approccio semplice mostra risultati all'avanguardia in quattro difficili compiti di linguaggio naturale che coinvolgono il ragionamento visivo e spaziale. Identifichiamo molteplici contesti in cui GPT-4o utilizzando la catena di pensiero fallisce in modo drammatico, incluso più di un caso in cui raggiunge una precisione dello 0%, mentre il "whiteboard-of-thought" consente una precisione fino al 92% negli stessi contesti. Presentiamo un'analisi dettagliata di dove la tecnica ha successo e delle sue fonti di errore.
La distillazione di diffusione rappresenta una direzione estremamente promettente per ottenere una generazione fedele da testo a immagine in pochi passaggi di campionamento. Tuttavia, nonostante i recenti successi, i modelli distillati esistenti non offrono ancora l'intero spettro delle capacità di diffusione, come l'inversione di immagini reali, che abilita molti metodi precisi di manipolazione delle immagini. Questo lavoro mira ad arricchire i modelli di diffusione distillati da testo a immagine con la capacità di codificare efficacemente immagini reali nel loro spazio latente. A tal fine, introduciamo la Distillazione di Consistenza Invertibile (iCD), un framework generalizzato di distillazione di consistenza che facilita sia la sintesi di immagini di alta qualità che la codifica accurata delle immagini in soli 3-4 passaggi di inferenza. Sebbene il problema dell'inversione per i modelli di diffusione da testo a immagine sia aggravato da alti valori di guida senza classificatore, notiamo che una guida dinamica riduce significativamente gli errori di ricostruzione senza un degrado evidente nelle prestazioni di generazione. Di conseguenza, dimostriamo che l'iCD equipaggiata con guida dinamica può servire come uno strumento altamente efficace per l'editing di immagini guidato da testo in modalità zero-shot, competendo con alternative più costose all'avanguardia.
I compiti di estrazione delle informazioni richiedono modelli accurati, efficienti e generalizzabili. Gli approcci classici di deep learning supervisionato possono raggiungere le prestazioni necessarie, ma hanno bisogno di grandi dataset e sono limitati nella loro capacità di adattarsi a diversi compiti. D'altro canto, i grandi modelli linguistici (LLM) dimostrano una buona generalizzazione, il che significa che possono adattarsi a molti compiti diversi in base alle richieste dell'utente. Tuttavia, gli LLM sono computazionalmente costosi e tendono a fallire nella generazione di output strutturati. In questo articolo, introdurremo un nuovo tipo di modello GLiNER che può essere utilizzato per vari compiti di estrazione delle informazioni pur essendo un piccolo modello di codifica. Il nostro modello ha raggiunto prestazioni SoTA su benchmark NER zero-shot e prestazioni leader nei compiti di risposta alle domande, riassunto ed estrazione di relazioni. Inoltre, in questo articolo, copriremo i risultati sperimentali sugli approcci di auto-apprendimento per il riconoscimento di entità nominate utilizzando modelli GLiNER.
I recenti progressi nei Modelli Multimodali di Grande Scala (LMM) hanno sfruttato estesi dataset multimodali per potenziare le capacità in compiti complessi guidati dalla conoscenza. Tuttavia, persistenti sfide negli errori percettivi e di ragionamento ne limitano l'efficacia, in particolare nell'interpretazione di dati visivi intricati e nella deduzione di relazioni multimodali. Affrontando queste problematiche, introduciamo un nuovo formato di dataset, PIN (Paired and INterleaved multimodal documents), progettato per migliorare significativamente sia la profondità che l'ampiezza dell'addestramento multimodale. Il formato PIN si basa su tre principi fondamentali: intensità della conoscenza, scalabilità e supporto per diverse modalità di addestramento. Questo formato innovativo combina file markdown e immagini dettagliate per arricchire i dati di addestramento con una struttura di conoscenza densa e strategie di addestramento versatili. Presentiamo PIN-14M, un dataset open-source composto da 14 milioni di campioni derivati da una vasta gamma di fonti cinesi e inglesi, progettato per includere contenuti web e scientifici complessi. Questo dataset è costruito meticolosamente per garantire qualità dei dati e integrità etica, con l'obiettivo di facilitare strategie di addestramento avanzate e migliorare la robustezza del modello contro le comuni insidie dell'addestramento multimodale. I nostri risultati iniziali, che costituiscono la base di questo rapporto tecnico, suggeriscono un potenziale significativo del formato PIN nel perfezionare le prestazioni degli LMM, con piani per future espansioni e valutazioni dettagliate del suo impatto sulle capacità del modello.
I corpus di addestramento per i modelli di linguaggio visivo (VLMs) tipicamente mancano di quantità sufficienti di dati centrati sulle decisioni. Ciò rende i VLMs predefiniti subottimali per compiti decisionali come il controllo di dispositivi in contesti reali attraverso interfacce grafiche (GUI). Sebbene l'addestramento con dimostrazioni statiche abbia mostrato qualche promessa, dimostriamo che tali metodi sono insufficienti per controllare GUI reali a causa della loro incapacità di gestire la stocasticità e la non stazionarietà del mondo reale non catturate nei dati osservativi statici. Questo articolo introduce un nuovo approccio RL autonomo, chiamato DigiRL, per addestrare agenti di controllo di dispositivi in contesti reali attraverso il fine-tuning di un VLM pre-addestrato in due fasi: RL offline per inizializzare il modello, seguito da RL da offline a online. Per fare ciò, costruiamo un ambiente di apprendimento Android scalabile e parallelizzabile dotato di un valutatore basato su VLM e sviluppiamo un approccio RL semplice ma efficace per l'apprendimento in questo dominio. Il nostro approccio esegue RL ponderato per il vantaggio con stimatori del vantaggio potenziati per tenere conto della stocasticità, insieme a un curriculum automatico per derivare il massimo segnale di apprendimento. Dimostriamo l'efficacia di DigiRL utilizzando il dataset Android-in-the-Wild (AitW), dove il nostro VLM da 1,3B addestrato con RL raggiunge un miglioramento assoluto del 49,5% — dal 17,7 al 67,2% di tasso di successo — rispetto al fine-tuning supervisionato con dati di dimostrazione umana statica. Questi risultati superano significativamente non solo i migliori agenti precedenti, inclusi AppAgent con GPT-4V (8,3% di tasso di successo) e il CogAgent da 17B addestrato con dati AitW (38,5%), ma anche il miglior approccio RL autonomo precedente basato su clonazione del comportamento filtrata (57,8%), stabilendo così un nuovo stato dell'arte per gli agenti digitali per il controllo di dispositivi in contesti reali.
Una delle capacità fondamentali dei grandi modelli linguistici (LLM) è quella di seguire istruzioni in linguaggio naturale. Tuttavia, il problema di costruire automaticamente dati di addestramento di alta qualità per migliorare le capacità complesse di seguire istruzioni degli LLM senza annotazione manuale rimane irrisolto. In questo articolo, introduciamo AutoIF, il primo metodo scalabile e affidabile per generare automaticamente dati di addestramento per il seguimento di istruzioni. AutoIF trasforma la validazione della qualità dei dati di seguimento di istruzioni in verifica del codice, richiedendo agli LLM di generare istruzioni, il codice corrispondente per verificare la correttezza delle risposte alle istruzioni e campioni di unit test per verificare la correttezza del codice. Successivamente, il campionamento di rifiuto basato sul feedback di esecuzione può generare dati per il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo con Feedback Umano (RLHF). AutoIF ottiene miglioramenti significativi in tre algoritmi di addestramento, SFT, DPO Offline e DPO Online, quando applicato ai migliori LLM open-source, Qwen2 e LLaMA3, in contesti di auto-allineamento e distillazione da forte a debole. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/QwenLM/AutoIF.
In questo articolo, presentiamo un nuovo framework per l'inferenza a bassa latenza nei grandi modelli linguistici (LLM) che consente agli LLM di eseguire inferenze con prompt incompleti. Riallocando i processi computazionali alla fase di input del prompt, otteniamo una riduzione significativa della latenza, migliorando così notevolmente l'esperienza interattiva per gli utenti degli LLM. Il framework gestisce abilmente la visibilità del prompt in streaming al modello, permettendogli di inferire da prompt incompleti o di attendere ulteriori prompt. Rispetto ai metodi tradizionali di inferenza che utilizzano prompt completi, il nostro approccio dimostra una riduzione media del 59% nella latenza di risposta sul dataset MMLU-Pro, mantenendo un'accuratezza comparabile. Inoltre, il nostro framework facilita l'inferenza e l'output collaborativi tra diversi modelli. Utilizzando un LLM per l'inferenza e un piccolo modello linguistico (SLM) per l'output, otteniamo una riduzione media del 68% nella latenza di risposta, insieme a un miglioramento del 5,5% nell'accuratezza sul dataset MMLU-Pro rispetto al baseline SLM. Per prompt lunghi che superano le 20 frasi, la latenza di risposta può essere ridotta fino al 93%.
Il ragionamento basato sul senso comune è fondamentalmente radicato nella conoscenza multimodale. Tuttavia, i grandi modelli linguistici (LLM) esistenti sono principalmente addestrati utilizzando solo dati testuali, limitando la loro capacità di incorporare informazioni visive essenziali. Al contrario, i modelli linguistici visivi, che eccellono in compiti orientati al visivo, spesso falliscono in compiti non visivi come il ragionamento di base sul senso comune. Questa divergenza evidenzia una sfida critica: l'integrazione di una solida comprensione visiva con il ragionamento linguistico basato sul testo. A tal fine, introduciamo un metodo volto a migliorare il senso comune visivo degli LLM. Nello specifico, il nostro metodo genera più immagini basate sul prompt di testo in input e le integra nel processo decisionale del modello mescolando le loro probabilità di previsione. Per facilitare la modellazione linguistica multimodale fondata, utilizziamo uno strato di fusione tardiva che combina le caratteristiche visive proiettate con l'output di un LLM pre-addestrato condizionato solo sul testo. Questo strato di fusione tardiva consente previsioni basate su una conoscenza completa immagine-testo, nonché solo sul testo quando necessario. Valutiamo il nostro approccio utilizzando diversi compiti di ragionamento visivo basato sul senso comune insieme a compiti tradizionali di NLP, tra cui il ragionamento di senso comune e la comprensione della lettura. I nostri risultati sperimentali dimostrano una superiorità significativa rispetto alle baseline esistenti. Quando applicato ai recenti LLM all'avanguardia (ad esempio, Llama3), osserviamo miglioramenti non solo nel senso comune visivo ma anche nei benchmark tradizionali di NLP. Codice e modelli sono disponibili su https://github.com/guyyariv/vLMIG.
Direct Preference Optimization (DPO), un metodo standard per allineare i modelli linguistici alle preferenze umane, è tradizionalmente applicato a preferenze offline. Studi recenti dimostrano che il DPO trae vantaggio da un addestramento iterativo con preferenze online etichettate da un modello di ricompensa addestrato. In questo lavoro, identifichiamo una criticità del DPO iterativo di base: il miglioramento della qualità delle risposte può portare a un aumento della verbosità. Per affrontare questo problema, introduciamo il DPO iterativo con regolarizzazione della lunghezza (iLR-DPO) per penalizzare la lunghezza delle risposte. I nostri risultati empirici mostrano che l'iLR-DPO può potenziare un modello da 7B per ottenere prestazioni paragonabili a GPT-4 senza aumentare la verbosità. Nello specifico, il nostro modello da 7B raggiunge un tasso di vittoria controllato per la lunghezza del 50,5% contro GPT-4 Preview su AlpacaEval 2.0 e si distingue in vari benchmark standard, tra cui MT-Bench, Arena-Hard e la OpenLLM Leaderboard. Questi risultati dimostrano l'efficacia del DPO iterativo nell'allineare i modelli linguistici al feedback umano.
La capacità dei CodeLLM di generare codice eseguibile e funzionalmente corretto su scala di repository rimane in gran parte inesplorata. Introduciamo RepoExec, un nuovo benchmark per valutare la generazione di codice su scala di repository. RepoExec si concentra su tre aspetti principali: eseguibilità, correttezza funzionale attraverso la generazione automatica di casi di test con un alto tasso di copertura, e contesti accuratamente progettati tra file per generare codice in modo preciso. Il nostro lavoro esplora uno scenario controllato in cui gli sviluppatori specificano le dipendenze di codice necessarie, sfidando il modello a integrarle in modo accurato. Gli esperimenti mostrano che, sebbene i LLM pre-addestrati superino i modelli ottimizzati per istruzioni in termini di correttezza, questi ultimi eccellono nell'utilizzare le dipendenze fornite e nel dimostrare capacità di debug. Introduciamo inoltre un nuovo dataset ottimizzato per istruzioni che si concentra sulle dipendenze di codice e dimostriamo che i CodeLLM fine-tuned sul nostro dataset hanno una migliore capacità di sfruttare queste dipendenze in modo efficace. RepoExec mira a fornire una valutazione completa della funzionalità del codice e dell'allineamento con l'intento dello sviluppatore, aprendo la strada a CodeLLM più affidabili e applicabili in scenari reali. Il dataset e il codice sorgente sono disponibili all'indirizzo~https://github.com/FSoft-AI4Code/RepoExec.
Recentemente, i progressi nella sintesi video hanno attirato una significativa attenzione. Modelli di sintesi video come AnimateDiff e Stable Video Diffusion hanno dimostrato l'applicabilità pratica dei modelli di diffusione nella creazione di contenuti visivi dinamici. L'emergere di SORA ha ulteriormente evidenziato il potenziale delle tecnologie di generazione video. Tuttavia, l'estensione della durata dei video è stata limitata dalle restrizioni nelle risorse computazionali. La maggior parte dei modelli di sintesi video esistenti può generare solo brevi clip video. In questo articolo, proponiamo una nuova metodologia di post-tuning per i modelli di sintesi video, chiamata ExVideo. Questo approccio è progettato per migliorare la capacità dei modelli di sintesi video attuali, consentendo loro di produrre contenuti per durate temporali più estese con minori costi di addestramento. In particolare, progettiamo strategie di estensione per le architetture temporali comuni, rispettivamente, tra cui convoluzione 3D, attenzione temporale e incorporamento posizionale. Per valutare l'efficacia del nostro approccio di post-tuning proposto, conduciamo un addestramento di estensione sul modello Stable Video Diffusion. Il nostro approccio aumenta la capacità del modello di generare fino a 5 volte il numero originale di fotogrammi, richiedendo solo 1,5k ore di addestramento su GPU su un dataset composto da 40k video. È importante sottolineare che il notevole aumento della durata del video non compromette le capacità intrinseche di generalizzazione del modello, e il modello dimostra i suoi vantaggi nella generazione di video di stili e risoluzioni diverse. Rilasceremo pubblicamente il codice sorgente e il modello potenziato.
I benchmark esistenti non testano gli agenti linguistici sulla loro interazione con gli utenti umani o sulla capacità di seguire regole specifiche del dominio, entrambi aspetti cruciali per il loro impiego in applicazioni del mondo reale. Proponiamo tau-bench, un benchmark che simula conversazioni dinamiche tra un utente (simulato da modelli linguistici) e un agente linguistico dotato di strumenti API specifici del dominio e linee guida politiche. Utilizziamo un processo di valutazione efficiente e fedele che confronta lo stato del database alla fine di una conversazione con lo stato obiettivo annotato. Proponiamo inoltre una nuova metrica (pass^k) per valutare l'affidabilità del comportamento dell'agente su più prove. I nostri esperimenti dimostrano che anche gli agenti all'avanguardia nella chiamata di funzioni (come gpt-4o) riescono a completare meno del 50% dei compiti e sono piuttosto incoerenti (pass^8 <25% nel settore retail). I nostri risultati evidenziano la necessità di metodi che possano migliorare la capacità degli agenti di agire in modo coerente e seguire le regole in modo affidabile.
Garantire la verificabilità delle risposte del modello rappresenta una sfida fondamentale per la generazione aumentata da recupero (RAG) nel dominio del question answering (QA). Recentemente, è stato proposto il prompting di autocitazione per far sì che i grandi modelli linguistici (LLM) generino citazioni ai documenti di supporto insieme alle loro risposte. Tuttavia, gli LLM che si autocitano spesso faticano a rispettare il formato richiesto, fanno riferimento a fonti inesistenti e non riescono a riflettere fedelmente l'uso del contesto da parte degli LLM durante la generazione. In questo lavoro, presentiamo MIRAGE -- Model Internals-based RAG Explanations -- un approccio plug-and-play che utilizza gli interni del modello per un'attribuzione fedele delle risposte nelle applicazioni RAG. MIRAGE rileva i token delle risposte sensibili al contesto e li associa ai documenti recuperati che contribuiscono alla loro previsione attraverso metodi di salienza. Valutiamo il nostro approccio proposto su un dataset multilingue di QA estrattivo, riscontrando un elevato accordo con l'attribuzione umana delle risposte. Nel QA a risposta aperta, MIRAGE raggiunge una qualità e un'efficienza delle citazioni paragonabili all'autocitazione, consentendo anche un controllo più granulare dei parametri di attribuzione. La nostra valutazione qualitativa evidenzia la fedeltà delle attribuzioni di MIRAGE e sottolinea la promettente applicazione degli interni del modello per l'attribuzione delle risposte in RAG.
Comprendere la semantica delle scene visive rappresenta una sfida fondamentale nel campo della Computer Vision. Un aspetto cruciale di questa sfida è che oggetti che condividono significati o funzioni semantiche simili possono presentare differenze visive marcate, rendendo difficile l'identificazione e la categorizzazione accurata. I recenti progressi nei framework testo-immagine hanno portato allo sviluppo di modelli che catturano implicitamente le statistiche naturali delle scene. Questi framework tengono conto della variabilità visiva degli oggetti, nonché delle complesse co-occorrenze di oggetti e delle fonti di rumore come le diverse condizioni di illuminazione. Sfruttando dataset su larga scala e il condizionamento tramite cross-attention, questi modelli generano rappresentazioni di scene dettagliate e ricche di contesto. Questa capacità apre nuove strade per migliorare il riconoscimento degli oggetti e la comprensione delle scene in ambienti vari e complessi. Il nostro lavoro presenta StableSemantics, un dataset che comprende 224 mila prompt curati da esseri umani, didascalie in linguaggio naturale processate, oltre 2 milioni di immagini sintetiche e 10 milioni di mappe di attenzione corrispondenti a singoli frammenti nominali. Utilizziamo esplicitamente prompt generati da esseri umani che corrispondono a generazioni visivamente interessanti di stable diffusion, forniamo 10 generazioni per frase ed estraiamo mappe di cross-attention per ogni immagine. Esploriamo la distribuzione semantica delle immagini generate, esaminiamo la distribuzione degli oggetti all'interno delle immagini e valutiamo metodi di captioning e segmentazione a vocabolario aperto sui nostri dati. Per quanto ne sappiamo, siamo i primi a rilasciare un dataset di diffusion con attribuzioni semantiche. Ci aspettiamo che il nostro dataset proposto catalizzi progressi nella comprensione semantica visiva e fornisca una base per lo sviluppo di modelli visivi più sofisticati ed efficaci. Sito web: https://stablesemantics.github.io/StableSemantics
La ricerca sulla sintesi testuale ha subito diverse trasformazioni significative con l'avvento delle reti neurali profonde, dei modelli linguistici pre-addestrati (PLM) e dei recenti modelli linguistici di grandi dimensioni (LLM). Questa rassegna fornisce quindi una revisione completa dei progressi e dell'evoluzione della ricerca nella sintesi testuale attraverso la lente di questi cambiamenti di paradigma. È organizzata in due parti principali: (1) una panoramica dettagliata di dataset, metriche di valutazione e metodi di sintesi prima dell'era degli LLM, comprendendo metodi statistici tradizionali, approcci di deep learning e tecniche di fine-tuning dei PLM, e (2) la prima analisi dettagliata dei recenti progressi nel benchmarking, nella modellazione e nella valutazione della sintesi nell'era degli LLM. Sintetizzando la letteratura esistente e presentando una visione coerente, questa rassegna discute anche le tendenze della ricerca, le sfide aperte e propone promettenti direzioni di ricerca nella sintesi, con l'obiettivo di guidare i ricercatori attraverso il panorama in evoluzione della ricerca sulla sintesi testuale.
La ricerca sull'interpretabilità e l'analisi (IA) è un sottocampo in crescita all'interno dell'NLP, con l'obiettivo di sviluppare una comprensione più profonda del comportamento o del funzionamento interno dei sistemi e dei metodi NLP. Nonostante il crescente interesse per questo sottocampo, una critica spesso sollevata è che manchi di intuizioni applicabili e quindi abbia un impatto limitato sull'NLP. In questo articolo, cerchiamo di quantificare l'impatto della ricerca IA sul campo più ampio dell'NLP. Affrontiamo questo obiettivo con un'analisi mista di: (1) un grafo di citazioni di oltre 185.000 articoli costruito da tutti i lavori pubblicati alle conferenze ACL e EMNLP dal 2018 al 2023, e (2) un sondaggio condotto su 138 membri della comunità NLP. I nostri risultati quantitativi mostrano che il lavoro IA è ben citato al di fuori dell'IA ed è centrale nel grafo di citazioni NLP. Attraverso un'analisi qualitativa delle risposte al sondaggio e un'annotazione manuale di 556 articoli, scopriamo che i ricercatori NLP si basano sui risultati del lavoro IA e lo considerano importante per il progresso nell'NLP, in più sottocampi, e si affidano ai suoi risultati e alla sua terminologia per il proprio lavoro. Molti metodi innovativi vengono proposti sulla base dei risultati IA e sono fortemente influenzati da essi, ma lavori altamente influenti non-IA citano i risultati IA senza esserne guidati. Concludiamo riassumendo ciò che manca oggi nel lavoro IA e forniamo un invito all'azione, per aprire la strada a un futuro più impattante della ricerca IA.
Presentiamo un modello di diffusione latente su scene 3D, che può essere addestrato utilizzando esclusivamente dati di immagini 2D. Per raggiungere questo obiettivo, progettiamo innanzitutto un autoencoder che mappa immagini multi-vista in splat Gaussiani 3D, costruendo simultaneamente una rappresentazione latente compressa di questi splat. Successivamente, addestriamo un modello di diffusione multi-vista sullo spazio latente per apprendere un modello generativo efficiente. Questa pipeline non richiede maschere di oggetti né informazioni sulla profondità, ed è adatta per scene complesse con posizioni arbitrarie della telecamera. Condurre esperimenti accurati su due dataset su larga scala di scene complesse del mondo reale -- MVImgNet e RealEstate10K. Dimostriamo che il nostro approccio consente di generare scene 3D in appena 0,2 secondi, sia da zero, da una singola vista di input, o da viste di input sparse. Produce risultati diversificati e di alta qualità, operando con un ordine di grandezza più veloce rispetto ai modelli di diffusione non latenti e ai precedenti modelli generativi basati su NeRF.