Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le straordinarie capacità multimodali e l'esperienza interattiva di GPT-4o sottolineano la loro necessità nelle applicazioni pratiche, tuttavia i modelli open-source raramente eccellono in entrambi gli aspetti. In questo articolo, presentiamo VITA, il primo modello Multimodale di Grande Linguaggio (MLLM) open-source in grado di elaborare e analizzare simultaneamente le modalità Video, Immagine, Testo e Audio, offrendo al contempo un'esperienza interattiva multimodale avanzata. Partendo da Mixtral 8x7B come base linguistica, ne espandiamo il vocabolario cinese seguito da un tuning delle istruzioni bilingue. Dotiamo ulteriormente il modello linguistico di capacità visive e audio attraverso un apprendimento multi-task in due fasi di allineamento multimodale e tuning delle istruzioni. VITA dimostra solide capacità fondamentali di comprensione multilingue, visiva e audio, come evidenziato dalle sue prestazioni robuste in una gamma di benchmark sia unimodali che multimodali. Oltre alle capacità fondamentali, abbiamo fatto progressi significativi nel migliorare l'esperienza naturale di interazione uomo-computer multimodale. Per quanto ne sappiamo, siamo i primi a sfruttare l'interazione senza risveglio e l'interruzione audio in un MLLM. VITA rappresenta il primo passo per la comunità open-source nell'esplorare l'integrazione senza soluzione di continuità tra comprensione e interazione multimodale. Sebbene ci sia ancora molto lavoro da fare su VITA per avvicinarsi alle controparti closed-source, speriamo che il suo ruolo di pioniere possa servire come pietra angolare per le ricerche successive. Pagina del progetto: https://vita-home.github.io.
Gli autoencoder sparsi (SAE) sono un metodo non supervisionato per apprendere una decomposizione sparsa delle rappresentazioni latenti di una rete neurale in caratteristiche apparentemente interpretabili. Nonostante il recente entusiasmo riguardo al loro potenziale, le applicazioni di ricerca al di fuori dell'industria sono limitate dall'elevato costo di addestramento di una suite completa di SAE. In questo lavoro, introduciamo Gemma Scope, una suite aperta di JumpReLU SAE addestrati su tutti i livelli e sottolivelli dei modelli base Gemma 2 2B e 9B e su livelli selezionati di Gemma 2 27B. Addestriamo principalmente SAE sui modelli pre-addestrati Gemma 2, ma rilasciamo anche SAE addestrati su Gemma 2 9B ottimizzato per istruzioni, a scopo di confronto. Valutiamo la qualità di ciascun SAE utilizzando metriche standard e pubblichiamo questi risultati. Speriamo che, rilasciando questi pesi SAE, possiamo contribuire a rendere più accessibili ricerche ambiziose sulla sicurezza e l'interpretabilità per la comunità. I pesi e un tutorial sono disponibili all'indirizzo https://huggingface.co/google/gemma-scope, mentre una demo interattiva è disponibile all'indirizzo https://www.neuronpedia.org/gemma-scope.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità notevoli nell'eseguire istruzioni per una varietà di attività relative a singole immagini. Nonostante questi progressi, rimangono sfide significative nella modellazione di sequenze di immagini lunghe. In questo lavoro, introduciamo il versatile modello linguistico multimodale di grande dimensione, mPLUG-Owl3, che potenzia la capacità di comprensione di sequenze di immagini lunghe in scenari che incorporano conoscenze recuperate da immagini-testo, contenuti intervallati di immagini-testo e video di lunga durata. Nello specifico, proponiamo nuovi blocchi di iper-attenzione per integrare in modo efficiente la visione e il linguaggio in uno spazio semantico comune guidato dal linguaggio, facilitando così l'elaborazione di scenari multi-immagine estesi. I risultati sperimentali estesi suggeriscono che mPLUG-Owl3 raggiunge prestazioni all'avanguardia tra i modelli di dimensioni simili su benchmark di singola immagine, multi-immagine e video. Inoltre, proponiamo una valutazione impegnativa di sequenze visive lunghe denominata Resistenza ai Distrattori per valutare la capacità dei modelli di mantenere il focus nonostante le distrazioni. Infine, con l'architettura proposta, mPLUG-Owl3 dimostra prestazioni eccezionali su input di sequenze visive ultra-lunghe. Speriamo che mPLUG-Owl3 possa contribuire allo sviluppo di modelli linguistici multimodali di grande dimensione più efficienti e potenti.
Significant research efforts have been made to scale and improve vision-language model (VLM) training approaches. Yet, with an ever-growing number of benchmarks, researchers are tasked with the heavy burden of implementing each protocol, bearing a non-trivial computational cost, and making sense of how all these benchmarks translate into meaningful axes of progress. To facilitate a systematic evaluation of VLM progress, we introduce UniBench: a unified implementation of 50+ VLM benchmarks spanning a comprehensive range of carefully categorized capabilities from object recognition to spatial awareness, counting, and much more. We showcase the utility of UniBench for measuring progress by evaluating nearly 60 publicly available vision-language models, trained on scales of up to 12.8B samples. We find that while scaling training data or model size can boost many vision-language model capabilities, scaling offers little benefit for reasoning or relations. Surprisingly, we also discover today's best VLMs struggle on simple digit recognition and counting tasks, e.g. MNIST, which much simpler networks can solve. Where scale falls short, we find that more precise interventions, such as data quality or tailored-learning objectives offer more promise. For practitioners, we also offer guidance on selecting a suitable VLM for a given application. Finally, we release an easy-to-run UniBench code-base with the full set of 50+ benchmarks and comparisons across 59 models as well as a distilled, representative set of benchmarks that runs in 5 minutes on a single GPU.
I recenti progressi nei grandi modelli linguistici (LLM) hanno suscitato un crescente interesse della ricerca verso LLM assistiti da strumenti per risolvere sfide del mondo reale, il che richiede una valutazione completa delle capacità di utilizzo degli strumenti. Mentre i lavori precedenti si sono concentrati sulla valutazione di servizi web senza stato (API RESTful), basati su un singolo prompt dell'utente, o su una traiettoria di dialogo off-policy, ToolSandbox include l'esecuzione di strumenti con stato, dipendenze implicite di stato tra gli strumenti, un simulatore di utente integrato che supporta la valutazione conversazionale on-policy e una strategia di valutazione dinamica per traguardi intermedi e finali su una traiettoria arbitraria. Dimostriamo che i modelli open source e proprietari presentano un divario significativo nelle prestazioni, e che compiti complessi come Dipendenza di Stato, Canonicalizzazione e Informazione Insufficiente definiti in ToolSandbox rappresentano una sfida anche per i più capaci LLM all'avanguardia, fornendo nuove intuizioni sulle capacità degli LLM nell'uso degli strumenti. Il framework di valutazione ToolSandbox è disponibile all'indirizzo https://github.com/apple/ToolSandbox.
Nonostante i promettenti progressi nel super-risoluzione delle immagini di volti, il super-risoluzione video di volti rimane relativamente poco esplorato. Gli approcci esistenti adattano reti di super-risoluzione video generiche a dataset di volti o applicano modelli consolidati di super-risoluzione di immagini di volti in modo indipendente sui singoli fotogrammi video. Questi paradigmi incontrano sfide sia nella ricostruzione dei dettagli facciali che nel mantenimento della coerenza temporale. Per affrontare questi problemi, introduciamo un nuovo framework chiamato Kalman-inspired Feature Propagation (KEEP), progettato per mantenere una priorità stabile del volto nel tempo. I principi del filtraggio di Kalman offrono al nostro metodo una capacità ricorrente di utilizzare le informazioni dai fotogrammi precedentemente ripristinati per guidare e regolare il processo di ripristino del fotogramma corrente. Esperimenti estensivi dimostrano l'efficacia del nostro metodo nel catturare i dettagli facciali in modo coerente attraverso i fotogrammi video. Il codice e una demo video sono disponibili all'indirizzo https://jnjaby.github.io/projects/KEEP.
L'inversione testuale rimane un metodo popolare per personalizzare i modelli di diffusione, al fine di insegnare ai modelli nuovi soggetti e stili. Notiamo che l'inversione testuale è stata poco esplorata utilizzando alternative all'UNet, e sperimentiamo l'inversione testuale con un vision transformer. Cerchiamo inoltre di ottimizzare l'inversione testuale utilizzando una strategia che non richiede l'uso esplicito dell'UNet e dei suoi strati idiosincratici, quindi aggiungiamo token bonus e imponiamo l'ortogonalità. Troviamo che l'uso del token bonus migliora l'aderenza alle immagini sorgente e l'uso del vision transformer migliora l'aderenza al prompt. Il codice è disponibile all'indirizzo https://github.com/jamesBaker361/tex_inv_plus.
In questo articolo presentiamo MooER, un modello su larga scala di riconoscimento automatico del parlato (ASR) e traduzione automatica del parlato (AST) basato su LLM (Large Language Model) sviluppato da Moore Threads. Per l'addestramento è stato utilizzato un dataset pseudo-etichettato di 5000 ore, contenente dati vocali open source e raccolti autonomamente. Raggiungiamo prestazioni paragonabili ad altri modelli open source addestrati con centinaia di migliaia di ore di dati vocali etichettati. Nel frattempo, gli esperimenti condotti sul testset Covost2 Zh2en suggeriscono che il nostro modello supera altri Speech LLM open source, ottenendo un punteggio BLEU di 25.2. I principali contributi di questo articolo sono riassunti come segue. In primo luogo, questo articolo presenta una strategia di addestramento per encoder e LLM su task legati al parlato (inclusi ASR e AST) utilizzando una piccola quantità di dati pseudo-etichettati, senza alcuna annotazione o selezione manuale aggiuntiva. In secondo luogo, rilasciamo i nostri modelli ASR e AST e prevediamo di rendere open source il nostro codice e la nostra strategia di addestramento nel prossimo futuro. Inoltre, è previsto il rilascio successivo di un modello addestrato su dati di addestramento di scala 8wh.
La conversione vocale mira a modificare la voce del parlante sorgente in modo che assomigli a quella del parlante target, preservando il contenuto originale del discorso. Nonostante i notevoli progressi nella conversione vocale negli ultimi tempi, la conversione vocale multilingue (che include sia scenari monolingue che cross-lingue) non è stata ancora ampiamente studiata. Questa affronta due principali sfide: 1) la notevole variabilità nella prosodia e nelle abitudini di articolazione tra le lingue; e 2) la rarità di dataset multilingue accoppiati provenienti dallo stesso parlante. In questo articolo, proponiamo MulliVC, un innovativo sistema di conversione vocale che converte solo il timbro e mantiene il contenuto originale e la prosodia della lingua sorgente senza l'uso di dati multilingue accoppiati. Nello specifico, ogni fase di addestramento di MulliVC contiene tre sottofasi: nella prima fase il modello viene addestrato con dati vocali monolingue; poi, le fasi due e tre si ispirano alla traduzione inversa, costruendo un processo ciclico per separare il timbro dalle altre informazioni (contenuto, prosodia e altre informazioni legate alla lingua) in assenza di dati multilingue dello stesso parlante. Sia i risultati oggettivi che quelli soggettivi indicano che MulliVC supera significativamente altri metodi sia in contesti monolingue che cross-lingue, dimostrando l'efficacia del sistema e la fattibilità dell'approccio a tre fasi con coerenza ciclica. Campioni audio sono disponibili sulla nostra pagina demo (mullivc.github.io).
I modelli linguistici basati su reti neurali (LM) hanno dimostrato di catturare con successo conoscenze linguistiche complesse. Tuttavia, la loro utilità per comprendere l'acquisizione del linguaggio è ancora oggetto di dibattito. Contribuiamo a questo dibattito presentando uno studio di caso in cui utilizziamo i LM come apprendenti simulati per derivare nuove ipotesi sperimentali da testare con esseri umani. Applichiamo questo paradigma per studiare la generalizzazione cross-dativa (CDG): la generalizzazione produttiva di verbi nuovi attraverso costruzioni dativo (es. "mi ha pilkato la palla"/"ha pilkato la palla a me") -- la cui acquisizione è nota per coinvolgere un ampio spazio di caratteristiche contestuali -- utilizzando LM addestrati su discorsi rivolti ai bambini. Ci chiediamo specificamente: "quali proprietà dell'esposizione durante l'addestramento facilitano la generalizzazione di un verbo nuovo alla costruzione alternativa (non modellata)?" Per rispondere, variamo sistematicamente il contesto di esposizione in cui un verbo dativo nuovo si presenta, in termini delle proprietà del tema e del ricevente, e poi analizziamo l'uso del verbo nuovo nella costruzione dativa non modellata da parte dei LM. Troviamo che i LM replicano schemi noti della CDG nei bambini, come prerequisito per esplorare nuove ipotesi. Simulazioni successive rivelano un ruolo sfumato delle caratteristiche del contesto di esposizione dei verbi nuovi sulla CDG dei LM. Scopriamo che la CDG è facilitata quando il primo argomento postverbale del contesto di esposizione è pronominale, definito, breve e conforme alle aspettative tipiche di animazione del dativo di esposizione. Questi schemi sono caratteristici dell'allineamento armonico nei dativi, dove l'argomento con caratteristiche che si collocano più in alto nella scala di prominenza discorsiva tende a precedere l'altro. Ciò dà origine a una nuova ipotesi secondo cui la CDG è facilitata nella misura in cui le caratteristiche del contesto di esposizione -- in particolare, il suo primo argomento postverbale -- sono armonicamente allineate. Concludiamo proponendo futuri esperimenti che possono testare questa ipotesi nei bambini.