Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo presentiamo OtterHD-8B, un modello multimodale innovativo evoluto da Fuyu-8B, specificamente progettato per interpretare input visivi ad alta risoluzione con precisione granulare. A differenza dei modelli convenzionali, vincolati da encoder visivi di dimensioni fisse, OtterHD-8B vanta la capacità di gestire dimensioni di input flessibili, garantendo così la sua versatilità in vari requisiti di inferenza. Insieme a questo modello, introduciamo MagnifierBench, un framework di valutazione concepito per analizzare la capacità dei modelli di discernere dettagli minuti e relazioni spaziali di oggetti piccoli. La nostra analisi comparativa rivela che, mentre i principali modelli attuali falliscono su questo benchmark, OtterHD-8B, specialmente quando elabora direttamente input ad alta risoluzione, supera i suoi concorrenti con un margine significativo. I risultati evidenziano le differenze strutturali nell'elaborazione delle informazioni visive tra i vari modelli e l'influenza che le disparità di risoluzione nel pre-training degli encoder visivi hanno sull'efficacia del modello in tali benchmark. Il nostro studio sottolinea il ruolo cruciale della flessibilità e delle capacità di input ad alta risoluzione nei grandi modelli multimodali e dimostra inoltre il potenziale insito nella semplicità dell'architettura Fuyu per gestire dati visivi complessi.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato impressionanti capacità di esecuzione di istruzioni in una vasta gamma di compiti aperti. Tuttavia, i metodi precedenti si sono principalmente concentrati sul potenziamento delle capacità multimodali. In questo lavoro, introduciamo un modello linguistico multimodale versatile, mPLUG-Owl2, che sfrutta efficacemente la collaborazione tra modalità per migliorare le prestazioni sia nei compiti testuali che in quelli multimodali. mPLUG-Owl2 utilizza una progettazione modulare della rete, con il decodificatore linguistico che funge da interfaccia universale per gestire diverse modalità. Nello specifico, mPLUG-Owl2 incorpora moduli funzionali condivisi per facilitare la collaborazione tra modalità e introduce un modulo adattivo alle modalità che preserva le caratteristiche specifiche di ciascuna modalità. Esperimenti estensivi rivelano che mPLUG-Owl2 è in grado di generalizzare sia i compiti testuali che quelli multimodali e di raggiungere prestazioni all'avanguardia con un unico modello generico. È importante notare che mPLUG-Owl2 è il primo modello MLLM a dimostrare il fenomeno della collaborazione tra modalità sia in scenari puramente testuali che multimodali, tracciando una strada pionieristica nello sviluppo di futuri modelli di base multimodali.
I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) hanno rivoluzionato il processo decisionale scomponendo problemi complessi in sequenze linguistiche più gestibili, denominate "pensieri". Un design efficace dei pensieri dovrebbe considerare tre prospettive chiave: prestazioni, efficienza e flessibilità. Tuttavia, i pensieri esistenti possono al massimo esibire due di questi attributi. Per affrontare queste limitazioni, introduciamo un nuovo approccio di prompting dei pensieri chiamato "Everything of Thoughts" (XoT), che sfida la legge del "triangolo di Penrose" dei paradigmi di pensiero esistenti. XoT sfrutta l'apprendimento per rinforzo preaddestrato e la Ricerca ad Albero Monte Carlo (MCTS) per incorporare conoscenze di dominio esterne nei pensieri, migliorando così le capacità degli LLM e consentendo loro di generalizzare in modo efficiente a problemi non visti. Attraverso l'utilizzo del framework di revisione collaborativa dei pensieri MCTS-LLM, questo approccio produce autonomamente mappature cognitive complete e di alta qualità con un numero minimo di interazioni con gli LLM. Inoltre, XoT consente agli LLM di impegnarsi in un pensiero senza vincoli, permettendo mappature cognitive flessibili per problemi con più soluzioni.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono implementati con responsabilità sempre più concrete nel mondo reale, è importante poter specificare e limitare il comportamento di questi sistemi in modo affidabile. Gli sviluppatori di modelli potrebbero voler stabilire regole esplicite per il modello, come "non generare contenuti offensivi", ma queste potrebbero essere aggirate da tecniche di jailbreaking. Valutare quanto bene gli LLM seguono le regole fornite dagli sviluppatori di fronte a input avversari richiede tipicamente una revisione manuale, che rallenta il monitoraggio e lo sviluppo di metodi. Per affrontare questo problema, proponiamo Rule-following Language Evaluation Scenarios (RuLES), un framework programmatico per misurare la capacità di seguire le regole negli LLM. RuLES consiste in 15 semplici scenari testuali in cui al modello viene chiesto di obbedire a un insieme di regole in linguaggio naturale mentre interagisce con l'utente umano. Ogni scenario ha un programma di valutazione conciso per determinare se il modello ha violato alcuna regola in una conversazione. Attraverso l'esplorazione manuale del comportamento del modello nei nostri scenari, identifichiamo 6 categorie di strategie di attacco e raccogliamo due suite di casi di test: una composta da conversazioni uniche provenienti da test manuali e una che implementa sistematicamente strategie dalle 6 categorie. Tra vari modelli popolari proprietari e open come GPT-4 e Llama 2, scopriamo che tutti i modelli sono suscettibili a una vasta gamma di input utente avversari creati manualmente, sebbene GPT-4 sia il modello con le migliori prestazioni. Inoltre, valutiamo i modelli open sotto attacchi basati su gradienti e troviamo vulnerabilità significative. Proponiamo RuLES come un nuovo e impegnativo contesto di ricerca per esplorare e difendersi sia da attacchi manuali che automatici sugli LLM.
Le proprietà acustiche di una stanza sono il risultato della geometria della stanza, degli oggetti al suo interno e delle loro posizioni specifiche. Le proprietà acustiche di una stanza possono essere caratterizzate dalla sua risposta all'impulso (RIR) tra una sorgente e una posizione di ascolto, o possono essere approssimativamente dedotte da registrazioni di segnali naturali presenti nella stanza. Variazioni nelle posizioni degli oggetti in una stanza possono causare cambiamenti misurabili nelle proprietà acustiche della stanza, come caratterizzato dalla RIR. I dataset esistenti di RIR non variano sistematicamente le posizioni degli oggetti in un ambiente, oppure consistono solo di RIR simulate. Presentiamo SoundCam, il più grande dataset di RIR uniche provenienti da stanze reali rilasciato pubblicamente fino ad oggi. Include 5.000 misurazioni reali a 10 canali di risposte all'impulso di stanze e 2.000 registrazioni a 10 canali di musica in tre stanze diverse, tra cui un laboratorio acustico controllato, un soggiorno reale e una sala conferenze, con diverse persone posizionate in vari punti di ciascuna stanza. Dimostriamo che queste misurazioni possono essere utilizzate per compiti interessanti, come il rilevamento e l'identificazione delle persone, e il tracciamento delle loro posizioni.
Neural MMO 2.0 è un ambiente multi-agente massivo per la ricerca sull'apprendimento per rinforzo. La caratteristica principale di questa nuova versione è un sistema di compiti flessibile che consente agli utenti di definire un'ampia gamma di obiettivi e segnali di ricompensa. Sfidiamo i ricercatori ad addestrare agenti in grado di generalizzare a compiti, mappe e avversari mai visti durante l'addestramento. Neural MMO include mappe generate proceduralmente con 128 agenti nell'impostazione standard e supporto fino a. La versione 2.0 è una riscrittura completa del suo predecessore, con prestazioni migliorate di tre volte e compatibilità con CleanRL. Rilasciamo la piattaforma come software libero e open-source con documentazione completa disponibile su neuralmmo.github.io e una comunità attiva su Discord. Per stimolare le prime ricerche su questa nuova piattaforma, stiamo organizzando contemporaneamente una competizione al NeurIPS 2023.
Il matting video convenzionale produce un unico alpha matte per tutte le istanze presenti in un fotogramma video, senza distinguere le singole istanze. Sebbene la segmentazione di istanze video fornisca maschere di istanza temporalmente coerenti, i risultati sono insoddisfacenti per applicazioni di matting, soprattutto a causa della binarizzazione applicata. Per rimediare a questa carenza, proponiamo il Video Instance Matting (VIM), ovvero la stima degli alpha matte di ciascuna istanza in ogni fotogramma di una sequenza video. Per affrontare questo problema complesso, presentiamo MSG-VIM, una rete neurale Mask Sequence Guided Video Instance Matting, come nuovo modello di riferimento per il VIM. MSG-VIM sfrutta una combinazione di aumentazioni delle maschere per rendere le previsioni robuste rispetto a indicazioni di maschera imprecise e incoerenti. Incorpora indicazioni temporali delle maschere e delle caratteristiche per migliorare la coerenza temporale delle previsioni degli alpha matte. Inoltre, costruiamo un nuovo benchmark per il VIM, chiamato VIM50, che comprende 50 clip video con più istanze umane come oggetti in primo piano. Per valutare le prestazioni nel compito di VIM, introduciamo una metrica adatta chiamata Video Instance-aware Matting Quality (VIMQ). Il nostro modello proposto, MSG-VIM, stabilisce un solido riferimento sul benchmark VIM50 e supera i metodi esistenti con un ampio margine. Il progetto è open-source all'indirizzo https://github.com/SHI-Labs/VIM.
Man mano che i modelli linguistici di grandi dimensioni diventano più diffusi, le loro possibili risposte dannose o inappropriate rappresentano un motivo di preoccupazione. Questo articolo introduce un dataset unico contenente esempi avversari sotto forma di domande, che chiamiamo AttaQ, progettato per provocare tali risposte dannose o inappropriate. Valutiamo l'efficacia del nostro dataset analizzando le vulnerabilità di vari modelli quando sottoposti a esso. Inoltre, introduciamo un nuovo approccio automatico per identificare e denominare regioni semantiche vulnerabili - aree semantiche di input per le quali il modello è probabile che produca output dannosi. Ciò è ottenuto attraverso l'applicazione di tecniche di clustering specializzate che considerano sia la similarità semantica degli attacchi di input sia la dannosità delle risposte del modello. L'identificazione automatica delle regioni semantiche vulnerabili migliora la valutazione delle debolezze del modello, facilitando miglioramenti mirati ai suoi meccanismi di sicurezza e alla sua affidabilità complessiva.
L'apprendimento di rappresentazioni self-supervised dipende fortemente dalle tecniche di data augmentation per specificare le invarianze codificate nelle rappresentazioni. Ricerche precedenti hanno dimostrato che l'applicazione di data augmentation diversificati è cruciale per le prestazioni downstream, ma le tecniche di augmentation rimangono ancora poco esplorate. In questo lavoro, proponiamo una nuova famiglia di trasformazioni locali basate su campi casuali gaussiani per generare augmentazioni di immagini per l'apprendimento di rappresentazioni self-supervised. Queste trasformazioni generalizzano le ben consolidate trasformazioni affini e di colore (traslazione, rotazione, color jitter, ecc.) e ampliano notevolmente lo spazio delle augmentazioni consentendo ai valori dei parametri di trasformazione di variare da pixel a pixel. I parametri sono trattati come funzioni continue delle coordinate spaziali e modellati come campi casuali gaussiani indipendenti. I risultati empirici dimostrano l'efficacia delle nuove trasformazioni per l'apprendimento di rappresentazioni self-supervised. In particolare, otteniamo un miglioramento dell'1,7% nell'accuratezza top-1 rispetto al baseline nella classificazione downstream su ImageNet e un miglioramento del 3,6% nella classificazione downstream su iNaturalist out-of-distribution. Tuttavia, a causa della flessibilità delle nuove trasformazioni, le rappresentazioni apprese sono sensibili agli iperparametri. Mentre trasformazioni moderate migliorano le rappresentazioni, osserviamo che trasformazioni forti possono degradare la struttura di un'immagine, indicando che bilanciare la diversità e la forza delle augmentazioni è importante per migliorare la generalizzazione delle rappresentazioni apprese.
La verifica formale può garantire in modo dimostrabile la correttezza del software critico di sistema, ma l'elevato onere di dimostrazione ha a lungo ostacolato la sua ampia adozione. Recentemente, i Large Language Models (LLM) hanno dimostrato successo nell'analisi e nella sintesi del codice. In questo articolo, presentiamo una combinazione di LLM e analisi statica per sintetizzare invarianti, asserzioni e altre strutture di prova per un framework di verifica formale basato su Rust chiamato Verus. In un contesto few-shot, gli LLM dimostrano un'impressionante capacità logica nella generazione di postcondizioni e invarianti di ciclo, specialmente quando analizzano brevi frammenti di codice. Tuttavia, gli LLM mancano della capacità di conservare e propagare informazioni contestuali, un punto di forza dell'analisi statica tradizionale. Sulla base di queste osservazioni, abbiamo sviluppato un prototipo basato sul modello GPT-4 di OpenAI. Il nostro prototipo scompone il compito di verifica in più sotto-compiti, interroga iterativamente GPT-4 e combina il suo output con un'analisi statica leggera. Abbiamo valutato il prototipo con uno sviluppatore nel ciclo di automazione su 20 programmi che manipolano vettori. I risultati dimostrano che riduce significativamente lo sforzo umano nella scrittura di codice di prova di livello base.