Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante l'integrazione rapida delle capacità di percezione video nei Grandi Modelli Multimodali (LMM), i meccanismi sottostanti che guidano la comprensione dei video rimangono scarsamente compresi. Di conseguenza, molte decisioni progettuali in questo ambito vengono prese senza una giustificazione o analisi adeguata. L'alto costo computazionale per addestrare ed valutare tali modelli, unito alla limitata ricerca aperta, ostacola lo sviluppo dei video-LMM. Per affrontare ciò, presentiamo uno studio esaustivo che aiuta a scoprire cosa guida efficacemente la comprensione dei video nei LMM. Iniziamo esaminando criticamente i principali contributi alle elevate esigenze computazionali associate alla ricerca sui video-LMM e scopriamo la Coerenza della Scalabilità, in cui le decisioni progettuali e di addestramento prese su modelli e dataset più piccoli (fino a una dimensione critica) si trasferiscono efficacemente a modelli più grandi. Sfruttando queste intuizioni, abbiamo esplorato molti aspetti specifici dei video-LMM, tra cui campionamento video, architetture, composizione dei dati, programmi di addestramento e altro ancora. Ad esempio, abbiamo dimostrato che il campionamento fps durante l'addestramento è nettamente preferibile al campionamento uniforme dei frame e quali codificatori di visione sono i migliori per la rappresentazione video. Guidati da queste scoperte, presentiamo Apollo, una famiglia di LMM all'avanguardia che raggiunge prestazioni superiori su diverse dimensioni di modelli. I nostri modelli possono percepire video di un'ora in modo efficiente, con Apollo-3B che supera la maggior parte dei modelli esistenti da 7B con un impressionante 55,1 su LongVideoBench. Apollo-7B è all'avanguardia rispetto ai LMM da 7B con un 70,9 su MLVU e un 63,3 su Video-MME.
Comprendere, navigare ed esplorare il mondo fisico tridimensionale è da tempo una sfida centrale nello sviluppo dell'intelligenza artificiale. In questo lavoro, facciamo un passo verso questo obiettivo presentando GenEx, un sistema in grado di pianificare complesse esplorazioni del mondo incarnato, guidato dalla sua immaginazione generativa che forma aspettative sugli ambienti circostanti. GenEx genera un intero ambiente immaginario coerente in 3D partendo da una singola immagine RGB, portandolo alla vita attraverso flussi video panoramici. Sfruttando dati del mondo tridimensionale scalabili provenienti da Unreal Engine, il nostro modello generativo è radicato nel mondo fisico. Cattura un ambiente continuo a 360 gradi con poco sforzo, offrendo un paesaggio illimitato per gli agenti di intelligenza artificiale da esplorare e interagire. GenEx raggiunge una generazione di mondo di alta qualità, una robusta coerenza ciclica su lunghe traiettorie e dimostra forti capacità 3D come coerenza e mappatura 3D attiva. Alimentati dall'immaginazione generativa del mondo, gli agenti assistiti da GPT sono in grado di svolgere compiti complessi incarnati, inclusa l'esplorazione senza scopo preciso e la navigazione guidata dall'obiettivo. Questi agenti utilizzano aspettative predictive riguardanti parti non viste del mondo fisico per affinare le loro convinzioni, simulare diversi risultati basati su decisioni potenziali e prendere scelte più informate. In sintesi, dimostriamo che GenEx fornisce una piattaforma trasformativa per far progredire l'intelligenza artificiale incarnata in spazi immaginari e porta il potenziale per estendere queste capacità all'esplorazione del mondo reale.
Il notevole successo dei Grandi Modelli Linguistici (LLM) si è esteso al dominio multimodale, raggiungendo prestazioni eccezionali nella comprensione e generazione di immagini. Gli sforzi recenti per sviluppare Modelli Linguistici Multimodali Unificati (MLLM) che integrano queste capacità hanno mostrato risultati promettenti. Tuttavia, gli approcci esistenti spesso coinvolgono progettazioni complesse nell'architettura del modello o nel processo di addestramento, aumentando la difficoltà dell'addestramento e della scalabilità del modello. In questo articolo, proponiamo SynerGen-VL, un MLLM senza codificatore semplice ma potente in grado di comprendere e generare immagini. Per affrontare le sfide identificate nei MLLM unificati esistenti senza codificatore, introduciamo il meccanismo di piegatura del token e la strategia di preaddestramento di allineamento progressivo basata su esperti di visione, che supportano efficacemente la comprensione di immagini ad alta risoluzione riducendo la complessità dell'addestramento. Dopo essere stato addestrato su dati misti di immagini e testo su larga scala con un obiettivo unificato di previsione del token successivo, SynerGen-VL raggiunge o supera le prestazioni dei MLLM unificati esistenti senza codificatore con dimensioni di parametro comparabili o più piccole, e riduce il divario con i modelli di ultima generazione specifici per compiti, evidenziando un percorso promettente verso futuri MLLM unificati. Il nostro codice e i modelli saranno resi disponibili.
Con il continuo avanzamento dell'Intelligenza Artificiale, c'è una crescente domanda di sistemi che vanno oltre l'assistenza basata sul linguaggio e si spostano verso agenti intelligenti capaci di compiere azioni nel mondo reale. Questa evoluzione richiede il passaggio dai tradizionali Grandi Modelli Linguistici (LLM), che eccellono nella generazione di risposte testuali, ai Grandi Modelli d'Azione (LAM), progettati per la generazione e l'esecuzione di azioni all'interno di ambienti dinamici. Abilitati dai sistemi di agenti, i LAM hanno il potenziale di trasformare l'IA da una mera comprensione del linguaggio a un completamento attivo di compiti, segnando una significativa pietra miliare nel cammino verso l'intelligenza artificiale generale. In questo articolo, presentiamo un quadro completo per lo sviluppo dei LAM, offrendo un approccio sistematico alla loro creazione, dall'ideazione alla messa in funzione. Iniziamo con una panoramica dei LAM, evidenziandone le caratteristiche uniche e delineandone le differenze rispetto ai LLM. Utilizzando come caso di studio un agente basato su sistema operativo Windows, forniamo una guida dettagliata, passo dopo passo, sulle fasi chiave dello sviluppo dei LAM, compresa la raccolta dati, l'addestramento del modello, l'integrazione nell'ambiente, la messa a terra e la valutazione. Questo flusso di lavoro generalizzabile può fungere da modello per la creazione di LAM funzionali in vari ambiti applicativi. Concludiamo identificando le attuali limitazioni dei LAM e discutendo le direzioni per la ricerca futura e la messa in opera industriale, sottolineando le sfide e le opportunità che si presentano nel realizzare appieno il potenziale dei LAM nelle applicazioni reali. Il codice per il processo di raccolta dati utilizzato in questo articolo è pubblicamente disponibile su: https://github.com/microsoft/UFO/tree/main/dataflow, e la documentazione esaustiva è reperibile su https://microsoft.github.io/UFO/dataflow/overview/.
Questo articolo presenta BiMediX2, un modello multimodale di grandi dimensioni (LMM) bilingue (arabo-inglese) per esperti di bio-medicina con un'architettura unificata che integra modalità testuali e visive, consentendo una comprensione avanzata delle immagini e applicazioni mediche. BiMediX2 sfrutta l'architettura Llama3.1 e integra le capacità testuali e visive per facilitare interazioni fluide sia in inglese che in arabo, supportando input basati su testo e conversazioni multi-turn che coinvolgono immagini mediche. Il modello è addestrato su un ampio dataset bilingue di assistenza sanitaria composto da 1,6 milioni di campioni di interazioni mediche diverse per entrambe le modalità testuale e visiva, mescolate in arabo e inglese. Proponiamo inoltre il primo benchmark medico bilingue basato su GPT-4o chiamato BiMed-MBench. BiMediX2 viene valutato su compiti basati su testo e immagini, raggiungendo prestazioni all'avanguardia su diversi benchmark medici. Supera i modelli recenti all'avanguardia nei benchmark di valutazione LLM medici. Il nostro modello stabilisce anche un nuovo benchmark nelle valutazioni mediche multimodali con oltre il 9% di miglioramento nelle valutazioni in inglese e oltre il 20% in quelle in arabo. Inoltre, supera GPT-4 di circa il 9% nelle valutazioni di accuratezza fattuale UPHILL e eccelle in vari compiti di risposta a domande visive mediche, generazione di report e riassunto di report. La pagina del progetto, comprensiva di codice sorgente e del modello addestrato, è disponibile su https://github.com/mbzuai-oryx/BiMediX2.
I modelli di diffusione visiva raggiungono progressi notevoli, ma sono tipicamente addestrati a risoluzioni limitate a causa della mancanza di dati ad alta risoluzione e risorse computazionali limitate, che ostacolano la capacità di generare immagini o video ad alta fedeltà a risoluzioni più elevate. Gli sforzi recenti hanno esplorato strategie senza sintonizzazione per mostrare il potenziale inutilizzato della generazione visiva ad alta risoluzione dei modelli pre-addestrati. Tuttavia, questi metodi sono ancora inclini a produrre contenuti visivi di bassa qualità con pattern ripetitivi. L'ostacolo chiave risiede nell'aumento inevitabile delle informazioni ad alta frequenza quando il modello genera contenuti visivi che superano la risoluzione di addestramento, portando a indesiderati pattern ripetitivi derivanti dagli errori accumulati. Per affrontare questa sfida, proponiamo FreeScale, un paradigma di inferenza senza sintonizzazione per consentire la generazione visiva ad alta risoluzione tramite fusione di scala. In particolare, FreeScale elabora informazioni da diverse scale percettive e le fonde estraendo componenti di frequenza desiderate. Esperimenti estesi convalidano la superiorità del nostro paradigma nel estendere le capacità della generazione visiva ad alta risoluzione per modelli di immagini e video. In particolare, rispetto al metodo precedentemente più performante, FreeScale sblocca per la prima volta la generazione di immagini a risoluzione 8k.
Esploriamo l'uso della Quantizzazione Vettoriale Residua (RVQ) per la generazione ad alta fedeltà nei modelli generativi quantizzati vettorialmente. Questa tecnica di quantizzazione mantiene una maggiore fedeltà dei dati impiegando token più approfonditi. Tuttavia, aumentare il numero di token nei modelli generativi porta a velocità di inferenza più lente. A questo scopo, introduciamo ResGen, un efficiente modello di diffusione discreta basato su RVQ che genera campioni ad alta fedeltà senza compromettere la velocità di campionamento. La nostra idea chiave è una previsione diretta dell'incorporamento vettoriale dei token collettivi anziché quelli individuali. Inoltre, dimostriamo che il nostro metodo proposto di mascheramento dei token e di previsione multi-token può essere formulato all'interno di un framework probabilistico ben fondato utilizzando un processo di diffusione discreta e inferenza variazionale. Confermiamo l'efficacia e la generalizzabilità del metodo proposto su due compiti impegnativi attraverso diverse modalità: generazione condizionale di immagini su ImageNet 256x256 e sintesi di testo in parlato senza supervisione. I risultati sperimentali dimostrano che ResGen supera i corrispondenti autoregressivi in entrambi i compiti, offrendo prestazioni superiori senza compromettere la velocità di campionamento. Inoltre, all'aumentare della profondità di RVQ, i nostri modelli generativi mostrano una fedeltà di generazione migliorata o velocità di campionamento più veloci rispetto ai modelli di base di dimensioni simili. La pagina del progetto è disponibile su https://resgen-genai.github.io
La generazione di video da testo ha subito un'evoluzione rapida negli ultimi anni, producendo risultati notevoli. L'addestramento si basa tipicamente su dati accoppiati testo-video, che svolgono un ruolo cruciale nel migliorare le prestazioni di generazione. Tuttavia, le didascalie video attuali spesso soffrono di dettagli insufficienti, allucinazioni e rappresentazioni imprecise del movimento, che influiscono sulla fedeltà e coerenza dei video generati. In questo lavoro, proponiamo un nuovo framework di didascalie strutturate a livello di istanza, denominato InstanceCap, per ottenere per la prima volta didascalie video a livello di istanza e dettagliate. Basandoci su questo schema, progettiamo un cluster di modelli ausiliari per convertire il video originale in istanze al fine di migliorare la fedeltà dell'istanza. Le istanze video vengono inoltre utilizzate per perfezionare prompt densi in frasi strutturate, ottenendo descrizioni concise ma precise. Inoltre, è stato creato un dataset di 22K istanze video per l'addestramento, e è stata proposta una pipeline di miglioramento adattata alla struttura di InstanceCap per l'inferenza. I risultati sperimentali dimostrano che il nostro proposto InstanceCap supera significativamente i modelli precedenti, garantendo un'alta fedeltà tra didascalie e video e riducendo le allucinazioni.
Le LLM a lungo contesto ha reso possibili numerose applicazioni derivate ma ha anche introdotto significativi problemi legati all'efficienza computazionale e di memoria. Per affrontare tali sfide, sono state sviluppate ottimizzazioni per l'inferenza a lungo contesto, incentrate sulla cache KV. Tuttavia, i benchmark esistenti valutano spesso singole richieste, trascurando il ciclo completo della cache KV nell'uso del mondo reale. Questa mancanza è particolarmente critica, poiché il riutilizzo della cache KV è diventato ampiamente adottato nei framework di inferenza LLM a lungo contesto, come vLLM e SGLang, nonché da fornitori di LLM come OpenAI, Microsoft, Google e Anthropic. Per colmare questa lacuna, presentiamo SCBench (SharedContextBench), un benchmark completo per valutare i metodi a lungo contesto da una prospettiva incentrata sulla cache KV: 1) generazione della cache KV, 2) compressione della cache KV, 3) recupero della cache KV, 4) caricamento della cache KV. In particolare, SCBench utilizza esempi di test con contesto condiviso, che coprono 12 compiti con due modalità di contesto condiviso, che includono quattro categorie di capacità a lungo contesto: recupero di stringhe, recupero semantico, informazioni globali e multi-task. Con esso, forniamo un'ampia analisi centrata sulla cache KV di otto categorie di soluzioni a lungo contesto, tra cui RNN lineari con gate, ibridi Mamba-Attention e metodi efficienti come attenzione sparsa, eliminazione della cache KV, quantizzazione, recupero, caricamento e compressione della richiesta. La valutazione è condotta su 8 LLM a lungo contesto. I nostri risultati mostrano che i metodi di memoria sub-O(n) soffrono in scenari multi-turno, mentre la codifica sparsa con memoria O(n) e calcolo di pre-riempimento sub-O(n^2) si comportano in modo robusto. La sparizione dinamica produce cache KV più espressive rispetto a pattern statici e la sparizione a livello di layer nelle architetture ibride riduce l'utilizzo della memoria con prestazioni elevate. Inoltre, identifichiamo problemi di spostamento della distribuzione dell'attenzione in scenari di generazione a lungo termine. https://aka.ms/SCBench.
Questo articolo introduce un metodo senza taratura sia per l'inserimento di oggetti che per la generazione guidata dal soggetto. Il compito consiste nel comporre un oggetto, dato un numero di viste, in una scena specificata da un'immagine o da un testo. I metodi esistenti faticano a soddisfare appieno gli obiettivi impegnativi del compito: (i) comporre in modo fluido l'oggetto nella scena con posa e illuminazione fotorealistici, e (ii) preservare l'identità dell'oggetto. Ipotizziamo che per raggiungere questi obiettivi sia necessaria una supervisione su larga scala, ma raccogliere manualmente dati sufficienti è semplicemente troppo costoso. L'osservazione chiave in questo articolo è che molti oggetti prodotti in serie ricorrono in diverse immagini di grandi set di dati non etichettati, in scene, pose e condizioni di illuminazione diverse. Utilizziamo questa osservazione per creare una supervisione massiccia recuperando insiemi di viste diverse dello stesso oggetto. Questo potente dataset accoppiato ci consente di addestrare un'architettura di diffusione testo-immagine diretta per mappare le descrizioni dell'oggetto e della scena all'immagine composta. Confrontiamo il nostro metodo, ObjectMate, con i metodi all'avanguardia per l'inserimento di oggetti e la generazione guidata dal soggetto, utilizzando uno o più riferimenti. Empiricamente, ObjectMate raggiunge una migliore conservazione dell'identità e una composizione più fotorealistica. A differenza di molti altri metodi multi-riferimento, ObjectMate non richiede una taratura lenta durante il test.
Sebbene i Flussi Rettificati (ReFlows) con distillazione offrano un modo promettente per un campionamento veloce, la loro rapida inversione trasforma le immagini nuovamente in rumore strutturato per il ripristino e il successivo editing rimane irrisolto. Questo articolo introduce FireFlow, un approccio zero-shot semplice ma efficace che eredita la sorprendente capacità dei modelli basati su ReFlow (come FLUX) nella generazione, estendendo le sue capacità all'inversione accurata e all'editing in 8 passaggi. Dimostriamo innanzitutto che un risolutore numerico attentamente progettato è fondamentale per l'inversione di ReFlow, consentendo un'inversione e una ricostruzione accurate con la precisione di un risolutore di secondo ordine pur mantenendo l'efficienza pratica di un metodo di Eulero di primo ordine. Questo risolutore raggiunge un aumento della velocità di esecuzione del 3 volte rispetto alle tecniche di inversione e editing ReFlow all'avanguardia, offrendo errori di ricostruzione più piccoli e risultati di editing superiori in modalità senza addestramento. Il codice è disponibile su https://github.com/HolmesShuan/FireFlow{questo URL}.
La generazione di video da testo migliora la creazione di contenuti ma è estremamente intensiva dal punto di vista computazionale: il costo computazionale dei Trasformatori a Diffusione (DiTs) scala quadraticamente con il numero di pixel. Ciò rende estremamente costosa la generazione di video di breve durata, limitando la maggior parte dei modelli esistenti alla generazione di video di soli 10-20 secondi di durata. Proponiamo un framework di Generazione di Video da Testo a Complessità Lineare (LinGen) il cui costo scala linearmente con il numero di pixel. Per la prima volta, LinGen consente la generazione di video ad alta risoluzione di breve durata su una singola GPU senza compromettere la qualità. Sostituisce il blocco computazionalmente dominante e a complessità quadratica, l'autorappresentazione, con un blocco a complessità lineare chiamato MATE, che consiste in un ramo MA e un ramo TE. Il ramo MA mira a correlazioni da breve a lungo raggio, combinando un blocco bidirezionale Mamba2 con il nostro metodo di riorganizzazione dei token, Scansione Principale Rotativa, e i nostri token di revisione sviluppati per la generazione di video di lunga durata. Il ramo TE è un nuovo blocco di Attenzione Temporale Swin che si concentra sulle correlazioni temporali tra token adiacenti e token di medio raggio. Il blocco MATE affronta il problema della conservazione dell'adiacenza di Mamba e migliora significativamente la coerenza dei video generati. I risultati sperimentali mostrano che LinGen supera DiT (con un tasso di vittoria del 75,6%) in qualità video con una riduzione fino a 15 volte (11,5 volte) dei FLOPs (latenza). Inoltre, sia le metriche automatiche che le valutazioni umane dimostrano che il nostro LinGen-4B produce una qualità video comparabile ai modelli all'avanguardia (con un tasso di vittoria del 50,5%, 52,1%, 49,1% rispetto a Gen-3, LumaLabs e Kling, rispettivamente). Questo apre la strada alla generazione di film di lunga durata e alla generazione di video interattivi in tempo reale. Forniamo risultati di generazione video di 68 secondi e ulteriori esempi sul sito web del nostro progetto: https://lineargen.github.io/.
I modelli di flusso rettificato sono emersi come un approccio dominante nella generazione di immagini, mostrando capacità impressionanti nella sintesi di immagini di alta qualità. Tuttavia, nonostante la loro efficacia nella generazione visiva, i modelli di flusso rettificato spesso faticano con la modifica disentangled delle immagini. Questa limitazione impedisce la capacità di effettuare modifiche precise e specifiche degli attributi senza influenzare aspetti non correlati dell'immagine. In questo articolo, presentiamo FluxSpace, un metodo di editing di immagini domain-agnostic che sfrutta uno spazio di rappresentazione con la capacità di controllare la semantica delle immagini generate dai trasformatori di flusso rettificato, come Flux. Sfruttando le rappresentazioni apprese dai blocchi del trasformatore all'interno dei modelli di flusso rettificato, proponiamo un insieme di rappresentazioni semanticamente interpretabili che consentono una vasta gamma di compiti di editing delle immagini, dall'editing dettagliato delle immagini alla creazione artistica. Questo lavoro offre un approccio di editing delle immagini scalabile ed efficace, insieme alle sue capacità di disentanglement.
La generazione di musica multimodale mira a produrre musica da diverse modalità di input, tra cui testo, video e immagini. I metodi esistenti utilizzano uno spazio di incorporamento comune per la fusione multimodale. Nonostante la loro efficacia in altre modalità, la loro applicazione nella generazione di musica multimodale si trova ad affrontare sfide legate alla scarsità dei dati, alla debole allineazione cross-modale e alla limitata controllabilità. Questo articolo affronta tali questioni utilizzando ponti espliciti di testo e musica per l'allineamento multimodale. Introduciamo un nuovo metodo chiamato Ponte Visivo-Musica (VMB). In particolare, un Modello di Descrizione Musicale Multimodale converte gli input visivi in descrizioni testuali dettagliate per fornire il ponte del testo; un modulo di Recupero Musicale a Doppia Traccia che combina strategie di recupero ampie e mirate per fornire il ponte musicale e consentire il controllo dell'utente. Infine, progettiamo un quadro di Generazione Musicale Esplicitamente Condizionata per generare musica basata sui due ponti. Conduciamo esperimenti su compiti di video-musica, immagine-musica, testo-musica e generazione di musica controllabile, insieme a esperimenti sulla controllabilità. I risultati dimostrano che VMB migliora significativamente la qualità della musica, la modalità e l'allineamento personalizzabile rispetto ai metodi precedenti. VMB stabilisce un nuovo standard per la generazione di musica multimodale interpretabile ed espressiva con applicazioni in vari campi multimediali. Demo e codice sono disponibili su https://github.com/wbs2788/VMB.
L'efficacia dei grandi modelli linguistici (LLM) è strettamente legata alla progettazione dei suggerimenti, rendendo l'ottimizzazione dei suggerimenti essenziale per migliorare le loro prestazioni in una vasta gamma di compiti. Molti approcci esistenti per automatizzare l'ingegneria dei suggerimenti si basano esclusivamente sul feedback testuale, perfezionando i suggerimenti basandosi esclusivamente sugli errori di inferenza identificati dai grandi LLM, che sono computazionalmente costosi. Purtroppo, i modelli più piccoli faticano a generare feedback di alta qualità, risultando in una dipendenza completa dal giudizio dei grandi LLM. Inoltre, questi metodi non riescono a sfruttare informazioni più dirette e dettagliate, come i gradienti, a causa dell'operare esclusivamente nello spazio testuale. A questo scopo, presentiamo GReaTer, una nuova tecnica di ottimizzazione dei suggerimenti che incorpora direttamente informazioni sui gradienti rispetto al ragionamento specifico del compito. Utilizzando i gradienti di perdita del compito, GReaTer consente l'auto-ottimizzazione dei suggerimenti per modelli linguistici open-source e leggeri senza la necessità di costosi LLM chiusi. Ciò consente un'ottimizzazione efficace dei suggerimenti senza dipendere dai massicci LLM, riducendo il divario tra modelli più piccoli e il ragionamento sofisticato spesso necessario per il perfezionamento dei suggerimenti. Valutazioni approfondite su diversi compiti di ragionamento, tra cui BBH, GSM8k e FOLIO, dimostrano che GReaTer supera costantemente i metodi di ottimizzazione dei suggerimenti all'avanguardia precedenti, anche quelli che si basano su potenti LLM. Inoltre, i suggerimenti ottimizzati da GReaTer mostrano frequentemente una migliore trasferibilità e, in alcuni casi, aumentano le prestazioni del compito a livelli paragonabili o superiori a quelli raggiunti da modelli linguistici più grandi, evidenziando l'efficacia dell'ottimizzazione dei suggerimenti guidata dai gradienti sul ragionamento. Il codice di GReaTer è disponibile su https://github.com/psunlpgroup/GreaTer.
Presentiamo SmolTulu-1.7b-Instruct, citato in questo rapporto come SmolTulu-DPO-1130, un modello linguistico ottimizzato per istruzioni che adatta il pipeline di post-training di Tulu 3 di AllenAI per potenziare il modello di base SmolLM2-1.7B di Huggingface. Attraverso un'analisi empirica approfondita utilizzando un modello con 135 milioni di parametri, dimostriamo che la relazione tra il tasso di apprendimento e la dimensione del batch influisce significativamente sulle prestazioni del modello in modo dipendente dal compito. Le nostre scoperte rivelano una chiara distinzione: i compiti di ragionamento come ARC e GSM8K beneficiano di rapporti più elevati tra tasso di apprendimento e dimensione del batch, mentre i compiti di riconoscimento di pattern come HellaSwag e IFEval mostrano prestazioni ottimali con rapporti più bassi. Queste intuizioni hanno guidato lo sviluppo di SmolTulu, che raggiunge prestazioni all'avanguardia tra i modelli con meno di 2 miliardi di parametri nel seguire le istruzioni, ottenendo il 67,7% su IFEval (Delta11%), e nel ragionamento matematico con il 51,6% su GSM8K (Delta3,4%), con una versione alternativa che raggiunge il 57,1% su ARC (Delta5,4%). Rilasciamo il nostro modello, le ricette di addestramento e gli studi di ablazione per agevolare ulteriori ricerche sull'allineamento efficiente del modello, dimostrando che un'adattamento attento della dinamica di ottimizzazione può contribuire a colmare il divario di capacità tra i modelli linguistici piccoli e grandi.
Sebbene i grandi modelli visione-linguaggio-azione (VLA) preaddestrati su ampi insiemi di dati robotici offrano politiche generaliste promettenti per l'apprendimento robotico, faticano ancora con le dinamiche spazio-temporali nella robotica interattiva, rendendoli meno efficaci nel gestire compiti complessi, come la manipolazione. In questo lavoro, introduciamo il prompting di traccia visiva, un approccio semplice ma efficace per facilitare la consapevolezza spazio-temporale dei modelli VLA per la previsione delle azioni mediante l'encoding visivo delle traiettorie stato-azione. Sviluppiamo un nuovo modello TraceVLA mediante il raffinamento di OpenVLA sul nostro insieme di dati raccolti di 150K traiettorie di manipolazione robotica utilizzando il prompting di traccia visiva. Le valutazioni di TraceVLA su 137 configurazioni in SimplerEnv e 4 compiti su un robot fisico WidowX dimostrano prestazioni all'avanguardia, superando OpenVLA del 10% su SimplerEnv e del 3,5x sui compiti con robot reale e mostrando una generalizzazione robusta tra diverse incarnazioni e scenari. Per convalidare ulteriormente l'efficacia e la generalità del nostro metodo, presentiamo un modello VLA compatto basato su 4B Phi-3-Vision, preaddestrato su Open-X-Embodiment e raffinato sul nostro insieme di dati, che eguaglia il modello di base OpenVLA da 7B migliorando significativamente l'efficienza inferenziale.
Le reti neurali profonde (DNN) offrono un notevole potenziale per migliorare la diagnosi del cancro al seno nell'ambito dell'immagine medica. Tuttavia, questi modelli sono altamente suscettibili agli attacchi avversari - piccoli cambiamenti impercettibili che possono ingannare i classificatori - sollevando preoccupazioni critiche sulla loro affidabilità e sicurezza. Gli attacchi tradizionali si basano su perturbazioni con norma fissa, non allineate con la percezione umana. Al contrario, gli attacchi basati sulla diffusione richiedono modelli preaddestrati, esigendo un notevole quantitativo di dati quando tali modelli non sono disponibili, limitando l'uso pratico in scenari con scarsità di dati. Tuttavia, in ambito di immagini mediche, ciò risulta spesso impraticabile a causa della limitata disponibilità di dataset. Basandoci sui recenti progressi nei prompt apprendibili, proponiamo Prompt2Perturb (P2P), un nuovo metodo di attacco guidato dal linguaggio in grado di generare esempi di attacco significativi guidati da istruzioni testuali. Durante la fase di apprendimento del prompt, il nostro approccio sfrutta prompt apprendibili all'interno dell'encoder di testo per creare perturbazioni sottili, ma incisive, che rimangono impercettibili mentre guidano il modello verso risultati mirati. In contrasto con gli approcci attuali basati sull'apprendimento del prompt, il nostro P2P si distingue per l'aggiornamento diretto degli embedding di testo, evitando la necessità di riaaddestrare i modelli di diffusione. Inoltre, sfruttiamo la scoperta che ottimizzare solo i primi passaggi di diffusione inversa aumenta l'efficienza garantendo che gli esempi avversari generati incorporino rumore sottile, preservando così la qualità dell'immagine ad ultrasuoni senza introdurre artefatti evidenti. Dimostriamo che il nostro metodo supera le tecniche di attacco all'avanguardia su tre dataset di ultrasuoni al seno in FID e LPIPS. Inoltre, le immagini generate sono sia più naturali nell'aspetto che più efficaci rispetto agli attacchi avversari esistenti. Il nostro codice sarà disponibile pubblicamente su https://github.com/yasamin-med/P2P.