Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto introduce xGen-MM (noto anche come BLIP-3), un framework per lo sviluppo di Large Multimodal Models (LMM). Il framework comprende dataset accuratamente curati, una ricetta di addestramento, architetture di modelli e una suite risultante di LMM. xGen-MM, abbreviazione di xGen-MultiModal, amplia l'iniziativa Salesforce xGen sui modelli AI di base. I nostri modelli vengono sottoposti a una rigorosa valutazione su una gamma di task, inclusi benchmark su singole e multiple immagini. Il nostro modello base pre-addestrato mostra forti capacità di apprendimento in contesto, mentre il modello ottimizzato per le istruzioni dimostra prestazioni competitive tra gli LMM open-source con dimensioni simili. Inoltre, introduciamo un modello ottimizzato per la sicurezza con DPO, con l'obiettivo di mitigare comportamenti dannosi come le allucinazioni e migliorare la sicurezza. Rendiamo open-source i nostri modelli, i dataset su larga scala curati e il nostro codice di fine-tuning per favorire ulteriori progressi nella ricerca sugli LMM. Le risorse associate saranno disponibili sulla nostra pagina del progetto sopra indicata.
I lavori recenti nella generazione di immagini e video hanno adottato l'architettura autoregressiva dei LLM (Large Language Models) grazie alla sua generalità e alla potenziale facilità di integrazione in sistemi multi-modali. Il punto cruciale nell'applicare l'addestramento autoregressivo, tipico della generazione di linguaggio, alla generazione visiva è la discretizzazione, ovvero la rappresentazione di dati continui come immagini e video come token discreti. I metodi comuni per discretizzare immagini e video includono la modellazione dei valori grezzi dei pixel, che risultano eccessivamente lunghi, o la quantizzazione vettoriale, che richiede un complesso addestramento preliminare. In questo lavoro, proponiamo di modellare direttamente immagini e video come file compressi salvati su computer tramite codec canonici (ad esempio, JPEG, AVC/H.264). Utilizzando l'architettura predefinita di Llama senza alcuna modifica specifica per la visione, abbiamo pre-addestrato JPEG-LM da zero per generare immagini (e AVC-LM per generare video come prova di concetto), producendo direttamente byte di file compressi nei formati JPEG e AVC. La valutazione della generazione di immagini dimostra che questo approccio semplice e diretto è più efficace rispetto alla modellazione basata sui pixel e ai sofisticati baseline di quantizzazione vettoriale (con una riduzione del 31% nell'FID rispetto al nostro metodo). La nostra analisi mostra che JPEG-LM ha un vantaggio particolare rispetto ai modelli di quantizzazione vettoriale nella generazione di elementi visivi a coda lunga. Nel complesso, dimostriamo che l'uso di rappresentazioni basate su codec canonici può aiutare ad abbattere le barriere tra la generazione di linguaggio e la generazione visiva, facilitando future ricerche su LLM multi-modali per linguaggio/immagini/video.
I ricercatori stanno investendo notevoli sforzi nello sviluppo di potenti agenti a scopo generale, in cui i Modelli Fondamentali vengono utilizzati come moduli all'interno di sistemi agentici (ad esempio, Catena di Pensiero, Auto-Riflessione, Toolformer). Tuttavia, la storia dell'apprendimento automatico ci insegna che le soluzioni progettate manualmente vengono alla fine sostituite da soluzioni apprese. Formuliamo una nuova area di ricerca, il Design Automatico di Sistemi Agenti (ADAS), che mira a creare automaticamente progetti di sistemi agentici potenti, inclusa l'invenzione di nuovi blocchi costitutivi e/o la loro combinazione in modi innovativi. Dimostriamo inoltre che esiste un approccio inesplorato ma promettente all'interno di ADAS in cui gli agenti possono essere definiti in codice e nuovi agenti possono essere scoperti automaticamente da un meta agente che programma continuamente agenti migliori in codice. Dato che i linguaggi di programmazione sono Turing Completi, questo approccio teoricamente consente l'apprendimento di qualsiasi possibile sistema agente: inclusi prompt innovativi, uso di strumenti, flussi di controllo e combinazioni degli stessi. Presentiamo un algoritmo semplice ma efficace chiamato Meta Agent Search per dimostrare questa idea, in cui un meta agente programma iterativamente nuovi agenti interessanti basandosi su un archivio in continua crescita di scoperte precedenti. Attraverso esperimenti estesi in più domini, tra cui programmazione, scienza e matematica, mostriamo che il nostro algoritmo può inventare progressivamente agenti con progetti innovativi che superano di gran lunga gli agenti progettati manualmente all'avanguardia. È importante sottolineare che osserviamo costantemente il risultato sorprendente che gli agenti inventati da Meta Agent Search mantengono prestazioni superiori anche quando trasferiti tra domini e modelli, dimostrando la loro robustezza e generalità. A condizione che lo sviluppiamo in modo sicuro, il nostro lavoro illustra il potenziale di una nuova ed entusiasmante direzione di ricerca verso la progettazione automatica di sistemi agentici sempre più potenti a beneficio dell'umanità.
La segmentazione di video chirurgici è un compito cruciale nella chirurgia assistita da computer ed è fondamentale per migliorare la qualità chirurgica e gli esiti dei pazienti. Recentemente, il framework Segment Anything Model 2 (SAM2) ha mostrato progressi significativi nella segmentazione di immagini e video. Tuttavia, SAM2 incontra difficoltà in termini di efficienza a causa delle elevate richieste computazionali necessarie per elaborare immagini ad alta risoluzione e dinamiche temporali complesse e di lungo raggio nei video chirurgici. Per affrontare queste sfide, introduciamo Surgical SAM 2 (SurgSAM-2), un modello avanzato che utilizza SAM2 con un meccanismo di Efficient Frame Pruning (EFP), per facilitare la segmentazione in tempo reale dei video chirurgici. Il meccanismo EFP gestisce dinamicamente la memoria selettivamente conservando solo i fotogrammi più informativi, riducendo l'uso della memoria e il costo computazionale pur mantenendo un'elevata accuratezza di segmentazione. I nostri esperimenti estesi dimostrano che SurgSAM-2 migliora significativamente sia l'efficienza che l'accuratezza della segmentazione rispetto al SAM2 standard. In modo notevole, SurgSAM-2 raggiunge un FPS 3 volte superiore rispetto a SAM2, offrendo anche prestazioni all'avanguardia dopo il fine-tuning con dati a risoluzione inferiore. Questi progressi stabiliscono SurgSAM-2 come un modello leader per l'analisi dei video chirurgici, rendendo la segmentazione in tempo reale dei video chirurgici in ambienti con risorse limitate una realtà fattibile.
Affrontiamo le sfide dell'inversione precisa delle immagini e della modifica scomposta delle immagini nel contesto di modelli di diffusione a pochi passi. Introduciamo una tecnica di inversione iterativa basata su un encoder. La rete di inversione è condizionata sull'immagine di input e sull'immagine ricostruita dal passaggio precedente, consentendo la correzione della prossima ricostruzione verso l'immagine di input. Dimostriamo che i controlli scomposti possono essere facilmente ottenuti nel modello di diffusione a pochi passi condizionando su un prompt testuale dettagliato (generato automaticamente). Per manipolare l'immagine invertita, congeliamo le mappe di rumore e modifichiamo un attributo nel prompt testuale (manualmente o tramite modifica basata su istruzioni guidata da un LLM), generando una nuova immagine simile a quella di input con un solo attributo modificato. È possibile inoltre controllare l'intensità della modifica e accettare prompt testuali istruttivi. Il nostro approccio facilita modifiche realistiche delle immagini guidate dal testo in tempo reale, richiedendo solo 8 valutazioni funzionali (NFEs) per l'inversione (costo una tantum) e 4 NFEs per modifica. Il nostro metodo non è solo veloce, ma supera significativamente le tecniche di modifica a più passi all'avanguardia.
L'addestramento di Large Language Models (LLM) comporta costi significativi legati ai dati, stimolando lo sviluppo di metodi di addestramento efficienti dal punto di vista dei dati attraverso l'ottimizzazione dell'ordinamento e della selezione dei dati. Strategie di apprendimento ispirate al comportamento umano, come il curriculum learning, offrono possibilità di addestramento efficiente organizzando i dati secondo pratiche comuni di apprendimento umano. Nonostante le evidenze che il fine-tuning con curriculum learning migliori le prestazioni dei LLM per compiti di comprensione del linguaggio naturale, la sua efficacia è tipicamente valutata utilizzando un singolo modello. In questo lavoro, estendiamo le ricerche precedenti valutando sia strategie di apprendimento basate su curriculum che non basate su curriculum su più LLM, utilizzando etichette di dati definite da esseri umani e automatizzate per il task di risposta a domande mediche. I nostri risultati indicano un impatto moderato dell'uso di strategie di apprendimento ispirate al comportamento umano per il fine-tuning dei LLM, con guadagni massimi di accuratezza dell'1,77% per modello e dell'1,81% per dataset. In modo cruciale, dimostriamo che l'efficacia di queste strategie varia significativamente tra diverse combinazioni modello-dataset, sottolineando che i benefici di una specifica strategia ispirata al comportamento umano per il fine-tuning dei LLM non sono generalizzabili. Inoltre, troviamo evidenze che il curriculum learning basato sulla difficoltà delle domande definita dai LLM supera quella definita dagli esseri umani, evidenziando il potenziale dell'uso di misure generate dai modelli per un design ottimale del curriculum.
Gli algoritmi di apprendimento per rinforzo offline (offline reinforcement learning) promettono di abilitare metodi RL basati sui dati che non richiedono esplorazione nel mondo reale, costosa o pericolosa, e che beneficiano di grandi dataset pre-raccolti. Questo, a sua volta, può facilitare applicazioni nel mondo reale, nonché un approccio più standardizzato alla ricerca nel campo del RL. Inoltre, i metodi di RL offline possono fornire inizializzazioni efficaci per il fine-tuning online, superando le sfide legate all'esplorazione. Tuttavia, valutare i progressi negli algoritmi di RL offline richiede benchmark efficaci e stimolanti che catturino le proprietà dei compiti del mondo reale, offrano una gamma di difficoltà e coprano una varietà di sfide, sia in termini di parametri del dominio (ad esempio, lunghezza dell'orizzonte, sparsità delle ricompense) che di parametri dei dati (ad esempio, dati di dimostrazione ristretti o dati esplorativi ampi). Sebbene i progressi significativi nel RL offline degli ultimi anni siano stati resi possibili da compiti di benchmark più semplici, i dataset più utilizzati stanno raggiungendo una saturazione nelle prestazioni e potrebbero non riflettere le proprietà dei compiti realistici. Proponiamo un nuovo benchmark per il RL offline che si concentra su simulazioni realistiche di ambienti di manipolazione e locomozione robotica, basati su modelli di sistemi robotici del mondo reale, e comprendenti una varietà di fonti di dati, inclusi dati scripted, dati raccolti in stile "play" da operatori umani tramite teleoperazione e altre fonti. Il nostro benchmark proposto copre domini basati su stato e su immagini e supporta sia la valutazione del RL offline che il fine-tuning online, con alcuni compiti specificamente progettati per richiedere sia il pre-training che il fine-tuning. Speriamo che il nostro benchmark proposto possa facilitare ulteriori progressi sia negli algoritmi di RL offline che in quelli di fine-tuning. Il sito web con codice, esempi, compiti e dati è disponibile all'indirizzo https://sites.google.com/view/d5rl/.