Articoli di ricerca IA selezionati quotidianamente con traduzioni
La Computer Vision (CV) deve ancora raggiungere pienamente la generalizzazione del compito zero-shot osservata nel Natural Language Processing (NLP), nonostante segua molti dei traguardi stabiliti nel NLP, come i grandi modelli trasformatore, l'ampia preformazione e il paradigma dell'autoregressione, tra gli altri. In questo articolo, esploriamo l'idea che la CV adotti definizioni di compiti discrete e terminologiche (ad esempio, "segmentazione dell'immagine"), che potrebbero rappresentare un ostacolo chiave alla generalizzazione del compito zero-shot. La nostra ipotesi è che senza comprendere veramente i compiti precedentemente visti - a causa di queste definizioni terminologiche - i modelli profondi faticano a generalizzare a compiti nuovi. Per verificare ciò, introduciamo le Istruzioni Esplicative, che forniscono un modo intuitivo per definire gli obiettivi del compito di CV attraverso dettagliate trasformazioni linguistiche dalle immagini di input alle uscite. Creiamo un dataset su larga scala composto da 12 milioni di triplette "input dell'immagine alle istruzioni esplicative all'output" e addestriamo un modello visione-linguaggio basato sull'autoregressione (VLM basato su AR) che prende sia immagini che istruzioni esplicative come input. Imparando a seguire queste istruzioni, il VLM basato su AR raggiunge capacità zero-shot a livello di istruzione per compiti precedentemente visti e dimostra una forte generalizzazione zero-shot per compiti di CV non visti. Il codice e il dataset saranno disponibili apertamente sul nostro repository GitHub.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un notevole potenziale nel campo medico, ma le loro capacità sono spesso limitate da dati insufficienti in determinati ambiti medici, evidenziando la necessità di comprendere quali tipi di immagini possono essere utilizzati dai MLLM per la generalizzazione. La ricerca attuale suggerisce che l'addestramento multi-task supera quello single-task poiché diversi compiti possono beneficiare reciprocamente, ma spesso trascurano le relazioni interne all'interno di tali compiti, fornendo indicazioni limitate sulla selezione di set di dati per potenziare compiti specifici. Per analizzare questo fenomeno, abbiamo cercato di impiegare la generalizzazione compositiva (CG) - la capacità dei modelli di comprendere combinazioni nuove ricombinando elementi appresi - come quadro guida. Poiché le immagini mediche possono essere definite precisamente per Modalità, Area anatomica e Compito, offrendo naturalmente un ambiente per esplorare la CG. Pertanto, abbiamo assemblato 106 set di dati medici per creare Med-MAT per esperimenti esaustivi. Gli esperimenti hanno confermato che i MLLM possono utilizzare la CG per comprendere immagini mediche non viste e hanno identificato la CG come uno dei principali motori della generalizzazione osservata nell'addestramento multi-task. Inoltre, ulteriori studi hanno dimostrato che la CG supporta efficacemente set di dati con dati limitati e fornisce prestazioni coerenti su diverse strutture di base, evidenziandone la versatilità e ampia applicabilità. Med-MAT è disponibile pubblicamente su https://github.com/FreedomIntelligence/Med-MAT.
La notevole performance dei modelli come l'OpenAI o1 può essere attribuita alla loro capacità di emulare un pensiero a lungo termine simile a quello umano durante l'infertenza. Questi modelli impiegano processi estesi di concatenazione del pensiero (CoT), esplorando diverse strategie per potenziare le capacità di risoluzione dei problemi. Tuttavia, rimane una domanda critica: come scalare in modo intelligente ed efficiente le risorse computazionali durante i test. Questo articolo presenta il primo studio esaustivo sulla diffusa problematica dell'eccessiva riflessione in questi modelli, in cui vengono allocate risorse computazionali eccessive per problemi semplici con benefici minimi. Introduciamo nuove metriche di efficienza sia dal punto di vista dell'esito che del processo per valutare l'uso razionale delle risorse computazionali da parte dei modelli simili a o1. Utilizzando un paradigma di auto-apprendimento, proponiamo strategie per mitigare l'eccessiva riflessione, razionalizzando i processi di ragionamento senza compromettere l'accuratezza. I risultati sperimentali mostrano che il nostro approccio riduce con successo il sovraccarico computazionale preservando al contempo le prestazioni del modello su una serie di set di test con diversi livelli di difficoltà, come GSM8K, MATH500, GPQA e AIME.
I recenti progressi nella modellazione generativa consentono ora la creazione di contenuti 4D (oggetti 3D in movimento) controllati da prompt di testo. La generazione 4D ha un grande potenziale in applicazioni come mondi virtuali, media e videogiochi, ma i metodi esistenti offrono un controllo limitato sull'aspetto e sulla geometria dei contenuti generati. In questo lavoro, presentiamo un metodo per animare oggetti 3D forniti dall'utente condizionandoli con prompt testuali per guidare la generazione 4D, consentendo animazioni personalizzate mantenendo l'identità dell'oggetto originale. Prima convertiamo una mesh 3D in un "statico" campo di radianza neurale (NeRF) 4D che conserva gli attributi visivi dell'oggetto in ingresso. Successivamente, animiamo l'oggetto utilizzando un modello di diffusione immagine-video guidato dal testo. Per migliorare il realismo del movimento, introduciamo un protocollo incrementale di selezione del punto di vista per campionare prospettive al fine di promuovere un movimento realistico e una perdita di campionamento di distillazione del punteggio mascherato (SDS), che sfrutta mappe di attenzione per concentrare l'ottimizzazione sulle regioni rilevanti. Valutiamo il nostro modello in termini di coerenza temporale, aderenza ai prompt e fedeltà visiva e scopriamo che il nostro metodo supera le baselines basate su altri approcci, raggiungendo fino a triplici miglioramenti nella conservazione dell'identità misurata utilizzando i punteggi LPIPS, e bilanciando efficacemente la qualità visiva con i contenuti dinamici.
La rapida evoluzione dei grandi modelli linguistici (LLM) ha sbloccato le loro capacità in compiti avanzati di ragionamento come la risoluzione di problemi matematici, la generazione di codice e l'analisi legale. Al centro di questo progresso ci sono gli algoritmi di ragionamento in tempo di inferenza, che perfezionano gli output esplorando più percorsi di soluzione, a discapito dell'aumento delle richieste computazionali e delle latenze di risposta. I sistemi di servizio esistenti non riescono ad adattarsi ai comportamenti di scalabilità di questi algoritmi o alla variazione della complessità delle query, portando a un uso inefficiente delle risorse e al mancato raggiungimento degli obiettivi di latenza. Presentiamo Dynasor, un sistema che ottimizza il calcolo in tempo di inferenza per le query di ragionamento dei LLM. A differenza dei motori tradizionali, Dynasor tiene traccia e pianifica le richieste all'interno delle query di ragionamento e utilizza Certaindex, un proxy che misura il progresso del ragionamento statistico basato sulla certezza del modello, per guidare dinamicamente l'allocazione computazionale. Dynasor adatta congiuntamente la pianificazione al progresso del ragionamento: assegna più calcolo alle query difficili, riduce il calcolo per quelle più semplici e termina precocemente le query non promettenti, bilanciando precisione, latenza e costo. Su dataset e algoritmi diversi, Dynasor riduce il calcolo fino al 50% nel processamento batch e mantiene tassi di query fino a 3,3 volte più elevati o obiettivi di latenza fino a 4,7 volte più stringenti nel servizio online.
Presentiamo SWE-Gym, il primo ambiente per addestrare agenti di ingegneria del software (SWE) del mondo reale. SWE-Gym contiene 2.438 istanze di compiti Python del mondo reale, ognuna composta da una base di codice con un ambiente di esecuzione eseguibile, test di unità e un compito specificato in linguaggio naturale. Utilizziamo SWE-Gym per addestrare agenti SWE basati su modelli linguistici, ottenendo fino al 19% di guadagni assoluti nella percentuale di risoluzione sui popolari set di test SWE-Bench Verified e Lite. Sperimentiamo anche con la scalabilità al momento dell'inferenza attraverso verificatori addestrati su traiettorie degli agenti campionate da SWE-Gym. Quando combinato con i nostri agenti SWE ottimizzati, otteniamo il 32,0% e il 26,0% su SWE-Bench Verified e Lite, rispettivamente, riflettendo un nuovo stato dell'arte per agenti SWE open-weight. Per facilitare ulteriori ricerche, rilasciamo pubblicamente SWE-Gym, modelli e traiettorie degli agenti.
Introduciamo TangoFlux, un efficiente modello generativo Testo-a-Audio (TTA) con 515 milioni di parametri, in grado di generare fino a 30 secondi di audio a 44,1kHz in soli 3,7 secondi su una singola GPU A40. Una sfida chiave nell'allineare i modelli TTA risiede nella difficoltà di creare coppie di preferenze, poiché il TTA manca di meccanismi strutturati come ricompense verificabili o risposte di standard d'oro disponibili per i Grandi Modelli Linguistici (LLM). Per affrontare questo problema, proponiamo Ottimizzazione delle Preferenze Classificate con Apprendimento Continuo (CRPO), un nuovo framework che genera e ottimizza iterativamente dati di preferenza per migliorare l'allineamento del TTA. Dimostriamo che il dataset di preferenze audio generato utilizzando CRPO supera le alternative esistenti. Con questo framework, TangoFlux raggiunge prestazioni all'avanguardia su entrambi i benchmark oggettivi e soggettivi. Rendiamo open source tutto il codice e i modelli per sostenere ulteriori ricerche nella generazione TTA.
Come necessità verificata, la modifica coerente delle immagini in condizioni reali rimane una sfida tecnica derivante da vari fattori incontrollabili, come pose degli oggetti, condizioni di illuminazione e ambienti fotografici. Edicho interviene con una soluzione senza addestramento basata su modelli di diffusione, che presenta un principio di progettazione fondamentale nell'utilizzo di corrispondenze esplicite delle immagini per guidare la modifica. In particolare, i componenti chiave includono un modulo di manipolazione dell'attenzione e una strategia di denoising senza classificatore (CFG) attentamente raffinata, entrambi considerano la corrispondenza pre-stimata. Tale algoritmo a tempo di inferenza gode di una natura plug-and-play ed è compatibile con la maggior parte dei metodi di modifica basati sulla diffusione, come ControlNet e BrushNet. Risultati estesi dimostrano l'efficacia di Edicho nella modifica coerente tra immagini in diverse configurazioni. Rilasceremo il codice per facilitare futuri studi.
Presentiamo PERSE, un metodo per creare un avatar generativo personalizzato e animabile da un ritratto di riferimento. Il nostro modello di avatar consente la modifica degli attributi facciali in uno spazio latente continuo e disentangled per controllare ciascun attributo facciale, preservando al contempo l'identità dell'individuo. Per raggiungere questo obiettivo, il nostro metodo inizia sintetizzando dataset video 2D sintetici su larga scala, in cui ciascun video contiene cambiamenti coerenti nell'espressione facciale e nel punto di vista, combinati con una variazione in un attributo facciale specifico rispetto all'input originale. Proponiamo un nuovo processo per produrre video 2D fotorealistici di alta qualità con modifica degli attributi facciali. Sfruttando questo dataset sintetico di attributi, presentiamo un metodo di creazione di avatar personalizzati basato sul Gaussian Splatting 3D, apprendendo uno spazio latente continuo e disentangled per la manipolazione intuitiva degli attributi facciali. Per garantire transizioni fluide in questo spazio latente, introduciamo una tecnica di regolarizzazione dello spazio latente utilizzando volti 2D interpolati come supervisione. Rispetto agli approcci precedenti, dimostriamo che PERSE genera avatar di alta qualità con attributi interpolati preservando l'identità della persona di riferimento.
I rapidi progressi delle tecnologie dei grandi modelli linguistici (LLM) hanno portato all'introduzione di potenti LLM open-source sintonizzati sull'istruzione che presentano la stessa qualità di generazione di testo dei controparti all'avanguardia come il GPT-4. Mentre l'emergere di tali modelli accelera l'adozione delle tecnologie LLM in ambienti sensibili alle informazioni, gli autori di tali modelli non divulghino i dati di addestramento necessari per replicare i risultati, rendendo così gli achievement esclusivi del modello. Poiché tali modelli open-source sono anche multilingue, ciò riduce a sua volta i vantaggi dell'addestramento di LLM specifici per una lingua poiché l'efficienza migliorata del calcolo dell'inferenza diventa l'unico vantaggio garantito di tale costosa procedura. Opzioni più economiche come l'estensione del vocabolario e il successivo continuo pre-addestramento sono anche ostacolate dalla mancanza di accesso a dati di sintonizzazione dell'istruzione di alta qualità poiché è il principale fattore dietro le capacità di risoluzione dei compiti dei LLM risultanti. Per affrontare le limitazioni e ridurre i costi del processo di adattamento linguistico, proponiamo la Propagazione dell'Incorporamento Appreso (LEP). A differenza degli approcci esistenti, il nostro metodo ha requisiti di dimensioni minori per i dati di addestramento a causa dell'impatto minimo sulle conoscenze LLM esistenti che rafforziamo utilizzando una procedura di propagazione dell'incorporamento ad hoc che consente di saltare il passaggio di sintonizzazione dell'istruzione e invece impiantare direttamente le nuove conoscenze linguistiche in qualsiasi variante LLM esistente sintonizzata sull'istruzione. Abbiamo valutato quattro adattamenti del vocabolario russo per LLaMa-3-8B e Mistral-7B, dimostrando che LEP è competitivo con i metodi tradizionali di sintonizzazione dell'istruzione, raggiungendo prestazioni paragonabili a OpenChat 3.5 e LLaMa-3-8B-Instruct, con ulteriori miglioramenti tramite auto-calibrazione e sintonizzazione continua che potenziano le capacità di risoluzione dei compiti.
Introduciamo OneKE, un sistema di estrazione di conoscenza guidato dallo schema dockerizzato, in grado di estrarre conoscenza dal Web e da libri in formato PDF grezzi, e supportare vari domini (scienza, notizie, ecc.). In particolare, progettiamo OneKE con diversi agenti e una base di conoscenza configurabile. Agenti diversi svolgono i rispettivi ruoli, consentendo il supporto per vari scenari di estrazione. La base di conoscenza configurabile facilita la configurazione dello schema, il debug e la correzione dei casi di errore, migliorando ulteriormente le prestazioni. Valutazioni empiriche su set di dati di benchmark dimostrano l'efficacia di OneKE, mentre studi di caso chiariscono ulteriormente la sua adattabilità a compiti diversi in vari domini, evidenziando il suo potenziale per ampie applicazioni. Abbiamo reso open source il codice su https://github.com/zjunlp/OneKE e pubblicato un video su http://oneke.openkg.cn/demo.mp4.
Recentemente, "visual o1" ha iniziato ad entrare nel campo visivo delle persone, con l'aspettativa che questo design a pensiero lento possa risolvere compiti di ragionamento visivo, specialmente problemi matematici geometrici. Tuttavia, la realtà è che attualmente i LVLM (Large Vision Language Models) difficilmente riescono ad copiare accuratamente una figura geometrica, figuriamoci comprendere veramente la complessa logica intrinseca e le relazioni spaziali all'interno delle forme geometriche. Noi crediamo che la copia accurata (forte percezione) sia il primo passo per il visual o1. Di conseguenza, introduciamo il concetto di "percezione lenta" (SP), che guida il modello a percepire gradualmente le combinazioni punto-linea di base, così come fanno gli esseri umani, ricostruendo progressivamente strutture geometriche complesse. La SP si articola in due fasi: a) decomposizione della percezione. La percezione non è istantanea. In questa fase, le figure geometriche complesse vengono scomposte in unità semplici di base per unificare la rappresentazione geometrica. b) flusso di percezione, che riconosce che tracciare accuratamente una linea non è un compito facile. Questa fase mira ad evitare "salti visivi lunghi" nel retrocedere segmenti di linea utilizzando un "righello percettivo" proposto per tracciare ogni linea colpo dopo colpo. Sorprendentemente, un tale modo di percepire simile a quello umano gode di una legge di scalabilità del tempo di inferenza: più lento è meglio è. I ricercatori hanno cercato di velocizzare la percezione del modello in passato, ma ora la rallentiamo di nuovo, permettendo al modello di leggere l'immagine passo dopo passo e con attenzione.
Introduciamo la generazione di codice autoinvocante, un nuovo compito progettato per valutare le capacità di ragionamento progressivo e risoluzione dei problemi dei LLM. In questo compito, ai modelli vengono presentati un problema di base e un problema più complesso correlato. Devono risolvere il problema di base e poi utilizzare la sua soluzione per affrontare quello più complesso. Questo lavoro presenta tre contributi chiave. In primo luogo, proponiamo una ricetta generale per generare versioni più impegnative di benchmark esistenti, che ha portato alla creazione di tre nuovi benchmark: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, appositamente progettati per valutare i LLM nella generazione di codice autoinvocante. In secondo luogo, dall'analisi dei risultati sperimentali su oltre venti LLM sui nostri benchmark, abbiamo due osservazioni importanti: (i) La maggior parte dei LLM eccellono nei benchmark tradizionali di generazione di codice come HumanEval e MBPP, ma le loro prestazioni diminuiscono nei compiti autoinvocanti. Ad esempio, o1-mini ottiene il 96,2% di passaggio@1 su HumanEval, ma solo il 76,2% su HumanEval Pro. (ii) Nel compito di generazione di codice autoinvocante, i modelli ottimizzati per le istruzioni mostrano solo miglioramenti marginali rispetto ai modelli di base. In terzo luogo, riveliamo i tipi di modalità di fallimento presenti nei risultati della nostra valutazione. Tutti questi risultati sottolineano la necessità di ulteriori progressi nei compiti di generazione di codice autoinvocante e indicano una nuova direzione per futuri studi sull'ottimizzazione delle capacità di ragionamento del codice dei LLM.