Articoli di ricerca IA selezionati quotidianamente con traduzioni
Consentire ai modelli linguistici di grandi dimensioni (LLM) di migliorare i propri output utilizzando un maggiore calcolo al momento del test rappresenta un passo cruciale verso la creazione di agenti generalmente auto-miglioranti in grado di operare su linguaggio naturale aperto. In questo articolo, studiamo il ridimensionamento del calcolo durante l'inferenza negli LLM, concentrandoci sulla risposta alla domanda: se a un LLM è consentito utilizzare una quantità fissa ma non banale di calcolo durante l'inferenza, quanto può migliorare le sue prestazioni su un prompt impegnativo? Rispondere a questa domanda ha implicazioni non solo sulle prestazioni raggiungibili degli LLM, ma anche sul futuro del pre-addestramento degli LLM e su come bilanciare il calcolo durante l'inferenza e il pre-addestramento. Nonostante la sua importanza, poche ricerche hanno tentato di comprendere i comportamenti di ridimensionamento di vari metodi di inferenza al momento del test. Inoltre, il lavoro attuale fornisce principalmente risultati negativi per diverse di queste strategie. In questo lavoro, analizziamo due meccanismi principali per ridimensionare il calcolo al momento del test: (1) la ricerca contro modelli di ricompensa basati su processi densi; e (2) l'aggiornamento adattivo della distribuzione del modello su una risposta, dato il prompt al momento del test. Scopriamo che in entrambi i casi, l'efficacia di diversi approcci al ridimensionamento del calcolo al momento del test varia in modo critico a seconda della difficoltà del prompt. Questa osservazione motiva l'applicazione di una strategia di ridimensionamento "ottimale per il calcolo", che agisce per allocare in modo più efficace il calcolo al momento del test in modo adattivo per ogni prompt. Utilizzando questa strategia ottimale per il calcolo, possiamo migliorare l'efficienza del ridimensionamento del calcolo al momento del test di oltre 4 volte rispetto a una baseline best-of-N. Inoltre, in una valutazione con FLOPs equivalenti, scopriamo che su problemi in cui un modello base più piccolo raggiunge tassi di successo non banali, il calcolo al momento del test può essere utilizzato per superare un modello 14 volte più grande.
La capacità di elaborare più immagini è cruciale affinché i Large Vision-Language Models (LVLM) sviluppino una comprensione più approfondita e sfumata di una scena. Recenti LVLM multi-immagine hanno iniziato a soddisfare questa esigenza. Tuttavia, la loro valutazione non ha tenuto il passo con il loro sviluppo. Per colmare questa lacuna, introduciamo il benchmark Multimodal Multi-image Understanding (MMIU), una suite di valutazione completa progettata per valutare i LVLM su un'ampia gamma di attività multi-immagine. MMIU comprende 7 tipi di relazioni multi-immagine, 52 attività, 77K immagini e 11K domande a scelta multipla accuratamente curate, rendendolo il benchmark più esteso nel suo genere. La nostra valutazione di 24 LVLM popolari, inclusi sia modelli open-source che proprietari, rivela sfide significative nella comprensione multi-immagine, in particolare nelle attività che coinvolgono la comprensione spaziale. Anche i modelli più avanzati, come GPT-4o, raggiungono solo il 55,7% di accuratezza su MMIU. Attraverso esperimenti analitici multifaccettati, identifichiamo i principali gap di prestazioni e limitazioni, fornendo spunti preziosi per futuri miglioramenti di modelli e dati. Il nostro obiettivo è che MMIU avanzi la frontiera della ricerca e dello sviluppo dei LVLM, avvicinandoci al raggiungimento di sofisticate interazioni utente multimodali multi-immagine.
Presentiamo LLaVA-OneVision, una famiglia di modelli multimodali di grandi dimensioni (LMM) open source sviluppata consolidando le nostre intuizioni su dati, modelli e rappresentazioni visive nella serie di blog LLaVA-NeXT. I nostri risultati sperimentali dimostrano che LLaVA-OneVision è il primo modello singolo in grado di spingere simultaneamente i limiti delle prestazioni degli LMM open source in tre importanti scenari di visione artificiale: scenari con immagine singola, immagini multiple e video. È importante sottolineare che il design di LLaVA-OneVision consente un forte trasferimento di apprendimento tra diverse modalità/scenari, generando nuove capacità emergenti. In particolare, una solida comprensione video e capacità cross-scenario vengono dimostrate attraverso il trasferimento di compiti da immagini a video.
Introduciamo un nuovo approccio per generare modelli 3D realistici con mappe UV attraverso una rappresentazione denominata "Immagini Oggetto". Questo approccio racchiude la geometria della superficie, l'aspetto e le strutture delle patch all'interno di un'immagine di 64x64 pixel, convertendo efficacemente forme 3D complesse in un formato 2D più gestibile. In questo modo, affrontiamo le sfide dell'irregolarità sia geometrica che semantica intrinseca nelle mesh poligonali. Questo metodo ci consente di utilizzare direttamente modelli di generazione di immagini, come i Diffusion Transformer, per la generazione di forme 3D. Valutato sul dataset ABO, le nostre forme generate con strutture di patch raggiungono un FID della nuvola di punti comparabile ai recenti modelli generativi 3D, supportando naturalmente la generazione di materiali PBR.
Questo articolo presenta MedTrinity-25M, un dataset multimodale su larga scala e completo per la medicina, che copre oltre 25 milioni di immagini in 10 modalità, con annotazioni multigranulari per più di 65 malattie. Queste annotazioni arricchite includono sia informazioni testuali globali, come il tipo di malattia/lesione, la modalità, descrizioni specifiche per regione e relazioni interregionali, sia annotazioni locali dettagliate per le regioni di interesse (ROI), tra cui bounding box e maschere di segmentazione. A differenza degli approcci esistenti, limitati dalla disponibilità di coppie immagine-testo, abbiamo sviluppato la prima pipeline automatizzata che scala i dati multimodali generando annotazioni visive e testuali multigranulari (sotto forma di triplette immagine-ROI-descrizione) senza la necessità di descrizioni testuali accoppiate. Nello specifico, i dati provenienti da oltre 90 fonti diverse sono stati raccolti, preprocessati e ancorati utilizzando modelli esperti specifici del dominio per identificare le ROI relative alle regioni anomale. Successivamente, abbiamo costruito una base di conoscenza completa e abbiamo sollecitato modelli linguistici multimodali di grandi dimensioni per eseguire una generazione aumentata dal recupero con le ROI identificate come guida, ottenendo descrizioni testuali multigranulari. Rispetto ai dataset esistenti, MedTrinity-25M fornisce le annotazioni più arricchite, supportando un'ampia gamma di attività multimodali come la generazione di didascalie e report, nonché attività centrate sulla visione come la classificazione e la segmentazione. Addestrando il nostro modello su MedTrinity-25M, otteniamo prestazioni all'avanguardia su VQA-RAD e PathVQA, superando sia i modelli linguistici multimodali di grandi dimensioni che altri approcci rappresentativi SoTA. Questo dataset può anche essere utilizzato per supportare il pre-addestramento su larga scala di modelli di intelligenza artificiale medica multimodale, contribuendo allo sviluppo di futuri modelli di base nel dominio medico.
I modelli di diffusione continuano a spingere i limiti dello stato dell'arte nella generazione di immagini, ma il processo è difficile da controllare con precisione: la pratica dimostra che i prompt testuali sono inadeguati per descrivere accuratamente lo stile dell'immagine o i dettagli strutturali fini (come i volti). ControlNet e IPAdapter affrontano questa limitazione condizionando il processo generativo su immagini, ma ogni singola istanza è limitata alla modellazione di una singola distribuzione a posteriori condizionata. Per casi d'uso pratici, in cui si desiderano multiple distribuzioni a posteriori all'interno dello stesso flusso di lavoro, l'addestramento e l'utilizzo di più adattatori risulta macchinoso. Proponiamo IPAdapter-Instruct, che combina il condizionamento su immagini naturali con prompt di tipo "Instruct" per alternare tra diverse interpretazioni della stessa immagine condizionante: trasferimento di stile, estrazione di oggetti, entrambi o qualcos'altro ancora? IPAdapter-Instruct apprende efficientemente più task con una perdita minima di qualità rispetto a modelli dedicati per singoli task.
Esiste una crescente linea di ricerca sulla verifica della correttezza degli output dei modelli linguistici. Allo stesso tempo, i modelli linguistici vengono utilizzati per affrontare query complesse che richiedono ragionamento. Introduciamo CoverBench, un benchmark impegnativo focalizzato sulla verifica degli output dei modelli linguistici in contesti di ragionamento complesso. I dataset che possono essere utilizzati per questo scopo sono spesso progettati per altri compiti di ragionamento complesso (ad esempio, QA) mirati a casi d'uso specifici (ad esempio, tabelle finanziarie), richiedendo trasformazioni, campionamento negativo e selezione di esempi difficili per raccogliere un tale benchmark. CoverBench fornisce una valutazione diversificata per la verifica di affermazioni complesse in una varietà di domini, tipi di ragionamento, input relativamente lunghi e una varietà di standardizzazioni, come multiple rappresentazioni per le tabelle dove disponibili, e uno schema coerente. Verifichiamo manualmente la qualità dei dati per garantire bassi livelli di rumore nelle etichette. Infine, riportiamo una varietà di risultati di baseline competitivi per dimostrare che CoverBench è impegnativo e ha un margine di miglioramento molto significativo. I dati sono disponibili all'indirizzo https://huggingface.co/datasets/google/coverbench.
Questo articolo dimostra come utilizzare modelli generativi addestrati per la sintesi di immagini come strumenti per il data mining visivo. La nostra intuizione è che, poiché i modelli generativi contemporanei apprendono una rappresentazione accurata dei loro dati di addestramento, possiamo utilizzarli per riassumere i dati estraendo modelli visivi. Nello specifico, mostriamo che, dopo aver affinato modelli di diffusione condizionata per sintetizzare immagini da un dataset specifico, possiamo utilizzare questi modelli per definire una misura di tipicità su tale dataset. Questa misura valuta quanto siano tipici gli elementi visivi per diverse etichette di dati, come la posizione geografica, i timestamp, le etichette semantiche o persino la presenza di una malattia. Questo approccio di analisi tramite sintesi al data mining presenta due vantaggi chiave. In primo luogo, scala molto meglio rispetto agli approcci tradizionali basati sulla corrispondenza, poiché non richiede di confrontare esplicitamente tutte le coppie di elementi visivi. In secondo luogo, mentre la maggior parte dei lavori precedenti sul data mining visivo si concentra su un singolo dataset, il nostro approccio funziona su dataset diversi in termini di contenuto e scala, inclusi un dataset storico di automobili, un dataset storico di volti, un ampio dataset mondiale di street-view e un dataset ancora più grande di scene. Inoltre, il nostro approccio consente di tradurre elementi visivi tra etichette di classe e di analizzare cambiamenti coerenti.
La sincronizzazione labiale di video con un determinato audio rappresenta la base per varie applicazioni, inclusa la creazione di presentatori o performer virtuali. Sebbene studi recenti esplorino la sincronizzazione labiale ad alta fedeltà con diverse tecniche, i loro modelli orientati al compito richiedono video di lunga durata per un training specifico o mantengono artefatti visibili. In questo articolo, proponiamo un framework unificato ed efficace, ReSyncer, che sincronizza informazioni audio-visive facciali generalizzate. Il design chiave consiste nel rivisitare e riconfigurare il generatore basato su stile per adottare in modo efficiente le dinamiche facciali 3D previste da un Transformer con iniezione di stile basato su principi. Semplicemente riconfigurando i meccanismi di inserimento delle informazioni all'interno dello spazio del rumore e dello stile, il nostro framework fonde movimento e aspetto con un training unificato. Esperimenti estensivi dimostrano che ReSyncer non solo produce video sincronizzati labialmente ad alta fedeltà in base all'audio, ma supporta anche molteplici proprietà attraenti adatte alla creazione di presentatori e performer virtuali, tra cui un rapido fine-tuning personalizzato, la sincronizzazione labiale guidata da video, il trasferimento di stili di parlato e persino lo scambio di volti. Le risorse sono disponibili all'indirizzo https://guanjz20.github.io/projects/ReSyncer.
La valutazione è il punto di riferimento per lo sviluppo dei grandi modelli linguistici. Le valutazioni attuali impiegano tipicamente un paradigma di valutazione a singolo elemento per ogni obiettivo di test atomico, il che rende difficile discernere se un modello possiede effettivamente le capacità richieste o si limita a memorizzare/indovinare le risposte a domande specifiche. A tal fine, proponiamo un nuovo framework di valutazione denominato StructEval. Partendo da un obiettivo di test atomico, StructEval approfondisce e amplia la valutazione conducendo una valutazione strutturata su più livelli cognitivi e concetti critici, offrendo così una valutazione completa, robusta e coerente per i grandi modelli linguistici. Esperimenti su tre benchmark ampiamente utilizzati dimostrano che StructEval funge da strumento affidabile per contrastare il rischio di contaminazione dei dati e ridurre l'interferenza di potenziali bias, fornendo così conclusioni più affidabili e coerenti riguardo alle capacità del modello. Il nostro framework offre inoltre spunti per la progettazione di futuri protocolli di valutazione dei grandi modelli linguistici, basati su principi e affidabili.
Il divario di capacità tra i modelli linguistici di grandi dimensioni (LLM) open-source e closed-source rimane una sfida nei compiti di text-to-SQL. In questo articolo, introduciamo un approccio basato su dati sintetici che combina dati prodotti da modelli più grandi e potenti (modelli forti) con informazioni sugli errori generate da modelli più piccoli e non ben allineati (modelli deboli). Questo metodo non solo migliora la generalizzazione di dominio dei modelli text-to-SQL, ma esplora anche il potenziale della supervisione basata sui dati di errore attraverso l'apprendimento delle preferenze. Inoltre, utilizziamo l'approccio dei dati sintetici per il tuning delle istruzioni su LLM open-source, ottenendo SENSE, un modello text-to-SQL specializzato. L'efficacia di SENSE è dimostrata attraverso risultati all'avanguardia sui benchmark SPIDER e BIRD, riducendo il divario prestazionale tra i modelli open-source e i metodi basati su prompt di modelli closed-source.
Recentemente, i modelli basati su transformer hanno dimostrato prestazioni eccezionali nei compiti di segmentazione audio-visiva (AVS). Tuttavia, il loro elevato costo computazionale rende impraticabile l'inferenza in tempo reale. Analizzando le mappe di attenzione della rete, abbiamo identificato due ostacoli chiave nei modelli AVS: 1) la dissipazione dell'attenzione, corrispondente ai pesi di attenzione eccessivamente concentrati da Softmax all'interno di frame ristretti, e 2) il decoder transformer inefficiente e oneroso, causato da schemi di attenzione ristretti nelle fasi iniziali. In questo articolo, presentiamo AVESFormer, il primo transformer per la segmentazione audio-visiva efficiente in tempo reale che combina velocità, efficienza e leggerezza. Il nostro modello sfrutta un generatore di query prompt efficiente per correggere il comportamento dell'attenzione incrociata. Inoltre, proponiamo il decoder ELF per aumentare l'efficienza, facilitando convoluzioni adatte alle caratteristiche locali per ridurre il carico computazionale. Esperimenti estensivi dimostrano che il nostro AVESFormer migliora significativamente le prestazioni del modello, raggiungendo il 79,9% su S4, il 57,9% su MS3 e il 31,2% su AVSS, superando i precedenti state-of-the-art e ottenendo un ottimo compromesso tra prestazioni e velocità. Il codice è disponibile all'indirizzo https://github.com/MarkXCloud/AVESFormer.git.