Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Meta MLGym e MLGym-Bench, un nuovo framework e benchmark per valutare e sviluppare agenti LLM su compiti di ricerca in IA. Questo è il primo ambiente Gym per compiti di machine learning (ML), che abilita la ricerca su algoritmi di reinforcement learning (RL) per l'addestramento di tali agenti. MLGym-Bench consiste in 13 compiti di ricerca in IA diversi e aperti, provenienti da domini come computer vision, elaborazione del linguaggio naturale, reinforcement learning e teoria dei giochi. Risolvere questi compiti richiede competenze di ricerca in IA del mondo reale, come generare nuove idee e ipotesi, creare e processare dati, implementare metodi di ML, addestrare modelli, eseguire esperimenti, analizzare i risultati e iterare questo processo per migliorare un determinato compito. Valutiamo diversi modelli linguistici di frontiera (LLM) sui nostri benchmark, come Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Il nostro framework MLGym rende semplice aggiungere nuovi compiti, integrare e valutare modelli o agenti, generare dati sintetici su larga scala e sviluppare nuovi algoritmi di apprendimento per addestrare agenti su compiti di ricerca in IA. Rileviamo che gli attuali modelli di frontiera possono migliorare rispetto ai baseline forniti, solitamente trovando iperparametri migliori, ma non generano ipotesi, algoritmi, architetture o miglioramenti sostanziali nuovi. Rendiamo open-source il nostro framework e benchmark per facilitare future ricerche nel potenziamento delle capacità di ricerca in IA degli agenti LLM.
Presentiamo SigLIP 2, una famiglia di nuovi encoder visione-linguaggio multilingue che si basano sul successo del modello SigLIP originale. In questa seconda iterazione, estendiamo l'obiettivo di addestramento immagine-testo originale integrando diverse tecniche precedentemente sviluppate in modo indipendente in una ricetta unificata. Questo include pre-addestramento basato su didascalie, perdite auto-supervisionate (auto-distillazione, predizione mascherata) e curatela dei dati online. Con queste modifiche, i modelli SigLIP 2 superano le loro controparti SigLIP a tutte le scale di modello nelle capacità fondamentali, tra cui classificazione zero-shot, recupero immagine-testo e prestazioni di trasferimento durante l'estrazione di rappresentazioni visive per modelli visione-linguaggio (VLM). Inoltre, la nuova ricetta di addestramento porta a miglioramenti significativi nei compiti di localizzazione e predizione densa. Addestriamo anche varianti che supportano più risoluzioni e preservano il rapporto d'aspetto nativo dell'input. Infine, addestriamo su una miscela di dati più diversificata che include tecniche di de-bias, portando a una comprensione multilingue molto migliore e a una maggiore equità. Per consentire agli utenti di bilanciare il costo di inferenza con le prestazioni, rilasciamo checkpoint di modello in quattro dimensioni: ViT-B (86M), L (303M), So400m (400M) e g (1B).
I modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato una notevole competenza nelle discipline accademiche principali come matematica, fisica e informatica. Tuttavia, la conoscenza umana abbraccia oltre 200 discipline specializzate, superando di gran lunga l'ambito dei benchmark esistenti. Le capacità degli LLMs in molti di questi campi specializzati, in particolare nell'industria leggera, nell'agricoltura e nelle discipline orientate ai servizi, rimangono inadeguatamente valutate. Per colmare questa lacuna, presentiamo SuperGPQA, un benchmark completo che valuta le conoscenze e le capacità di ragionamento a livello di laurea magistrale in 285 discipline. Il nostro benchmark utilizza un meccanismo innovativo di filtraggio collaborativo Umano-LLM per eliminare domande banali o ambigue attraverso un affinamento iterativo basato sia sulle risposte degli LLMs che sul feedback degli esperti. I nostri risultati sperimentali rivelano un significativo margine di miglioramento nelle prestazioni degli attuali LLMs all'avanguardia in diversi domini di conoscenza (ad esempio, il modello focalizzato sul ragionamento DeepSeek-R1 ha raggiunto la massima accuratezza del 61,82% su SuperGPQA), evidenziando il notevole divario tra le capacità attuali dei modelli e l'intelligenza artificiale generale. Inoltre, presentiamo approfondite intuizioni derivanti dalla gestione di un processo di annotazione su larga scala, che ha coinvolto oltre 80 annotatori esperti e un sistema interattivo di collaborazione Umano-LLM, offrendo preziose indicazioni metodologiche per future iniziative di ricerca di portata comparabile.
Le prestazioni dei Large Language Models (LLM) in molti compiti sono fortemente limitate dalla conoscenza appresa durante il pre-training e memorizzata nei parametri del modello. La Low-Rank Adaptation (LoRA) è una tecnica di addestramento popolare ed efficiente per l'aggiornamento o l'adattamento specifico di dominio dei LLM. In questo studio, indaghiamo come nuovi fatti possano essere incorporati nel LLM utilizzando LoRA senza compromettere le conoscenze precedentemente apprese. Abbiamo eseguito il fine-tuning di Llama-3.1-8B-instruct utilizzando LoRA con quantità variabili di nuove conoscenze. I nostri esperimenti hanno dimostrato che i migliori risultati si ottengono quando i dati di addestramento contengono una miscela di fatti noti e nuovi. Tuttavia, questo approccio è potenzialmente dannoso perché le prestazioni del modello su benchmark esterni di risposta alle domande diminuiscono dopo tale fine-tuning. Quando i dati di addestramento sono sbilanciati verso determinate entità, il modello tende a regredire verso poche risposte sovrarappresentate. Inoltre, abbiamo osservato che il modello diventa più sicuro di sé e rifiuta di fornire una risposta solo in pochi casi. Questi risultati evidenziano le potenziali insidie degli aggiornamenti dei LLM basati su LoRA e sottolineano l'importanza della composizione dei dati di addestramento e dei parametri di regolazione per bilanciare l'integrazione di nuove conoscenze e le capacità generali del modello.
L'aumento del calcolo al momento del test per i modelli linguistici di grandi dimensioni (LLM) mostra promettenti risultati in vari domini, ma rimane poco esplorato nella generazione di codice, nonostante gli studi approfonditi nel campo della matematica. In questo articolo, proponiamo S*, il primo framework ibrido di scalabilità al momento del test che migliora significativamente la copertura e l'accuratezza di selezione del codice generato. S* estende il paradigma esistente di scalabilità parallela con la scalabilità sequenziale per spingere i limiti delle prestazioni. Inoltre, sfrutta un meccanismo di selezione innovativo che genera in modo adattivo input distintivi per il confronto a coppie, combinato con informazioni basate sull'esecuzione per identificare in modo robusto le soluzioni corrette. Valutiamo 12 modelli linguistici di grandi dimensioni e un modello di ragionamento di grandi dimensioni e dimostriamo: (1) S* migliora costantemente le prestazioni tra famiglie e dimensioni di modelli, consentendo a un modello da 3B di superare GPT-4o-mini; (2) S* consente a modelli non di ragionamento di superare i modelli di ragionamento - GPT-4o-mini con S* supera o1-preview del 3,7% su LiveCodeBench; (3) S* potenzia ulteriormente i modelli di ragionamento all'avanguardia - DeepSeek-R1-Distill-Qwen-32B con S* raggiunge l'85,7% su LiveCodeBench, avvicinandosi a o1 (alto) all'88,5%. Il codice sarà disponibile su https://github.com/NovaSky-AI/SkyThought.
Ispirati dal successo di DeepSeek-R1, esploriamo il potenziale dell'apprendimento per rinforzo basato su regole (RL) nei modelli di ragionamento su larga scala. Per analizzare le dinamiche del ragionamento, utilizziamo enigmi logici sintetici come dati di addestramento grazie alla loro complessità controllabile e alla verifica diretta delle risposte. Apportiamo alcuni contributi tecnici chiave che portano a un addestramento RL efficace e stabile: un prompt di sistema che enfatizza il processo di pensiero e risposta, una funzione di ricompensa basata su un formato rigoroso che penalizza le uscite che prendono scorciatoie, e una procedura di addestramento semplice che garantisce una convergenza stabile. Il nostro modello da 7B sviluppa abilità di ragionamento avanzate—come riflessione, verifica e sintesi—che sono assenti nel corpus logico. In modo notevole, dopo l'addestramento su soli 5K problemi logici, dimostra capacità di generalizzazione sui benchmark matematici impegnativi AIME e AMC.
La realizzazione di un calcolo quantistico scalabile e tollerante ai guasti si prevede dipenda dai codici quantistici di correzione degli errori. Nella ricerca di una tolleranza ai guasti quantistica più efficiente, un parametro critico del codice è il peso delle misurazioni che estraggono informazioni sugli errori per consentire la correzione degli stessi: poiché pesi di misurazione più elevati richiedono costi di implementazione maggiori e introducono più errori, è importante ottimizzare il peso delle misurazioni nella progettazione dei codici. Ciò è alla base del crescente interesse per i codici quantistici a bassa densità di controllo di parità (qLDPC), il cui studio si è concentrato principalmente sulle proprietà asintotiche (limite di codici di grandi dimensioni). In questo lavoro, introduciamo un approccio versatile e computazionalmente efficiente per la riduzione del peso dei codici stabilizzatori basato sull'apprendimento per rinforzo (RL), che produce nuovi codici a basso peso che superano significativamente lo stato dell'arte in regimi di parametri praticamente rilevanti, estendendosi ben oltre le piccole distanze precedentemente accessibili. Ad esempio, il nostro approccio dimostra un risparmio nell'overhead di qubit fisici rispetto ai risultati esistenti da 1 a 2 ordini di grandezza per codici di peso 6 e porta l'overhead in un intervallo fattibile per esperimenti nel prossimo futuro. Investigiamo inoltre l'interazione tra i parametri del codice utilizzando il nostro framework RL, offrendo nuove intuizioni sul potenziale di efficienza e potenza delle strategie di codifica praticamente fattibili. Nel complesso, i nostri risultati dimostrano come l'RL possa avanzare efficacemente il problema cruciale ma impegnativo della scoperta di codici quantistici, facilitando così un percorso più rapido verso l'implementazione pratica di tecnologie quantistiche tolleranti ai guasti.
Studi recenti hanno dimostrato l'efficacia del ridimensionamento al momento del test per i modelli linguistici di grandi dimensioni (LLM). Tuttavia, gli approcci esistenti per incentivare le capacità di pensiero profondo degli LLM richiedono generalmente dati su larga scala o sforzi di addestramento significativi. Nel frattempo, rimane poco chiaro come migliorare le capacità di pensiero dei modelli base meno potenti. In questo lavoro, introduciamo S^2R, un framework efficiente che migliora il ragionamento degli LLM insegnando ai modelli a auto-verificarsi e auto-correggersi durante l'inferenza. Nello specifico, inizializziamo prima gli LLM con comportamenti iterativi di auto-verifica e auto-correzione attraverso un fine-tuning supervisionato su dati accuratamente selezionati. Le capacità di auto-verifica e auto-correzione vengono poi ulteriormente rafforzate sia da un apprendimento per rinforzo a livello di risultato che a livello di processo, con requisiti di risorse minimizzati, consentendo al modello di affinare adattivamente il proprio processo di ragionamento durante l'inferenza. I nostri risultati dimostrano che, con solo 3.1k campioni di inizializzazione del comportamento di auto-verifica e auto-correzione, Qwen2.5-math-7B raggiunge un miglioramento dell'accuratezza dal 51.0\% all'81.6\%, superando i modelli addestrati su una quantità equivalente di dati distillati con long-CoT. Esperimenti estesi e analisi basati su tre modelli base attraverso benchmark sia in dominio che fuori dominio convalidano l'efficacia di S^2R. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/NineAbyss/S2R.
Sebbene la capacità dei modelli linguistici di elicitare fatti sia stata ampiamente investigata, il modo in cui gestiscono fatti che cambiano nel tempo rimane poco esplorato. Scopriamo le Temporal Heads, specifiche teste di attenzione principalmente responsabili dell'elaborazione della conoscenza temporale attraverso l'analisi dei circuiti. Confermiamo che queste teste sono presenti in più modelli, sebbene le loro posizioni specifiche possano variare, e le loro risposte differiscono a seconda del tipo di conoscenza e degli anni corrispondenti. Disabilitare queste teste riduce la capacità del modello di ricordare conoscenze specifiche nel tempo, mantenendo le sue capacità generali senza compromettere le prestazioni invarianti nel tempo e di risposta alle domande. Inoltre, le teste vengono attivate non solo da condizioni numeriche ("Nel 2004") ma anche da alias testuali ("Nell'anno ..."), indicando che codificano una dimensione temporale che va oltre la semplice rappresentazione numerica. Inoltre, espandiamo il potenziale delle nostre scoperte dimostrando come la conoscenza temporale possa essere modificata regolando i valori di queste teste.
I modelli esistenti di grandi dimensioni per la visione e il linguaggio (LVLM) sono in grado di elaborare input con contesti fino a 128k token visivi e testuali, ma faticano a generare output coerenti oltre le 1.000 parole. Abbiamo riscontrato che la limitazione principale è l'assenza di esempi di output lunghi durante la messa a punto supervisionata (SFT). Per affrontare questo problema, introduciamo LongWriter-V-22k, un dataset SFT composto da 22.158 esempi, ciascuno con più immagini di input, un'istruzione e output corrispondenti che vanno da 0 a 10.000 parole. Inoltre, per ottenere output lunghi che mantengano un'elevata fedeltà alle immagini di input, applichiamo l'ottimizzazione diretta delle preferenze (DPO) al modello SFT. Considerando l'elevato costo della raccolta di feedback umani per output lunghi (ad esempio, 3.000 parole), proponiamo IterDPO, che suddivide gli output lunghi in segmenti e utilizza correzioni iterative per formare coppie di preferenze con gli output originali. Inoltre, sviluppiamo MMLongBench-Write, un benchmark che include sei task per valutare le capacità di generazione lunga dei modelli VL. Il nostro modello da 7B parametri, addestrato con LongWriter-V-22k e IterDPO, ottiene prestazioni impressionanti su questo benchmark, superando modelli proprietari più grandi come GPT-4o. Codice e dati: https://github.com/THU-KEG/LongWriter-V
Nel campo degli agenti GUI basati su MLLM, rispetto agli smartphone, lo scenario PC non solo presenta un ambiente interattivo più complesso, ma coinvolge anche flussi di lavoro intra- e inter-app più intricati. Per affrontare queste problematiche, proponiamo un framework gerarchico di agenti denominato PC-Agent. Nello specifico, dal punto di vista della percezione, abbiamo ideato un Modulo di Percezione Attiva (APM) per superare le capacità insufficienti degli attuali MLLM nel percepire il contenuto degli screenshot. Dal punto di vista del processo decisionale, per gestire in modo più efficace istruzioni utente complesse e sottotask interdipendenti, proponiamo un'architettura di collaborazione multi-agente gerarchica che scompone i processi decisionali in livelli Istruzione-Sottotask-Azione. All'interno di questa architettura, sono stati configurati tre agenti (ovvero Manager, Progress e Decision) rispettivamente per la scomposizione delle istruzioni, il monitoraggio dei progressi e il processo decisionale passo-passo. Inoltre, è stato adottato un agente di Riflessione per consentire un feedback e un aggiustamento tempestivi degli errori dal basso verso l'alto. Introduciamo anche un nuovo benchmark, PC-Eval, con 25 istruzioni complesse del mondo reale. I risultati empirici su PC-Eval dimostrano che il nostro PC-Agent raggiunge un miglioramento assoluto del 32% nel tasso di successo delle task rispetto ai precedenti metodi all'avanguardia. Il codice sarà reso pubblicamente disponibile.
Il ritmo di evoluzione dei Large Language Models (LLM) richiede nuovi approcci per una valutazione rigorosa e completa. L'annotazione umana tradizionale sta diventando sempre più impraticabile a causa delle complessità e dei costi legati alla generazione di problemi di alta qualità e impegnativi. In questo lavoro, introduciamo CHASE, un framework unificato per generare sinteticamente problemi complessi utilizzando i LLM senza il coinvolgimento umano. Per un determinato compito, il nostro approccio costruisce un problema difficile in modo bottom-up a partire da componenti più semplici. Inoltre, il nostro framework scompone il processo di generazione in sotto-task verificabili in modo indipendente, garantendo così un elevato livello di qualità e correttezza. Implementiamo CHASE per creare benchmark di valutazione in tre domini diversi: (1) question answering basato su documenti, (2) completamento di codice a livello di repository e (3) ragionamento matematico. Le prestazioni dei LLM più avanzati su questi benchmark sintetici si attestano in un intervallo di accuratezza del 40-60%, dimostrando così l'efficacia del nostro framework nella generazione di problemi complessi. Rilasciamo pubblicamente i nostri benchmark e il codice.
La personalizzazione dei modelli generativi testo-immagine ha registrato progressi notevoli, ma estendere questa personalizzazione ai modelli testo-video presenta sfide uniche. A differenza dei concetti statici, la personalizzazione dei modelli testo-video ha il potenziale di catturare concetti dinamici, ovvero entità definite non solo dal loro aspetto ma anche dal loro movimento. In questo articolo, introduciamo Set-and-Sequence, un nuovo framework per personalizzare modelli generativi video basati su Diffusion Transformers (DiTs) con concetti dinamici. Il nostro approccio impone uno spazio di pesi spazio-temporale all'interno di un'architettura che non separa esplicitamente le caratteristiche spaziali e temporali. Questo viene ottenuto in due fasi chiave. Innanzitutto, ottimizziamo i livelli di Low-Rank Adaptation (LoRA) utilizzando un insieme non ordinato di frame del video per apprendere una base LoRA di identità che rappresenta l'aspetto, libera da interferenze temporali. Nella seconda fase, con le LoRA di identità congelate, aumentiamo i loro coefficienti con Residui di Movimento e li ottimizziamo sull'intera sequenza video, catturando le dinamiche del movimento. Il nostro framework Set-and-Sequence produce uno spazio di pesi spazio-temporale che incorpora efficacemente concetti dinamici nel dominio di output del modello video, consentendo un'inedita editabilità e componibilità, stabilendo al contempo un nuovo punto di riferimento per la personalizzazione di concetti dinamici.
Ragionare su immagini con testo complesso, come grafici e documenti, rappresenta un'applicazione cruciale per i modelli visione-linguaggio (VLMs). Tuttavia, i VLMs spesso incontrano difficoltà in questi ambiti a causa della scarsità di dati visivo-linguistici diversificati e ricchi di testo. Per affrontare questa sfida, presentiamo CoSyn, un framework che sfrutta le capacità di codifica dei modelli linguistici di grandi dimensioni (LLMs) basati esclusivamente su testo per creare automaticamente dati multimodali sintetici ricchi di testo. Dato un testo di input che descrive un dominio target (ad esempio, "etichette nutrizionali"), CoSyn invita un LLM a generare codice (Python, HTML, LaTeX, ecc.) per il rendering di immagini sintetiche. Utilizzando il codice sottostante come rappresentazione testuale delle immagini sintetiche, CoSyn può generare dati di alta qualità per l'ottimizzazione delle istruzioni, affidandosi nuovamente a un LLM basato esclusivamente su testo. Utilizzando CoSyn, abbiamo costruito un dataset composto da 400K immagini e 2.7 milioni di righe di dati per l'ottimizzazione delle istruzioni visivo-linguistiche. Esperimenti completi su sette benchmark dimostrano che i modelli addestrati sui nostri dati sintetici raggiungono prestazioni all'avanguardia tra i modelli open-source competitivi, inclusi Llama 3.2, e superano modelli proprietari come GPT-4V e Gemini 1.5 Flash. Inoltre, CoSyn può produrre dati sintetici di puntamento, consentendo ai VLMs di ancorare le informazioni all'interno delle immagini di input, dimostrando il suo potenziale per lo sviluppo di agenti multimodali in grado di agire in ambienti reali.
I Large Language Models (LLM) hanno dimostrato capacità impressionanti nell'elaborazione del linguaggio, ma spesso incontrano difficoltà in compiti che richiedono un genuino ragionamento visivo-spaziale. In questo articolo, introduciamo un innovativo framework di addestramento in due fasi progettato per dotare i LLM standard di abilità di ragionamento visivo per la navigazione in labirinti. In primo luogo, sfruttiamo il Fine Tuning Supervisionato (SFT) su un dataset curato di rappresentazioni tokenizzate di labirinti per insegnare al modello a prevedere comandi di movimento passo-passo. Successivamente, applichiamo l'ottimizzazione delle politiche relative ai gruppi (GRPO) - una tecnica utilizzata in DeepSeekR1 - con una funzione di ricompensa accuratamente progettata per affinare il processo decisionale sequenziale del modello e incoraggiare comportamenti emergenti di catena di pensiero. I risultati sperimentali su labirinti generati sinteticamente mostrano che, mentre un modello di base non riesce a navigare nel labirinto, il modello addestrato con SFT raggiunge un'accuratezza dell'86%, e un ulteriore fine-tuning con GRPO aumenta l'accuratezza al 93%. Analisi qualitative rivelano che il GRPO favorisce un ragionamento più robusto e autocorrettivo, evidenziando il potenziale del nostro approccio per colmare il divario tra modelli linguistici e compiti visivo-spaziali. Questi risultati offrono implicazioni promettenti per applicazioni nella robotica, nella navigazione autonoma e in altri domini che richiedono un ragionamento integrato visivo e sequenziale.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale notevole nell'elaborazione di sequenze lunghe, ma servire in modo efficiente questi modelli con contesti estesi rimane una sfida a causa della complessità computazionale quadratica dell'attenzione nella fase di prefilling e dell'ampio footprint di memoria della cache KV nella fase di decodifica. Per affrontare questi problemi, introduciamo LServe, un sistema efficiente che accelera il servizio di LLM con sequenze lunghe tramite un'attenzione sparsa ibrida. Questo metodo unifica diversi schemi di sparsità strutturata, compatibili con l'hardware, per l'attenzione sia nella fase di prefilling che di decodifica, in un unico framework, dove i calcoli sui token meno importanti vengono saltati a livello di blocco. LServe dimostra la compatibilità della sparsità statica e dinamica nell'attenzione degli LLM con contesti lunghi. Questo design consente accelerazioni moltiplicative combinando queste ottimizzazioni. Nello specifico, convertiamo metà delle teste di attenzione in teste di streaming quasi gratuite sia nella fase di prefilling che di decodifica. Inoltre, scopriamo che è necessario solo un numero costante di pagine KV per preservare le capacità di contesto lungo, indipendentemente dalla lunghezza del contesto. Progettiamo quindi una politica di selezione gerarchica delle pagine KV che pota dinamicamente le pagine KV in base alla similarità centrata sulla query. In media, LServe accelera il prefilling degli LLM fino a 2,9x e la decodifica di 1,3-2,1x rispetto a vLLM, mantenendo l'accuratezza del contesto lungo. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/omniserve.
La nostra capacità di acquisire, organizzare e sfruttare continuamente la conoscenza è una caratteristica fondamentale dell'intelligenza umana che i sistemi di intelligenza artificiale devono approssimare per sbloccare il loro pieno potenziale. Date le sfide nell'apprendimento continuo con i grandi modelli linguistici (LLM), la generazione aumentata dal recupero (RAG) è diventata il metodo dominante per introdurre nuove informazioni. Tuttavia, la sua dipendenza dal recupero vettoriale ostacola la sua capacità di imitare la natura dinamica e interconnessa della memoria a lungo termine umana. Recenti approcci RAG arricchiscono gli embedding vettoriali con varie strutture come grafi di conoscenza per affrontare alcune di queste lacune, in particolare il senso e l'associatività. Tuttavia, le loro prestazioni su compiti di memoria fattuale più basilari scendono considerevolmente al di sotto dello standard RAG. Affrontiamo questo deterioramento non intenzionale e proponiamo HippoRAG 2, un framework che supera lo standard RAG in modo completo su compiti di memoria fattuale, di senso e associativa. HippoRAG 2 si basa sull'algoritmo Personalized PageRank utilizzato in HippoRAG e lo potenzia con una più profonda integrazione dei passaggi e un uso più efficace online di un LLM. Questa combinazione avvicina questo sistema RAG all'efficacia della memoria a lungo termine umana, ottenendo un miglioramento del 7% nei compiti di memoria associativa rispetto al modello di embedding all'avanguardia, mostrando anche capacità superiori di conoscenza fattuale e memoria di senso. Questo lavoro apre la strada all'apprendimento continuo non parametrico per gli LLM. Il nostro codice e i dati saranno rilasciati su https://github.com/OSU-NLP-Group/HippoRAG.
Il Diffusion Transformer svolge un ruolo fondamentale nel progresso della generazione da testo a immagine e da testo a video, principalmente grazie alla sua scalabilità intrinseca. Tuttavia, i metodi esistenti di diffusion transformer controllati comportano un significativo sovraccarico di parametri e computazionale e soffrono di un'allocazione inefficiente delle risorse a causa della mancata considerazione della rilevanza variabile delle informazioni di controllo attraverso i diversi strati del transformer. Per affrontare questo problema, proponiamo il framework di Generazione Controllata Efficiente Guidata dalla Rilevanza, RelaCtrl, che consente un'integrazione efficiente e ottimizzata delle risorse dei segnali di controllo nel Diffusion Transformer. In primo luogo, valutiamo la rilevanza di ciascuno strato del Diffusion Transformer rispetto alle informazioni di controllo attraverso il "ControlNet Relevance Score", ovvero l'impatto del salto di ciascuno strato di controllo sia sulla qualità della generazione che sull'efficacia del controllo durante l'inferenza. Sulla base della forza della rilevanza, adattiamo quindi il posizionamento, la scala dei parametri e la capacità di modellazione degli strati di controllo per ridurre i parametri non necessari e le computazioni ridondanti. Inoltre, per migliorare ulteriormente l'efficienza, sostituiamo il self-attention e la FFN nel blocco di copia comunemente utilizzato con il Two-Dimensional Shuffle Mixer (TDSM), progettato con cura, consentendo un'implementazione efficiente sia del token mixer che del channel mixer. I risultati sperimentali qualitativi e quantitativi dimostrano che il nostro approccio raggiunge prestazioni superiori con solo il 15% dei parametri e della complessità computazionale rispetto a PixArt-delta. Ulteriori esempi sono disponibili su https://relactrl.github.io/RelaCtrl/.
La geo-localizzazione di immagini è il compito di prevedere la posizione specifica di un'immagine e richiede un ragionamento complesso che coinvolge contesti visivi, geografici e culturali. Sebbene i precedenti modelli di visione e linguaggio (VLMs) abbiano la migliore accuratezza in questo compito, c'è una carenza di dataset e modelli di alta qualità per il ragionamento analitico. Iniziamo creando NaviClues, un dataset di alta qualità derivato da GeoGuessr, un popolare gioco di geografia, per fornire esempi di ragionamento esperto basato sul linguaggio. Utilizzando questo dataset, presentiamo Navig, un framework completo per la geo-localizzazione di immagini che integra informazioni globali e dettagliate delle immagini. Ragionando con il linguaggio, Navig riduce l'errore medio di distanza del 14% rispetto ai precedenti modelli all'avanguardia, richiedendo meno di 1000 campioni di addestramento. Il nostro dataset e il codice sono disponibili all'indirizzo https://github.com/SparrowZheyuan18/Navig/.
Gli sviluppatori di LLM stanno diventando sempre più dipendenti dai dati sintetici, ma generare dati di alta qualità per compiti complessi di ragionamento a lungo contesto rimane una sfida. Introduciamo CLIPPER, un approccio basato sulla compressione per generare dati sintetici specifici per la verifica di affermazioni narrative, un compito che richiede il ragionamento su un libro per verificare una determinata affermazione. Invece di generare direttamente le affermazioni dal testo grezzo del libro, che risulta in affermazioni piene di artefatti, CLIPPER prima comprime il libro in riassunti dei capitoli e del libro, e poi utilizza queste rappresentazioni intermedie per generare affermazioni complesse e i corrispondenti ragionamenti a catena. Rispetto agli approcci ingenui, CLIPPER produce affermazioni più valide, fondate e complesse. Utilizzando CLIPPER, abbiamo costruito un dataset di 19K affermazioni sintetiche su libri abbinate ai loro testi sorgente e ai ragionamenti a catena, e lo abbiamo utilizzato per ottimizzare tre modelli open-weight. Il nostro miglior modello raggiunge risultati rivoluzionari nella verifica di affermazioni narrative (dal 28% al 76% di accuratezza sul nostro set di test) e stabilisce un nuovo stato dell'arte per i modelli sub-10B sulla leaderboard di NoCha. Un'ulteriore analisi mostra che i nostri modelli generano ragionamenti a catena più dettagliati e fondati, migliorando anche le prestazioni su altri compiti di comprensione narrativa (ad esempio, NarrativeQA).
I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato capacità impressionanti in un'ampia gamma di compiti visivi. Tuttavia, spesso incontrano difficoltà nel ragionamento visivo fine, non riuscendo a identificare obiettivi specifici del dominio e a fornire spiegazioni giustificabili per le loro previsioni. Per affrontare questo problema, proponiamo un nuovo framework di campionamento per rifiuto visivo per migliorare la cognizione e l'esplicabilità degli LMM utilizzando dati auto-sintetizzati. Nello specifico, l'ottimizzazione visiva richiede immagini, query e risposte target. Il nostro approccio inizia sintetizzando risposte interpretabili che includono caratteristiche visive verificabili dall'uomo. Queste caratteristiche si basano su concetti definiti da esperti, selezionati con cura in base alla loro corrispondenza con il contenuto dell'immagine. Dopo ogni ciclo di ottimizzazione, applichiamo un meccanismo di filtraggio senza modello di ricompensa per selezionare le risposte interpretabili di qualità più elevata per il ciclo successivo di ottimizzazione. Questo processo iterativo di sintesi dei dati e ottimizzazione migliora progressivamente la capacità del modello di generare spiegazioni accurate e ragionevoli. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel migliorare sia l'accuratezza che l'esplicabilità dei compiti di classificazione visiva specializzati.
I modelli di ricompensa svolgono un ruolo essenziale nell'addestramento dei modelli visione-linguaggio (VLMs) valutando la qualità degli output per consentire l'allineamento con le preferenze umane. Nonostante la loro importanza, la comunità di ricerca manca di benchmark aperti e completi per valutare i modelli di ricompensa multimodali nei VLMs. Per colmare questa lacuna, introduciamo Multimodal RewardBench, un benchmark annotato da esperti che copre sei domini: correttezza generale, preferenza, conoscenza, ragionamento, sicurezza e risposta a domande visive. Il nostro dataset comprende 5.211 triplette annotate (prompt, risposta scelta, risposta rifiutata) raccolte da vari VLMs. Valutando una gamma di giudici VLMs, scopriamo che anche i modelli più performanti, Gemini 1.5 Pro e Claude 3.5 Sonnet, raggiungono solo il 72% di accuratezza complessiva. In particolare, la maggior parte dei modelli incontra difficoltà nei domini del ragionamento e della sicurezza. Questi risultati suggeriscono che Multimodal RewardBench offre un banco di prova impegnativo per far progredire lo sviluppo dei modelli di ricompensa in più domini. Rilasciamo il benchmark all'indirizzo https://github.com/facebookresearch/multimodal_rewardbench.
La preparazione di dataset di alta qualità richiesti da vari modelli di intelligenza artificiale e machine learning basati sui dati è diventata un compito fondamentale nell'analisi data-driven. I metodi convenzionali di scoperta dei dati tipicamente integrano i dataset verso una singola misura di qualità predefinita, che può portare a distorsioni nei compiti successivi. Questo articolo introduce MODis, un framework che scopre i dataset ottimizzando multiple misure di prestazione definite dall'utente. Dato un insieme di fonti di dati e un modello, MODis seleziona e integra le fonti di dati in un dataset skyline, sul quale il modello dovrebbe ottenere le prestazioni desiderate in tutte le misure di performance. Formuliamo MODis come un trasduttore a stati finiti multi-obiettivo e deriviamo tre algoritmi fattibili per generare dataset skyline. Il nostro primo algoritmo adotta una strategia "riduci-dall'universale", che parte da uno schema universale e riduce iterativamente i dati non promettenti. Il secondo algoritmo riduce ulteriormente i costi con una strategia bidirezionale che alterna l'aumento e la riduzione dei dati. Introduciamo anche un algoritmo di diversificazione per mitigare le distorsioni nei dataset skyline. Verifichiamo sperimentalmente l'efficienza e l'efficacia dei nostri algoritmi di scoperta dei dati skyline e ne mostriamo le applicazioni nell'ottimizzazione delle pipeline di data science.
Il rapido progresso dei Modelli Linguistici di Grande Dimensione (LLM) ha aperto nuove opportunità nei sistemi di raccomandazione, consentendo raccomandazioni zero-shot senza il tradizionale addestramento. Nonostante il loro potenziale, la maggior parte dei lavori esistenti si basa esclusivamente sulle cronologie di acquisto degli utenti, lasciando ampio margine di miglioramento attraverso l'integrazione di dati testuali generati dagli utenti, come recensioni e descrizioni di prodotti. Per colmare questa lacuna, proponiamo PURE, un innovativo framework di raccomandazione basato su LLM che costruisce e mantiene profili utente in evoluzione, estraendo e riassumendo sistematicamente le informazioni chiave dalle recensioni degli utenti. PURE è composto da tre componenti principali: un Estrattore di Recensioni per identificare le preferenze degli utenti e le caratteristiche chiave dei prodotti, un Aggiornatore di Profili per affinare e aggiornare i profili utente, e un Raccomandatore per generare suggerimenti personalizzati utilizzando il profilo più recente. Per valutare PURE, introduciamo un task di raccomandazione sequenziale continua che riflette scenari reali, aggiungendo recensioni nel tempo e aggiornando le previsioni in modo incrementale. I nostri risultati sperimentali sui dataset di Amazon dimostrano che PURE supera i metodi esistenti basati su LLM, sfruttando efficacemente le informazioni a lungo termine degli utenti e gestendo i limiti di token.
Generare molecole nuove con proprietà fuori distribuzione rappresenta una sfida significativa nella scoperta molecolare. Mentre i metodi di apprendimento supervisionato generano molecole di alta qualità simili a quelle presenti in un dataset, faticano a generalizzare verso proprietà fuori distribuzione. L'apprendimento per rinforzo può esplorare nuovi spazi chimici, ma spesso incorre in "reward-hacking" e genera molecole non sintetizzabili. In questo lavoro, affrontiamo questo problema integrando un metodo di apprendimento supervisionato all'avanguardia, STGG+, in un ciclo di active learning. Il nostro approccio genera, valuta e perfeziona iterativamente STGG+ per espandere continuamente la sua conoscenza. Denotiamo questo approccio come STGG+AL. Applichiamo STGG+AL alla progettazione di materiali organici pi-funzionali, in particolare a due compiti impegnativi: 1) generare molecole altamente assorbenti caratterizzate da un'elevata forza oscillatoria e 2) progettare molecole assorbenti con una forza oscillatoria ragionevole nell'intervallo del vicino infrarosso (NIR). Le molecole generate vengono validate e razionalizzate in silico utilizzando la teoria del funzionale della densità dipendente dal tempo. I nostri risultati dimostrano che il nostro metodo è altamente efficace nel generare molecole nuove con un'elevata forza oscillatoria, a differenza dei metodi esistenti come quelli basati sull'apprendimento per rinforzo (RL). Rendiamo open-source il nostro codice di active learning insieme al dataset Conjugated-xTB, che contiene 2,9 milioni di molecole pi-coniugate, e la funzione per approssimare la forza oscillatoria e la lunghezza d'onda di assorbimento (basata su sTDA-xTB).
Studi recenti hanno dimostrato che i Modelli Visione-Linguaggio di grandi dimensioni (VLMs) tendono a trascurare il contenuto delle immagini e a fare eccessivo affidamento sui preconcetti del modello linguistico, portando a errori in compiti visivamente ancorati e a fenomeni di allucinazione. Ipotesizziamo che questo problema derivi dal fatto che i VLMs esistenti non sono esplicitamente addestrati a generare testi accuratamente ancorati a dettagli fini delle immagini. Per migliorare il feedback visivo durante l'addestramento dei VLMs, proponiamo S-VCO (Ottimizzazione Contrastiva Visiva Simmetrica), un nuovo obiettivo di fine-tuning che guida il modello a catturare dettagli visivi importanti e ad allinearli con i corrispondenti token testuali. Per facilitare ulteriormente questo allineamento dettagliato, introduciamo MVC, un dataset di coppie immagine-testo costruito filtrando e aumentando automaticamente dati visivi controfattuali per sfidare il modello con casi contrastivi difficili che coinvolgono Contrasti Visivi Minimi. Gli esperimenti dimostrano che il nostro metodo migliora costantemente le prestazioni dei VLMs su diversi benchmark che coprono varie abilità e domini, ottenendo una riduzione fino al 22% delle allucinazioni e significativi guadagni in compiti centrati sulla visione e in compiti generali. In particolare, questi miglioramenti diventano sempre più evidenti nei benchmark con una maggiore dipendenza visiva. In sintesi, S-VCO offre un significativo miglioramento delle prestazioni dei VLMs in compiti dipendenti dalla visione, mantenendo o addirittura migliorando le capacità generali del modello. Rendiamo disponibile il nostro codice su https://s-vco.github.io/.
La geolocalizzazione, il compito di identificare la posizione di un'immagine, richiede un ragionamento complesso ed è cruciale per la navigazione, il monitoraggio e la preservazione culturale. Tuttavia, i metodi attuali spesso producono localizzazioni approssimative, imprecise e non interpretabili. Una delle principali sfide risiede nella qualità e nella scala dei dataset di geolocalizzazione esistenti. Questi dataset sono tipicamente di piccole dimensioni e costruiti automaticamente, portando a dati rumorosi e a una difficoltà del compito inconsistente, con immagini che rivelano le risposte troppo facilmente o che mancano di indizi sufficienti per un'inferenza affidabile. Per affrontare queste sfide, introduciamo un framework completo di geolocalizzazione con tre componenti chiave: GeoComp, un dataset su larga scala; GeoCoT, un nuovo metodo di ragionamento; e GeoEval, una metrica di valutazione, progettati collettivamente per affrontare le sfide critiche e promuovere progressi nella ricerca sulla geolocalizzazione. Al centro di questo framework c'è GeoComp (Geolocation Competition Dataset), un dataset su larga scala raccolto da una piattaforma di giochi di geolocalizzazione che coinvolge 740.000 utenti in due anni. Comprende 25 milioni di voci di metadati e 3 milioni di localizzazioni geotaggate che coprono gran parte del globo, con ciascuna localizzazione annotata migliaia o decine di migliaia di volte da utenti umani. Il dataset offre diversi livelli di difficoltà per un'analisi dettagliata e mette in evidenza le principali lacune dei modelli attuali. Basandoci su questo dataset, proponiamo Geographical Chain-of-Thought (GeoCoT), un innovativo framework di ragionamento multi-step progettato per migliorare le capacità di ragionamento dei Large Vision Models (LVM) nei compiti di geolocalizzazione. GeoCoT migliora le prestazioni integrando indizi contestuali e spaziali attraverso un processo multi-step che imita il ragionamento umano nella geolocalizzazione. Infine, utilizzando la metrica GeoEval, dimostriamo che GeoCoT aumenta significativamente l'accuratezza della geolocalizzazione fino al 25%, migliorando al contempo l'interpretabilità.
I modelli linguistici di grandi dimensioni (LLM) sono in grado di generare riassunti coerenti da contesti molto lunghi in risposta a una query dell'utente. L'estrazione e la corretta citazione di porzioni di evidenza potrebbero contribuire a migliorare la trasparenza e l'affidabilità di questi riassunti. Allo stesso tempo, gli LLM presentano bias posizionali riguardo a quali informazioni comprendono e a cui prestano attenzione, il che potrebbe influenzare la citazione delle evidenze. Mentre i lavori precedenti si sono concentrati sulla citazione delle evidenze con livelli di granularità predefiniti (ad esempio frase, paragrafo, documento, ecc.), noi proponiamo il compito di riassunto focalizzato su query in contesti lunghi con citazione di evidenze non strutturate. Mostriamo come i sistemi esistenti abbiano difficoltà a generare e citare correttamente evidenze non strutturate dal loro contesto, e che le evidenze tendono a essere "perdute nel mezzo". Per contribuire a mitigare questo problema, creiamo il dataset Summaries with Unstructured Evidence Text (SUnsET), un dataset sintetico generato utilizzando una pipeline agnostica rispetto al dominio che può essere utilizzata come supervisione per adattare gli LLM a questo compito. Dimostriamo, su 5 LLM di dimensioni diverse e 4 dataset con tipi e lunghezze di documenti variabili, che gli LLM adattati con i dati di SUnsET generano evidenze più rilevanti e fattualmente consistenti rispetto ai loro modelli base, estraggono evidenze da posizioni più diversificate nel loro contesto e sono in grado di generare riassunti più rilevanti e coerenti.
Nell'era della disinformazione, l'allucinazione -- la tendenza dei Modelli Linguistici di Grande Dimensione (LLM) a generare risposte non fattuali o infedeli -- rappresenta il principale rischio per la loro utilità globale. Nonostante gli LLM stiano diventando sempre più multilingue, la stragrande maggioranza della ricerca sul rilevamento e la quantificazione dell'allucinazione negli LLM è (a) centrata sull'inglese e (b) si concentra sulla traduzione automatica (MT) e sulla sintesi, compiti meno comuni "nel mondo reale" rispetto alla ricerca aperta di informazioni. Al contrario, il nostro obiettivo è quantificare l'estensione dell'allucinazione degli LLM attraverso le lingue nel contesto di risposte a domande lunghe e ad alta intensità di conoscenza. A tal fine, addestriamo un modello multilingue per il rilevamento delle allucinazioni e conduciamo uno studio su larga scala in 30 lingue e 6 famiglie di LLM open-source. Partiamo da un dataset in inglese per il rilevamento delle allucinazioni e ci affidiamo alla MT per generare dati di addestramento (rumorosi) in altre lingue. Annotiamo manualmente dati di riferimento per cinque lingue ad alta risorsa; dimostriamo poi, per queste lingue, che le stime dei tassi di allucinazione sono simili tra i set di test silver (generati da LLM) e quelli gold, validando così l'uso dei dati silver per stimare i tassi di allucinazione per altre lingue. Per la stima finale dei tassi, costruiamo un dataset di QA ad alta intensità di conoscenza per 30 lingue con prompt generati da LLM e articoli di Wikipedia come riferimenti. Scopriamo che, sebbene gli LLM generino risposte più lunghe con un numero maggiore di token allucinati per le lingue ad alta risorsa, non esiste una correlazione tra i tassi di allucinazione normalizzati per lunghezza delle lingue e la loro rappresentazione digitale. Inoltre, osserviamo che i modelli LLM più piccoli presentano tassi di allucinazione più elevati rispetto ai modelli più grandi.