Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti basati su LLM di affrontare con successo compiti di pianificazione interattiva. Tuttavia, nonostante i loro successi, gli approcci esistenti spesso soffrono di allucinazioni nella pianificazione e richiedono un nuovo addestramento per ogni nuovo agente. Per affrontare queste sfide, proponiamo il framework di Ottimizzazione del Meta Piano (MPO), che potenzia le capacità di pianificazione degli agenti incorporando direttamente una guida esplicita. A differenza dei metodi precedenti che si basano su conoscenze complesse, che richiedono uno sforzo umano significativo o mancano di garanzia di qualità, MPO sfrutta una guida generale di alto livello attraverso meta piani per assistere la pianificazione degli agenti e consente un'ottimizzazione continua dei meta piani basata sul feedback derivante dall'esecuzione dei compiti da parte dell'agente. I nostri esperimenti condotti su due compiti rappresentativi dimostrano che MPO supera significativamente i baseline esistenti. Inoltre, la nostra analisi indica che MPO fornisce una soluzione plug-and-play che migliora sia l'efficienza nel completamento dei compiti sia le capacità di generalizzazione in scenari precedentemente non visti.
I Large Language Models (LLM) hanno dimostrato capacità notevoli come agenti autonomi, tuttavia i benchmark esistenti si concentrano su compiti a singolo agente o sono limitati a domini ristretti, non riuscendo a catturare le dinamiche di coordinamento e competizione multi-agente. In questo articolo, introduciamo MultiAgentBench, un benchmark completo progettato per valutare sistemi multi-agente basati su LLM in scenari interattivi e diversificati. Il nostro framework misura non solo il completamento dei compiti, ma anche la qualità della collaborazione e della competizione utilizzando nuovi indicatori chiave di prestazione basati su milestone. Inoltre, valutiamo vari protocolli di coordinamento (includendo topologie a stella, catena, albero e grafo) e strategie innovative come la discussione di gruppo e la pianificazione cognitiva. In particolare, gpt-4o-mini raggiunge il punteggio medio più alto nei compiti, la struttura a grafo si dimostra la migliore tra i protocolli di coordinamento nello scenario di ricerca, e la pianificazione cognitiva migliora i tassi di raggiungimento delle milestone del 3%. Codice e dataset sono disponibili pubblicamente all'indirizzo https://github.com/MultiagentBench/MARBLE.
L'aumento della disinformazione, aggravato dai Modelli Linguistici di Grande Dimensione (LLMs) come GPT e Gemini, richiede soluzioni robuste di fact-checking, specialmente per lingue a bassa risorsa come il vietnamita. I metodi esistenti faticano a gestire l'ambiguità semantica, gli omonimi e le strutture linguistiche complesse, spesso sacrificando l'accuratezza per l'efficienza. Introduciamo SemViQA, un nuovo framework di fact-checking per il vietnamita che integra il Recupero di Prove Basato sulla Semantica (SER) e la Classificazione del Verdetto in Due Passaggi (TVC). Il nostro approccio bilancia precisione e velocità, raggiungendo risultati all'avanguardia con un'accuratezza rigorosa del 78,97\% su ISE-DSC01 e dell'80,82\% su ViWikiFC, ottenendo il primo posto nella UIT Data Science Challenge. Inoltre, SemViQA Faster migliora la velocità di inferenza di 7 volte mantenendo un'accuratezza competitiva. SemViQA stabilisce un nuovo punto di riferimento per la verifica dei fatti in vietnamita, avanzando nella lotta contro la disinformazione. Il codice sorgente è disponibile all'indirizzo: https://github.com/DAVID-NGUYEN-S16/SemViQA.
Introduciamo LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), un framework che consente ai Large Language Model di migliorare autonomamente le proprie capacità di problem-solving attraverso l'apprendimento autoguidato, generando e risolvendo in modo ricorsivo varianti progressivamente più semplici di problemi complessi. A differenza degli approcci precedenti che richiedono dataset curati o feedback umano, LADDER sfrutta le capacità intrinseche del modello per generare varianti più facili delle domande. Dimostriamo l'efficacia di LADDER nel campo dell'integrazione matematica, migliorando l'accuratezza di Llama 3.2 3B dall'1% all'82% su problemi di livello universitario e permettendo a Qwen2.5 7B Deepseek-R1 Distilled di raggiungere il 73% nell'esame di qualificazione del MIT Integration Bee. Introduciamo inoltre TTRL (Test-Time Reinforcement Learning), in cui eseguiamo il reinforcement learning su varianti dei problemi di test durante l'inferenza. TTRL consente a Qwen2.5 7B Deepseek-R1 Distilled di ottenere un punteggio all'avanguardia del 90% nell'esame di qualificazione del MIT Integration Bee, superando le prestazioni di OpenAI o1. Questi risultati dimostrano come l'apprendimento strategico autodiretto possa ottenere miglioramenti significativi delle capacità senza fare affidamento su scalabilità architetturale o supervisione umana.
In questo articolo, presentiamo un'analisi approfondita dell'impatto dei Large Language Models (LLM) su Wikipedia, esaminando l'evoluzione di Wikipedia attraverso dati esistenti e utilizzando simulazioni per esplorare potenziali rischi. Iniziamo analizzando le visualizzazioni delle pagine e il contenuto degli articoli per studiare i recenti cambiamenti di Wikipedia e valutare l'impatto degli LLM. Successivamente, valutiamo come gli LLM influenzino varie attività di Natural Language Processing (NLP) relative a Wikipedia, tra cui la traduzione automatica e la generazione aumentata dal recupero (RAG). I nostri risultati e le simulazioni rivelano che gli articoli di Wikipedia sono stati influenzati dagli LLM, con un impatto di circa l'1%-2% in determinate categorie. Se il benchmark di traduzione automatica basato su Wikipedia viene influenzato dagli LLM, i punteggi dei modelli potrebbero risultare gonfiati e i risultati comparativi tra i modelli potrebbero subire variazioni. Inoltre, l'efficacia della RAG potrebbe diminuire se la base di conoscenza viene contaminata da contenuti generati dagli LLM. Sebbene gli LLM non abbiano ancora completamente modificato le strutture linguistiche e di conoscenza di Wikipedia, riteniamo che i nostri risultati empirici segnalino la necessità di una considerazione attenta dei potenziali rischi futuri.
I grandi modelli linguistici (LLM) manifestano allucinazioni (cioè informazioni infedeli o prive di senso) quando fungono da assistenti AI in vari domini. Poiché le allucinazioni sono sempre accompagnate da contenuti veritieri nelle risposte degli LLM, i precedenti metodi di allineamento fattuale che eseguivano l'apprendimento delle preferenze a livello di risposta hanno inevitabilmente introdotto rumore durante l'addestramento. Pertanto, questo articolo propone un metodo di allineamento fattuale granulare basato sull'ottimizzazione diretta delle preferenze (DPO), chiamato Mask-DPO. Incorporando la fattualità a livello di frase come segnali di maschera, Mask-DPO apprende solo dalle frasi fattualmente corrette nei campioni preferiti e previene la penalizzazione dei contenuti fattuali nei campioni non preferiti, risolvendo così l'ambiguità nell'apprendimento delle preferenze. I risultati sperimentali estesi dimostrano che Mask-DPO può migliorare significativamente la fattualità delle risposte degli LLM a domande provenienti sia da dataset in dominio che fuori dominio, sebbene queste domande e i loro argomenti corrispondenti non siano stati visti durante l'addestramento. Addestrato solo sul set di addestramento ANAH, il punteggio di Llama3.1-8B-Instruct sul set di test ANAH è migliorato dal 49,19% al 77,53%, superando persino il punteggio di Llama3.1-70B-Instruct (53,44%), mentre il suo FactScore sul dataset fuori dominio Biography è migliorato dal 30,29% al 39,39%. Studiamo ulteriormente la proprietà di generalizzazione di Mask-DPO utilizzando diverse strategie di scalabilità dei campioni di addestramento e scopriamo che aumentare il numero di argomenti nel dataset è più efficace che aumentare il numero di domande. Forniamo un'ipotesi su ciò che l'allineamento fattuale sta facendo con gli LLM, sull'implicazione di questo fenomeno, e conduciamo esperimenti di prova di concetto per verificarlo. Speriamo che il metodo e i risultati aprano la strada a future ricerche sulla scalabilità dell'allineamento fattuale.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) si sono concentrati sulla produzione di risposte che soddisfino le aspettative umane e siano in linea con valori condivisi, un processo denominato allineamento. Tuttavia, allineare gli LLM rimane una sfida a causa del divario intrinseco tra la complessità dei valori umani e la natura ristretta degli approcci tecnologici progettati per affrontarli. I metodi di allineamento attuali spesso portano a obiettivi mal specificati, riflettendo il problema più ampio dei contratti incompleti, ovvero l'impraticabilità di specificare un contratto tra uno sviluppatore di modelli e il modello stesso che tenga conto di ogni scenario nell'allineamento degli LLM. In questo articolo, sosteniamo che migliorare l'allineamento degli LLM richiede l'integrazione di intuizioni provenienti da framework di allineamento sociale, inclusi l'allineamento sociale, economico e contrattuale, e discutiamo potenziali soluzioni tratte da questi ambiti. Considerando il ruolo dell'incertezza all'interno dei framework di allineamento sociale, esaminiamo poi come essa si manifesti nell'allineamento degli LLM. Concludiamo la nostra discussione offrendo una visione alternativa sull'allineamento degli LLM, inquadrando la natura sottospecificata dei suoi obiettivi come un'opportunità piuttosto che come un difetto da correggere. Oltre ai miglioramenti tecnici nell'allineamento degli LLM, discutiamo la necessità di progettare interfacce di allineamento partecipativo.
L'adattamento di modelli generativi a domini specifici rappresenta una soluzione efficace per soddisfare requisiti specializzati. Tuttavia, l'adattamento ad alcuni domini complessi rimane impegnativo, specialmente quando questi domini richiedono una quantità sostanziale di dati accoppiati per catturare le distribuzioni target. Poiché i dati non accoppiati provenienti da una singola modalità, come la visione o il linguaggio, sono più facilmente disponibili, sfruttiamo le mappature bidirezionali tra visione e linguaggio apprese dal modello generativo unificato per abilitare l'addestramento su dati non accoppiati per l'adattamento di dominio. Nello specifico, proponiamo DoraCycle, che integra due cicli multimodali: testo-immagine-testo e immagine-testo-immagine. Il modello è ottimizzato attraverso la perdita di entropia incrociata calcolata agli estremi del ciclo, dove entrambi gli estremi condividono la stessa modalità. Ciò facilita l'auto-evoluzione del modello senza fare affidamento su coppie annotate di testo-immagine. I risultati sperimentali dimostrano che per compiti indipendenti dalla conoscenza accoppiata, come la stilizzazione, DoraCycle può adattare efficacemente il modello unificato utilizzando solo dati non accoppiati. Per compiti che coinvolgono nuove conoscenze accoppiate, come identità specifiche, una combinazione di un piccolo insieme di esempi accoppiati di immagini-testo e dati non accoppiati su larga scala è sufficiente per un efficace adattamento orientato al dominio. Il codice sarà rilasciato su https://github.com/showlab/DoraCycle.
Il parallelismo pipeline (PP) è ampiamente utilizzato per l'addestramento di grandi modelli linguistici (LLM), ma la sua scalabilità è spesso limitata dall'elevato consumo di memoria delle attivazioni, poiché il numero di micro-batch in elaborazione cresce con il grado di PP. In questo articolo, ci concentriamo sull'affrontare questa sfida sfruttando la strategia di offload della memoria, ancora poco esplorata nel contesto del PP. Attraverso uno studio empirico, scopriamo che nella maggior parte delle configurazioni standard, almeno la metà, e potenzialmente tutte, le attivazioni possono essere offloadate con un overhead trascurabile. Nei casi in cui l'offload completo non è possibile, introduciamo una nuova strategia di offload selettivo che riduce la memoria di picco delle attivazioni in modo migliore rispetto a una riduzione lineare. Inoltre, integriamo l'offload della memoria con altre tecniche per considerare congiuntamente il throughput complessivo e i limiti di memoria. I nostri esperimenti dimostrano che la memoria delle attivazioni per dispositivo si riduce efficacemente con il numero totale di stadi, rendendo il PP un'alternativa più forte rispetto al TP, offrendo un'accelerazione fino al 19% con un consumo di memoria ancora inferiore. L'implementazione è open-source e disponibile all'indirizzo https://github.com/sail-sg/zero-bubble-pipeline-parallelism{questo URL}.
Mentre l'Apprendimento per Rinforzo con Feedback Umano (RLHF) è diventato il metodo predominante per controllare gli output dei modelli linguistici, soffre di elevati costi computazionali e instabilità durante l'addestramento. Il decoding guidato, in particolare i metodi basati su valori, offre un'alternativa economicamente vantaggiosa controllando gli output senza dover riaddestrare i modelli. Tuttavia, l'accuratezza della funzione di valore è cruciale per il decoding guidato da valori, poiché imprecisioni possono portare a decisioni subottimali e a prestazioni degradate. I metodi esistenti faticano a stimare accuratamente la funzione di valore ottimale, risultando in un controllo meno efficace. Proponiamo l'ottimizzazione iterativa della funzione di valore, un nuovo framework che affronta queste limitazioni attraverso due componenti chiave: la stima del valore Monte Carlo, che riduce la varianza di stima esplorando traiettorie diverse, e l'ottimizzazione iterativa on-policy, che migliora progressivamente la stima del valore raccogliendo traiettorie da politiche guidate da valori. Esperimenti estesi su riassunto di testi, dialoghi multi-turn e seguimento di istruzioni dimostrano l'efficacia degli approcci di decoding guidato da valori nell'allineare i modelli linguistici. Questi approcci non solo raggiungono l'allineamento, ma riducono significativamente i costi computazionali sfruttando un'ottimizzazione della funzione di valore basata su principi per un controllo efficiente ed efficace.
Un modello unificato per video e azioni rappresenta una promessa significativa per la robotica, dove i video forniscono informazioni ricche sulla scena per la previsione delle azioni, e le azioni forniscono informazioni dinamiche per la previsione dei video. Tuttavia, combinare efficacemente la generazione di video e la previsione delle azioni rimane una sfida, e i metodi attuali basati sulla generazione di video faticano a raggiungere le prestazioni dell'apprendimento diretto delle politiche in termini di accuratezza delle azioni e velocità di inferenza. Per colmare questa lacuna, introduciamo il modello Unified Video Action (UVA), che ottimizza congiuntamente le previsioni di video e azioni per ottenere sia un'elevata accuratezza che un'inferenza efficiente delle azioni. La chiave risiede nell'apprendimento di una rappresentazione latente congiunta video-azione e nel disaccoppiamento della decodifica video-azione. La rappresentazione latente congiunta collega i domini visivo e delle azioni, modellando efficacemente la relazione tra sequenze video e azioni. Nel frattempo, la decodifica disaccoppiata, alimentata da due teste di diffusione leggere, consente un'inferenza ad alta velocità delle azioni bypassando la generazione di video durante l'inferenza. Tale framework unificato consente ulteriormente una funzionalità versatile attraverso l'addestramento con input mascherati. Mascherando selettivamente azioni o video, un singolo modello può affrontare diverse attività oltre all'apprendimento delle politiche, come la modellazione della dinamica diretta e inversa e la generazione di video. Attraverso un'ampia serie di esperimenti, dimostriamo che UVA può servire come soluzione generica per un'ampia gamma di compiti di robotica, come l'apprendimento delle politiche, la dinamica diretta/inversa e la previsione delle osservazioni video, senza compromettere le prestazioni rispetto a metodi specifici per applicazioni particolari. I risultati sono meglio visualizzati su https://unified-video-action-model.github.io/.
I modelli di diffusione hanno ottenuto progressi notevoli in vari compiti di generazione di immagini. Tuttavia, le loro prestazioni diminuiscono significativamente quando si generano immagini a risoluzioni superiori a quelle utilizzate durante il periodo di addestramento. Nonostante l'esistenza di numerosi metodi per produrre immagini ad alta risoluzione, questi soffrono di inefficienza o sono ostacolati da operazioni complesse. In questo articolo, proponiamo RectifiedHR, una soluzione efficiente e semplice per la generazione di immagini ad alta risoluzione senza necessità di addestramento. Nello specifico, introduciamo la strategia di aggiornamento del rumore, che teoricamente richiede solo poche righe di codice per sbloccare la capacità di generazione ad alta risoluzione del modello e migliorare l'efficienza. Inoltre, osserviamo per la prima volta il fenomeno del decadimento energetico che può causare sfocature durante il processo di generazione di immagini ad alta risoluzione. Per affrontare questo problema, proponiamo una strategia di Rettifica Energetica, in cui la modifica degli iperparametri della guida senza classificatore migliora efficacemente le prestazioni di generazione. Il nostro metodo è completamente privo di addestramento e vanta una logica di implementazione semplice. Attraverso ampie comparazioni con numerosi metodi di base, il nostro RectifiedHR dimostra una superiorità in termini di efficacia ed efficienza.
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno portato allo sviluppo di agenti intelligenti basati su LLM in grado di interagire con interfacce grafiche utente (GUI). Questi agenti dimostrano un forte ragionamento e adattabilità, permettendo loro di eseguire compiti complessi che tradizionalmente richiedevano regole predefinite. Tuttavia, la dipendenza dal ragionamento passo-passo negli agenti basati su LLM spesso si traduce in inefficienze, specialmente per compiti di routine. Al contrario, i sistemi tradizionali basati su regole eccellono in efficienza ma mancano dell'intelligenza e della flessibilità necessarie per adattarsi a scenari nuovi. Per affrontare questa sfida, proponiamo un nuovo framework evolutivo per agenti GUI che migliora l'efficienza operativa mantenendo intelligenza e flessibilità. Il nostro approccio incorpora un meccanismo di memoria che registra la cronologia di esecuzione dei compiti dell'agente. Analizzando questa cronologia, l'agente identifica sequenze di azioni ripetitive ed evolve azioni di alto livello che fungono da scorciatoie, sostituendo queste operazioni di basso livello e migliorando l'efficienza. Ciò consente all'agente di concentrarsi su compiti che richiedono un ragionamento più complesso, semplificando al contempo le azioni di routine. I risultati sperimentali su molteplici compiti di benchmark dimostrano che il nostro approccio supera significativamente i metodi esistenti sia in efficienza che in accuratezza. Il codice sarà reso open-source per supportare ulteriori ricerche.
Raccogliere ricompense per il completamento di attività con verità di base o dimostrazioni umane per compiti di ragionamento a più passaggi è spesso proibitivo in termini di costi e dispendioso in termini di tempo, specialmente in domini interattivi come i compiti web. Per affrontare questo collo di bottiglia, presentiamo il "self-taught lookahead", un metodo auto-supervisionato che sfrutta le dinamiche di transizione di stato per addestrare un modello di valore in grado di guidare efficacemente la ricerca controllata da modelli linguistici. Abbiamo riscontrato che modelli di valore di dimensioni moderate (8 miliardi di parametri) con pesi aperti, migliorati con il self-taught lookahead, possono eguagliare le prestazioni di un modello LLM all'avanguardia come gpt-4o utilizzato come modello di valore. Inoltre, abbiamo osservato che il self-taught lookahead migliora le prestazioni del 20% riducendo i costi di 37 volte rispetto ai precedenti approcci di ricerca ad albero basati su LLM, senza fare affidamento su ricompense di verità di base.
I modelli linguistici autoregressivi si basano su una cache Key-Value (KV), che evita di ricalcolare gli stati nascosti passati durante la generazione, rendendola più veloce. Man mano che le dimensioni dei modelli e le lunghezze del contesto aumentano, la cache KV diventa un significativo collo di bottiglia per la memoria, il che richiede metodi di compressione che ne limitino le dimensioni durante la generazione. In questo articolo, scopriamo proprietà sorprendenti dei vettori Query (Q) e Key (K) che ci permettono di approssimare in modo efficiente i punteggi di attenzione senza calcolare le mappe di attenzione. Proponiamo Q-Filters, un metodo di compressione della cache KV privo di addestramento che filtra le coppie Key-Value meno cruciali basandosi su una singola proiezione indipendente dal contesto. Contrariamente a molte alternative, Q-Filters è compatibile con FlashAttention, poiché non richiede l'accesso diretto ai pesi di attenzione. I risultati sperimentali in contesti a lungo termine dimostrano che Q-Filters è competitivo con metodi di compressione basati sull'attenzione come SnapKV nei task di retrieval, superando costantemente schemi di compressione efficienti come Streaming-LLM nelle configurazioni di generazione. In particolare, Q-Filters raggiunge un'accuratezza del 99% nel task "needle-in-a-haystack" con un livello di compressione x32, riducendo il calo di perplessità nella generazione di testo fino al 65% rispetto a Streaming-LLM.
I modelli linguistici di grandi dimensioni (LLM) come agenti hanno dimostrato notevoli capacità di generalizzazione su compiti multi-dominio. Gli approcci esistenti per l'ottimizzazione degli agenti tipicamente impiegano un affinamento supervisionato su intere traiettorie di esperti. Tuttavia, la clonazione del comportamento di traiettorie complete può introdurre bias esperti e indebolire la generalizzazione a stati non coperti dai dati degli esperti. Inoltre, passaggi critici, come la pianificazione, il ragionamento complesso per sottocompiti intermedi e la decisione strategica, sono essenziali per il successo nei compiti degli agenti, quindi apprendere questi passaggi è la chiave per migliorare gli LLM come agenti. Per un'ottimizzazione degli agenti più efficace ed efficiente, proponiamo ATLaS, che identifica i passaggi critici nelle traiettorie degli esperti e affina gli LLM esclusivamente su questi passaggi con costi ridotti. Orientando il focus dell'addestramento su pochi passaggi critici, il nostro metodo mitiga il rischio di overfitting su intere traiettorie e promuove la generalizzazione attraverso diversi ambienti e compiti. In esperimenti estesi, un LLM affinato su solo il 30% dei passaggi critici selezionati da ATLaS supera l'LLM affinato su tutti i passaggi e recenti agenti LLM open-source. ATLaS mantiene e migliora le abilità di base degli LLM come agenti generalisti che interagiscono con ambienti diversi.
I modelli generalisti hanno ottenuto un successo straordinario sia nei compiti linguistici che in quelli di visione e linguaggio, dimostrando il potenziale della modellazione unificata. Tuttavia, integrare efficacemente compiti di percezione fine come il rilevamento e la segmentazione in questi modelli rimane una sfida significativa. Ciò è principalmente dovuto al fatto che questi compiti spesso si basano fortemente su design e architetture specifici per il compito, che possono complicare il processo di modellazione. Per affrontare questa sfida, presentiamo \ours, un framework che unifica i compiti di percezione visiva fine attraverso un'interfaccia linguistica aperta. Trasformando tutti i target di percezione nello spazio linguistico, \ours unifica il rilevamento a livello di oggetto, la segmentazione a livello di pixel e i compiti di visione e linguaggio a livello di immagine in un unico modello. Inoltre, introduciamo un nuovo approccio di recupero degli embedding che si basa esclusivamente sull'interfaccia linguistica per supportare i compiti di segmentazione. Il nostro framework colma il divario tra la percezione fine e i compiti di visione e linguaggio, semplificando significativamente il design architetturale e le strategie di addestramento, pur ottenendo prestazioni comparabili o superiori ai metodi con design specifici per il compito. Dopo l'addestramento multi-task su cinque dataset standard di percezione visiva, \ours supera i precedenti modelli generalisti all'avanguardia di 12.3 mAP nella segmentazione di istanze su COCO e di 3.3 mIoU nella segmentazione semantica su ADE20K. Inoltre, il nostro metodo si integra perfettamente con gli MLLM esistenti, combinando efficacemente le capacità di percezione fine con le loro avanzate abilità linguistiche, consentendo così compiti più impegnativi come la segmentazione ragionata. Codice e modelli saranno resi pubblicamente disponibili.
Il campionamento speculativo è emerso come una tecnica importante per accelerare il processo di generazione auto-regressiva dei grandi modelli linguistici (LLM) attraverso l'utilizzo di un meccanismo di bozza-verifica per produrre più token per ogni passaggio in avanti. Mentre i metodi di campionamento speculativo più avanzati utilizzano solo un singolo strato e una testa di modellazione linguistica (LM) come modello di bozza per ottenere un'impressionante compressione degli strati, i loro guadagni di efficienza si riducono sostanzialmente per LLM con vocabolari estesi, come Llama-3-8B con un vocabolario di 128k token. Per affrontare questo problema, presentiamo FR-Spec, un framework di campionamento speculativo basato sulla frequenza che ottimizza la selezione dei candidati di bozza attraverso la compressione dello spazio del vocabolario. Limitando la ricerca della bozza a un sottoinsieme di token prioritari in base alla frequenza, il nostro metodo riduce il sovraccarico computazionale della testa LM del 75% garantendo l'equivalenza della distribuzione finale dell'output. Esperimenti su più dataset dimostrano un'accelerazione media di 1.12 volte rispetto al metodo di campionamento speculativo più avanzato, EAGLE-2.
La valutazione del contenuto testo-visione si basa su due aspetti cruciali: la qualità visiva e l'allineamento. Sebbene siano stati compiuti progressi significativi nello sviluppo di modelli oggettivi per valutare queste dimensioni, le prestazioni di tali modelli dipendono fortemente dalla scala e dalla qualità delle annotazioni umane. Secondo la Legge di Scalabilità, aumentare il numero di istanze etichettate da esseri umani segue uno schema prevedibile che migliora le prestazioni dei modelli di valutazione. Pertanto, introduciamo un dataset completo progettato per valutare la qualità visiva e il livello di allineamento per il contenuto testo-visione (Q-EVAL-100K), che presenta la più vasta raccolta di punteggi Mean Opinion Score (MOS) etichettati da esseri umani per i due aspetti menzionati. Il dataset Q-EVAL-100K comprende sia modelli testo-immagine che testo-video, con 960K annotazioni umane specificamente focalizzate sulla qualità visiva e sull'allineamento per 100K istanze (60K immagini e 40K video). Sfruttando questo dataset con prompt contestuali, proponiamo Q-Eval-Score, un modello unificato in grado di valutare sia la qualità visiva che l'allineamento, con miglioramenti specifici per gestire l'allineamento di prompt di testo lungo. I risultati sperimentali indicano che il Q-Eval-Score proposto raggiunge prestazioni superiori sia per la qualità visiva che per l'allineamento, con forti capacità di generalizzazione su altri benchmark. Questi risultati evidenziano il valore significativo del dataset Q-EVAL-100K. I dati e i codici saranno disponibili su https://github.com/zzc-1998/Q-Eval.
L'apprendimento delle preferenze potenzia i Code LLM oltre il fine-tuning supervisionato sfruttando confronti relativi sulla qualità. I metodi esistenti costruiscono coppie di preferenze dai candidati basandosi sul successo dei test case, trattando il campione con il tasso di passaggio più alto come positivo e quello più basso come negativo. Tuttavia, questo approccio non individua errori specifici nel codice, il che impedisce al modello di apprendere pattern più informativi per la correzione degli errori, poiché allineare il codice fallito nel suo insieme manca della granularità necessaria per catturare relazioni significative tra errori e risoluzioni. Per affrontare questi problemi, proponiamo IterPref, un nuovo framework di allineamento delle preferenze che imita il debug iterativo umano per affinare i Code LLM. IterPref individua esplicitamente le regioni di errore e allinea i token corrispondenti tramite un algoritmo DPO personalizzato. Per generare coppie informative, introduciamo il dataset CodeFlow, in cui i campioni vengono raffinati iterativamente fino al superamento dei test, con modifiche che catturano le correzioni degli errori. Esperimenti estesi dimostrano che una suite diversificata di Code LLM equipaggiati con IterPref ottiene significativi miglioramenti nelle prestazioni nella generazione di codice e migliora su compiti impegnativi come BigCodeBench. Un'analisi approfondita rivela che IterPref produce meno errori. Il nostro codice e i dati saranno resi pubblicamente disponibili.
Nell'apprendimento di rappresentazioni, l'uniformità si riferisce alla distribuzione uniforme delle caratteristiche nello spazio latente (cioè, l'ipersfera unitaria). Ricerche precedenti hanno dimostrato che migliorare l'uniformità contribuisce all'apprendimento delle classi sottorappresentate. Tuttavia, la maggior parte dei lavori precedenti si è concentrata sulla classificazione; lo spazio di rappresentazione della regressione sbilanciata rimane inesplorato. I metodi basati sulla classificazione non sono adatti per i task di regressione perché raggruppano le caratteristiche in gruppi distinti senza considerare la natura continua e ordinata essenziale per la regressione. Da un punto di vista geometrico, ci concentriamo in modo unico sull'assicurare l'uniformità nello spazio latente per la regressione sbilanciata attraverso due perdite chiave: avvolgimento e omogeneità. La perdita di avvolgimento incoraggia la traccia indotta a occupare uniformemente la superficie di un'ipersfera, mentre la perdita di omogeneità assicura la levigatezza, con rappresentazioni equidistanziate a intervalli costanti. Il nostro metodo integra questi principi geometrici nelle rappresentazioni dei dati attraverso un framework di Apprendimento di Rappresentazioni Guidato da Surrogato (SRL). Esperimenti con task di regressione del mondo reale e apprendimento di operatori evidenziano l'importanza dell'uniformità nella regressione sbilanciata e convalidano l'efficacia delle nostre funzioni di perdita basate sulla geometria.
Il progresso dell'IA nella patologia computazionale richiede dataset ampi, di alta qualità e diversificati, ma gli attuali dataset pubblici sono spesso limitati nella diversità degli organi, nella copertura delle classi o nella qualità delle annotazioni. Per colmare questa lacuna, presentiamo SPIDER (Supervised Pathology Image-DEscription Repository), il più grande dataset disponibile pubblicamente a livello di patch che copre diversi tipi di organi, tra cui pelle, colon-retto e torace, con una copertura completa delle classi per ciascun organo. SPIDER fornisce annotazioni di alta qualità verificate da patologi esperti e include patch di contesto circostante, che migliorano le prestazioni di classificazione fornendo un contesto spaziale. Insieme al dataset, presentiamo modelli di base addestrati su SPIDER utilizzando il modello fondazionale Hibou-L come estrattore di caratteristiche combinato con una testa di classificazione basata sull'attenzione. I modelli raggiungono prestazioni all'avanguardia in diverse categorie di tessuti e rappresentano solidi benchmark per la futura ricerca in patologia digitale. Oltre alla classificazione delle patch, il modello consente l'identificazione rapida di aree significative, metriche quantitative dei tessuti e getta le basi per approcci multimodali. Sia il dataset che i modelli addestrati sono disponibili pubblicamente per promuovere la ricerca, la riproducibilità e lo sviluppo dell'IA nella patologia. È possibile accedervi al seguente indirizzo: https://github.com/HistAI/SPIDER
Negli ultimi anni, i modelli visivi di base generali (VFMs) hanno visto un'adozione crescente, in particolare come encoder di immagini per i popolari modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, senza una supervisione semanticamente granulare, questi modelli continuano a incontrare errori di previsione fondamentali nel contesto di attività downstream relative a testo e immagini, ovvero percezione, comprensione e ragionamento con immagini contenenti testi piccoli e densi. Per colmare questa lacuna, sviluppiamo TokenOCR, il primo modello visivo di base a livello di token specificamente progettato per attività relative a testo e immagini, concepito per supportare una varietà di applicazioni downstream tradizionali. Per facilitare il pre-addestramento di TokenOCR, abbiamo anche ideato una pipeline di produzione dati di alta qualità che costruisce il primo dataset di testo immagine a livello di token, TokenIT, comprendente 20 milioni di immagini e 1,8 miliardi di coppie token-maschera. Inoltre, sfruttando questa base con un'eccezionale capacità di trattare le immagini come testo, sostituiamo senza soluzione di continuità i precedenti VFMs con TokenOCR per costruire un MLLM a livello di documento, TokenVL, per attività di comprensione di documenti basate su VQA. Infine, esperimenti estensivi dimostrano l'efficacia di TokenOCR e TokenVL. Codice, dataset e pesi saranno disponibili su https://token-family.github.io/TokenOCR_project.
Mentre i progressi nei grandi modelli linguistici (LLM) hanno notevolmente migliorato la qualità dei dati testuali sintetici negli ultimi anni, la sintesi di dati tabellari ha ricevuto un'attenzione relativamente minore. Affrontiamo questa disparità con Tabby, una modifica semplice ma potente apportata post-addestramento all'architettura standard del modello linguistico Transformer, che ne consente l'utilizzo per la sintesi di dataset tabellari. Tabby permette la rappresentazione delle differenze tra le colonne utilizzando un Gated Mixture-of-Experts, con insiemi di parametri specifici per ciascuna colonna. Empiricamente, Tabby produce una qualità dei dati vicina o pari a quella dei dati reali. Abbinando la nostra innovativa tecnica di addestramento per tabelle LLM, Plain, con Tabby, osserviamo un miglioramento della qualità fino al 44% rispetto ai metodi precedenti. Mostriamo inoltre che Tabby si estende oltre le tabelle a dati strutturati più generici, raggiungendo la parità con i dati reali anche su un dataset JSON annidato.
Negli ultimi decenni, la ricerca neuroscientifica e psicologica ha tracciato relazioni dirette tra percezioni gustative e uditive. Questo articolo esplora modelli generativi multimodali in grado di convertire informazioni gustative in musica, basandosi su queste ricerche fondamentali. Forniamo una breve rassegna dello stato dell'arte in questo campo, evidenziando i risultati chiave e le metodologie principali. Presentiamo un esperimento in cui una versione ottimizzata di un modello generativo musicale (MusicGEN) viene utilizzata per generare musica basandosi su descrizioni gustative dettagliate fornite per ogni brano musicale. I risultati sono promettenti: secondo la valutazione dei partecipanti (n=111), il modello ottimizzato produce musica che riflette in modo più coerente le descrizioni gustative in ingresso rispetto al modello non ottimizzato. Questo studio rappresenta un passo significativo verso la comprensione e lo sviluppo di interazioni incarnate tra IA, suono e gusto, aprendo nuove possibilità nel campo dell'IA generativa. Rilasciamo il nostro dataset, codice e modello pre-addestrato all'indirizzo: https://osf.io/xs5jy/.
Questo articolo introduce il Discrete-time Hybrid Automata Learning (DHAL), un framework che utilizza il Reinforcement Learning on-policy per identificare ed eseguire il cambio di modalità senza segmentazione della traiettoria o apprendimento di funzioni di evento. I sistemi dinamici ibridi, che includono flusso continuo e cambio di modalità discreto, possono modellare compiti di robotica come la locomozione di robot con zampe. I metodi basati su modello dipendono solitamente da andature predefinite, mentre gli approcci senza modello mancano di conoscenza esplicita sul cambio di modalità. I metodi attuali identificano le modalità discrete tramite segmentazione prima di regredire il flusso continuo, ma apprendere dinamiche complesse di corpi rigidi ad alta dimensionalità senza etichette di traiettoria o segmentazione è un problema aperto e impegnativo. Il nostro approccio incorpora una distribuzione di politiche beta e un'architettura multi-critico per modellare movimenti guidati dal contatto, esemplificati da un compito impegnativo di robot quadrupede su skateboard. Validiamo il nostro metodo attraverso simulazioni e test nel mondo reale, dimostrando prestazioni robuste nei sistemi dinamici ibridi.