Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il reinforcement learning con ricompense verificabili (RLVR) ha dimostrato potenzialità nel migliorare le capacità di ragionamento dei grandi modelli linguistici apprendendo direttamente da ricompense basate sui risultati. Recenti lavori RLVR che operano in contesto zero evitano la supervisione nell'etichettatura del processo di ragionamento, ma dipendono comunque da raccolte manualmente curate di domande e risposte per l'addestramento. La scarsità di esempi di alta qualità prodotti da esseri umani solleva preoccupazioni riguardo alla scalabilità a lungo termine del fare affidamento sulla supervisione umana, una sfida già evidente nel campo del pre-addestramento dei modelli linguistici. Inoltre, in un ipotetico futuro in cui l'intelligenza artificiale superi quella umana, i compiti forniti dagli esseri umani potrebbero offrire un potenziale di apprendimento limitato per un sistema superintelligente. Per affrontare queste preoccupazioni, proponiamo un nuovo paradigma RLVR chiamato Absolute Zero, in cui un singolo modello impara a proporre compiti che massimizzano il proprio progresso di apprendimento e migliora il ragionamento risolvendoli, senza fare affidamento su dati esterni. In questo paradigma, introduciamo l'Absolute Zero Reasoner (AZR), un sistema che auto-evolve il proprio curriculum di addestramento e la capacità di ragionamento utilizzando un esecutore di codice sia per validare i compiti di ragionamento proposti che per verificare le risposte, fungendo da fonte unificata di ricompensa verificabile per guidare un apprendimento aperto ma fondato. Nonostante sia addestrato interamente senza dati esterni, AZR raggiunge prestazioni complessive all'avanguardia in compiti di ragionamento matematico e di programmazione, superando i modelli esistenti in contesto zero che si basano su decine di migliaia di esempi curati da esseri umani nel dominio specifico. Inoltre, dimostriamo che AZR può essere efficacemente applicato a diverse scale di modelli ed è compatibile con varie classi di modelli.
I recenti progressi nei modelli di ricompensa multimodali (RMs) hanno mostrato un significativo potenziale nel fornire segnali di ricompensa per allineare i modelli visivi con le preferenze umane. Tuttavia, gli attuali RMs sono generalmente limitati a fornire risposte dirette o a impegnarsi in processi di ragionamento superficiali con una profondità limitata, spesso portando a segnali di ricompensa inaccurati. Proponiamo che l'incorporazione di esplicite catene di pensiero (CoT) nel processo di ragionamento della ricompensa possa rafforzare significativamente la loro affidabilità e robustezza. Inoltre, riteniamo che una volta che i RMs internalizzino il ragionamento CoT, la loro accuratezza nelle risposte dirette possa essere migliorata anche attraverso capacità di ragionamento implicito. A tal fine, questo articolo propone UnifiedReward-Think, il primo modello di ricompensa multimodale unificato basato su CoT, capace di ragionamento multidimensionale e passo-passo a catena lunga sia per compiti di comprensione visiva che di generazione di ricompensa. Nello specifico, adottiamo un approccio di fine-tuning a rinforzo guidato dall'esplorazione per elicitare e incentivare la capacità latente di ragionamento complesso del modello: (1) Utilizziamo inizialmente una piccola quantità di dati di preferenza per la generazione di immagini per distillare il processo di ragionamento di GPT-4o, che viene poi utilizzato per l'avvio a freddo del modello per apprendere il formato e la struttura del ragionamento CoT. (2) Successivamente, sfruttando la conoscenza pregressa e le capacità di generalizzazione del modello, prepariamo dati di preferenza multimodali unificati su larga scala per elicitare il processo di ragionamento del modello su vari compiti visivi. Durante questa fase, gli output di ragionamento corretti vengono conservati per il campionamento di rifiuto per affinare il modello (3) mentre i campioni previsti errati vengono infine utilizzati per il fine-tuning a rinforzo basato su Group Relative Policy Optimization (GRPO), consentendo al modello di esplorare percorsi di ragionamento diversi e ottimizzare per soluzioni corrette e robuste. Esperimenti estesi su vari compiti di ricompensa visiva dimostrano la superiorità del nostro modello.
Presentiamo Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocollo per convertire rapidamente trasformatori con attenzione softmax in modelli decoder con attenzione lineare, insieme a due nuove architetture varianti RWKV e modelli convertiti dai popolari modelli open source Qwen2.5 nelle dimensioni 7B, 32B e 72B. Il nostro processo di conversione richiede solo 350-700M di token, meno dello 0,005% del numero di token utilizzati per addestrare i modelli insegnanti originali. La conversione nel nostro modello con attenzione lineare da 72B costa meno di \$2.000 USD ai prezzi odierni, eppure la qualità durante l'inferenza rimane vicina a quella del trasformatore originale. Questi modelli raggiungono prestazioni all'avanguardia su un insieme di benchmark standard per modelli con attenzione lineare della loro dimensione. Rilasciamo tutti i nostri modelli su HuggingFace sotto licenza Apache 2.0, ad eccezione dei nostri modelli da 72B che sono anche regolati dal Qwen License Agreement. Modelli disponibili su https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Codice di addestramento su https://github.com/recursal/RADLADS-paper
La personalizzazione delle azioni consiste nella generazione di video in cui il soggetto esegue azioni dettate da segnali di controllo in input. I metodi attuali utilizzano la personalizzazione guidata dalla postura o dal movimento globale, ma sono limitati da vincoli rigidi sulla struttura spaziale, come il layout, lo scheletro e la coerenza del punto di vista, riducendo l'adattabilità a soggetti e scenari diversi. Per superare queste limitazioni, proponiamo FlexiAct, che trasferisce le azioni da un video di riferimento a un'immagine target arbitraria. A differenza dei metodi esistenti, FlexiAct consente variazioni nel layout, nel punto di vista e nella struttura scheletrica tra il soggetto del video di riferimento e l'immagine target, mantenendo al contempo la coerenza dell'identità. Raggiungere questo obiettivo richiede un controllo preciso delle azioni, un adattamento della struttura spaziale e la preservazione della coerenza. A tal fine, introduciamo RefAdapter, un adattatore leggero condizionato dall'immagine che eccelle nell'adattamento spaziale e nella preservazione della coerenza, superando i metodi esistenti nel bilanciare la coerenza dell'aspetto e la flessibilità strutturale. Inoltre, sulla base delle nostre osservazioni, il processo di denoising mostra livelli variabili di attenzione al movimento (bassa frequenza) e ai dettagli dell'aspetto (alta frequenza) in diversi momenti. Pertanto, proponiamo FAE (Frequency-aware Action Extraction), che, a differenza dei metodi esistenti che si basano su architetture spazio-temporali separate, ottiene direttamente l'estrazione delle azioni durante il processo di denoising. Gli esperimenti dimostrano che il nostro metodo trasferisce efficacemente le azioni a soggetti con layout, scheletri e punti di vista diversi. Rilasciamo il nostro codice e i pesi del modello per supportare ulteriori ricerche all'indirizzo https://shiyi-zh0408.github.io/projectpages/FlexiAct/.
Le crescenti lunghezze contestuali dei grandi modelli linguistici (LLM) pongono sfide significative per un'inferenza efficiente, principalmente a causa dei vincoli di memoria GPU e larghezza di banda. Presentiamo RetroInfer, un sistema innovativo che riconcettualizza la cache chiave-valore (KV) come un sistema di archiviazione vettoriale che sfrutta la sparsità intrinseca dell'attenzione per accelerare l'inferenza di LLM con contesti lunghi. Al suo cuore si trova l'indice wave, un indice vettoriale consapevole dell'attenzione (Attention-aWare VEctor index) che abilita un recupero efficiente e accurato dei token critici attraverso tecniche come l'approssimazione tripartita dell'attenzione, la stima dell'attenzione con limite di accuratezza e il clustering segmentato. A completare il sistema c'è il buffer wave, che coordina il posizionamento della cache KV e sovrappone il calcolo e il trasferimento dati tra GPU e CPU per mantenere un'elevata produttività. A differenza dei metodi basati sulla sparsità precedenti, che faticano con la selezione dei token e la coordinazione hardware, RetroInfer offre prestazioni robuste senza compromettere l'accuratezza del modello. Esperimenti su benchmark a contesto lungo mostrano un'accelerazione fino a 4,5 volte rispetto all'attenzione completa entro i limiti di memoria GPU e fino a 10,5 volte rispetto alle baseline di attenzione sparsa quando la cache KV viene estesa alla memoria CPU, mantenendo comunque un'accuratezza pari a quella dell'attenzione completa.
La serie Qwen si è affermata come una delle principali famiglie di modelli linguistici di grandi dimensioni (LLM) open-source, dimostrando capacità straordinarie nei compiti di comprensione del linguaggio naturale. Con il recente rilascio di Qwen3, che mostra prestazioni superiori su diversi benchmark, cresce l'interesse per l'implementazione efficiente di questi modelli in ambienti con risorse limitate. La quantizzazione a basso bit rappresenta una soluzione promettente, ma il suo impatto sulle prestazioni di Qwen3 rimane ancora poco esplorato. Questo studio conduce una valutazione sistematica della robustezza di Qwen3 in diverse configurazioni di quantizzazione, con l'obiettivo di individuare sia opportunità che sfide nella compressione di questo modello all'avanguardia. Valutiamo rigorosamente 5 tecniche classiche di quantizzazione post-addestramento applicate a Qwen3, coprendo larghezze di bit da 1 a 8 bit, e ne misuriamo l'efficacia su più dataset. I nostri risultati rivelano che, sebbene Qwen3 mantenga prestazioni competitive a larghezze di bit moderate, subisce un degrado significativo nei compiti linguistici in condizioni di precisione ultra-bassa, evidenziando le persistenti difficoltà nella compressione degli LLM. Questi risultati sottolineano la necessità di ulteriori ricerche per mitigare la perdita di prestazioni negli scenari di quantizzazione estrema. Anticipiamo che questa analisi empirica fornirà spunti utili per avanzare i metodi di quantizzazione specifici per Qwen3 e per i futuri LLM, migliorandone infine la praticità senza compromettere l'accuratezza. Il nostro progetto è disponibile su https://github.com/Efficient-ML/Qwen3-Quantization e https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
I recenti progressi nella comprensione del calcio guidata dall'intelligenza artificiale hanno dimostrato un rapido avanzamento, tuttavia la ricerca esistente si concentra prevalentemente su compiti isolati o ristretti. Per colmare questa lacuna, proponiamo un framework completo per una comprensione olistica del calcio. Nello specifico, in questo articolo facciamo i seguenti contributi: (i) costruiamo SoccerWiki, la prima knowledge base multimodale su larga scala dedicata al calcio, integrando una ricca conoscenza di dominio su giocatori, squadre, arbitri e stadi per abilitare il ragionamento basato sulla conoscenza; (ii) presentiamo SoccerBench, il benchmark più ampio e completo specifico per il calcio, caratterizzato da circa 10K coppie di domande a scelta multipla multimodali (testo, immagine, video) standardizzate su 13 distinti compiti di comprensione, curate attraverso pipeline automatizzate e verifica manuale; (iii) introduciamo SoccerAgent, un innovativo sistema multi-agente che scompone domande complesse sul calcio tramite ragionamento collaborativo, sfruttando l'esperienza di dominio di SoccerWiki e ottenendo prestazioni robuste; (iv) valutazioni estensive e ablazioni che confrontano i migliori MLLM su SoccerBench, evidenziando la superiorità del nostro sistema agente proposto. Tutti i dati e il codice sono pubblicamente disponibili all'indirizzo: https://jyrao.github.io/SoccerAgent/.
Durante la lettura, spesso abbiamo informazioni specifiche che ci interessano in un testo. Ad esempio, potreste leggere questo articolo perché siete curiosi riguardo ai LLM per i movimenti oculari nella lettura, al design sperimentale, o forse vi interessa solo la domanda "ma funziona?". Più in generale, nella vita quotidiana, le persone affrontano i testi con una varietà di obiettivi specifici che guidano il loro comportamento di lettura. In questo lavoro, ci chiediamo, per la prima volta, se gli obiettivi di lettura aperti possano essere decodificati automaticamente dai movimenti oculari durante la lettura. Per affrontare questa domanda, introduciamo compiti di classificazione degli obiettivi e ricostruzione degli obiettivi, insieme a framework di valutazione, e utilizziamo dati su larga scala di eye tracking per la lettura in inglese con centinaia di compiti specifici di ricerca di informazioni. Sviluppiamo e confrontiamo diversi LLM multimodali discriminativi e generativi che combinano movimenti oculari e testo per la classificazione degli obiettivi e la ricostruzione degli obiettivi. I nostri esperimenti mostrano un notevole successo in entrambi i compiti, suggerendo che i LLM possono estrarre informazioni preziose sugli obiettivi specifici dei lettori dai movimenti oculari.
Il rapido progresso dei modelli di diffusione promette di rivoluzionare l'applicazione delle tecnologie VR e AR, che tipicamente richiedono risorse 4D a livello di scena per l'esperienza dell'utente. Tuttavia, i modelli di diffusione esistenti si concentrano principalmente sulla modellazione di scene 3D statiche o dinamiche a livello di oggetto, limitando la loro capacità di offrire esperienze veramente immersive. Per affrontare questo problema, proponiamo HoloTime, un framework che integra modelli di diffusione video per generare video panoramici da un singolo prompt o immagine di riferimento, insieme a un metodo di ricostruzione 4D a 360 gradi che trasforma senza soluzione di continuità il video panoramico generato in risorse 4D, consentendo un'esperienza 4D completamente immersiva per gli utenti. Nello specifico, per addomesticare i modelli di diffusione video per la generazione di video panoramici ad alta fedeltà, introduciamo il dataset 360World, la prima raccolta completa di video panoramici adatta per compiti di ricostruzione 4D di scene. Con questo dataset curato, proponiamo Panoramic Animator, un modello di diffusione immagine-video a due stadi che può convertire immagini panoramiche in video panoramici di alta qualità. Successivamente, presentiamo Panoramic Space-Time Reconstruction, che sfrutta un metodo di stima della profondità spazio-temporale per trasformare i video panoramici generati in nuvole di punti 4D, consentendo l'ottimizzazione di una rappresentazione olistica 4D con Gaussian Splatting per ricostruire scene 4D spazialmente e temporalmente coerenti. Per validare l'efficacia del nostro metodo, abbiamo condotto un'analisi comparativa con approcci esistenti, rivelando la sua superiorità sia nella generazione di video panoramici che nella ricostruzione di scene 4D. Ciò dimostra la capacità del nostro metodo di creare ambienti immersivi più coinvolgenti e realistici, migliorando così le esperienze degli utenti nelle applicazioni VR e AR.
I Large Language Model (LLM) hanno dimostrato capacità senza precedenti in vari compiti di elaborazione del linguaggio naturale. La loro abilità di elaborare e generare testo e codice utilizzabile li ha resi onnipresenti in molti campi, mentre il loro impiego come basi di conoscenza e strumenti di "ragionamento" rimane un'area di ricerca in corso. In geografia, un numero crescente di studi si è concentrato sulla valutazione delle conoscenze geografiche degli LLM e sulla loro capacità di eseguire ragionamenti spaziali. Tuttavia, si sa ancora molto poco sul funzionamento interno di questi modelli, in particolare su come elaborano le informazioni geografiche. In questo capitolo, stabiliamo un nuovo framework per lo studio dell'interpretabilità meccanicistica geospaziale, utilizzando l'analisi spaziale per decodificare come gli LLM gestiscono le informazioni geografiche. Il nostro obiettivo è approfondire la comprensione delle rappresentazioni interne che questi modelli complessi generano durante l'elaborazione delle informazioni geografiche, ciò che si potrebbe definire "come gli LLM pensano alle informazioni geografiche", se tale espressione non fosse un'antropomorfizzazione eccessiva. Iniziamo delineando l'uso del probing per rivelare le strutture interne degli LLM. Introduciamo poi il campo dell'interpretabilità meccanicistica, discutendo l'ipotesi della sovrapposizione e il ruolo degli autoencoder sparsi nel separare le rappresentazioni interne polisemantiche degli LLM in caratteristiche più interpretabili e monosemantiche. Nei nostri esperimenti, utilizziamo l'autocorrelazione spaziale per mostrare come le caratteristiche ottenute per i toponimi presentino schemi spaziali legati alla loro posizione geografica e possano quindi essere interpretate geospazialmente, fornendo intuizioni su come questi modelli elaborano le informazioni geografiche. Concludiamo discutendo come il nostro framework possa contribuire a plasmare lo studio e l'uso dei modelli di fondazione in geografia.
Nonostante i recenti progressi nei Modelli Linguistici (LMs) per l'ingegneria del software, la raccolta di dati di addestramento rimane un punto critico significativo. I dataset esistenti sono di piccole dimensioni, con al massimo migliaia di istanze di addestramento provenienti da 11 o meno repository GitHub. Le procedure per curare tali dataset sono spesso complesse, richiedendo centinaia di ore di lavoro umano; inoltre, gli ambienti di esecuzione associati occupano diversi terabyte di spazio di archiviazione, limitando gravemente la loro scalabilità e usabilità. Per affrontare questo problema, introduciamo SWE-smith, una pipeline innovativa per generare dati di addestramento per l'ingegneria del software su larga scala. Dato qualsiasi codebase Python, SWE-smith costruisce un corrispondente ambiente di esecuzione, quindi sintetizza automaticamente centinaia o migliaia di istanze di task che interrompono i test esistenti nel codebase. Utilizzando SWE-smith, abbiamo creato un dataset di 50k istanze provenienti da 128 repository GitHub, un ordine di grandezza più grande rispetto a tutti i lavori precedenti. Abbiamo addestrato SWE-agent-LM-32B, raggiungendo un tasso di risoluzione Pass@1 del 40.2% sul benchmark SWE-bench Verified, lo stato dell'arte tra i modelli open source. Rendiamo open source SWE-smith (procedura di raccolta, istanze di task, traiettorie, modelli) per abbassare la barriera di ingresso alla ricerca nei sistemi LM per l'ingegneria del software automatizzata. Tutte le risorse sono disponibili su https://swesmith.com.
Con la crescente necessità di interazioni uomo-computer naturali, i sistemi basati sul parlato ricevono un'attenzione sempre maggiore, poiché il parlato è una delle forme più comuni di comunicazione quotidiana. Tuttavia, i modelli di parlato esistenti continuano a sperimentare un'elevata latenza durante la generazione del primo token audio nello streaming, rappresentando un significativo collo di bottiglia per il deployment. Per affrontare questo problema, proponiamo VITA-Audio, un modello di parlato end-to-end di grandi dimensioni con una generazione rapida di token audio-testo. Nello specifico, introduciamo un modulo leggero di Multiple Cross-modal Token Prediction (MCTP) che genera efficientemente più token audio in un singolo passaggio in avanti del modello, accelerando non solo l'inferenza ma riducendo significativamente anche la latenza per la generazione del primo audio negli scenari di streaming. Inoltre, viene esplorata una strategia di addestramento progressivo in quattro fasi per ottenere un'accelerazione del modello con una perdita minima della qualità del parlato. A nostra conoscenza, VITA-Audio è il primo modello linguistico multi-modale di grandi dimensioni in grado di generare output audio durante il primo passaggio in avanti, abilitando capacità conversazionali in tempo reale con latenza minima. VITA-Audio è completamente riproducibile e addestrato esclusivamente su dati open-source. I risultati sperimentali dimostrano che il nostro modello raggiunge un'accelerazione dell'inferenza di 3~5x alla scala di 7B parametri, ma supera anche significativamente i modelli open-source di dimensioni simili su molteplici benchmark per il riconoscimento automatico del parlato (ASR), la sintesi vocale (TTS) e le attività di risposta a domande vocali (SQA).
L'attribuzione degli errori nei sistemi multi-agente basati su LLM (Large Language Models) - identificando l'agente e il passaggio responsabile dei fallimenti nelle attività - fornisce indizi cruciali per il debug dei sistemi, ma rimane un'area poco esplorata e laboriosa. In questo articolo, proponiamo e formuliamo una nuova area di ricerca: l'attribuzione automatica degli errori per i sistemi multi-agente basati su LLM. Per supportare questa iniziativa, introduciamo il dataset Who&When, che comprende ampi log di fallimenti provenienti da 127 sistemi multi-agente basati su LLM, con annotazioni dettagliate che collegano gli errori a specifici agenti e ai passaggi decisivi che li hanno causati. Utilizzando Who&When, sviluppiamo e valutiamo tre metodi automatizzati per l'attribuzione degli errori, riassumendone i rispettivi pro e contro. Il metodo migliore raggiunge un'accuratezza del 53,5% nell'identificare gli agenti responsabili degli errori, ma solo del 14,2% nell'individuare i passaggi critici, con alcuni metodi che performano al di sotto del caso casuale. Anche modelli di ragionamento all'avanguardia, come OpenAI o1 e DeepSeek R1, non riescono a raggiungere una praticabilità effettiva. Questi risultati evidenziano la complessità del compito e la necessità di ulteriori ricerche in questo ambito. Codice e dataset sono disponibili all'indirizzo https://github.com/mingyin1/Agents_Failure_Attribution.
La sintesi di scene 3D interattive a partire da testo è fondamentale per il gaming, la realtà virtuale e l'AI incarnata. Tuttavia, i metodi esistenti affrontano diverse sfide. Gli approcci basati sull'apprendimento dipendono da dataset di piccola scala relativi ad ambienti interni, limitando la diversità delle scene e la complessità del layout. Sebbene i grandi modelli linguistici (LLM) possano sfruttare una conoscenza diversificata nel dominio del testo, faticano a raggiungere un realismo spaziale, spesso producendo posizionamenti innaturali degli oggetti che non rispettano il buon senso. La nostra intuizione chiave è che la percezione visiva può colmare questa lacuna fornendo una guida spaziale realistica di cui gli LLM sono carenti. A tal fine, introduciamo Scenethesis, un framework agentico senza necessità di addestramento che integra la pianificazione della scene basata su LLM con un affinamento del layout guidato dalla visione. Dato un prompt testuale, Scenethesis utilizza prima un LLM per abbozzare un layout approssimativo. Un modulo di visione lo affina poi generando una guida visiva ed estraendo la struttura della scena per catturare le relazioni tra gli oggetti. Successivamente, un modulo di ottimizzazione applica iterativamente un allineamento preciso delle pose e una plausibilità fisica, prevenendo artefatti come la penetrazione degli oggetti e l'instabilità. Infine, un modulo di giudizio verifica la coerenza spaziale. Esperimenti completi dimostrano che Scenethesis genera scene 3D interattive diversificate, realistiche e fisicamente plausibili, rendendolo prezioso per la creazione di contenuti virtuali, ambienti di simulazione e la ricerca sull'AI incarnata.
Le presentazioni tradizionali dei dati separano tipicamente il presentatore e la visualizzazione in due spazi distinti: il mondo 3D e uno schermo 2D, imponendo narrazioni centrate sulla visualizzazione. Per creare un'esperienza di visione più incentrata sull'essere umano, stabiliamo una relazione più equilibrata tra la visualizzazione e il presentatore attraverso i nostri InfoVids. Questi video informativi ispirati alle infografiche sono progettati per ridefinire le relazioni tra il presentatore e le visualizzazioni. Durante la progettazione degli InfoVids, esploriamo come l'uso del layout, della forma e delle interazioni influenzi l'esperienza dello spettatore. Confrontiamo gli InfoVids con le loro equivalenti presentazioni 2D `slide' di base attraverso 9 metriche con 30 partecipanti e forniamo approfondimenti pratici e a lungo termine da una prospettiva autobiografica. Le nostre analisi con metodi misti rivelano che questo paradigma ha ridotto la divisione dell'attenzione dello spettatore, spostato il focus dalla visualizzazione al presentatore e portato a performance di dati più interattive, naturali e coinvolgenti con il coinvolgimento di tutto il corpo per gli spettatori. In definitiva, gli InfoVids hanno aiutato gli spettatori a reimmaginare le dinamiche tradizionali tra il presentatore e le visualizzazioni.
Gli sviluppatori di modelli linguistici tipicamente filtrano i contenuti ad alto rischio – come testi tossici o protetti da copyright – dai loro dati di pre-addestramento per impedire ai modelli di generare output simili. Tuttavia, rimuovere completamente tali dati limita la capacità dei modelli di riconoscere e rispondere in modo appropriato a contenuti dannosi o sensibili. In questo articolo, introduciamo Selective Loss to Understand but Not Generate (SLUNG), un paradigma di pre-addestramento attraverso il quale i modelli imparano a comprendere i dati ad alto rischio senza imparare a generarli. Invece di applicare uniformemente la perdita di predizione del token successivo, SLUNG evita selettivamente di incentivare la generazione di token ad alto rischio, pur assicurandosi che rimangano all'interno della finestra contestuale del modello. Mentre il modello impara a prevedere i token a basso rischio che seguono quelli ad alto rischio, è costretto a comprendere il contenuto ad alto rischio. Attraverso i nostri esperimenti, dimostriamo che SLUNG migliora costantemente la comprensione dei dati ad alto rischio da parte dei modelli (ad esempio, la capacità di riconoscere contenuti tossici) senza aumentarne la generazione (ad esempio, la tossicità delle risposte del modello). Nel complesso, il nostro paradigma SLUNG consente ai modelli di trarre vantaggio da testi ad alto rischio che altrimenti verrebbero filtrati.
Il paradigma collaborativo tra modelli linguistici (LM) di grandi e piccole dimensioni bilancia efficacemente prestazioni e costi, ma la sua sfida cruciale risiede nell'individuare con precisione il momento di invocazione quando si verificano allucinazioni nei piccoli LM. I precedenti sforzi di ottimizzazione si sono concentrati principalmente su tecniche di post-elaborazione, separate dal processo di ragionamento dei LM, risultando in elevati costi computazionali e un'efficacia limitata. In questo articolo, proponiamo una metrica pratica di valutazione dell'invocazione chiamata AttenHScore, che calcola l'accumulo e la propagazione delle allucinazioni durante il processo di generazione dei piccoli LM, amplificando continuamente potenziali errori di ragionamento. Regolando dinamicamente la soglia di rilevamento, otteniamo un'invocazione in tempo reale più accurata dei grandi LM. Inoltre, considerando la capacità di ragionamento limitata dei piccoli LM, sfruttiamo una riorganizzazione della conoscenza consapevole dell'incertezza per aiutarli a catturare meglio le informazioni critiche da diversi frammenti di testo. Esperimenti estensivi rivelano che il nostro AttenHScore supera la maggior parte dei baseline nel migliorare le capacità di rilevamento delle allucinazioni in tempo reale su più dataset di domande e risposte, specialmente quando si affrontano query complesse. Inoltre, le nostre strategie eliminano la necessità di ulteriori addestramenti del modello e mostrano flessibilità nell'adattarsi a vari LM basati su transformer.
Negli ultimi anni, i framework multi-agente basati su modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi. Nonostante questi avanzamenti, si riscontra ancora una notevole assenza di dataset di benchmark specificamente progettati per valutarne le prestazioni. Per colmare questa lacuna, introduciamo Auto-SLURP, un dataset di benchmark mirato a valutare i framework multi-agente basati su LLM nel contesto degli assistenti personali intelligenti. Auto-SLURP estende il dataset SLURP originale — inizialmente sviluppato per compiti di comprensione del linguaggio naturale — rietichettando i dati e integrando server simulati e servizi esterni. Questo potenziamento consente una pipeline di valutazione end-to-end completa, che copre la comprensione del linguaggio, l'esecuzione dei compiti e la generazione delle risposte. I nostri esperimenti dimostrano che Auto-SLURP rappresenta una sfida significativa per gli attuali framework all'avanguardia, evidenziando che assistenti personali multi-agente veramente affidabili e intelligenti rimangono un lavoro in corso. Il dataset e il codice correlato sono disponibili all'indirizzo https://github.com/lorashen/Auto-SLURP/.
Questo studio presenta un nuovo benchmark per valutare i Large Language Model (LLM) utilizzando sfide derivate dalle competizioni Excel del Financial Modeling World Cup (FMWC). Introduciamo una metodologia per convertire 113 sfide esistenti del FMWC in formati JSON valutabili programmaticamente e utilizziamo questo dataset per confrontare le prestazioni di diversi LLM leader. I nostri risultati dimostrano variazioni significative nelle prestazioni tra le diverse categorie di sfide, con i modelli che mostrano punti di forza specifici nei compiti di riconoscimento di pattern ma difficoltà nel ragionamento numerico complesso. Il benchmark fornisce un framework standardizzato per valutare le capacità degli LLM in compiti realistici orientati al business piuttosto che in problemi accademici astratti. Questa ricerca contribuisce al crescente campo dei benchmark di IA stabilendo la competenza tra gli 1,5 miliardi di persone che utilizzano quotidianamente Microsoft Excel come una metrica di valutazione significativa che colma il divario tra i benchmark accademici di IA e le applicazioni pratiche nel mondo degli affari.