Articoli di ricerca IA selezionati quotidianamente con traduzioni
La modellazione a lungo contesto è cruciale per le prossime generazioni di modelli linguistici, tuttavia l'elevato costo computazionale dei meccanismi di attenzione standard presenta sfide computazionali significative. L'attenzione sparsa offre una direzione promettente per migliorare l'efficienza mantenendo le capacità del modello. Presentiamo NSA, un meccanismo di Attenzione Sparsa Nativamente addestrabile che integra innovazioni algoritmiche con ottimizzazioni allineate all'hardware per ottenere una modellazione efficiente a lungo contesto. NSA utilizza una strategia sparsa gerarchica dinamica, combinando la compressione dei token a livello grossolano con la selezione dei token a livello fine per preservare sia la consapevolezza del contesto globale che la precisione locale. Il nostro approccio avanza il design dell'attenzione sparsa con due innovazioni chiave: (1) Otteniamo accelerazioni significative attraverso un design algoritmico bilanciato in termini di intensità aritmetica, con ottimizzazioni di implementazione per l'hardware moderno. (2) Abilitiamo l'addestramento end-to-end, riducendo il calcolo di pre-addestramento senza sacrificare le prestazioni del modello. Come mostrato nella Figura 1, gli esperimenti dimostrano che il modello pre-addestrato con NSA mantiene o supera i modelli con Attenzione Completa su benchmark generali, task a lungo contesto e ragionamento basato su istruzioni. Nel frattempo, NSA ottiene accelerazioni significative rispetto all'Attenzione Completa su sequenze di lunghezza 64k in decodifica, propagazione in avanti e propagazione all'indietro, validando la sua efficienza lungo l'intero ciclo di vita del modello.
Presentiamo SWE-Lancer, un benchmark composto da oltre 1.400 attività freelance di ingegneria del software provenienti da Upwork, con un valore complessivo di 1 milione di USD in compensi reali. SWE-Lancer include sia attività di ingegneria indipendenti—che vanno dalla correzione di 50 bug all'implementazione di funzionalità da 32.000 dollari—sia attività manageriali, in cui i modelli devono scegliere tra proposte di implementazione tecnica. Le attività indipendenti vengono valutate con test end-to-end verificati tre volte da ingegneri del software esperti, mentre le decisioni manageriali vengono confrontate con le scelte dei manager di ingegneria originariamente assunti. Valutiamo le prestazioni dei modelli e riscontriamo che i modelli all'avanguardia non sono ancora in grado di risolvere la maggior parte delle attività. Per facilitare la ricerca futura, rendiamo disponibile un'immagine Docker unificata e una divisione pubblica per la valutazione, denominata SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Mappando le prestazioni dei modelli al valore monetario, speriamo che SWE-Lancer favorisca una maggiore ricerca sull'impatto economico dello sviluppo di modelli di IA.
Il recupero automatico da una caduta è un prerequisito cruciale prima che i robot umanoidi possano essere impiegati in modo affidabile. Progettare manualmente controller per rialzarsi è difficile a causa delle varie configurazioni in cui un umanoide può trovarsi dopo una caduta e dei terreni complessi su cui si prevede che i robot umanoidi operino. Questo articolo sviluppa un framework di apprendimento per produrre controller che consentano ai robot umanoidi di rialzarsi da diverse configurazioni su vari terreni. A differenza delle precedenti applicazioni di successo dell'apprendimento della locomozione umanoide, il compito di rialzarsi coinvolge modelli di contatto complessi, che richiedono una modellazione accurata della geometria delle collisioni e ricompense più sporadiche. Affrontiamo queste sfide attraverso un approccio in due fasi che segue un curriculum. La prima fase si concentra sulla scoperta di una buona traiettoria per rialzarsi con vincoli minimi sulla fluidità o sui limiti di velocità/coppia. La seconda fase perfeziona quindi i movimenti scoperti in movimenti utilizzabili (cioè fluidi e lenti) che sono robusti alle variazioni nella configurazione iniziale e nei terreni. Troviamo che queste innovazioni consentono a un robot umanoide G1 nel mondo reale di rialzarsi da due situazioni principali che abbiamo considerato: a) sdraiato a faccia in su e b) sdraiato a faccia in giù, entrambe testate su superfici piatte, deformabili, scivolose e su pendii (ad esempio, erba inclinata e campo innevato). Per quanto ne sappiamo, questa è la prima dimostrazione di successo di politiche di rialzo apprese per robot umanoidi di dimensioni umane nel mondo reale. Pagina del progetto: https://humanoid-getup.github.io/
Questo articolo presenta ThinkDiff, un nuovo paradigma di allineamento che potenzia i modelli di diffusione testo-immagine con capacità di comprensione e ragionamento multimodale in contesto, integrando i punti di forza dei modelli visione-linguaggio (VLMs). I metodi esistenti di fine-tuning multimodale per la diffusione si concentrano principalmente sulla ricostruzione a livello di pixel piuttosto che sul ragionamento in contesto, e sono limitati dalla complessità e dalla disponibilità ridotta di dataset basati sul ragionamento. ThinkDiff affronta queste sfide sfruttando l'addestramento visione-linguaggio come task proxy, allineando i VLMs con il decodificatore di un modello linguistico di grandi dimensioni (LLM) di tipo encoder-decoder anziché con un decodificatore di diffusione. Questo task proxy si basa sull'osservazione che il decodificatore LLM condivide lo stesso spazio di caratteristiche di input con i decodificatori di diffusione che utilizzano il corrispondente encoder LLM per l'incorporamento dei prompt. Di conseguenza, l'allineamento dei VLMs con i decodificatori di diffusione può essere semplificato attraverso l'allineamento con il decodificatore LLM. Senza la necessità di addestramenti complessi e dataset specifici, ThinkDiff libera efficacemente le capacità di comprensione, ragionamento e composizione nei modelli di diffusione. Gli esperimenti dimostrano che ThinkDiff migliora significativamente l'accuratezza dal 19,2% al 46,3% sul benchmark CoBSAT, particolarmente impegnativo per la generazione di ragionamento multimodale in contesto, con soli 5 ore di addestramento su 4 GPU A100. Inoltre, ThinkDiff mostra prestazioni eccezionali nella composizione di più immagini e testi in immagini logicamente coerenti. Pagina del progetto: https://mizhenxing.github.io/ThinkDiff.
I metodi attuali di "unlearning" per i modelli linguistici di grandi dimensioni si basano solitamente sull'ottimizzazione inversa per ridurre le probabilità dei token target. Tuttavia, questo paradigma compromette la previsione dei token successivi, degradando le prestazioni del modello e la coerenza linguistica. Inoltre, le metriche di valutazione esistenti enfatI metodi attuali di "unlearning" per i modelli linguistici di grandi dimensioni si basano generalmente sull'ottimizzazione inversa per ridurre le probabilità dei token target. Tuttavia, questo paradigma compromette la previsione dei token successivi, degradando le prestazioni del modello e la coerenza linguistica. Inoltre, le metriche di valutazione esistenti enfatizzano eccessivamente la dimenticanza contestuale, valutando in modo inadeguato la fluidità e la pertinenza delle risposte. Per affrontare queste sfide, proponiamo ReLearn, una pipeline di aumento dei dati e fine-tuning per un "unlearning" efficace, insieme a un quadro di valutazione completo. Questo framework introduce il Tasso di Dimenticanza della Conoscenza (KFR) e il Tasso di Conservazione della Conoscenza (KRR) per misurare la preservazione a livello di conoscenza, e il Punteggio Linguistico (LS) per valutare la qualità della generazione. I nostri esperimenti dimostrano che ReLearn raggiunge con successo la dimenticanza mirata preservando un output di alta qualità. Attraverso un'analisi meccanicistica, dimostriamo ulteriormente come l'ottimizzazione inversa comprometta la generazione coerente del testo, mentre ReLearn preserva questa capacità essenziale. Il codice è disponibile all'indirizzo https://github.com/zjunlp/unlearn.
Nonostante le eccezionali capacità nei compiti ad alta intensità di conoscenza, i Large Language Models (LLM) presentano una lacuna critica nella comprensione di come internalizzano nuove conoscenze, in particolare su come incorporano strutturalmente le conoscenze acquisite nei loro calcoli neurali. Affrontiamo questo problema attraverso la lente dell'evoluzione dei circuiti di conoscenza, identificando sottografi computazionali che facilitano l'archiviazione e l'elaborazione delle conoscenze. La nostra analisi sistematica dell'evoluzione dei circuiti durante il pre-training continuo rivela diversi risultati chiave: (1) l'acquisizione di nuove conoscenze è influenzata dalla loro rilevanza rispetto alle conoscenze preesistenti; (2) l'evoluzione dei circuiti di conoscenza mostra un netto cambiamento di fase dalla formazione all'ottimizzazione; (3) l'evoluzione dei circuiti di conoscenza segue un modello che va dal profondo al superficiale. Queste intuizioni non solo avanzano la nostra comprensione teorica dei meccanismi di acquisizione di nuove conoscenze negli LLM, ma forniscono anche potenziali implicazioni per migliorare le strategie di pre-training continuo al fine di potenziare le prestazioni del modello. Codice e dati saranno disponibili su https://github.com/zjunlp/DynamicKnowledgeCircuits.
La generazione di codice, il ragionamento matematico simbolico e altre attività richiedono che i modelli linguistici di grandi dimensioni (LLM) producano output che siano sia sintatticamente che semanticamente corretti. La generazione vincolata di LLM rappresenta una direzione promettente per garantire l'aderenza a grammatiche formali, ma lavori precedenti hanno osservato empiricamente che l'applicazione rigorosa di vincoli formali spesso riduce le capacità di ragionamento degli LLM. In questo lavoro, forniamo innanzitutto una spiegazione teorica del motivo per cui vincolare gli output degli LLM a grammatiche molto restrittive che consentono solo risposte finali sintatticamente valide riduce le capacità di ragionamento del modello. In secondo luogo, dimostriamo che, arricchendo la grammatica di output con regole aggiuntive progettate con cura, è sempre possibile preservare le capacità di ragionamento dell'LLM garantendo al contempo la correttezza sintattica e semantica dei suoi output. Basandoci su queste intuizioni teoriche, proponiamo un algoritmo di decodifica vincolata arricchito con ragionamento, chiamato CRANE, che bilancia efficacemente la correttezza della generazione vincolata con la flessibilità della generazione non vincolata. Esperimenti condotti su diversi LLM open-source e benchmark dimostrano che CRANE supera significativamente sia le strategie di decodifica vincolata all'avanguardia che la decodifica standard non vincolata, mostrando un miglioramento fino a 10 punti percentuali in termini di accuratezza rispetto ai benchmark di riferimento su compiti di ragionamento simbolico complessi come GSM-symbolic e FOLIO.
La gerarchia delle istruzioni, che stabilisce un ordine di priorità dai messaggi di sistema ai messaggi dell'utente, dalla cronologia della conversazione agli output degli strumenti, è essenziale per garantire un comportamento coerente e sicuro nei modelli linguistici (LM). Nonostante la sua importanza, questo argomento riceve un'attenzione limitata e mancano benchmark completi per valutare la capacità dei modelli di seguire la gerarchia delle istruzioni. Colmiamo questa lacuna introducendo IHEval, un nuovo benchmark composto da 3.538 esempi distribuiti su nove task, che coprono casi in cui le istruzioni di diversa priorità sono allineate o in conflitto. La nostra valutazione di LM popolari evidenzia la loro difficoltà nel riconoscere le priorità delle istruzioni. Tutti i modelli valutati mostrano un netto calo delle prestazioni quando si trovano di fronte a istruzioni in conflitto, rispetto alle loro prestazioni originali nel seguire le istruzioni. Inoltre, il modello open-source più competitivo raggiunge solo il 48% di accuratezza nel risolvere tali conflitti. I nostri risultati sottolineano la necessità di un'ottimizzazione mirata nello sviluppo futuro dei LM.
Indaghiamo l'emergere della comprensione della fisica intuitiva in modelli di reti neurali profonde generici addestrati a prevedere regioni mascherate in video naturali. Sfruttando il framework della violazione delle aspettative, scopriamo che i modelli di previsione video addestrati a prevedere risultati in uno spazio di rappresentazione appreso dimostrano una comprensione di varie proprietà della fisica intuitiva, come la permanenza degli oggetti e la consistenza delle forme. Al contrario, la previsione video nello spazio dei pixel e i modelli linguistici multimodali di grandi dimensioni, che ragionano attraverso il testo, ottengono prestazioni più vicine al caso. I nostri confronti tra queste architetture rivelano che l'apprendimento congiunto di uno spazio di rappresentazione astratto mentre si prevedono parti mancanti dell'input sensoriale, simile al predictive coding, è sufficiente per acquisire una comprensione della fisica intuitiva, e che anche i modelli addestrati su una settimana di video unici ottengono prestazioni superiori al caso. Ciò mette in discussione l'idea che la conoscenza di base — un insieme di sistemi innati per aiutare a comprendere il mondo — debba essere cablata per sviluppare una comprensione della fisica intuitiva.
Sailor2 è una famiglia di modelli linguistici multilingue all'avanguardia per le lingue del Sud-Est Asiatico (SEA), disponibile in dimensioni da 1B, 8B e 20B per adattarsi a diverse applicazioni. Basandosi su Qwen2.5, Sailor2 è sottoposto a un pre-addestramento continuo su 500B di token (400B specifici per il SEA e 100B di token di ripetizione) per supportare 13 lingue del SEA, mantenendo al contempo la competenza in cinese e inglese. Il modello Sailor2-20B raggiunge un tasso di vittoria del 50-50 contro GPT-4o nelle lingue del SEA. Forniamo inoltre un manuale completo su come sviluppare il modello multilingue in modo efficiente, includendo cinque aspetti chiave: curatela dei dati, pre-addestramento, post-addestramento, personalizzazione del modello e valutazione. Speriamo che il modello Sailor2 (con licenza Apache 2.0) promuova lo sviluppo linguistico nella regione del SEA e che il manuale di Sailor2 ispiri i ricercatori a costruire modelli linguistici più inclusivi per altre lingue sottorappresentate.
Il notevole successo del paradigma autoregressivo ha portato a significativi progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), con modelli potenti come Show-o, Transfusion ed Emu3 che hanno raggiunto progressi rilevanti nella comprensione e generazione unificata di immagini. Per la prima volta, scopriamo un fenomeno comune: le capacità di comprensione degli MLLMs sono tipicamente più forti delle loro capacità generative, con un divario significativo tra le due. Basandoci su questa intuizione, proponiamo HermesFlow, un framework semplice ma generale progettato per colmare in modo fluido il divario tra comprensione e generazione negli MLLMs. Nello specifico, prendiamo i dati omologhi come input per curare dati di preferenza omologhi sia per la comprensione che per la generazione. Attraverso l'ottimizzazione iterativa di Pair-DPO e il self-play, HermesFlow allinea efficacemente la comprensione e la generazione multimodale utilizzando dati di preferenza omologhi. Esperimenti estesi dimostrano la significativa superiorità del nostro approccio rispetto ai metodi precedenti, in particolare nel ridurre il divario tra comprensione e generazione multimodale. Questi risultati evidenziano il potenziale di HermesFlow come framework generale di allineamento per i modelli fondazionali multimodali di prossima generazione. Codice: https://github.com/Gen-Verse/HermesFlow
I Large Language Models (LLMs) faticano a gestire allucinazioni e conoscenze obsolete a causa della loro dipendenza da dati di addestramento statici. La Generazione Aumentata con Recupero (Retrieval-Augmented Generation, RAG) mitiga questi problemi integrando informazioni esterne dinamiche, migliorando il fondamento fattuale e aggiornato. I recenti progressi nell'apprendimento multimodale hanno portato allo sviluppo della RAG Multimodale, che incorpora molteplici modalità come testo, immagini, audio e video per migliorare gli output generati. Tuttavia, l'allineamento e il ragionamento cross-modale introducono sfide uniche per la RAG Multimodale, distinguendola dalla RAG unimodale tradizionale. Questo survey offre un'analisi strutturata e completa dei sistemi RAG Multimodali, coprendo dataset, metriche, benchmark, valutazione, metodologie e innovazioni nel recupero, fusione, aumento e generazione. Esaminiamo con precisione le strategie di addestramento, i miglioramenti della robustezza e le funzioni di perdita, esplorando anche i diversi scenari della RAG Multimodale. Inoltre, discutiamo le sfide aperte e le future direzioni di ricerca per supportare i progressi in questo campo in evoluzione. Questo survey getta le basi per lo sviluppo di sistemi di IA più capaci e affidabili che sfruttano efficacemente basi di conoscenza esterne dinamiche e multimodali. Le risorse sono disponibili all'indirizzo https://github.com/llm-lab-org/Multimodal-RAG-Survey.
Proponiamo Diffusion-Sharpening, un approccio di fine-tuning che migliora l'allineamento a valle ottimizzando le traiettorie di campionamento. I metodi di fine-tuning basati su RL esistenti si concentrano su singoli passi temporali di addestramento e trascurano l'allineamento a livello di traiettoria, mentre i recenti metodi di ottimizzazione delle traiettorie di campionamento comportano costi significativi di NFE (Number of Function Evaluations) durante l'inferenza. Diffusion-Sharpening supera queste limitazioni utilizzando un framework di integrale di percorso per selezionare traiettorie ottimali durante l'addestramento, sfruttando il feedback di ricompensa e ammortizzando i costi di inferenza. Il nostro metodo dimostra una superiore efficienza di addestramento con una convergenza più rapida e la migliore efficienza di inferenza senza richiedere NFE aggiuntivi. Esperimenti estesi mostrano che Diffusion-Sharpening supera i metodi di fine-tuning basati su RL (ad esempio, Diffusion-DPO) e i metodi di ottimizzazione delle traiettorie di campionamento (ad esempio, Inference Scaling) in diverse metriche, tra cui l'allineamento del testo, le capacità compositive e le preferenze umane, offrendo una soluzione scalabile ed efficiente per il futuro fine-tuning dei modelli di diffusione. Codice: https://github.com/Gen-Verse/Diffusion-Sharpening
I messaggi di sistema svolgono un ruolo cruciale nelle interazioni con i grandi modelli linguistici (LLM), spesso fungendo da prompt per avviare conversazioni. Attraverso i messaggi di sistema, gli utenti possono assegnare ruoli specifici, eseguire compiti previsti, incorporare informazioni di contesto, specificare vari formati di output e stili di comunicazione. Nonostante tale versatilità, i dati pubblicamente disponibili spesso mancano di messaggi di sistema e sono soggetti a rigidi vincoli di licenza nel settore industriale. L'etichettatura manuale dei dati pubblicamente disponibili con messaggi di sistema allineati alle istruzioni dell'utente richiede risorse significative. Di fronte a tali sfide, il nostro lavoro introduce SysGen, una pipeline per generare messaggi di sistema con risposte dell'assistente meglio allineate a partire da un dataset di fine-tuning supervisionato privo di messaggi di sistema. L'addestramento sui dati di SysGen ha dimostrato miglioramenti sostanziali nell'allineamento delle risposte del modello con i messaggi di sistema e le istruzioni dell'utente, come dimostrato su vari modelli open-source nel benchmark Multifacet, mantenendo un impatto minimo su altri benchmark non visti, come l'Open LLM Leaderboard 2. La nostra analisi qualitativa evidenzia l'importanza di messaggi di sistema diversificati per garantire una migliore adattabilità in contesti diversi.
I recenti progressi nei sistemi multi-agente basati su LLM (LLM-MA) hanno mostrato risultati promettenti, ma permangono sfide significative nella gestione della comunicazione e del perfezionamento quando gli agenti collaborano su compiti complessi. In questo articolo, proponiamo Talk Structurally, Act Hierarchically (TalkHier), un nuovo framework che introduce un protocollo di comunicazione strutturato per scambi contestualmente ricchi e un sistema di perfezionamento gerarchico per affrontare problemi come output errati, falsità e bias. TalkHier supera vari tipi di modelli all'avanguardia (SoTA), tra cui il modello di scaling inferenziale (OpenAI-o1), modelli multi-agente open-source (ad esempio, AgentVerse) e strategie di voto a maggioranza sui benchmark attuali di LLM e agenti singoli (ad esempio, ReAct, GPT4o), in una gamma diversificata di compiti, tra cui risposte a domande in dominio aperto, interrogazioni selettive in ambiti specifici e generazione pratica di testi pubblicitari. Questi risultati evidenziano il suo potenziale nel definire un nuovo standard per i sistemi LLM-MA, aprendo la strada a framework multi-agente più efficaci, adattabili e collaborativi. Il codice è disponibile all'indirizzo https://github.com/sony/talkhier.
I recenti successi nei grandi modelli multimodali (LMM) hanno stimolato promettenti applicazioni di agenti in grado di completare autonomamente complessi compiti web. Sebbene gli agenti LMM open-source abbiano compiuto progressi significativi nei benchmark di valutazione offline, le loro prestazioni rimangono sostanzialmente inferiori rispetto alle capacità umane in contesti online più realistici. Un collo di bottiglia chiave è la mancanza di dataset diversificati e su larga scala a livello di traiettoria in vari domini, che sono costosi da raccogliere. In questo articolo, affrontiamo questa sfida sviluppando una ricetta scalabile per sintetizzare il dataset più grande e diversificato a livello di traiettoria fino ad oggi, contenente oltre 94K traiettorie web multimodali di successo, che coprono 49K URL unici, 720K screenshot e 33M elementi web. In particolare, sfruttiamo un'ampia esplorazione e raffinamento web per ottenere intenzioni di compito diversificate. Il costo medio è di 28 centesimi per traiettoria di successo, rendendolo accessibile a un'ampia gamma di utenti nella comunità. Utilizzando questo dataset, addestriamo Explorer, un agente web multimodale, e dimostriamo prestazioni solide sia nei benchmark offline che online per agenti web, come Mind2Web-Live, Multimodal-Mind2Web e MiniWob++. Inoltre, i nostri esperimenti evidenziano come la scalabilità dei dati sia un fattore chiave per migliorare le capacità degli agenti web. Speriamo che questo studio renda la ricerca sugli agenti basati su LMM all'avanguardia più accessibile su larga scala.
Nonostante risultati quasi perfetti nelle valutazioni artificiali, l'efficacia della modifica dei modelli nelle applicazioni del mondo reale rimane inesplorata. Per colmare questa lacuna, proponiamo di studiare la modifica dei modelli nel contesto del question answering (QA) stabilendo una pratica di valutazione rigorosa per valutare l'efficacia dei metodi di modifica nel correggere gli errori dei modelli linguistici di grandi dimensioni (LLM). Questo consiste in QAEdit, un nuovo benchmark derivato da popolari dataset di QA, e un framework di valutazione standardizzato. I nostri esperimenti di modifica singola indicano che i metodi di modifica attuali performano sostanzialmente peggio rispetto a quanto riportato in precedenza (38,5% vs. ~96%). Attraverso l'analisi dei moduli e esperimenti controllati, dimostriamo che questo declino delle prestazioni deriva da problemi nelle pratiche di valutazione della ricerca precedente sulla modifica. Un problema chiave è l'uso inappropriato del teacher forcing nei test, che previene la propagazione degli errori fornendo come input token di verità fondamentale (inaccessibili negli scenari del mondo reale). Inoltre, simuliamo il dispiegamento nel mondo reale attraverso la modifica sequenziale, rivelando che gli approcci attuali falliscono drasticamente con soli 1000 interventi di modifica. La nostra analisi fornisce un riesame fondamentale sia dell'applicabilità nel mondo reale dei metodi esistenti di modifica dei modelli che delle loro pratiche di valutazione, e stabilisce un framework di valutazione rigoroso con intuizioni chiave per far progredire la ricerca su una modifica dei modelli affidabile e pratica.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in compiti legati al codice, come la comprensione e la generazione di codice. Tuttavia, una questione altrettanto importante ma ancora poco esplorata è se gli LLM possano fungere da esecutori di codice surrogati a scopo generale, per prevedere l'output e il comportamento di un programma senza eseguirlo effettivamente. Per indagare sistematicamente questa capacità, introduciamo SURGE, un benchmark completo che copre otto aspetti chiave: compiti di programmazione multi-linguaggio, problemi di programmazione di livello competitivo, analisi di codice a livello di repository, calcolo scientifico ad alto costo, algoritmi intensivi in termini di complessità temporale, analisi di codice con bug, programmi dipendenti da compilatori o ambienti di esecuzione specifici e verifica di dimostrazioni matematiche formali. Valutiamo diversi LLM open-source e proprietari su SURGE e conduciamo uno studio di scalabilità per analizzare l'impatto delle dimensioni del modello e della scala dei dati di addestramento sull'accuratezza dell'esecuzione surrogata. Inoltre, categorizziamo gli errori di previsione del modello ed esploriamo potenziali aree di miglioramento. I nostri risultati indicano che, sebbene gli LLM possano prevedere i risultati dell'esecuzione del codice in alcuni casi, mostrano limitazioni nell'esecuzione surrogata a scopo generale. Questo studio fornisce intuizioni empiriche sulla fattibilità dell'uso degli LLM come esecutori di codice surrogati. Codice e dataset sono rilasciati su https://github.com/Imbernoulli/SURGE.
Mentre i recenti progressi nell'ottimizzazione del ragionamento hanno significativamente migliorato le capacità dei grandi modelli linguistici (LLM), gli sforzi esistenti per migliorare il ragionamento si sono limitati a risolvere problemi matematici e a concentrarsi su input grafici visivi, trascurando applicazioni più ampie nella comprensione generale dei video. Questo articolo propone video-SALMONN-o1, il primo LLM audio-visuale open-source potenziato per il ragionamento, progettato per compiti di comprensione generale dei video. Per migliorare le sue capacità di ragionamento, sviluppiamo un dataset intensivo di ragionamento che presenta domande audio-visuali impegnative con soluzioni passo-passo. Proponiamo inoltre l'ottimizzazione diretta delle preferenze di processo (pDPO), che sfrutta la selezione contrastiva dei passaggi per ottenere una modellazione efficiente delle ricompense a livello di passaggio, specifica per input multimodali. Inoltre, introduciamo RivaBench, il primo benchmark intensivo di ragionamento per la comprensione dei video, che presenta oltre 4.000 coppie domanda-risposta di alta qualità, curate da esperti, in scenari come commedia stand-up, presentazioni accademiche e rilevamento di video sintetici. video-SALMONN-o1 ottiene miglioramenti di precisione del 3-8% rispetto al baseline LLaVA-OneVision su diversi benchmark di ragionamento video. Inoltre, pDPO ottiene miglioramenti del 6-8% rispetto al modello di fine-tuning supervisionato su RivaBench. Il ragionamento potenziato consente a video-SALMONN-o1 di rilevare video sintetici in modalità zero-shot.
I modelli generativi latenti sono emersi come un approccio leader per la sintesi di immagini di alta qualità. Questi modelli si basano su un autoencoder per comprimere le immagini in uno spazio latente, seguito da un modello generativo per apprendere la distribuzione latente. Identifichiamo che gli autoencoder esistenti mancano di equivarianza rispetto a trasformazioni che preservano la semantica, come il ridimensionamento e la rotazione, risultando in spazi latenti complessi che ostacolano le prestazioni generative. Per affrontare questo problema, proponiamo EQ-VAE, un semplice approccio di regolarizzazione che impone l'equivarianza nello spazio latente, riducendone la complessità senza compromettere la qualità della ricostruzione. Ottimizzando autoencoder pre-addestrati con EQ-VAE, miglioriamo le prestazioni di diversi modelli generativi all'avanguardia, tra cui DiT, SiT, REPA e MaskGIT, ottenendo un'accelerazione di 7 volte su DiT-XL/2 con solo cinque epoche di fine-tuning su SD-VAE. EQ-VAE è compatibile sia con autoencoder continui che discreti, offrendo così un miglioramento versatile per un'ampia gamma di modelli generativi latenti. Pagina del progetto e codice: https://eq-vae.github.io/.
Questo articolo presenta Model-guidance (MG), un nuovo obiettivo per l'addestramento di modelli di diffusione che affronta e rimuove il comunemente utilizzato Classifier-free guidance (CFG). Il nostro approccio innovativo va oltre la modellazione standard della sola distribuzione dei dati, incorporando la probabilità a posteriori delle condizioni. La tecnica proposta trae origine dall'idea del CFG ed è semplice ma efficace, rendendola un modulo plug-and-play per i modelli esistenti. Il nostro metodo accelera significativamente il processo di addestramento, raddoppia la velocità di inferenza e raggiunge una qualità eccezionale che eguaglia e persino supera i modelli di diffusione concorrenti con CFG. Esperimenti estesi dimostrano l'efficacia, l'efficienza e la scalabilità su diversi modelli e dataset. Infine, stabiliamo prestazioni all'avanguardia sui benchmark di ImageNet 256 con un FID di 1,34. Il nostro codice è disponibile all'indirizzo https://github.com/tzco/Diffusion-wo-CFG.
Con la crescita esplosiva della creazione di contenuti 3D, c'è una crescente richiesta di convertire automaticamente modelli 3D statici in versioni pronte per l'articolazione che supportino animazioni realistiche. Gli approcci tradizionali si basano fortemente su annotazioni manuali, che sono sia dispendiose in termini di tempo che laboriose. Inoltre, la mancanza di benchmark su larga scala ha ostacolato lo sviluppo di soluzioni basate sull'apprendimento. In questo lavoro, presentiamo MagicArticulate, un framework efficace che trasforma automaticamente modelli 3D statici in asset pronti per l'articolazione. I nostri contributi principali sono tre. Innanzitutto, introduciamo Articulation-XL, un benchmark su larga scala contenente oltre 33k modelli 3D con annotazioni di articolazione di alta qualità, accuratamente selezionati da Objaverse-XL. In secondo luogo, proponiamo un nuovo metodo di generazione dello scheletro che formula il compito come un problema di modellazione sequenziale, sfruttando un trasformatore auto-regressivo per gestire naturalmente numeri variabili di ossa o giunture all'interno degli scheletri e le loro dipendenze intrinseche tra diversi modelli 3D. In terzo luogo, prevediamo i pesi di skinning utilizzando un processo di diffusione funzionale che incorpora priorità di distanza geodetica volumetrica tra vertici e giunture. Esperimenti estesi dimostrano che MagicArticulate supera significativamente i metodi esistenti in diverse categorie di oggetti, raggiungendo un'articolazione di alta qualità che consente animazioni realistiche. Pagina del progetto: https://chaoyuesong.github.io/MagicArticulate.
Text-to-SQL mira a convertire domande in linguaggio naturale in query SQL eseguibili. Sebbene approcci precedenti, come la selezione con mascheramento dello scheletro, abbiano dimostrato prestazioni solide recuperando esempi di addestramento simili per guidare i grandi modelli linguistici (LLM), essi incontrano difficoltà in scenari reali dove tali esempi non sono disponibili. Per superare questa limitazione, proponiamo l'apprendimento in-context con auto-aumento e selezione di esempi granulari per Text-to-SQL (SAFE-SQL), un framework innovativo che migliora la generazione di SQL generando e filtrando esempi auto-aumentati. SAFE-SQL prima invita un LLM a generare più esempi Text-to-SQL rilevanti per l'input di test. Successivamente, SAFE-SQL filtra questi esempi attraverso tre valutazioni di rilevanza, costruendo esempi di apprendimento in-context di alta qualità. Utilizzando esempi auto-generati, SAFE-SQL supera i precedenti framework Text-to-SQL zero-shot e few-shot, raggiungendo una maggiore accuratezza di esecuzione. In particolare, il nostro approccio fornisce ulteriori miglioramenti delle prestazioni in scenari particolarmente complessi e non visti, dove i metodi convenzionali spesso falliscono.
La memoria è cruciale per consentire agli agenti di affrontare compiti complessi con dipendenze temporali e spaziali. Sebbene molti algoritmi di apprendimento per rinforzo (RL) incorporino la memoria, il campo manca di un benchmark universale per valutare le capacità mnemoniche di un agente in scenari diversi. Questa lacuna è particolarmente evidente nella manipolazione robotica su tavolo, dove la memoria è essenziale per risolvere compiti con osservabilità parziale e garantire prestazioni robuste, ma non esistono benchmark standardizzati. Per affrontare questo problema, introduciamo MIKASA (Memory-Intensive Skills Assessment Suite for Agents), un benchmark completo per l'RL basato sulla memoria, con tre contributi chiave: (1) proponiamo un framework di classificazione completo per i compiti di RL intensivi in termini di memoria, (2) raccogliamo MIKASA-Base, un benchmark unificato che consente una valutazione sistematica degli agenti potenziati dalla memoria in scenari diversi, e (3) sviluppiamo MIKASA-Robo, un nuovo benchmark di 32 compiti attentamente progettati che valutano le capacità mnemoniche nella manipolazione robotica su tavolo. I nostri contributi stabiliscono un framework unificato per avanzare la ricerca sull'RL basato sulla memoria, guidando lo sviluppo di sistemi più affidabili per applicazioni nel mondo reale. Il codice è disponibile all'indirizzo https://sites.google.com/view/memorybenchrobots/.
Dati massicci e di alta qualità, sia testi grezzi per il pre-training che annotazioni post-training, sono stati accuratamente preparati per incubare avanzati modelli linguistici di grandi dimensioni (LLM). Al contrario, per l'estrazione di informazioni (IE), i dati di pre-training, come sequenze etichettate con BIO, sono difficili da scalare. Dimostriamo che i modelli di IE possono agire come free rider sulle risorse degli LLM riformulando la previsione del token successivo in un'estrazione per token già presenti nel contesto. Nello specifico, il nostro paradigma proposto di estrazione dei token successivi (NTE) apprende un modello di IE versatile, Cuckoo, con 102,6 milioni di dati estrattivi convertiti dai dati di pre-training e post-training degli LLM. In contesti few-shot, Cuckoo si adatta efficacemente a IE tradizionali e complessi che seguono istruzioni, ottenendo prestazioni migliori rispetto ai modelli di IE pre-addestrati esistenti. Come free rider, Cuckoo può evolversi naturalmente con i continui progressi nella preparazione dei dati degli LLM, beneficiando dei miglioramenti nelle pipeline di addestramento degli LLM senza ulteriori sforzi manuali.
Presentiamo Dyve, un verificatore di processi dinamico che migliora il rilevamento degli errori di ragionamento nei grandi modelli linguistici integrando il pensiero veloce e lento, ispirato dalla Teoria dei Sistemi di Kahneman. Dyve applica in modo adattivo la conferma immediata a livello di token del Sistema 1 per i passaggi semplici e un'analisi completa del Sistema 2 per quelli complessi. Sfruttando una tecnica innovativa di supervisione del processo filtrata per consenso passo-passo, che combina la stima Monte Carlo con la valutazione basata su LLM, Dyve seleziona segnali di supervisione di alta qualità da dati rumorosi. I risultati sperimentali su ProcessBench e il dataset MATH confermano che Dyve supera significativamente i verificatori di processi esistenti e migliora le prestazioni nelle configurazioni Best-of-N.
L'utilizzo di Large Language Models (LLM) matematici per la generazione di dimostrazioni è un argomento fondamentale nella ricerca sui LLM. Sosteniamo che la capacità degli attuali LLM di dimostrare affermazioni dipenda in larga misura dal fatto che abbiano incontrato il processo di dimostrazione rilevante durante l'addestramento. Questa dipendenza limita la loro comprensione più profonda dei teoremi matematici e dei concetti correlati. Ispirati dal metodo pedagogico della "dimostrazione mediante controesempi" comunemente utilizzato nell'educazione matematica umana, il nostro lavoro mira a migliorare la capacità dei LLM di condurre ragionamenti e dimostrazioni matematiche attraverso controesempi. Nello specifico, creiamo manualmente un benchmark matematico di alta qualità a livello universitario, CounterMATH, che richiede ai LLM di dimostrare affermazioni matematiche fornendo controesempi, valutando così la loro comprensione dei concetti matematici. Inoltre, sviluppiamo un framework di ingegneria dei dati per ottenere automaticamente dati di addestramento per ulteriori miglioramenti del modello. Esperimenti estesi e analisi dettagliate dimostrano che CounterMATH è impegnativo, indicando che i LLM, come OpenAI o1, hanno capacità insufficienti di dimostrazione basata su controesempi. Inoltre, la nostra esplorazione sull'addestramento del modello rivela che rafforzare le capacità di ragionamento concettuale basato su controesempi dei LLM è cruciale per migliorare le loro capacità matematiche complessive. Crediamo che il nostro lavoro offra nuove prospettive alla comunità dei LLM matematici.
I grandi modelli linguistici dimostrano capacità notevoli in vari domini, in particolare nella matematica e nel ragionamento logico. Tuttavia, le valutazioni attuali trascurano il ragionamento basato sulla fisica, un compito complesso che richiede teoremi e vincoli fisici. Presentiamo PhysReason, un benchmark di 1.200 problemi composto da problemi basati sulla conoscenza (25%) e sul ragionamento (75%), dove quest'ultimi sono suddivisi in tre livelli di difficoltà (facile, medio, difficile). È importante notare che i problemi richiedono in media 8,1 passaggi di soluzione, con i problemi difficili che ne richiedono 15,6, riflettendo la complessità del ragionamento basato sulla fisica. Proponiamo il Physics Solution Auto Scoring Framework, che incorpora valutazioni efficienti a livello di risposta e valutazioni complete a livello di passaggio. I modelli con le migliori prestazioni, come Deepseek-R1, Gemini-2.0-Flash-Thinking e o3-mini-high, ottengono meno del 60% nella valutazione a livello di risposta, con prestazioni che diminuiscono dalle domande di conoscenza (75,11%) ai problemi difficili (31,95%). Attraverso la valutazione a livello di passaggio, abbiamo identificato quattro colli di bottiglia chiave: Applicazione dei Teoremi Fisici, Comprensione dei Processi Fisici, Calcolo e Analisi delle Condizioni Fisiche. Questi risultati posizionano PhysReason come un benchmark nuovo e completo per valutare le capacità di ragionamento basato sulla fisica nei grandi modelli linguistici. Il nostro codice e i dati saranno pubblicati su https:/dxzxy12138.github.io/PhysReason.
I modelli linguistici esistenti (LMs) incontrano difficoltà nella programmazione orientata alle dimostrazioni a causa della scarsità di dati, che si manifesta in due modi principali: (1) la mancanza di corpora sufficienti per linguaggi di programmazione orientati alle dimostrazioni come F*, e (2) l'assenza di implementazioni su larga scala a livello di progetto che possano insegnare al modello il complesso processo di ragionamento durante la programmazione orientata alle dimostrazioni. Presentiamo il primo approccio di sintesi di dati per la programmazione orientata alle dimostrazioni a livello di progetto, sia per la generazione che per la riparazione. Il nostro metodo affronta la scarsità di dati sintetizzando problemi di base di programmazione orientata alle dimostrazioni per acquisire competenza in quel linguaggio; incorporando dati di codifica diversificati per stimolare la capacità di ragionamento e creando nuove dimostrazioni e dati di riparazione all'interno di repository esistenti. Questo approccio consente ai modelli linguistici sia di sintetizzare che di riparare dimostrazioni per codice a livello di funzione e di repository. Dimostriamo che il nostro modello fine-tuned da 14 miliardi di parametri, PoPilot, può superare le prestazioni dei modelli che superano GPT-4o nella programmazione orientata alle dimostrazioni a livello di progetto con un margine relativo del 64%, e può migliorare le prestazioni di GPT-4o del 54% riparando i suoi output rispetto all'autoriparazione di GPT-4o.
I Large Language Model (LLM) con capacità di chiamata API hanno permesso la creazione di Language Agent (LA) efficaci, rivoluzionando al contempo il paradigma convenzionale del dialogo orientato ai compiti (TOD). Tuttavia, gli approcci attuali affrontano un dilemma critico: i sistemi TOD sono spesso addestrati su un insieme limitato di API target, richiedendo nuovi dati per mantenere la loro qualità quando interagiscono con nuovi servizi, mentre i LA non sono addestrati a preservare l'intento dell'utente in conversazioni multi-turn. Poiché sia una gestione robusta delle interazioni multi-turn sia una chiamata avanzata di funzioni sono cruciali per agenti conversazionali efficaci, valutiamo queste abilità su tre benchmark popolari: MultiWOZ 2.4 (TOD), BFCL V3 (LA) e API-Bank (LA), e le nostre analisi rivelano che approcci specializzati eccellono in un dominio ma sottoperformano nell'altro. Per colmare questo divario, introduciamo CALM (Conversational Agentic Language Model), un approccio unificato che integra sia capacità conversazionali che agentiche. Abbiamo creato CALM-IT, un dataset multi-task accuratamente costruito che intercala ragionamenti ReAct multi-turn con l'uso complesso di API. Utilizzando CALM-IT, abbiamo addestrato tre modelli: CALM 8B, CALM 70B e CALM 405B, che superano i migliori modelli specifici per dominio, incluso GPT-4o, su tutti e tre i benchmark.
Questo lavoro introduce ILIAS, un nuovo dataset di test per il recupero di immagini a livello di istanza su larga scala. È progettato per valutare la capacità dei modelli di base attuali e futuri, nonché delle tecniche di recupero, di riconoscere oggetti specifici. I principali vantaggi rispetto ai dataset esistenti includono la grande scala, la diversità di dominio, la verità di base accurata e una performance che è ben lontana dalla saturazione. ILIAS include immagini di query e immagini positive per 1.000 istanze di oggetti, raccolte manualmente per catturare condizioni complesse e domini diversificati. Il recupero su larga scala viene effettuato rispetto a 100 milioni di immagini distrattori provenienti da YFCC100M. Per evitare falsi negativi senza sforzi aggiuntivi di annotazione, includiamo solo oggetti di query confermati essere emersi dopo il 2014, ovvero la data di compilazione di YFCC100M. È stato eseguito un ampio benchmarking con le seguenti osservazioni: i) i modelli ottimizzati su domini specifici, come punti di riferimento o prodotti, eccellono in quel dominio ma falliscono su ILIAS; ii) l'apprendimento di uno strato di adattamento lineare utilizzando la supervisione di classi multi-dominio porta a miglioramenti delle prestazioni, specialmente per i modelli visione-linguaggio; iii) i descrittori locali nel riordinamento del recupero rimangono un ingrediente chiave, specialmente in presenza di un grave disordine di sfondo; iv) la performance da testo a immagine dei modelli di base visione-linguaggio è sorprendentemente vicina al corrispondente caso da immagine a immagine. Sito web: https://vrg.fel.cvut.cz/ilias/
La pervasività dei modelli linguistici di grandi dimensioni e dell'IA generativa nei media online ha amplificato la necessità di un fact-checking automatizzato efficace per assistere i fact-checker nel gestire il volume crescente e la sofisticazione della disinformazione. La natura complessa del fact-checking richiede che i sistemi automatizzati forniscano spiegazioni che consentano ai fact-checker di esaminare i loro output. Tuttavia, non è chiaro come queste spiegazioni debbano allinearsi ai processi decisionali e di ragionamento dei fact-checker per essere integrate efficacemente nei loro flussi di lavoro. Attraverso interviste semi-strutturate con professionisti del fact-checking, colmiamo questa lacuna: (i) fornendo una descrizione di come i fact-checker valutano le prove, prendono decisioni e spiegano i loro processi; (ii) esaminando come i fact-checker utilizzano gli strumenti automatizzati nella pratica; e (iii) identificando i requisiti di spiegazione dei fact-checker per gli strumenti di fact-checking automatizzati. I risultati evidenziano esigenze di spiegazione insoddisfatte e identificano criteri importanti per spiegazioni di fact-checking replicabili che traccino il percorso di ragionamento del modello, facciano riferimento a prove specifiche e mettano in evidenza incertezze e lacune informative.
Questo articolo mette in discussione il recente paradigma nella previsione delle proprietà atomiche che collega il progresso all'aumento delle dimensioni dei dataset e delle risorse computazionali. Dimostriamo che il pretraining su un dataset accuratamente selezionato e pertinente al compito può eguagliare o addirittura superare il pretraining su larga scala, utilizzando fino a 1/24 del costo computazionale. Introduciamo il Chemical Similarity Index (CSI), una nuova metrica ispirata alla Fréchet Inception Distance della computer vision, per i grafi molecolari, che quantifica l'allineamento tra i dataset di pretraining upstream e i compiti downstream. Selezionando il dataset più pertinente con la minima distanza CSI, mostriamo che i modelli sottoposti a pretraining su un dataset più piccolo e focalizzato superano costantemente quelli pretrainati su dataset massicci e misti come JMP, anche quando questi ultimi includono il dataset pertinente. Controintuitivamente, scopriamo anche che l'aggiunta indiscriminata di più dati può degradare le prestazioni del modello quando i dati aggiuntivi sono poco allineati con il compito in questione. I nostri risultati evidenziano che, nel pretraining per la previsione delle proprietà atomiche, la qualità spesso supera la quantità.
Questo articolo indaga le capacità di ragionamento matematico dei grandi modelli linguistici (LLMs) utilizzando 50 nuovi problemi di parole di livello liceale. A differenza di studi precedenti che si concentrano esclusivamente sulla correttezza delle risposte, analizziamo rigorosamente sia le risposte finali che i passaggi risolutivi per identificare errori di ragionamento. Valutando otto modelli all'avanguardia - tra cui Mixtral, Llama, Gemini, GPT-4o e le varianti o1 di OpenAI - scopriamo che, sebbene i modelli più recenti (ad esempio, o3-mini, deepseek-r1) raggiungano una maggiore accuratezza, tutti i modelli presentano errori nel ragionamento spaziale, nella pianificazione strategica e nell'aritmetica, producendo talvolta risposte corrette attraverso una logica difettosa. Le modalità di errore comuni includono assunzioni ingiustificate, eccessiva dipendenza da schemi numerici e difficoltà nel tradurre l'intuizione fisica in passaggi matematici. L'analisi manuale rivela che i modelli hanno difficoltà con problemi che richiedono deduzioni a più passaggi o conoscenze del mondo reale, nonostante possiedano un'ampia conoscenza matematica. I nostri risultati sottolineano l'importanza di valutare i processi di ragionamento, non solo le risposte, e mettono in guardia contro la sovrastima della competenza dei LLMs nella risoluzione dei problemi. Lo studio evidenzia persistenti lacune nelle capacità di generalizzazione dei LLMs, enfatizzando la necessità di miglioramenti mirati nel ragionamento strutturato e nella gestione dei vincoli.
Nonostante le loro straordinarie capacità, i modelli linguistici di grandi dimensioni (LLM) apprendono rappresentazioni di parole che presentano la caratteristica indesiderata e ancora poco compresa dell'anisotropia. In questo articolo, sosteniamo che il secondo momento in Adam sia una causa delle rappresentazioni anisotropiche e proponiamo un ottimizzatore modificato, chiamato Coupled Adam, per mitigare il problema. I nostri esperimenti dimostrano che Coupled Adam migliora significativamente la qualità delle rappresentazioni, portando anche a migliori prestazioni sia a monte che a valle su dataset sufficientemente grandi.
Le funzioni di influenza forniscono intuizioni cruciali sull'addestramento dei modelli, ma i metodi esistenti soffrono di elevati costi computazionali e di una limitata generalizzazione. In particolare, lavori recenti hanno proposto varie metriche e algoritmi per calcolare l'influenza dei dati utilizzando modelli linguistici, che non si adattano bene a modelli e dataset di grandi dimensioni. Ciò è dovuto ai costosi passaggi in avanti e indietro richiesti per il calcolo, ai notevoli requisiti di memoria per memorizzare modelli di grandi dimensioni e alla scarsa generalizzazione delle stime di influenza su nuovi dati. In questo articolo, esploriamo l'uso di piccole reti neurali -- che chiamiamo InfluenceNetwork -- per stimare i valori di influenza, ottenendo una riduzione dei costi fino al 99%. La nostra valutazione dimostra che i valori di influenza possono essere stimati con modelli di dimensioni pari solo allo 0,0027% rispetto ai modelli linguistici completi (utilizziamo versioni da 7B e 8B). Applichiamo il nostro algoritmo per stimare i valori di influenza (chiamato NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) al compito downstream di selezione di sottoinsiemi per il fine-tuning generale delle istruzioni. Nel nostro studio, includiamo quattro funzioni di influenza all'avanguardia e mostriamo che non vi è alcun compromesso nelle prestazioni, nonostante i notevoli miglioramenti in termini di velocità, tra NN-CIFT e le funzioni di influenza originali. Forniamo un'analisi approfondita degli iperparametri di NN-CIFT. Il codice per il nostro metodo è disponibile qui: https://github.com/agarwalishika/NN-CIFT.
Rilevare testi generati da Large Language Models (LLMs) potrebbe portare a gravi errori a causa di decisioni errate, come minare la dignità accademica degli studenti. La rilevazione di testi generati da LLM deve quindi garantire l'interpretabilità della decisione, che può aiutare gli utenti a giudicare quanto affidabile sia la sua previsione. Quando gli esseri umani verificano se un testo è scritto da una persona o generato da un LLM, esaminano intuitivamente con quale delle due categorie condivide sequenze più simili. Tuttavia, i rilevatori interpretabili esistenti non sono allineati con il processo decisionale umano e non forniscono prove facilmente comprensibili agli utenti. Per colmare questa lacuna, introduciamo ExaGPT, un approccio di rilevamento interpretabile basato sul processo decisionale umano per verificare l'origine di un testo. ExaGPT identifica un testo controllando se condivide sequenze più simili con testi scritti da esseri umani o con testi generati da LLM provenienti da un archivio dati. Questo approccio può fornire esempi di sequenze simili che contribuiscono alla decisione per ciascuna sequenza nel testo come prova. La nostra valutazione umana dimostra che fornire esempi di sequenze simili contribuisce in modo più efficace a giudicare la correttezza della decisione rispetto ai metodi interpretabili esistenti. Inoltre, esperimenti estesi in quattro domini e con tre generatori mostrano che ExaGPT supera ampiamente i precedenti rilevatori potenti, con un miglioramento fino a +40,9 punti di accuratezza a un tasso di falsi positivi dell'1%.
I Large Language Models (LLMs) hanno compiuto progressi significativi nella generazione del linguaggio naturale, ma spesso incontrano difficoltà in compiti che richiedono calcoli precisi e analisi strutturali. Questo articolo indaga le prestazioni degli LLMs all'avanguardia nei compiti di misurazione della complessità linguistica, attraverso il calcolo della metrica di leggibilità LIX e della Distanza Media di Dipendenza (ADD). Utilizzando saggi di studenti delle scuole superiori e universitari svedesi, valutiamo la capacità dei modelli di calcolare i punteggi LIX e di eseguire il parsing delle dipendenze, confrontando i loro risultati con verità di riferimento consolidate. I nostri risultati rivelano che, sebbene tutti i modelli dimostrino una certa capacità in questi compiti, ChatGPT-o1-mini si distingue per la maggiore coerenza, raggiungendo la massima accuratezza sia nel calcolo del LIX che nel parsing delle dipendenze. Inoltre, osserviamo una forte correlazione significativa di -0,875 p 0,026 (N=6) tra l'accuratezza dei modelli nel calcolo del LIX e le loro prestazioni complessive nel benchmark Massive Multitask Language Understanding (MMLU). Questi risultati suggeriscono che le capacità di misurazione della complessità linguistica possono fungere da proxy rumorosi zero-shot per valutare le capacità generali degli LLMs, offrendo un metodo pratico per la valutazione dei modelli senza la necessità di ampi dataset di benchmarking.