Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo un nuovo benchmark finanziario a lungo contesto, FailSafeQA, progettato per testare la robustezza e la consapevolezza del contesto dei LLM contro sei variazioni nelle interazioni interfaccia-utente nei sistemi di interrogazione-risposta basati su LLM nel settore finanziario. Ci concentriamo su due studi di caso: Fallimento della Query e Fallimento del Contesto. Nel caso di Fallimento della Query, perturbiamo la query originale per variare l'esperienza di dominio, la completezza e l'accuratezza linguistica. Nel caso di Fallimento del Contesto, simuliamo l'upload di documenti degradati, non pertinenti e vuoti. Utilizziamo la metodologia LLM-come-Giudice con Qwen2.5-72B-Instruct e utilizziamo criteri di valutazione dettagliati per definire e calcolare i punteggi di Robustezza, Contestualizzazione e Conformità per 24 modelli già pronti. I risultati suggeriscono che sebbene alcuni modelli eccellano nel mitigare le perturbazioni in ingresso, devono bilanciare una risposta robusta con la capacità di evitare l'elaborazione di informazioni non veritiere. In particolare, Palmyra-Fin-128k-Instruct, riconosciuto come il modello più conforme, ha mantenuto elevate prestazioni di base ma ha incontrato sfide nel mantenere previsioni robuste nel 17% dei casi di test. D'altra parte, il modello più robusto, OpenAI o3-mini, ha fabbricato informazioni nel 41% dei casi testati. I risultati dimostrano che anche i modelli ad alte prestazioni hanno ampio margine di miglioramento e sottolineano il ruolo di FailSafeQA come strumento per lo sviluppo di LLM ottimizzati per l'affidabilità nelle applicazioni finanziarie. Il dataset è disponibile su: https://huggingface.co/datasets/Writer/FailSafeQA
Dimostriamo che l'apprendimento per rinforzo applicato ai grandi modelli linguistici (LLM) migliora significativamente le prestazioni su compiti complessi di codifica e ragionamento. Inoltre, confrontiamo due modelli di ragionamento generici - OpenAI o1 e un checkpoint iniziale di o3 - con un sistema specifico del dominio, o1-ioi, che utilizza strategie di inferenza progettate manualmente per competere nella Olimpiade Internazionale di Informatica (IOI) del 2024. Abbiamo gareggiato dal vivo alla IOI 2024 con o1-ioi e, utilizzando strategie di test create manualmente, siamo arrivati al 49° percentile. In condizioni di competizione meno rigide, o1-ioi ha ottenuto una medaglia d'oro. Tuttavia, valutando modelli successivi come o3, scopriamo che o3 raggiunge l'oro senza strategie specifiche del dominio create manualmente o vincoli ridotti. Le nostre scoperte dimostrano che, sebbene i flussi di lavoro specializzati come o1-ioi apportino miglioramenti significativi, il modello generico scalato o3 supera tali risultati senza fare affidamento su euristiche di inferenza create manualmente. In particolare, o3 raggiunge una medaglia d'oro alla IOI del 2024 e ottiene un punteggio Codeforces pari a quello dei migliori concorrenti umani. Nel complesso, questi risultati indicano che scalare l'apprendimento per rinforzo generico, anziché fare affidamento su tecniche specifiche del dominio, offre un percorso robusto verso l'intelligenza artificiale all'avanguardia nei domini del ragionamento, come la programmazione competitiva.
Il ragionamento è una capacità fondamentale dei Grandi Modelli Linguistici. Mentre la ricerca precedente si concentra principalmente sul potenziamento di abilità specifiche come la matematica o la generazione di codice, migliorare le prestazioni su molti altri compiti di ragionamento rimane difficile a causa dei dati di addestramento scarsi e frammentati. Per affrontare questo problema, proponiamo CodeI/O, un approccio innovativo che condensa in modo sistematico diversi schemi di ragionamento intrinsecamente incorporati nei codici contestualmente fondati, trasformando il codice originale in un formato di previsione input-output del codice. Addestrando i modelli a prevedere input/output dato il codice e i casi di test interamente in linguaggio naturale come ragionamenti Chain-of-Thought (CoT), li esponiamo a primitive di ragionamento universali -- come la pianificazione del flusso logico, la ricerca dello spazio degli stati, il travaso dell'albero decisionale e la decomposizione modulare -- separando il ragionamento strutturato dalla sintassi specifica del codice e preservando la rigore procedurale. I risultati sperimentali dimostrano che CodeI/O porta a miglioramenti consistenti su compiti di ragionamento simbolico, scientifico, logico, matematico e numerico, e di buon senso. Abbinando le uscite di verità esistenti o rieseguendo il codice con input previsti, possiamo verificare ogni previsione e migliorare ulteriormente i CoT attraverso revisioni multi-turno, ottenendo così CodeI/O++ e raggiungendo prestazioni superiori. I nostri dati e modelli sono disponibili su https://github.com/hkust-nlp/CodeIO.
La previsione del movimento delle azioni, un compito fondamentale nella previsione delle serie temporali finanziarie, richiede l'identificazione e il recupero di fattori influenti critici da grandi quantità di dati di serie temporali. Tuttavia, i metodi esistenti basati su testo o similarità numerica falliscono nel gestire l'analisi finanziaria complessa. Per affrontare questo problema, proponiamo il primo framework di generazione potenziato da recupero (RAG) per la previsione delle serie temporali finanziarie, che presenta tre innovazioni chiave: un modello di linguaggio di grandi dimensioni con 1B di parametri sintonizzato (StockLLM) come base, un nuovo metodo di selezione dei candidati che sfrutta il feedback del LLM e un obiettivo di addestramento che massimizza la similarità tra le query e le sequenze storicamente significative. Ciò consente al nostro recupero, FinSeer, di individuare modelli significativi riducendo al minimo il rumore nei dati finanziari complessi. Costruiamo inoltre nuovi set di dati che integrano indicatori finanziari e prezzi storici delle azioni per addestrare FinSeer e garantire una valutazione robusta. I risultati sperimentali dimostrano che il nostro framework RAG supera il semplice StockLLM e il recupero casuale, evidenziandone l'efficacia, mentre FinSeer supera i metodi di recupero esistenti, raggiungendo un'accuratezza superiore del 8\% su BIGDATA22 e recuperando sequenze più impattanti. Questo lavoro sottolinea l'importanza dei modelli di recupero personalizzati nella previsione finanziaria e fornisce un framework innovativo per future ricerche.
I modelli di ragionamento di grandi dimensioni (LRM) affrontano problemi complessi di ragionamento seguendo lunghe catene di pensiero (Long CoT) che incorporano riflessione, backtracking e autovalidazione. Tuttavia, le tecniche di addestramento e i requisiti di dati per ottenere Long CoT rimangono scarsamente compresi. In questo lavoro, scopriamo che un grande modello linguistico (LLM) può apprendere efficacemente il ragionamento Long CoT attraverso il fine-tuning supervisionato efficiente dei dati (SFT) e l'adattamento a basso rango efficiente dei parametri (LoRA). Con soli 17k campioni di addestramento Long CoT, il modello Qwen2.5-32B-Instruct ottiene miglioramenti significativi su una vasta gamma di benchmark matematici e di codifica, inclusi il 56,7% (+40,0%) su AIME 2024 e il 57,0% (+8,1%) su LiveCodeBench, competitivi con il punteggio del modello proprietario o1-preview del 44,6% e del 59,1%. Inoltre, scopriamo che la struttura del Long CoT è fondamentale per il processo di apprendimento, mentre il contenuto dei singoli passaggi di ragionamento ha un impatto minimo. Perturbazioni che influenzano il contenuto, come l'addestramento su campioni incorretti o la rimozione di parole chiave di ragionamento, hanno scarso impatto sulle prestazioni. Al contrario, le modifiche strutturali che interrompono la coerenza logica nel Long CoT, come mescolare o eliminare passaggi di ragionamento, degradano significativamente l'accuratezza. Ad esempio, un modello addestrato su campioni Long CoT con risposte incorrette ottiene comunque solo una precisione inferiore del 3,2% rispetto all'addestramento con campioni completamente corretti. Queste intuizioni approfondiscono la nostra comprensione su come suscitare capacità di ragionamento nei LLM e evidenziano considerazioni chiave per addestrare efficientemente la prossima generazione di modelli di ragionamento. Questo è il paper accademico del nostro modello Sky-T1-32B-Preview rilasciato in precedenza. I codici sono disponibili su https://github.com/NovaSky-AI/SkyThought.
In questo rapporto tecnico, presentiamo Magic 1-For-1 (Magic141), un modello efficiente di generazione video con consumo di memoria ottimizzato e latenza di inferenza ridotta. L'idea chiave è semplice: suddividere il compito di generazione testo-video in due compiti separati più semplici per la distillazione del passaggio di diffusione, ovvero la generazione di immagini da testo e la generazione di video da immagini. Verifichiamo che con lo stesso algoritmo di ottimizzazione, il compito di generazione di video da immagini è effettivamente più facile da convergere rispetto al compito di generazione di video da testo. Esploriamo anche una serie di trucchi di ottimizzazione per ridurre il costo computazionale del training dei modelli immagine-video (I2V) da tre punti di vista: 1) accelerazione della convergenza del modello utilizzando un'iniezione di condizione precedente multimodale; 2) accelerazione della latenza di inferenza mediante l'applicazione di una distillazione del passaggio avversario, e 3) ottimizzazione del costo di memoria di inferenza con sparizione dei parametri. Con queste tecniche, siamo in grado di generare clip video di 5 secondi in 3 secondi. Applicando una finestra temporale scorrevole al momento del test, siamo in grado di generare un video di un minuto in un minuto con una qualità visiva significativamente migliorata e dinamiche di movimento, impiegando meno di 1 secondo per generare clip video di 1 secondo in media. Conduciamo una serie di esplorazioni preliminari per trovare il compromesso ottimale tra costo computazionale e qualità video durante la distillazione del passaggio di diffusione e speriamo che possa essere un buon modello di base per esplorazioni open-source. Il codice e i pesi del modello sono disponibili su https://github.com/DA-Group-PKU/Magic-1-For-1.
Forniamo un'indagine empirica sul potenziale del pre-training dei modelli visione-linguaggio su una scala senza precedenti: 100 miliardi di esempi. Riscontriamo che le prestazioni del modello tendono a saturarsi a questa scala su molti comuni benchmark di classificazione e recupero occidentali, come COCO Captions. Tuttavia, compiti legati alla diversità culturale ottengono guadagni più consistenti dai dati web su scala di 100 miliardi, grazie alla copertura di concetti di coda lunga. Inoltre, analizziamo la multilinguismo del modello e mostriamo guadagni anche nelle lingue a risorse limitate. Inoltre, osserviamo che ridurre le dimensioni del dataset di pretraining tramite filtri di qualità come l'utilizzo di CLIP, comunemente utilizzato per migliorare le prestazioni, potrebbe ridurre involontariamente la diversità culturale rappresentata anche in dataset su larga scala. I nostri risultati mettono in evidenza che, sebbene i benchmark tradizionali potrebbero non beneficiare significativamente dal ridimensionamento di dati web rumorosi e grezzi a 100 miliardi di esempi, questa scala di dati è vitale per la costruzione di sistemi multimodali veramente inclusivi.
Le leggi di scala sono tipicamente adattate utilizzando una famiglia di modelli con una stretta gamma di scelte di iperparametri fissi. In questo lavoro studiamo le leggi di scala utilizzando una vasta gamma di architetture e scelte di iperparametri, evidenziandone l'impatto sulle prescrizioni risultanti. Come principale risultato della nostra ricerca, rilasciamo i Gemstones: il dataset di leggi di scala open-source più completo ad oggi, composto da oltre 4000 checkpoint di trasformatori con fino a 2 miliardi di parametri; questi modelli sono stati addestrati con diverse velocità di apprendimento, programmi di raffreddamento e forme architetturali. I nostri checkpoint consentono studi più complessi sulla scala, come una legge che predice le prestazioni di modellizzazione del linguaggio in funzione della larghezza e della profondità del modello. Esaminando i vari aspetti della nostra suite di modelli, scopriamo che le prescrizioni delle leggi di scala possono essere altamente sensibili al processo di progettazione sperimentale e ai checkpoint specifici del modello utilizzati durante l'adattamento. Codice: https://github.com/mcleish7/gemstone-scaling-laws
Insegnare ai grandi modelli linguistici (LLM) a criticare e perfezionare le loro uscite è cruciale per la costruzione di sistemi in grado di migliorare iterativamente, ma è fondamentalmente limitato dalla capacità di fornire giudizi accurati e suggerimenti pratici. In questo lavoro, studiamo i critici LLM per la generazione di codice e proponiamo CTRL, un framework per l'Addestramento del Critico tramite Apprendimento per Rinforzo, che addestra un modello critico a generare feedback che massimizza le prestazioni di correzione per un modello generatore fisso senza supervisione umana. I nostri risultati dimostrano che i critici addestrati con CTRL migliorano significativamente i tassi di superamento e mitigano gli errori cumulativi sia nei modelli generatore di base che in quelli più potenti. Inoltre, mostriamo che questi modelli critici agiscono come accurati modelli di ricompensa generativi e consentono la scalabilità al momento del test attraverso la critica-rivisitazione iterativa, ottenendo miglioramenti relativi fino al 106,1% su benchmark di generazione di codice impegnativi.
La generazione di video basata su DiT ha ottenuto risultati notevoli, ma la ricerca per migliorare i modelli esistenti rimane relativamente inesplorata. In questo lavoro, presentiamo un approccio privo di addestramento per migliorare la coerenza e la qualità dei video generati basati su DiT, chiamato Enhance-A-Video. L'idea principale è migliorare le correlazioni tra frame basate su distribuzioni di attenzione temporale non diagonali. Grazie al suo design semplice, il nostro approccio può essere facilmente applicato alla maggior parte dei framework di generazione di video basati su DiT senza alcun riaddestramento o sintonizzazione. Attraverso vari modelli di generazione di video basati su DiT, il nostro approccio dimostra miglioramenti promettenti sia nella coerenza temporale che nella qualità visiva. Speriamo che questa ricerca possa ispirare future esplorazioni nell'ottimizzazione della generazione di video.
I modelli fondamentali hanno rivoluzionato l'elaborazione del linguaggio naturale e l'intelligenza artificiale, migliorando significativamente la capacità delle macchine di comprendere e generare lingue umane. Ispirati dal successo di questi modelli fondamentali, i ricercatori hanno sviluppato modelli fondamentali per singoli settori scientifici, tra cui molecole piccole, materiali, proteine, DNA e RNA. Tuttavia, questi modelli sono tipicamente addestrati in modo isolato, mancando della capacità di integrarsi tra diversi settori scientifici. Riconoscendo che le entità all'interno di questi settori possono essere rappresentate come sequenze, che insieme formano il "linguaggio della natura", presentiamo il Modello di Linguaggio Naturale (abbreviato, NatureLM), un modello fondamentale scientifico basato su sequenze progettato per la scoperta scientifica. Pre-addestrato con dati provenienti da diversi settori scientifici, NatureLM offre un modello unificato e versatile che consente varie applicazioni, tra cui: (i) generazione e ottimizzazione di molecole piccole, proteine, RNA e materiali utilizzando istruzioni testuali; (ii) generazione/design tra domini, come proteina-a-molecola e proteina-a-RNA; e (iii) ottenimento di prestazioni all'avanguardia in compiti come la traduzione SMILES-a-IUPAC e la retrosintesi su USPTO-50k. NatureLM offre un promettente approccio generalista per varie attività scientifiche, tra cui la scoperta di farmaci (generazione/ottimizzazione di hit, ottimizzazione ADMET, sintesi), la progettazione di nuovi materiali e lo sviluppo di proteine terapeutiche o nucleotidi. Abbiamo sviluppato modelli NatureLM di diverse dimensioni (1 miliardo, 8 miliardi e 46,7 miliardi di parametri) e abbiamo osservato un chiaro miglioramento delle prestazioni all'aumentare delle dimensioni del modello.
A causa della scarsità di dati di pre-addestramento orientati agli agenti, gli agenti autonomi basati su LLM di solito si affidano a prompt complessi o ad un'ampia messa a punto, che spesso non riesce a introdurre nuove capacità pur preservando una forte generalizzabilità. Presentiamo Hephaestus-Forge, il primo corpus di pre-addestramento su larga scala progettato per potenziare le capacità fondamentali degli agenti LLM nella chiamata di funzioni API, nel ragionamento intrinseco e nella pianificazione, e nell'adattamento al feedback ambientale. Hephaestus-Forge comprende 103 miliardi di dati specifici degli agenti che abbracciano 76.537 API, includendo sia la documentazione degli strumenti per introdurre la conoscenza delle funzioni API che le traiettorie di chiamata delle funzioni per rafforzare il ragionamento intrinseco. Per esplorare protocolli di addestramento efficaci, indaghiamo sulle leggi di scala per identificare la ricetta ottimale nei rapporti di miscelazione dei dati. Attraverso un pre-addestramento continuo su Hephaestus-Forge, Hephaestus supera i LLM open-source di piccole e medie dimensioni e si confronta con i LLM commerciali su tre benchmark degli agenti, dimostrando l'efficacia del nostro corpus di pre-addestramento nel potenziare le capacità agentiche fondamentali e la generalizzazione dei LLM a nuovi compiti o ambienti.
I metodi recenti di generazione immagine-video hanno dimostrato successo nel consentire il controllo su uno o due elementi visivi, come la traiettoria della telecamera o il movimento degli oggetti. Tuttavia, questi metodi non sono in grado di offrire controllo su più elementi visivi a causa di limitazioni nei dati e nell'efficacia della rete. In questo articolo, presentiamo VidCRAFT3, un nuovo framework per la generazione precisa di immagine-video che consente il controllo simultaneo del movimento della telecamera, del movimento degli oggetti e della direzione dell'illuminazione. Per decuplicare meglio il controllo su ciascun elemento visivo, proponiamo il Trasformatore di Tripla Attenzione Spaziale, che integra la direzione dell'illuminazione, il testo e l'immagine in modo simmetrico. Poiché la maggior parte dei dataset video del mondo reale manca di annotazioni sull'illuminazione, costruiamo un dataset video sintetico di alta qualità, il dataset VideoLightingDirection (VLD). Questo dataset include annotazioni sulla direzione dell'illuminazione e oggetti di aspetto diverso, consentendo a VidCRAFT3 di gestire efficacemente forti effetti di trasmissione e riflessione della luce. Inoltre, proponiamo una strategia di addestramento a tre fasi che elimina la necessità di dati di addestramento annotati con più elementi visivi contemporaneamente (movimento della telecamera, movimento degli oggetti e direzione dell'illuminazione). Estesi esperimenti su dataset di riferimento dimostrano l'efficacia di VidCRAFT3 nella produzione di contenuti video di alta qualità, superando i metodi all'avanguardia esistenti in termini di granularità di controllo e coerenza visiva. Tutto il codice e i dati saranno disponibili pubblicamente. Pagina del progetto: https://sixiaozheng.github.io/VidCRAFT3/.
Presentiamo Pippo, un modello generativo in grado di produrre video dettagliati a risoluzione 1K di una persona a partire da una singola foto scattata casualmente. Pippo è un trasformatore a diffusione multi-vista e non richiede input aggiuntivi, come ad esempio un modello parametrico adattato o parametri della fotocamera dell'immagine in ingresso. Pre-alleniamo Pippo su 3 miliardi di immagini umane senza didascalie e conduciamo un training multi-vista durante e dopo il pre-allenamento su immagini di persone catturate in studio. Durante il training, per assimilare rapidamente il dataset di studio, eliminiamo il rumore di diverse (fino a 48) viste a bassa risoluzione e codifichiamo grossolanamente le telecamere di destinazione utilizzando un MLP superficiale. Durante il post-training, eliminiamo il rumore di meno viste ad alta risoluzione e utilizziamo controlli allineati ai pixel (ad es. ancoraggi spaziali e raggi di Plücker) per consentire generazioni coerenti in 3D. Durante l'inferenza, proponiamo una tecnica di bias dell'attenzione che consente a Pippo di generare contemporaneamente più di 5 volte le viste rispetto a quelle viste durante il training. Infine, introduciamo anche una metrica migliorata per valutare la coerenza in 3D delle generazioni multi-vista e dimostriamo che Pippo supera i lavori esistenti sulla generazione multi-vista di persone da un'unica immagine.
I grandi modelli linguistici (LLM) spesso sembrano eccellere nei benchmark pubblici, ma questi punteggi elevati possono nascondere una eccessiva dipendenza da segnali superficiali specifici del dataset piuttosto che da una vera comprensione del linguaggio. Presentiamo il Rilevatore di Sovraadattamento al Benchmark Camaleonte (C-BOD), un framework di meta-valutazione che distorce sistematicamente le richieste del benchmark tramite una trasformazione parametrica e rileva il sovraadattamento dei LLM. Riformulando gli input pur preservando il loro contenuto semantico e le etichette, C-BOD espone se le prestazioni di un modello sono guidate da pattern memorizzati. Valutato sul benchmark MMLU utilizzando 26 principali LLM, il nostro metodo rivela una degradazione media delle prestazioni del 2,15% sotto modesti perturbamenti, con 20 modelli su 26 che mostrano differenze statisticamente significative. In particolare, i modelli con una precisione di base più elevata mostrano differenze di prestazioni più ampie sotto perturbazione, e i LLM più grandi tendono ad essere più sensibili alle riformulazioni, indicando che entrambi i casi potrebbero fare eccessivo affidamento su pattern fissi delle richieste. Al contrario, la famiglia Llama e i modelli con una precisione di base più bassa mostrano una degradazione insignificante, suggerendo una minore dipendenza da segnali superficiali. Inoltre, il design del C-BOD, indipendente dal dataset e dal modello, consente un'integrazione facile nei flussi di addestramento per promuovere una comprensione del linguaggio più robusta. Le nostre scoperte sfidano la comunità a guardare oltre i punteggi della classifica e a dare priorità alla resilienza e alla generalizzazione nella valutazione dei LLM.
La stragrande maggioranza dei modelli di recupero si basa sui prodotti interni dei vettori per generare un punteggio di rilevanza tra una query e un documento. Questo limita naturalmente l'espressività del punteggio di rilevanza che può essere impiegato. Noi proponiamo un nuovo paradigma, anziché produrre un vettore per rappresentare la query, produciamo una piccola rete neurale che funge da funzione di rilevanza appresa. Questa piccola rete neurale riceve in ingresso una rappresentazione del documento, in questo articolo utilizziamo un singolo vettore, e produce un punteggio di rilevanza scalare. Per creare la piccola rete neurale utilizziamo un iper-rete, una rete che produce i pesi di altre reti, come nostro codificatore di query o come lo chiamiamo un Ipercodificatore. Gli esperimenti su compiti di ricerca in-domain mostrano che l'Ipercodificatore è in grado di superare significativamente i modelli di recupero densi robusti e ha metriche più elevate rispetto ai modelli di riordinamento e modelli di un ordine di grandezza maggiore. Inoltre, l'Ipercodificatore è dimostrato di generalizzare bene anche a compiti di ricerca out-of-domain. Per valutare l'estensione delle capacità dell'Ipercodificatore, valutiamo un insieme di compiti di recupero difficili, tra cui il recupero sulla punta della lingua e compiti di recupero seguendo istruzioni, e scopriamo che il divario di prestazioni si allarga notevolmente rispetto ai compiti di recupero standard. Inoltre, per dimostrare la praticità del nostro metodo, implementiamo un algoritmo di ricerca approssimato e mostriamo che il nostro modello è in grado di cercare 8,8 milioni di documenti in meno di 60 ms.
I modelli di linguaggio multimodali di grandi dimensioni (MLLMs) faticano con i video lunghi a causa della necessità di eccessivi token visivi. Questi token superano massicciamente la lunghezza del contesto degli MLLMs, risultando in un riempimento con riprese ridondanti e non rilevanti per il compito. Come selezionare le riprese è un problema critico irrisolto: un campionamento sparso rischia di perdere dettagli chiave, mentre un campionamento esaustivo sovraccarica il modello con contenuti non rilevanti, portando a un fraintendimento dei video. Per risolvere questo problema, proponiamo il prompting a catena di riprese (CoS). L'idea chiave è quella di inquadrare la selezione delle riprese come ottimizzazione del prompt visivo al momento del test, scegliendo riprese adattive alla comprensione del video per il compito semantico ottimizzando l'allineamento tra riprese e compito. CoS ha due parti chiave: (1) un meccanismo di riassunto video binario che esegue il riferimento temporale pseudo, scoprendo una codifica binaria per identificare le riprese rilevanti per il compito, e (2) un modulo di co-ragionamento video che utilizza la codifica binaria per accoppiare (imparando ad allineare) le riprese positive rilevanti per il compito con riprese negative non rilevanti. Incorpora le selezioni di riprese ottimizzate nel video originale, facilitando il focus sul contesto rilevante per ottimizzare la comprensione dei video lunghi. Gli esperimenti su tre basi e cinque set di dati dimostrano l'efficacia e l'adattabilità di CoS. Il codice è disponibile su https://lwpyh.github.io/CoS.
La tecnologia di Riconoscimento Ottico dei Caratteri (OCR) è ampiamente utilizzata per estrarre testo da immagini di documenti, facilitando la digitalizzazione efficiente e il recupero dei dati. Tuttavia, estrarre solo il testo non è sufficiente quando si tratta di documenti complessi. Comprendere appieno tali documenti richiede la comprensione della loro struttura - inclusi formattazione, formule, tabelle e l'ordine di lettura di blocchi e colonne su più pagine - nonché informazioni semantiche per rilevare elementi come note a piè di pagina e didascalie delle immagini. Questa comprensione esaustiva è cruciale per attività successive come il recupero, la risposta a domande sui documenti e la cura dei dati per l'addestramento di Modelli Linguistici Estesi (LLM) e Modelli Linguaggio-Immagine (VLM). Per affrontare questo problema, presentiamo \'Eclair, uno strumento di estrazione di testo multiuso progettato appositamente per elaborare una vasta gamma di tipi di documenti. Dato un'immagine, \'Eclair è in grado di estrarre il testo formattato nell'ordine di lettura, insieme a riquadri e le rispettive classi semantiche corrispondenti. Per valutare approfonditamente queste nuove capacità, presentiamo il nostro variegato benchmark umano-annotato per l'OCR a livello di documento e la classificazione semantica. \'Eclair raggiunge un'accuratezza all'avanguardia su questo benchmark, superando altri metodi su metriche chiave. Inoltre, valutiamo \'Eclair su benchmark consolidati, dimostrandone la versatilità e la solidità secondo diversi standard di valutazione.
Introduciamo Goedel-Prover, un modello linguistico di grandi dimensioni (LLM) open-source che raggiunge le prestazioni all'avanguardia (SOTA) nella generazione automatica di dimostrazioni formali per problemi matematici. La sfida principale in questo campo è la scarsità di enunciati matematici e dimostrazioni formalizzati, che affrontiamo nei seguenti modi. Alleniamo formalizzatori di enunciati per tradurre i problemi matematici in linguaggio naturale da Numina in linguaggio formale (Lean 4), creando un dataset di 1,64 milioni di enunciati formali. I LLM vengono utilizzati per verificare che gli enunciati formali preservino accuratamente il contenuto dei problemi originali espressi in linguaggio naturale. Successivamente costruiamo iterativamente un ampio dataset di dimostrazioni formali addestrando una serie di dimostratori. Ciascun dimostratore riesce a dimostrare molti enunciati che i precedenti non erano in grado di dimostrare, e queste nuove dimostrazioni vengono aggiunte al set di addestramento per il successivo dimostratore. Il dimostratore finale supera tutti i modelli open-source esistenti nella generazione dell'intera dimostrazione. Sul benchmark miniF2F, raggiunge un tasso di successo del 57,6% (Pass@32), superando il precedente miglior modello open-source del 7,6%. Su PutnamBench, Goedel-Prover risolve con successo 7 problemi (Pass@512), classificandosi al primo posto nella classifica. Inoltre, genera 29,7K dimostrazioni formali per i problemi di Lean Workbook, quasi raddoppiando le 15,7K prodotte dai lavori precedenti.
I Large Language Models (LLM) sono stati scoperti soffrire nel recuperare accuratamente informazioni chiave. Per affrontare questo problema, proponiamo Mask-Enhanced Autoregressive Prediction (MEAP), un paradigma di addestramento semplice ma efficace che integra in modo fluido il Masked Language Modeling (MLM) nella Next-Token Prediction (NTP) per potenziare le capacità di recupero contestuale di quest'ultima. In particolare, MEAP maschera in modo casuale una piccola frazione dei token in ingresso e successivamente esegue direttamente la previsione del token successivo standard in modo autoregressivo utilizzando un Transformer con solo decoder. MEAP elimina la necessità di attenzione bidirezionale o architetture encoder-decoder per MLM, senza comportare alcun sovraccarico computazionale aggiuntivo durante il pre-training o l'inferenza. Esperimenti intensivi dimostrano che MEAP migliora notevolmente le prestazioni di NTP nel recupero di informazioni chiave e nelle attività di ragionamento su contesti lunghi, pur esibendo prestazioni paragonabili o migliori nelle attività di ragionamento di senso comune. I vantaggi di MEAP si estendono anche al fine-tuning supervisionato, dove mostra notevoli vantaggi in scenari di smarrimento nel mezzo, superando NTP di 11,77 punti percentuali. La nostra analisi indica che l'efficacia di MEAP deriva dalla sua capacità di favorire punteggi di attenzione più distinguibili concentrandosi su un insieme ridotto di token non mascherati. Questo meccanismo migliora il focus del modello sui segnali rilevanti per il compito, mitigando l'influenza del contesto periferico. Queste scoperte posizionano MEAP come un promettente paradigma di addestramento per grandi modelli linguistici.
Il Computer Aided Design (CAD) è indispensabile in varie industrie. La modifica CAD basata su testo, che automatizza la modifica dei modelli CAD basandosi su istruzioni testuali, ha un grande potenziale ma rimane poco esplorata. I metodi esistenti si concentrano principalmente sulla generazione di variazioni di design o sulla generazione CAD basata su testo, mancando di supporto per il controllo basato su testo o trascurando i modelli CAD esistenti come vincoli. Presentiamo CAD-Editor, il primo framework per la modifica CAD basata su testo. Per affrontare la sfida dei dati tripletti esigenti con corrispondenza accurata per l'addestramento, proponiamo un flusso di lavoro automatizzato per la sintesi dei dati. Questo flusso di lavoro utilizza modelli di variazione di design per generare coppie di modelli CAD originali e modificati e impiega Grandi Modelli Visione-Linguaggio (LVLMs) per riassumere le loro differenze in istruzioni di modifica. Per affrontare la natura composita della modifica CAD basata su testo, proponiamo un framework di localizzazione e riempimento che scompone il compito in due sotto-compiti focalizzati: individuare le regioni che richiedono modifica e riempire queste regioni con modifiche appropriate. I Grandi Modelli Linguaggio (LLMs) fungono da base per entrambi i sotto-compiti, sfruttando le loro capacità nella comprensione del linguaggio naturale e nella conoscenza CAD. Gli esperimenti mostrano che CAD-Editor raggiunge prestazioni superiori sia quantitativamente che qualitativamente.
Per comprendere veramente i modelli di visione, non dobbiamo soltanto interpretare le loro caratteristiche apprese, ma anche convalidare tali interpretazioni attraverso esperimenti controllati. Gli approcci attuali forniscono o caratteristiche interpretabili senza la capacità di testarne l'influenza causale, oppure consentono la modifica del modello senza controlli interpretabili. Presentiamo un framework unificato che utilizza autoencoder sparsi (SAE) per colmare questa lacuna, consentendoci di scoprire caratteristiche visive interpretabili dall'uomo e manipolarle con precisione per testare ipotesi sul comportamento del modello. Applicando il nostro metodo ai modelli di visione all'avanguardia, riveliamo differenze chiave nelle astrazioni semantiche apprese da modelli con diversi obiettivi di pre-training. Dimostriamo quindi l'utilizzo pratico del nostro framework attraverso interventi controllati su più compiti di visione. Mostrando che gli SAE possono identificare e manipolare in modo affidabile caratteristiche visive interpretabili senza la necessità di riformare il modello, fornendo uno strumento potente per comprendere e controllare il comportamento del modello di visione. Forniamo codice, dimostrazioni e modelli sul nostro sito web del progetto: https://osu-nlp-group.github.io/SAE-V.
La memorizzazione nella cache delle istanze nei grandi modelli linguistici (LLM) porta a variazioni temporali dipendenti dai dati: le istanze memorizzate nella cache vengono elaborate più velocemente rispetto alle istanze non memorizzate. Queste differenze temporali introducono il rischio di attacchi temporali a canale laterale. Ad esempio, se la cache è condivisa tra gli utenti, un attaccante potrebbe identificare le istanze memorizzate dai tempi di risposta API veloci per apprendere informazioni sulle istanze degli altri utenti. Poiché la memorizzazione delle istanze potrebbe causare perdite di privacy, è importante la trasparenza riguardo alle politiche di memorizzazione della cache dei fornitori di API. A tal fine, sviluppiamo e conduciamo audit statistici per rilevare la memorizzazione delle istanze nei fornitori di API LLM del mondo reale. Rileviamo la condivisione globale della cache tra gli utenti in sette fornitori di API, inclusa OpenAI, con conseguente possibile perdita di privacy riguardo alle istanze degli utenti. Le variazioni temporali dovute alla memorizzazione delle istanze possono anche portare a perdite di informazioni sull'architettura del modello. In particolare, troviamo prove che il modello di embedding di OpenAI è un Transformer solo-decoder, informazione precedentemente non nota pubblicamente.
Gli esseri umani eccellono nel riutilizzare conoscenze pregresse per affrontare nuove sfide e sviluppare abilità risolvendo problemi. Questo paradigma sta diventando sempre più popolare nello sviluppo di agenti autonomi, poiché crea sistemi in grado di auto-evolversi in risposta a nuove sfide come gli esseri umani. Tuttavia, i metodi precedenti soffrono di limitata efficienza nell'addestramento quando si espandono nuove abilità e non riescono a sfruttare appieno le conoscenze pregresse per facilitare l'apprendimento di nuovi compiti. In questo articolo, proponiamo Parametric Skill Expansion and Composition (PSEC), un nuovo framework progettato per far evolvere in modo iterativo le capacità degli agenti e affrontare efficientemente nuove sfide mantenendo una libreria di abilità gestibile. Questa libreria può integrare progressivamente primitive di abilità come moduli Low-Rank Adaptation (LoRA) plug-and-play nell'ottimizzazione dei parametri, facilitando l'espansione efficiente e flessibile delle abilità. Questa struttura consente anche la composizione diretta delle abilità nello spazio dei parametri unendo moduli LoRA che codificano abilità diverse, sfruttando informazioni condivise tra abilità per programmare efficacemente nuove abilità. Basandoci su questo, proponiamo un modulo consapevole del contesto per attivare dinamicamente abilità diverse per gestire collaborativamente nuovi compiti. Potenziando diverse applicazioni tra cui composizione multi-obiettivo, cambiamento di dinamiche e cambiamento continuo delle politiche, i risultati su D4RL, DSRL benchmarks e DeepMind Control Suite mostrano che PSEC presenta una capacità superiore nel sfruttare le conoscenze pregresse per affrontare efficientemente nuove sfide, nonché espandere le proprie librerie di abilità per far evolvere le capacità. Sito web del progetto: https://ltlhuuu.github.io/PSEC/.
I grandi modelli linguistici hanno rivoluzionato l'elaborazione del linguaggio naturale attraverso il preaddestramento auto-supervisionato su enormi set di dati. Ispirati da questo successo, i ricercatori hanno esplorato l'adattamento di questi metodi al parlato discretizzando l'audio continuo in token utilizzando codec audio neurali. Tuttavia, gli approcci esistenti presentano limitazioni, tra cui bitrate elevati, la perdita di informazioni semantiche o acustiche e la dipendenza da progetti multi-codebook nel tentativo di catturare entrambi, il che aumenta la complessità architetturale per i compiti successivi. Per affrontare queste sfide, presentiamo FocalCodec, un codec efficiente a basso bitrate basato sulla modulazione focale che utilizza un singolo codebook binario per comprimere il parlato tra 0,16 e 0,65 kbps. FocalCodec offre prestazioni competitive nella risintesi del parlato e nella conversione vocale a bitrate inferiori rispetto allo stato dell'arte attuale, gestendo efficacemente il parlato multilingue e gli ambienti rumorosi. La valutazione sui compiti successivi mostra che FocalCodec preserva con successo informazioni semantiche e acustiche sufficienti, risultando adatto anche per la modellazione generativa. Campioni demo, codice e checkpoint sono disponibili su https://lucadellalib.github.io/focalcodec-web/.
I modelli di linguaggio estesi e i modelli di visione-linguaggio (LLM/VLM) vengono sempre più utilizzati nelle applicazioni critiche per la sicurezza, tuttavia la loro decision-making opaca complica la valutazione del rischio e l'affidabilità. La quantificazione dell'incertezza (UQ) aiuta a valutare la fiducia nelle previsioni e consente di astenersi quando l'incertezza è elevata. La predizione conforme (CP), un metodo UQ di spicco, fornisce garanzie statistiche ma si basa su soglie statiche, che non si adattano alla complessità del compito e alle distribuzioni dei dati in evoluzione, portando a compromessi subottimali in termini di accuratezza, copertura e informatività. Per affrontare questo problema, proponiamo l'astensione conforme apprendibile, integrando il reinforcement learning (RL) con CP per ottimizzare dinamicamente le soglie di astensione. Trattando le soglie di CP come azioni adattive, il nostro approccio bilancia diversi obiettivi, riducendo le dimensioni dell'insieme di previsione mantenendo una copertura affidabile. Valutazioni approfondite su diversi benchmark LLM/VLM mostrano che il nostro metodo supera i Classificatori Meno Ambigui (LAC) e gli Insiemi di Previsione Adattivi (APS), migliorando l'accuratezza fino al 3.2%, aumentando l'AUROC per la rilevazione di allucinazioni del 22.19%, potenziando la generazione selettiva guidata dall'incertezza (AUARC) del 21.17%, e riducendo l'errore di calibrazione del 70%-85%. Questi miglioramenti si mantengono su diversi modelli e set di dati, rispettando costantemente l'obiettivo di copertura del 90%, stabilendo il nostro approccio come una soluzione più efficace e flessibile per il decision-making affidabile nelle applicazioni critiche per la sicurezza. Il codice è disponibile su: {https://github.com/sinatayebati/vlm-uncertainty}.