Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo valuta i pregiudizi geopolitici nei modelli linguistici di grandi dimensioni (LLM) rispetto a vari paesi attraverso un'analisi della loro interpretazione di eventi storici con prospettive nazionali contrastanti (USA, Regno Unito, URSS e Cina). Introduciamo un nuovo dataset con descrizioni neutre di eventi e punti di vista contrastanti provenienti da diversi paesi. I nostri risultati mostrano pregiudizi geopolitici significativi, con i modelli che favoriscono narrazioni nazionali specifiche. Inoltre, semplici prompt di debiasing hanno avuto un effetto limitato nel ridurre questi pregiudizi. Esperimenti con etichette dei partecipanti manipolate rivelano la sensibilità dei modelli all'attribuzione, a volte amplificando i pregiudizi o riconoscendo incongruenze, specialmente con etichette scambiate. Questo lavoro evidenzia i pregiudizi nelle narrazioni nazionali nei LLM, mette in discussione l'efficacia di semplici metodi di debiasing e offre un framework e un dataset per future ricerche sui pregiudizi geopolitici.
I tipici modelli linguistico-visuali di grandi dimensioni (LVLM) applicano la supervisione autoregressiva esclusivamente alle sequenze testuali, senza incorporare pienamente la modalità visiva nel processo di apprendimento. Ciò comporta tre limitazioni principali: (1) l'incapacità di utilizzare immagini senza didascalie associate, (2) il rischio che le didascalie omettano dettagli visivi critici e (3) la sfida che alcuni contenuti centrati sulla visione non possano essere adeguatamente trasmessi attraverso il testo. Di conseguenza, gli attuali LVLM spesso privilegiano l'allineamento visione-linguaggio, rischiando di trascurare informazioni visive dettagliate. Sebbene alcuni lavori precedenti abbiano esplorato la generazione autoregressiva di immagini, sfruttare efficacemente la supervisione visiva autoregressiva per migliorare la comprensione delle immagini rimane una sfida aperta. In questo articolo, introduciamo la Ricostruzione Visiva Semantica Autoregressiva (ASVR), che consente l'apprendimento congiunto delle modalità visive e testuali all'interno di un framework autoregressivo unificato. Dimostriamo che ricostruire autoregressivamente l'aspetto visivo grezzo delle immagini non migliora e potrebbe persino compromettere la comprensione multimodale. Al contrario, ricostruire autoregressivamente la rappresentazione semantica delle immagini migliora costantemente la comprensione. In particolare, osserviamo che anche quando ai modelli vengono forniti in input feature immagine continue, essi possono ricostruire efficacemente token semantici discreti, ottenendo miglioramenti stabili e consistenti su un'ampia gamma di benchmark di comprensione multimodale. Il nostro approccio fornisce significativi guadagni di prestazioni su diverse scale di dati (556k-2M) e tipi di backbone LLM. Nello specifico, ASVR migliora LLaVA-1.5 del 5% nei punteggi medi su 14 benchmark multimodali. Il codice è disponibile all'indirizzo https://github.com/AlenjandroWang/ASVR.
Il ragionamento basato su regole è stato riconosciuto come uno dei problemi fondamentali nel ragionamento, mentre le deviazioni nei formati, tipi e complessità delle regole nelle applicazioni del mondo reale pongono sfide significative. Studi recenti hanno dimostrato che i modelli di ragionamento di grandi dimensioni (LRM) possiedono capacità di ragionamento notevoli, e le loro prestazioni sono notevolmente migliorate dall'apprendimento per rinforzo (RL). Tuttavia, rimane una questione aperta se i modelli di ragionamento di piccole dimensioni (SRM) possano apprendere efficacemente il ragionamento basato su regole con una generalizzazione robusta attraverso diversi compiti e domini. Per affrontare questo problema, introduciamo il Ragionamento Basato su Regole Rinforzato, noto anche come RuleReasoner, un metodo semplice ma efficace per condurre il ragionamento basato su regole attraverso una vasta raccolta di compiti curati e un nuovo approccio di campionamento dinamico consapevole del dominio. Nello specifico, RuleReasoner ricampiona ogni batch di addestramento aggiornando i pesi di campionamento di diversi domini basandosi sulle ricompense storiche. Questo facilita l'aumento del dominio e flessibili programmi di apprendimento online per RL, eliminando la necessità di ricette di mix-training predefinite e ingegnerizzate dall'uomo utilizzate nei metodi esistenti. Valutazioni empiriche su benchmark in-distribuzione (ID) e out-of-distribution (OOD) rivelano che RuleReasoner supera i migliori LRM con un margine significativo (Delta4.1% punti medi su otto compiti ID e Delta10.4% punti medi su tre compiti OOD rispetto a OpenAI-o1). In particolare, il nostro approccio mostra anche una maggiore efficienza computazionale rispetto ai precedenti metodi di campionamento dinamico per RL.
Dalla produzione cinematografica professionale ai contenuti generati dagli utenti, creatori e consumatori hanno da tempo riconosciuto che il potere del video dipende dall'integrazione armoniosa di ciò che ascoltiamo (la traccia audio del video) con ciò che vediamo (la sequenza di immagini del video). Gli approcci attuali alla generazione di video ignorano il suono per concentrarsi sulla generazione di sequenze di immagini silenziose ma di uso generale, oppure affrontano sia gli elementi visivi che quelli audio ma si concentrano su domini applicativi ristretti come il re-doppiaggio. Presentiamo Mirage, un modello di base audio-to-video che eccelle nella generazione di immagini realistiche ed espressive da zero, dato un input audio. Quando integrato con metodi esistenti per la sintesi vocale (text-to-speech, o TTS), Mirage produce video multimodali convincenti. Quando addestrato su filmati audio-video di persone che parlano (A-roll) e condizionato su audio contenente discorsi, Mirage genera video di persone che offrono un'interpretazione credibile della performance implicita nell'audio di input. Il nostro contributo tecnico centrale è un metodo unificato per addestrare modelli di generazione audio-to-video basati su self-attention, sia da zero che con pesi esistenti. Questa metodologia consente a Mirage di mantenere la generalità come approccio alla generazione audio-to-video, producendo risultati di qualità soggettiva superiore rispetto ai metodi che incorporano architetture specifiche per l'audio o componenti di perdita specifiche per persone, discorsi o dettagli su come le immagini o l'audio vengono catturati. Invitiamo i lettori a guardare e ascoltare i risultati di Mirage di persona (vedi il documento e i commenti per i link).
I progressi nei modelli di diffusione hanno significativamente migliorato la qualità video, dirigendo l'attenzione verso una controllabilità fine. Tuttavia, molti metodi esistenti dipendono dalla messa a punto di modelli video su larga scala per compiti specifici, il che diventa sempre più impraticabile man mano che le dimensioni dei modelli continuano a crescere. In questo lavoro, presentiamo Frame Guidance, una guida senza addestramento per la generazione video controllata basata su segnali a livello di fotogramma, come fotogrammi chiave, immagini di riferimento stilistiche, schizzi o mappe di profondità. Per una guida pratica senza addestramento, proponiamo un semplice metodo di elaborazione latente che riduce drasticamente l'uso della memoria e applichiamo una nuova strategia di ottimizzazione latente progettata per la generazione video globalmente coerente. Frame Guidance consente un controllo efficace su una vasta gamma di compiti, tra cui la guida tramite fotogrammi chiave, la stilizzazione e la creazione di loop, senza alcun addestramento, compatibile con qualsiasi modello video. I risultati sperimentali dimostrano che Frame Guidance può produrre video controllati di alta qualità per un'ampia gamma di compiti e segnali di input.
La dimostrazione di disuguaglianze, cruciale in vari campi scientifici e matematici, mette alla prova abilità di ragionamento avanzato come la scoperta di limiti stretti e l'applicazione strategica di teoremi. Questo la rende una frontiera distinta e impegnativa per i grandi modelli linguistici (LLM), offrendo approfondimenti che vanno oltre la risoluzione generale di problemi matematici. Il progresso in questo ambito è ostacolato dai dataset esistenti, spesso scarsi, sintetici o rigidamente formali. Affrontiamo questo problema proponendo una formulazione del compito informale ma verificabile, trasformando la dimostrazione di disuguaglianze in due sottocompiti verificabili automaticamente: stima dei limiti e previsione delle relazioni. Basandoci su questo, rilasciamo IneqMath, un dataset curato da esperti di disuguaglianze di livello olimpico, che include un set di test e un corpus di arricchito con soluzioni passo-passo e annotazioni di teoremi. Sviluppiamo inoltre un nuovo framework di valutazione LLM-as-judge, combinando un giudice per la risposta finale con quattro giudici passo-passo progettati per rilevare errori comuni nel ragionamento. Una valutazione sistematica di 29 LLM leader su IneqMath rivela una realtà sorprendente: anche i modelli più avanzati come o1 raggiungono meno del 10% di accuratezza complessiva sotto scrutinio passo-passo; si tratta di un calo fino al 65,5% rispetto alla loro accuratezza considerando solo l'equivalenza della risposta finale. Questa discrepanza evidenzia catene deduttive fragili e un divario critico per gli attuali LLM tra il semplice trovare una risposta e la costruzione di una dimostrazione rigorosa. Aumentare le dimensioni del modello e il calcolo al momento del test produce guadagni limitati nella correttezza complessiva della dimostrazione. Invece, i nostri risultati evidenziano promettenti direzioni di ricerca come il ragionamento guidato da teoremi e l'auto-affinamento. Codice e dati sono disponibili su https://ineqmath.github.io/.
Introduciamo Self Forcing, un nuovo paradigma di addestramento per modelli di diffusione video autoregressivi. Questo approccio affronta il problema di lunga data del bias di esposizione, in cui i modelli addestrati su contesti di verità fondamentale devono generare sequenze condizionate sui propri output imperfetti durante l'inferenza. A differenza dei metodi precedenti che denoisano i frame futuri basandosi su frame di contesto di verità fondamentale, Self Forcing condiziona la generazione di ciascun frame sugli output precedentemente auto-generati, eseguendo un rollout autoregressivo con caching di chiavi-valori (KV) durante l'addestramento. Questa strategia consente una supervisione attraverso una perdita olistica a livello video che valuta direttamente la qualità dell'intera sequenza generata, piuttosto che affidarsi esclusivamente a obiettivi tradizionali frame-by-frame. Per garantire l'efficienza dell'addestramento, utilizziamo un modello di diffusione a pochi passi insieme a una strategia di troncamento stocastico del gradiente, bilanciando efficacemente costo computazionale e prestazioni. Introduciamo inoltre un meccanismo di rolling KV cache che consente un'estrapolazione video autoregressiva efficiente. Esperimenti estensivi dimostrano che il nostro approccio raggiunge la generazione di video in streaming in tempo reale con latenza inferiore al secondo su una singola GPU, eguagliando o addirittura superando la qualità di generazione di modelli di diffusione significativamente più lenti e non causali. Sito del progetto: http://self-forcing.github.io/
Creare macchine in grado di comprendere il mondo in 3D è essenziale per assistere i progettisti che costruiscono e modificano ambienti tridimensionali e i robot che navigano e interagiscono in uno spazio tridimensionale. Ispirati dai progressi nella modellazione del linguaggio e delle immagini, esploriamo il potenziale dei modelli autoregressivi per una nuova modalità: scene 3D strutturate. A tal fine, proponiamo un framework LLM unificato che allinea linguaggio, immagini e scene 3D e forniamo un dettagliato "cookbook" che delinea le scelte progettuali critiche per ottenere un addestramento e una performance ottimali, affrontando domande chiave relative alla rappresentazione dei dati, agli obiettivi specifici per ogni modalità e altro ancora. Valutiamo le prestazioni su quattro compiti principali in 3D — rendering, riconoscimento, esecuzione di istruzioni e risposta a domande — e su quattro dataset 3D, sia sintetici che del mondo reale. Estendiamo il nostro approccio per ricostruire forme complesse di oggetti 3D arricchendo la nostra modalità 3D con codifiche di forma quantizzate e dimostriamo l'efficacia del nostro modello in compiti di riconoscimento di oggetti 3D del mondo reale. Pagina web del progetto: https://glab-caltech.github.io/kyvo/
Negli ultimi anni, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) sono stati ampiamente utilizzati per compiti di ragionamento multimodale, inclusa l'automazione delle Interfacce Grafiche Utente (GUI). A differenza dei compiti multimodali offline generali, l'automazione delle GUI viene eseguita in ambienti interattivi online, richiedendo un processo decisionale passo-passo basato sullo stato in tempo reale dell'ambiente. Questo compito ha una tolleranza inferiore per gli errori decisionali in ogni fase, poiché eventuali errori possono accumularsi e interrompere il processo, portando potenzialmente a risultati irreversibili come cancellazioni o pagamenti. Per affrontare questi problemi, introduciamo un meccanismo critico pre-operativo che fornisce un feedback efficace prima dell'esecuzione effettiva, ragionando sul potenziale risultato e sulla correttezza delle azioni. Nello specifico, proponiamo una strategia di Ottimizzazione Relativa delle Politiche con Gradiente Consapevole dei Suggerimenti (S-GRPO) per costruire il nostro modello critico pre-operativo GUI-Critic-R1, incorporando una nuova ricompensa basata sui suggerimenti per migliorare l'affidabilità del feedback del modello. Inoltre, sviluppiamo una pipeline di raccolta dati basata sul ragionamento incrementale per creare un GUI-Critic-Train e un GUI-Critic-Test, colmando le lacune esistenti nei dati critici delle GUI. Esperimenti statici sul GUI-Critic-Test in ambiti sia mobili che web rivelano che il nostro GUI-Critic-R1 offre vantaggi significativi in termini di accuratezza critica rispetto agli attuali MLLMs. La valutazione dinamica su benchmark di automazione delle GUI evidenzia ulteriormente l'efficacia e la superiorità del nostro modello, come dimostrato dai miglioramenti nei tassi di successo e nell'efficienza operativa.
Proponiamo Squeeze3D, un framework innovativo che sfrutta la conoscenza implicita appresa da modelli generativi 3D pre-addestrati esistenti per comprimere dati 3D con rapporti di compressione estremamente elevati. Il nostro approccio collega gli spazi latenti tra un encoder pre-addestrato e un modello generativo pre-addestrato attraverso reti di mappatura addestrabili. Qualsiasi modello 3D rappresentato come mesh, nuvola di punti o campo di radianza viene prima codificato dall'encoder pre-addestrato e poi trasformato (cioè compresso) in un codice latente altamente compatto. Questo codice latente può essere efficacemente utilizzato come rappresentazione estremamente compressa della mesh o della nuvola di punti. Una rete di mappatura trasforma il codice latente compresso nello spazio latente di un potente modello generativo, che viene poi condizionato per ricreare il modello 3D originale (cioè decompressione). Squeeze3D viene addestrato interamente su dati sintetici generati e non richiede alcun dataset 3D. L'architettura di Squeeze3D può essere utilizzata in modo flessibile con encoder 3D pre-addestrati esistenti e modelli generativi esistenti. Può supportare in modo flessibile diversi formati, tra cui mesh, nuvole di punti e campi di radianza. I nostri esperimenti dimostrano che Squeeze3D raggiunge rapporti di compressione fino a 2187x per mesh con texture, 55x per nuvole di punti e 619x per campi di radianza, mantenendo una qualità visiva paragonabile a molti metodi esistenti. Squeeze3D comporta solo una piccola latenza di compressione e decompressione poiché non prevede l'addestramento di reti specifiche per oggetti per comprimere un oggetto.
I Large Language Model (LLM) hanno dimostrato prestazioni notevoli nel campo del Question Answering a Dominio Aperto (ODQA) sfruttando documenti esterni attraverso il Retrieval-Augmented Generation (RAG). Per ridurre l'overhead di RAG, derivante da contesti più lunghi, è necessaria la compressione del contesto. Tuttavia, i metodi di compressione precedenti non si concentrano sull'eliminazione delle informazioni non probanti, il che limita le prestazioni di RAG basato su LLM. Proponiamo quindi il framework Evidentiality-guided RAG, o ECoRAG. ECoRAG migliora le prestazioni degli LLM comprimendo i documenti recuperati in base all'evidenzialità, assicurandosi che la generazione della risposta sia supportata dalle prove corrette. Come ulteriore passo, ECoRAG valuta se il contenuto compresso fornisca prove sufficienti e, in caso contrario, recupera ulteriori informazioni fino a raggiungere un livello adeguato. Gli esperimenti dimostrano che ECoRAG migliora le prestazioni degli LLM nei task ODQA, superando i metodi di compressione esistenti. Inoltre, ECoRAG è altamente efficiente in termini di costi, poiché non solo riduce la latenza ma minimizza anche l'uso di token mantenendo solo le informazioni necessarie per generare la risposta corretta. Il codice è disponibile all'indirizzo https://github.com/ldilab/ECoRAG.
La Generazione Aumentata dal Recupero (Retrieval Augmented Generation, RAG) è un approccio comunemente utilizzato per arricchire i grandi modelli linguistici (LLM) con informazioni rilevanti e aggiornate. Tuttavia, le fonti recuperate possono spesso contenere informazioni contrastanti, e non è chiaro come i modelli dovrebbero affrontare tali discrepanze. In questo lavoro, proponiamo innanzitutto una nuova tassonomia dei tipi di conflitto di conoscenza nel RAG, insieme al comportamento desiderato del modello per ciascun tipo. Introduciamo poi CONFLICTS, un benchmark di alta qualità con annotazioni esperte dei tipi di conflitto in un contesto RAG realistico. CONFLICTS è il primo benchmark che consente di monitorare i progressi su come i modelli affrontano un'ampia gamma di conflitti di conoscenza. Condurremo esperimenti approfonditi su questo benchmark, dimostrando che gli LLM spesso faticano a risolvere in modo appropriato i conflitti tra le fonti. Sebbene il prompting degli LLM per ragionare esplicitamente sul potenziale conflitto nei documenti recuperati migliori significativamente la qualità e l'appropriatezza delle loro risposte, rimane un ampio margine di miglioramento per la ricerca futura.
Il rapido progresso delle tecnologie di generazione di immagini intensifica la richiesta di metodi di rilevamento interpretabili e robusti. Sebbene gli approcci esistenti raggiungano spesso un'elevata accuratezza, operano tipicamente come scatole nere senza fornire giustificazioni comprensibili per gli esseri umani. I Modelli Linguistici Multimodali di Grande Scala (MLLMs), pur non essendo originariamente progettati per il rilevamento di falsificazioni, dimostrano forti capacità analitiche e di ragionamento. Quando adeguatamente ottimizzati, possono identificare efficacemente le immagini generate dall'IA e offrire spiegazioni significative. Tuttavia, gli MLLMs esistenti continuano a lottare con il fenomeno dell'allucinazione e spesso non riescono ad allineare le loro interpretazioni visive con il contenuto effettivo dell'immagine e il ragionamento umano. Per colmare questa lacuna, abbiamo costruito un dataset di immagini generate dall'IA annotate con riquadri di delimitazione e didascalie descrittive che evidenziano gli artefatti di sintesi, stabilendo una base per un ragionamento visivo-testuale allineato all'umano. Successivamente, abbiamo ottimizzato gli MLLMs attraverso una strategia di ottimizzazione a più fasi che bilancia progressivamente gli obiettivi di rilevamento accurato, localizzazione visiva e spiegazione testuale coerente. Il modello risultante raggiunge prestazioni superiori sia nel rilevamento delle immagini generate dall'IA che nella localizzazione dei difetti visivi, superando significativamente i metodi di base.
I grandi modelli linguistici (LLM) utilizzano dati per apprendere informazioni sul mondo al fine di produrre correlazioni e previsioni significative. Pertanto, la natura, la scala, la qualità e la diversità dei dataset utilizzati per addestrare questi modelli, o per supportare il loro lavoro durante l'inferenza, hanno un impatto diretto sulla loro qualità. Il rapido sviluppo e l'adozione di LLM di qualità variabile hanno messo in evidenza la scarsità di dati di addestramento di alta qualità disponibili pubblicamente e rivelato un urgente bisogno di fondare la gestione di questi dataset su pratiche sostenibili con catene di provenienza chiare. A tal fine, questo rapporto tecnico introduce Institutional Books 1.0, una vasta collezione di libri di pubblico dominio originariamente digitalizzati attraverso la partecipazione della Harvard Library al progetto Google Books, iniziato nel 2006. Collaborando con la Harvard Library, abbiamo estratto, analizzato e processato questi volumi in un dataset ampiamente documentato di testi storici. Questa analisi copre l'intera collezione della Harvard Library scansionata come parte di quel progetto, originariamente composta da 1.075.899 volumi scritti in oltre 250 lingue diverse, per un totale di circa 250 miliardi di token. Come parte di questa prima release, il testo estratto tramite OCR (originale e post-processato) nonché i metadati (bibliografici, di origine e generati) dei 983.004 volumi, o 242 miliardi di token, identificati come di pubblico dominio, sono stati resi disponibili. Questo rapporto descrive gli obiettivi e i metodi del progetto, nonché i risultati delle analisi svolte, tutto al fine di rendere questa collezione storica più accessibile e più facile da filtrare, leggere e utilizzare sia per gli esseri umani che per le macchine.
L'attuale paradigma di scalabilità al momento del test si basa sulla generazione di tracce di ragionamento lunghe ("pensare" di più) prima di produrre una risposta. Nei problemi degli agenti che richiedono interazione, ciò può essere fatto generando tracce di pensiero prima di agire nel mondo. Tuttavia, questo processo non consente agli agenti di acquisire nuove informazioni dall'ambiente o di adattare il loro comportamento nel tempo. In questo lavoro, proponiamo di scalare l'interazione al momento del test, una dimensione inesplorata della scalabilità al momento del test che aumenta l'orizzonte di interazione dell'agente per consentire l'esecuzione di comportamenti complessi come l'esplorazione, il backtracking e la ri-pianificazione dinamica all'interno di un singolo rollout. Per dimostrare il potenziale di questa dimensione di scalabilità, studiamo il dominio degli agenti web. In primo luogo, mostriamo che anche la scalabilità dell'interazione basata su prompt, senza alcun addestramento, può migliorare in modo non banale il successo delle attività sui benchmark web. Sulla base di ciò, introduciamo TTI (Test-Time Interaction), un approccio di apprendimento per rinforzo online (RL) basato su curriculum che addestra gli agenti regolando in modo adattivo la lunghezza dei loro rollout. Utilizzando un modello Gemma 3 12B, TTI produce agenti web open-source e open-data all'avanguardia sui benchmark WebVoyager e WebArena. Inoltre, mostriamo che TTI consente agli agenti di bilanciare in modo adattivo esplorazione e sfruttamento. I nostri risultati stabiliscono la scalabilità dell'interazione come un potente asse complementare alla scalabilità del calcolo per passo, offrendo nuove strade per l'addestramento di agenti adattivi.
L'adattamento efficiente in termini di parametri del modello di pre-addestramento immagine-testo CLIP per il recupero video-testo rappresenta un'area di ricerca di rilievo. Mentre CLIP si concentra sull'abbinamento visione-linguaggio a livello di immagine, il recupero video-testo richiede una comprensione completa a livello di video. Emergono tre discrepanze chiave nel passaggio dal livello immagine al livello video: visione, linguaggio e allineamento. Tuttavia, i metodi esistenti si concentrano principalmente sulla visione, trascurando linguaggio e allineamento. In questo articolo, proponiamo Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), che mitiga simultaneamente tutte e tre le discrepanze. Nello specifico, introduciamo la fusione di caratteristiche immagine-video per integrare le caratteristiche a livello di immagine e di video, affrontando efficacemente sia le discrepanze di visione che di linguaggio. Inoltre, generiamo didascalie pseudo-immagine per apprendere un allineamento fine a livello di immagine. Per mitigare le discrepanze di allineamento, proponiamo Image-to-Video Alignment Distillation, che sfrutta la conoscenza dell'allineamento a livello di immagine per migliorare l'allineamento a livello di video. Esperimenti estesi dimostrano la superiorità del nostro DiscoVLA. In particolare, su MSRVTT con CLIP (ViT-B/16), DiscoVLA supera i metodi precedenti dell'1,5% in R@1, raggiungendo un punteggio finale del 50,5% R@1. Il codice è disponibile all'indirizzo https://github.com/LunarShen/DsicoVLA.
I recenti progressi nei modelli linguistici di grandi dimensioni mostrano un forte potenziale per il ragionamento formale. Tuttavia, la maggior parte dei dimostratori di teoremi basati su LLM è stata a lungo limitata dalla necessità di utilizzare dichiarazioni formali scritte da esperti come input, riducendo così la loro applicabilità a problemi del mondo reale espressi in linguaggio naturale. Affrontiamo questa lacuna con Mathesis, la prima pipeline end-to-end per la dimostrazione di teoremi che elabora dichiarazioni informali di problemi. Mathesis introduce Mathesis-Autoformalizer, il primo autoformalizzatore che utilizza l'apprendimento per rinforzo per migliorare la capacità di formalizzazione di problemi in linguaggio naturale, supportato dal nostro nuovo framework LeanScorer per una valutazione sfumata della qualità della formalizzazione. Propone inoltre Mathesis-Prover, che genera dimostrazioni formali a partire dalle dichiarazioni formalizzate. Per valutare l'applicabilità nel mondo reale della dimostrazione formale end-to-end, introduciamo Gaokao-Formal, un benchmark di 488 problemi complessi tratti dall'esame di ammissione nazionale cinese per l'università. Il nostro approccio è progettato con cura, con uno studio approfondito di ciascun componente. Gli esperimenti dimostrano l'efficacia di Mathesis, con l'autoformalizzatore che supera il miglior baseline del 22% nel tasso di successo su Gaokao-Formal. Il sistema completo supera altre combinazioni di modelli, raggiungendo una precisione del 64% su MiniF2F con pass@32 e un risultato all'avanguardia del 18% su Gaokao-Formal.
Studi recenti integrano l'Adattamento a Basso Rango (LoRA) e il Modello a Miscela di Esperti (MoE) per migliorare ulteriormente le prestazioni dei metodi di fine-tuning efficiente in termini di parametri (PEFT) nelle applicazioni dei Modelli Linguistici di Grande Dimensione (LLM). I metodi esistenti impiegano architetture MoE-LoRA omogenee composte da esperti LoRA con strutture e capacità simili o identiche. Tuttavia, questi approcci spesso soffrono di collasso della rappresentazione e di squilibrio nel carico degli esperti, che influiscono negativamente sul potenziale degli LLM. Per affrontare queste sfide, proponiamo un approccio eterogeneo chiamato Miscela di Adattatori (MoA). Questo metodo integra dinamicamente esperti adattatori PEFT con strutture diverse, sfruttando le loro capacità rappresentative complementari per favorire la specializzazione degli esperti, migliorando così il trasferimento efficace delle conoscenze pre-addestrate ai task downstream. MoA supporta due varianti: (i) Soft MoA ottiene un'integrazione fine eseguendo una fusione ponderata di tutti gli output degli esperti; (ii) Sparse MoA attiva in modo sparso gli esperti adattatori in base al loro contributo, raggiungendo questo obiettivo con un degrado delle prestazioni trascurabile. I risultati sperimentali dimostrano che MoA eterogeneo supera i metodi MoE-LoRA omogenei sia in termini di prestazioni che di efficienza dei parametri. Il nostro progetto è disponibile all'indirizzo https://github.com/DCDmllm/MoA.
I recenti progressi nei modelli linguistici su larga scala (LLM) offrono grandi opportunità per le applicazioni finanziarie, ma introducono sfide critiche in termini di accuratezza e conformità nel contesto del Digital Regulatory Reporting (DRR). Per affrontare questi problemi, proponiamo RKEFino1, un modello di ragionamento finanziario potenziato con conoscenze normative, basato su Fino1 e affinato con conoscenze di dominio provenienti da XBRL, CDM e MOF. Formuliamo due task di domanda-risposta—uno basato sulla conoscenza e uno sul ragionamento matematico—e introduciamo un nuovo task di Named Entity Recognition (NER) numerico che copre entità finanziarie sia in frasi che in tabelle. I risultati sperimentali dimostrano l'efficacia e la capacità di generalizzazione di RKEFino1 in task finanziari critici per la conformità. Abbiamo reso disponibile il nostro modello su Hugging Face.
Questo articolo presenta MMRefine, un benchmark di Affinamento Multimodale progettato per valutare le capacità di correzione degli errori dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs). Con l'attenzione che si sposta verso il miglioramento del ragionamento durante l'inferenza, MMRefine fornisce un framework che valuta le capacità degli MLLMs di rilevare e correggere errori in sei scenari distinti, andando oltre il semplice confronto dell'accuratezza finale prima e dopo l'affinamento. Inoltre, il benchmark analizza le prestazioni di affinamento categorizzando gli errori in sei tipologie. Esperimenti condotti con vari MLLMs open e closed rivelano colli di bottiglia e fattori che ostacolano le prestazioni di affinamento, evidenziando aree di miglioramento per un potenziamento efficace del ragionamento. Il nostro codice e il dataset sono disponibili pubblicamente all'indirizzo https://github.com/naver-ai/MMRefine.
Il sistema di Risposte alle Domande sui Prodotti basate su Recensioni (PQA) consente alle piattaforme di e-commerce di rispondere automaticamente alle domande dei clienti sfruttando le informazioni provenienti dalle recensioni degli utenti. Tuttavia, gli attuali sistemi PQA generano risposte con una sola prospettiva, non riuscendo a cogliere la diversità delle opinioni dei clienti. In questo articolo introduciamo un nuovo compito chiamato Sintesi Quantitativa Focalizzata sulla Query (QQSUM), che mira a riassumere le diverse opinioni dei clienti in Punti Chiave (KPs) rappresentativi e a quantificarne la prevalenza per rispondere efficacemente alle domande degli utenti. Sebbene la Generazione Aumentata dal Recupero (RAG) mostri promesse per il PQA, le risposte generate non riescono ancora a catturare appieno la diversità dei punti di vista. Per affrontare questa sfida, il nostro modello QQSUM-RAG, che estende RAG, utilizza l'apprendimento few-shot per addestrare congiuntamente un retriever orientato ai KPs e un generatore di sintesi di KPs, consentendo sintesi basate sui KPs che catturano opinioni diverse e rappresentative. I risultati sperimentali dimostrano che QQSUM-RAG raggiunge prestazioni superiori rispetto ai baseline RAG all'avanguardia sia nella qualità testuale che nell'accuratezza della quantificazione delle opinioni. Il nostro codice sorgente è disponibile all'indirizzo: https://github.com/antangrocket1312/QQSUMM.