Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre il compito dello scambio di volti ha recentemente attirato l'attenzione nella comunità di ricerca, un problema correlato, quello dello scambio di teste, rimane in gran parte inesplorato. Oltre al trasferimento del colore della pelle, lo scambio di teste presenta ulteriori sfide, come la necessità di preservare le informazioni strutturali dell'intera testa durante la sintesi e di ricostruire le lacune tra la testa scambiata e lo sfondo. In questo articolo, affrontiamo questi problemi con GHOST 2.0, che consiste in due moduli specifici per il problema. In primo luogo, introduciamo un modello Aligner potenziato per la rianimazione della testa, che preserva le informazioni sull'identità a più scale ed è robusto alle variazioni estreme della posa. In secondo luogo, utilizziamo un modulo Blender che integra perfettamente la testa rianimata nello sfondo target trasferendo il colore della pelle e ricostruendo le regioni non corrispondenti. Entrambi i moduli superano i benchmark nei rispettivi compiti, consentendo di ottenere risultati all'avanguardia nello scambio di teste. Affrontiamo anche casi complessi, come una grande differenza nello stile dei capelli tra la sorgente e il target. Il codice è disponibile all'indirizzo https://github.com/ai-forever/ghost-2.0.
Presentiamo Kanana, una serie di modelli linguistici bilingui che dimostrano prestazioni eccellenti in coreano e competitive in inglese. Il costo computazionale di Kanana è significativamente inferiore rispetto a quello dei modelli all'avanguardia di dimensioni simili. Il rapporto dettaglia le tecniche impiegate durante la pre-addestramento per ottenere modelli efficienti dal punto di vista computazionale ma comunque competitivi, tra cui il filtraggio di dati di alta qualità, il pre-addestramento a fasi, il ridimensionamento della profondità, e la potatura e distillazione. Inoltre, il rapporto delinea le metodologie utilizzate durante il post-addestramento dei modelli Kanana, comprendendo la messa a punto supervisionata e l'ottimizzazione delle preferenze, mirate a migliorare la loro capacità di interagire in modo fluido con gli utenti. Infine, il rapporto approfondisce gli approcci plausibili utilizzati per l'adattamento dei modelli linguistici a scenari specifici, come l'embedding, la generazione aumentata dal recupero e il richiamo di funzioni. La serie di modelli Kanana spazia da 2,1 miliardi a 32,5 miliardi di parametri, con i modelli da 2,1 miliardi (base, instruct, embedding) rilasciati pubblicamente per promuovere la ricerca sui modelli linguistici coreani.
La scoperta scientifica si basa sulla capacità degli scienziati di generare ipotesi innovative che vengono sottoposte a una rigorosa validazione sperimentale. Per potenziare questo processo, introduciamo un co-scienziato AI, un sistema multi-agente basato su Gemini 2.0. Il co-scienziato AI è progettato per aiutare a scoprire nuove conoscenze originali e a formulare ipotesi e proposte di ricerca dimostrabilmente innovative, basandosi su evidenze precedenti e allineandosi agli obiettivi e alle indicazioni fornite dagli scienziati. Il design del sistema incorpora un approccio di generazione, dibattito ed evoluzione delle ipotesi, ispirato al metodo scientifico e accelerato dalla scalabilità del calcolo durante i test. I contributi chiave includono: (1) un'architettura multi-agente con un framework di esecuzione asincrona dei compiti per una scalabilità flessibile del calcolo; (2) un processo di evoluzione a torneo per l'auto-miglioramento della generazione delle ipotesi. Le valutazioni automatizzate mostrano benefici continui del calcolo durante i test, migliorando la qualità delle ipotesi. Sebbene sia di natura generale, ci concentriamo sullo sviluppo e la validazione in tre aree biomediche: il riposizionamento dei farmaci, la scoperta di nuovi target e la spiegazione dei meccanismi dell'evoluzione batterica e della resistenza antimicrobica. Per il riposizionamento dei farmaci, il sistema propone candidati con risultati promettenti di validazione, inclusi candidati per la leucemia mieloide acuta che mostrano inibizione tumorale in vitro a concentrazioni clinicamente applicabili. Per la scoperta di nuovi target, il co-scienziato AI ha proposto nuovi target epigenetici per la fibrosi epatica, validati da attività antifibrotica e rigenerazione delle cellule epatiche in organoidi epatici umani. Infine, il co-scienziato AI ha ricapitolato risultati sperimentali non pubblicati attraverso una scoperta in silico parallela di un nuovo meccanismo di trasferimento genico nell'evoluzione batterica. Questi risultati, dettagliati in rapporti separati e co-temporizzati, dimostrano il potenziale di potenziare la scoperta biomedica e scientifica e di inaugurare un'era di scienziati potenziati dall'AI.
Comprendere teoremi specifici di un dominio spesso richiede più del semplice ragionamento basato sul testo; una comunicazione efficace attraverso spiegazioni visive strutturate è cruciale per una comprensione più profonda. Sebbene i grandi modelli linguistici (LLM) dimostrino prestazioni solide nel ragionamento sui teoremi basato sul testo, la loro capacità di generare spiegazioni visive coerenti e pedagogicamente significative rimane una sfida aperta. In questo lavoro, introduciamo TheoremExplainAgent, un approccio agentivo per generare video di spiegazione di teoremi di lunga durata (oltre 5 minuti) utilizzando animazioni Manim. Per valutare sistematicamente le spiegazioni multimodali dei teoremi, proponiamo TheoremExplainBench, un benchmark che copre 240 teoremi in diverse discipline STEM, insieme a 5 metriche di valutazione automatizzate. I nostri risultati rivelano che la pianificazione agentiva è essenziale per generare video dettagliati di lunga durata, e l'agente o3-mini raggiunge un tasso di successo del 93,8% e un punteggio complessivo di 0,77. Tuttavia, i nostri studi quantitativi e qualitativi mostrano che la maggior parte dei video prodotti presenta problemi minori nel layout degli elementi visivi. Inoltre, le spiegazioni multimodali rivelano difetti di ragionamento più profondi che le spiegazioni basate sul testo non riescono a evidenziare, sottolineando l'importanza delle spiegazioni multimodali.
Nonostante il ruolo cruciale della Grecia nell'economia globale, i grandi modelli linguistici (LLM) rimangono poco esplorati nel contesto finanziario greco a causa della complessità linguistica del greco e della scarsità di dataset specifici per il dominio. I precedenti sforzi nell'elaborazione del linguaggio naturale (NLP) finanziario multilingue hanno evidenziato notevoli disparità di prestazioni, ma finora non sono stati sviluppati benchmark finanziari dedicati al greco né LLM finanziari specifici per il greco. Per colmare questa lacuna, introduciamo Plutus-ben, il primo Benchmark di Valutazione Finanziaria in Greco, e Plutus-8B, il primo LLM Finanziario Greco, addestrato con dati specifici del dominio greco. Plutus-ben affronta cinque compiti fondamentali del NLP finanziario in greco: riconoscimento di entità nominate numeriche e testuali, risposta a domande, riassunto astrattivo e classificazione di argomenti, facilitando così valutazioni sistematiche e riproducibili degli LLM. Per supportare questi compiti, presentiamo tre nuovi dataset finanziari greci di alta qualità, annotati accuratamente da esperti madrelingua greci, integrati da due risorse esistenti. La nostra valutazione completa di 22 LLM su Plutus-ben rivela che il NLP finanziario greco rimane impegnativo a causa della complessità linguistica, della terminologia specifica del dominio e delle lacune nel ragionamento finanziario. Questi risultati sottolineano i limiti del trasferimento cross-linguistico, la necessità di competenze finanziarie nei modelli addestrati in greco e le sfide nell'adattare gli LLM finanziari ai testi greci. Rilasciamo pubblicamente Plutus-ben, Plutus-8B e tutti i dataset associati per promuovere la ricerca riproducibile e far progredire il NLP finanziario greco, favorendo una più ampia inclusività multilingue nel settore finanziario.
Si prevede che i modelli linguistici multilingue (LM) siano in grado di richiamare conoscenze fattuali in modo coerente tra le diverse lingue, tuttavia spesso non riescono a trasferire le conoscenze tra le lingue anche quando possiedono le informazioni corrette in una delle lingue. Ad esempio, abbiamo riscontrato che un LM potrebbe identificare correttamente Rashed Al Shashai come originario dell'Arabia Saudita quando interrogato in arabo, ma fallisce sistematicamente nel farlo quando interrogato in inglese o swahili. Per indagare sistematicamente questa limitazione, introduciamo un benchmark di 10.000 fatti relativi ai paesi in 13 lingue e proponiamo tre nuove metriche: il Punteggio di Richiamo Fattuale, il Punteggio di Trasferibilità della Conoscenza e il Punteggio di Trasferibilità della Conoscenza Fattuale Cross-Linguale, per quantificare il richiamo fattuale e la trasferibilità della conoscenza nei LM tra diverse lingue. I nostri risultati rivelano debolezze fondamentali negli LM all'avanguardia di oggi, in particolare nella generalizzazione cross-linguale, dove i modelli non riescono a trasferire efficacemente le conoscenze tra le diverse lingue, portando a prestazioni incoerenti e sensibili alla lingua utilizzata. Le nostre scoperte sottolineano la necessità che i LM riconoscano l'affidabilità fattuale specifica della lingua e sfruttino le informazioni più affidabili tra le lingue. Rilasciamo il nostro benchmark e il framework di valutazione per promuovere future ricerche sul trasferimento di conoscenze multilingue.
Recentemente, i modelli di tipo o1 hanno attirato una significativa attenzione, in quanto questi modelli producono lunghe catene di ragionamento (Chain-of-Thought, CoT) per migliorare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (Large Language Models, LLMs) esistenti. In questo articolo, per comprendere le qualità di queste lunghe CoT e misurare le capacità di critica degli LLM esistenti su queste lunghe CoT, introduciamo il DeltaBench, che include le lunghe CoT generate da diversi modelli di tipo o1 (ad esempio, QwQ, DeepSeek-R1) per diverse attività di ragionamento (ad esempio, Matematica, Codice, Ragionamento Generale), con l'obiettivo di misurare la capacità di rilevare errori nel ragionamento CoT lungo. Basandoci su DeltaBench, eseguiamo prima un'analisi granulare delle lunghe CoT generate per scoprire l'efficacia e l'efficienza dei diversi modelli di tipo o1. Successivamente, conduciamo valutazioni estensive dei modelli di ricompensa del processo (Process Reward Models, PRMs) e dei modelli critici esistenti per rilevare gli errori di ciascun processo annotato, con l'obiettivo di indagare i limiti e le restrizioni degli attuali PRM e modelli critici. Infine, speriamo che DeltaBench possa guidare gli sviluppatori a comprendere meglio le capacità di ragionamento CoT lungo dei loro modelli.
Introduciamo Rank1, il primo modello di reranking addestrato per sfruttare il calcolo al momento del test. Rank1 dimostra l'applicabilità nel campo del retrieval di utilizzare un modello linguistico di ragionamento (ad esempio OpenAI's o1, Deepseek's R1, ecc.) per la distillazione al fine di migliorare rapidamente le prestazioni di un modello più piccolo. Abbiamo raccolto e reso open-source un dataset di oltre 600.000 esempi di tracce di ragionamento R1 da query e passaggi in MS MARCO. I modelli addestrati su questo dataset mostrano: (1) prestazioni all'avanguardia su dataset avanzati di ragionamento e seguimento di istruzioni; (2) funzionano notevolmente bene fuori distribuzione grazie alla capacità di rispondere ai prompt di input dell'utente; e (3) hanno catene di ragionamento spiegabili che possono essere fornite agli utenti o a sistemi basati su RAG. Inoltre, dimostriamo che le versioni quantizzate di questi modelli mantengono prestazioni solide utilizzando meno risorse di calcolo/memoria. Nel complesso, Rank1 mostra che il calcolo al momento del test consente un nuovo tipo fondamentale di modello di reranking spiegabile e performante per la ricerca.
I modelli di ricompensa (Reward Models, RMs) sono cruciali per l'addestramento e il ridimensionamento al momento dell'inferenza dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, i modelli di ricompensa esistenti si concentrano principalmente sulle preferenze umane, trascurando i segnali di correttezza verificabile che hanno dimostrato un forte potenziale nell'addestramento dei LLMs. In questo articolo, proponiamo la modellazione di ricompensa agentica, un sistema di ricompensa che combina i modelli di ricompensa con segnali di correttezza verificabile provenienti da diversi aspetti per fornire ricompense affidabili. Implementiamo empiricamente un agente di ricompensa, denominato RewardAgent, che combina le ricompense basate sulle preferenze umane con due segnali verificabili: la fattualità e il rispetto delle istruzioni, per fornire ricompense più affidabili. Eseguiamo esperimenti completi sui benchmark esistenti dei modelli di ricompensa e sulle ricerche best-of-n al momento dell'inferenza su task downstream del mondo reale. RewardAgent supera significativamente i modelli di ricompensa standard, dimostrando la sua efficacia. Costruiamo ulteriormente coppie di preferenze di addestramento utilizzando RewardAgent e addestriamo un LLM con l'obiettivo DPO, ottenendo prestazioni superiori su vari benchmark NLP rispetto ai modelli di ricompensa convenzionali. I nostri codici sono pubblicamente disponibili per facilitare ulteriori ricerche (https://github.com/THU-KEG/Agentic-Reward-Modeling).
C'è un crescente entusiasmo riguardo al potenziale dei Modelli Linguistici (LMs) di accelerare la scoperta scientifica. La falsificazione delle ipotesi è fondamentale per il progresso scientifico, poiché consente di affinare iterativamente le affermazioni nel tempo. Questo processo richiede un notevole sforzo, ragionamento e ingegnosità da parte dei ricercatori. Tuttavia, gli attuali benchmark per i LMs valutano principalmente la loro capacità di generare soluzioni piuttosto che di metterle in discussione. Sosteniamo lo sviluppo di benchmark che valutino questa capacità inversa: creare controesempi per soluzioni sottilmente errate. Per dimostrare questo approccio, partiamo dal dominio della risoluzione algoritmica dei problemi, dove i controesempi possono essere valutati automaticamente tramite l'esecuzione di codice. Nello specifico, introduciamo REFUTE, un benchmark in costante aggiornamento che include problemi recenti e soluzioni errate provenienti da competizioni di programmazione, in cui esperti umani hanno identificato con successo controesempi. La nostra analisi rileva che i migliori agenti di ragionamento, persino OpenAI o3-mini (high) con feedback sull'esecuzione del codice, riescono a creare controesempi solo per <9% delle soluzioni errate in REFUTE, nonostante le valutazioni indichino la sua capacità di risolvere fino al 48% di questi problemi da zero. Speriamo che il nostro lavoro stimoli progressi nella valutazione e nel potenziamento della capacità dei LMs di falsificare soluzioni errate, una competenza cruciale sia per accelerare la ricerca sia per permettere ai modelli di migliorarsi autonomamente attraverso un ragionamento riflessivo affidabile.
Paywall, licenze e norme sul copyright spesso limitano la diffusione e il riutilizzo su larga scala della conoscenza scientifica. Sosteniamo che sia legalmente che tecnicamente fattibile estrarre la conoscenza scientifica dai testi accademici. I metodi attuali, come gli embedding di testo, non preservano in modo affidabile il contenuto fattuale, e una semplice parafrasi potrebbe non essere legalmente valida. Esortiamo la comunità ad adottare una nuova idea: convertire i documenti accademici in Unità di Conoscenza utilizzando LLM. Queste unità utilizzano dati strutturati che catturano entità, attributi e relazioni senza contenuti stilistici. Forniamo prove che le Unità di Conoscenza: (1) costituiscono un quadro legalmente difendibile per condividere la conoscenza da testi di ricerca protetti da copyright, basato su analisi legali della legge tedesca sul copyright e della dottrina del Fair Use statunitense, e (2) preservano la maggior parte (~95%) della conoscenza fattuale del testo originale, misurata dalle prestazioni su domande a scelta multipla relative ai fatti del testo originale protetto da copyright in quattro ambiti di ricerca. Liberare la conoscenza scientifica dal copyright promette benefici trasformativi per la ricerca e l'istruzione scientifica, consentendo ai modelli linguistici di riutilizzare fatti importanti da testi protetti da copyright. Per supportare ciò, condividiamo strumenti open-source per convertire documenti di ricerca in Unità di Conoscenza. Nel complesso, il nostro lavoro sostiene la fattibilità di democratizzare l'accesso alla conoscenza scientifica rispettando il copyright.
L'addestramento di modelli visione-linguaggio (VLMs) per agenti di interfacce grafiche utente (GUI) tramite apprendimento per rinforzo (RL) presenta sfide critiche: l'RL basato sull'ambiente richiede interazioni costose, mentre i metodi senza ambiente faticano a gestire lo spostamento della distribuzione e la generalizzazione della ricompensa. Proponiamo un framework RL senza ambiente che disaccoppia la stima del valore dall'ottimizzazione della politica sfruttando un modello di ambiente valore (VEM) preaddestrato. Il VEM prevede i valori stato-azione direttamente da dati offline, distillando prior simili a quelli umani riguardo ai risultati dell'interazione con la GUI senza richiedere la previsione dello stato successivo o il feedback ambientale. Ciò evita l'accumulo di errori e migliora la resilienza ai cambiamenti dell'interfaccia utente concentrandosi sul ragionamento semantico (ad esempio, "Questa azione avanza l'obiettivo dell'utente?"). Il framework opera in due fasi: (1) preaddestramento del VEM per stimare le utilità a lungo termine delle azioni e (2) guida dell'esplorazione della politica con segnali VEM congelati, consentendo l'automazione della GUI indipendente dal layout. Valutato su benchmark Android-in-the-Wild, il VEM raggiunge prestazioni all'avanguardia sia in contesti offline che online, superando significativamente i metodi di riferimento senza ambiente e eguagliando gli approcci basati sull'ambiente senza costi di interazione. È importante sottolineare che il VEM dimostra che la stima del valore consapevole della semantica può raggiungere prestazioni comparabili con i metodi addestrati online.
La stima della profondità monoculare (MDE, Monocular Depth Estimation) mira a prevedere la profondità di una scena a partire da una singola immagine RGB e svolge un ruolo cruciale nella comprensione delle scene 3D. I recenti progressi nella MDE zero-shot sfruttano rappresentazioni di profondità normalizzate e apprendimento basato su distillazione per migliorare la generalizzazione su scene diverse. Tuttavia, gli attuali metodi di normalizzazione della profondità per la distillazione, che si basano sulla normalizzazione globale, possono amplificare etichette pseudo-rumorose, riducendo l'efficacia della distillazione. In questo articolo, analizziamo sistematicamente l'impatto di diverse strategie di normalizzazione della profondità sulla distillazione delle etichette pseudo. Sulla base dei nostri risultati, proponiamo la Cross-Context Distillation, che integra indizi di profondità globali e locali per migliorare la qualità delle etichette pseudo. Inoltre, introduciamo un framework di distillazione multi-insegnante che sfrutta i punti di forza complementari di diversi modelli di stima della profondità, portando a previsioni di profondità più robuste e accurate. Esperimenti estesi su dataset di riferimento dimostrano che il nostro approccio supera significativamente i metodi all'avanguardia, sia quantitativamente che qualitativamente.
Our method reduces the need for human annotation and expert experience while achieving high-quality data selection.Il modello linguistico dipende fortemente da dati di alta qualità per ottenere prestazioni ottimali. Gli approcci esistenti si basano su euristiche progettate manualmente, sulla perplessità dei modelli esistenti, sull'addestramento di classificatori o su un'attenta progettazione di prompt, che richiedono una significativa esperienza specialistica e uno sforzo di annotazione umana, introducendo allo stesso tempo bias. Introduciamo CritiQ, un nuovo metodo di selezione dei dati che estrae automaticamente criteri dalle preferenze umane per la qualità dei dati utilizzando solo 30 coppie annotate manualmente e svolge una selezione efficiente dei dati. Il componente principale, CritiQ Flow, impiega un agente manager per evolvere i criteri di qualità e agenti worker per effettuare giudizi a coppie. Costruiamo una base di conoscenza che estrae criteri di qualità da lavori precedenti per potenziare CritiQ Flow. Rispetto ai metodi basati sulla perplessità e sui classificatori, i criteri verbali sono più interpretabili e possiedono un valore riutilizzabile. Dopo aver derivato i criteri, addestriamo il CritiQ Scorer per assegnare punteggi di qualità e svolgere una selezione efficiente dei dati. Dimostriamo l'efficacia del nostro metodo nei domini del codice, della matematica e della logica, raggiungendo un'elevata accuratezza su set di test annotati manualmente. Per validare la qualità dei dati selezionati, continuiamo ad addestrare modelli Llama 3.1 e osserviamo miglioramenti nelle prestazioni su task downstream rispetto al campionamento uniforme. Studi di ablazione convalidano i benefici della base di conoscenza e del processo di riflessione. Analizziamo come evolvono i criteri e l'efficacia del voto a maggioranza. Il nostro metodo riduce la necessità di annotazione umana e di esperienza specialistica, ottenendo comunque una selezione di dati di alta qualità.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni quotidiane, richiedendo capacità di ragionamento generale robuste e un insieme diversificato di competenze di ragionamento. Tuttavia, gli attuali benchmark di ragionamento per LLM si concentrano principalmente sulle abilità matematiche e di programmazione, lasciando un vuoto nella valutazione di competenze di ragionamento più ampie. Un'eccezione particolare è il dataset BIG-Bench, che ha rappresentato un punto di riferimento cruciale per valutare le capacità di ragionamento generale degli LLM, grazie al suo insieme diversificato di compiti impegnativi che hanno permesso una valutazione completa del ragionamento generale attraverso varie abilità all'interno di un quadro unificato. Tuttavia, i recenti progressi negli LLM hanno portato a una saturazione su BIG-Bench e sulla sua versione più difficile, BIG-Bench Hard (BBH). I modelli all'avanguardia raggiungono punteggi quasi perfetti in molti compiti di BBH, riducendone così l'utilità. Per affrontare questa limitazione, introduciamo BIG-Bench Extra Hard (BBEH), un nuovo benchmark progettato per spingere i limiti della valutazione del ragionamento degli LLM. BBEH sostituisce ogni compito di BBH con un nuovo compito che esplora una capacità di ragionamento simile ma presenta una difficoltà significativamente maggiore. Valutiamo vari modelli su BBEH e osserviamo una precisione media (armonica) del 9,8% per il miglior modello generico e del 44,8% per il miglior modello specializzato nel ragionamento, indicando un ampio margine di miglioramento e sottolineando la sfida continua di raggiungere un ragionamento generale robusto negli LLM. Rilasciamo pubblicamente BBEH all'indirizzo: https://github.com/google-deepmind/bbeh.
La personalizzazione efficace dei LLM è fondamentale per un'ampia gamma di applicazioni di interfaccia utente, come assistenti virtuali e curatela di contenuti. Ispirati dalle forti capacità di apprendimento in contesto dei LLM, proponiamo l'Optimizzazione delle Preferenze con Pochi Esempi (FSPO), che riformula la modellazione delle ricompense come un problema di meta-apprendimento. In questo framework, un LLM impara ad adattarsi rapidamente a un utente attraverso pochi esempi di preferenze etichettate provenienti da quell'utente, costruendo una funzione di ricompensa personalizzata per lui. Inoltre, poiché i dati sulle preferenze nel mondo reale sono scarsi e difficili da raccogliere su larga scala, proponiamo scelte progettuali attente per costruire dataset sintetici di preferenze per la personalizzazione, generando oltre 1 milione di preferenze personalizzate sintetiche utilizzando LLM disponibili pubblicamente. In particolare, per trasferire con successo i dati sintetici agli utenti reali, riteniamo cruciale che i dati presentino sia un'elevata diversità che una struttura coerente e auto-consistente. Valutiamo FSPO sulla generazione aperta personalizzata per fino a 1.500 utenti sintetici in tre domini: recensioni di film, adattamento pedagogico basato sul background educativo e risposte a domande generali, insieme a uno studio controllato con esseri umani. Nel complesso, FSPO raggiunge un tasso di vittoria medio dell'87% su Alpaca Eval nella generazione di risposte personalizzate per utenti sintetici e un tasso di vittoria del 72% con utenti umani reali nella risposta a domande aperte.
L'architettura Mixture of Experts (MoE) riduce significativamente i costi di addestramento e inferenza rispetto a un modello denso di capacità equivalente. L'upcycling è un approccio che inizializza e addestra un modello MoE utilizzando un modello denso pre-addestrato. Sebbene l'upcycling porti a guadagni iniziali di prestazioni, l'addestramento progredisce più lentamente rispetto a un addestramento da zero, portando a prestazioni subottimali a lungo termine. Proponiamo il Drop-Upcycling, un metodo che affronta efficacemente questo problema. Il Drop-Upcycling combina due approcci apparentemente contraddittori: sfruttare la conoscenza dei modelli densi pre-addestrati mentre reinizializza statisticamente alcune parti dei pesi. Questo approccio promuove strategicamente la specializzazione degli esperti, migliorando significativamente l'efficienza del modello MoE nell'acquisizione di conoscenza. Esperimenti su larga scala dimostrano che il Drop-Upcycling supera significativamente i precedenti metodi di costruzione di MoE a lungo termine, in particolare quando si addestra su centinaia di miliardi di token o più. Di conseguenza, il nostro modello MoE con 5,9 miliardi di parametri attivi raggiunge prestazioni comparabili a un modello denso da 13 miliardi nella stessa famiglia di modelli, richiedendo circa 1/4 dei FLOP di addestramento. Tutte le risorse sperimentali, inclusi codice sorgente, dati di addestramento, checkpoint del modello e log, sono pubblicamente disponibili per promuovere la riproducibilità e future ricerche su MoE.
La comunicazione efficace nel Controllo del Traffico Aereo (ATC) è fondamentale per garantire la sicurezza dell'aviazione, tuttavia le sfide poste dall'inglese con accento rimangono in gran parte non affrontate nei sistemi di Riconoscimento Vocale Automatico (ASR). I modelli esistenti faticano con l'accuratezza della trascrizione per il parlato con accento del Sud-Est asiatico (accento SEA), in particolare in ambienti rumorosi dell'ATC. Questo studio presenta lo sviluppo di modelli ASR ottimizzati specificamente per gli accenti del Sud-Est asiatico utilizzando un dataset appena creato. La nostra ricerca ha ottenuto miglioramenti significativi, raggiungendo un Tasso di Errore delle Parole (WER) dello 0,0982 o 9,82% nel parlato con accento SEA nell'ATC. Inoltre, il documento sottolinea l'importanza di dataset specifici della regione e di un addestramento focalizzato sull'accento, offrendo una via per implementare i sistemi ASR in operazioni militari con risorse limitate. I risultati enfatizzano la necessità di tecniche di addestramento robuste al rumore e di dataset specifici della regione per migliorare l'accuratezza della trascrizione per gli accenti non occidentali nelle comunicazioni dell'ATC.
Man mano che i modelli di IA vengono sempre più implementati in scenari reali e diversificati, garantire la loro sicurezza rimane una sfida cruciale ma ancora poco esplorata. Nonostante siano stati compiuti notevoli sforzi per valutare e migliorare la sicurezza dell'IA, la mancanza di un framework standardizzato e di un toolkit completo rappresenta un ostacolo significativo per la ricerca sistematica e l'adozione pratica. Per colmare questa lacuna, presentiamo AISafetyLab, un framework e toolkit unificato che integra metodologie rappresentative di attacco, difesa e valutazione per la sicurezza dell'IA. AISafetyLab offre un'interfaccia intuitiva che consente agli sviluppatori di applicare agevolmente varie tecniche, mantenendo al contempo una codebase ben strutturata ed estensibile per futuri progressi. Inoltre, conduciamo studi empirici su Vicuna, analizzando diverse strategie di attacco e difesa per fornire preziose informazioni sulla loro efficacia comparativa. Per facilitare la ricerca e lo sviluppo continui nel campo della sicurezza dell'IA, AISafetyLab è disponibile pubblicamente all'indirizzo https://github.com/thu-coai/AISafetyLab, e ci impegniamo a mantenerlo e migliorarlo costantemente.
Stabilire la relazione tra strutture 3D e gli stati energetici dei sistemi molecolari si è rivelato un approccio promettente per l'apprendimento di rappresentazioni molecolari 3D. Tuttavia, i metodi esistenti sono limitati alla modellazione degli stati energetici molecolari basata sulla meccanica classica. Questa limitazione comporta una significativa trascuratezza degli effetti della meccanica quantistica, come le strutture di livelli energetici quantizzati (discreti), che offrono una stima più accurata dell'energia molecolare e possono essere misurati sperimentalmente attraverso gli spettri energetici. In questo articolo, proponiamo di utilizzare gli spettri energetici per migliorare il pre-addestramento delle rappresentazioni molecolari 3D (MolSpectra), infondendo così la conoscenza della meccanica quantistica nelle rappresentazioni molecolari. Nello specifico, proponiamo SpecFormer, un codificatore multi-spettro per codificare gli spettri molecolari tramite la ricostruzione di patch mascherate. Allineando ulteriormente gli output del codificatore 3D e del codificatore di spettro utilizzando un obiettivo contrastivo, miglioriamo la comprensione delle molecole da parte del codificatore 3D. Le valutazioni su benchmark pubblici rivelano che le nostre rappresentazioni pre-addestrate superano i metodi esistenti nella previsione delle proprietà molecolari e nella modellazione delle dinamiche.
Le tecniche di modifica della conoscenza sono emerse come strumenti essenziali per aggiornare la conoscenza fattuale dei grandi modelli linguistici (LLM) e dei modelli multimodali (LMM), consentendo loro di correggere informazioni obsolete o inaccurate senza dover essere addestrati da zero. Tuttavia, i benchmark esistenti per la modifica della conoscenza multimodale si concentrano principalmente sulla conoscenza a livello di entità rappresentata come semplici triplette, che non riescono a catturare la complessità delle informazioni multimodali del mondo reale. Per affrontare questo problema, presentiamo MMKE-Bench, un completo Benchmark per la Modifica della Conoscenza MultiModale, progettato per valutare la capacità dei LMM di modificare varie conoscenze visive in scenari del mondo reale. MMKE-Bench affronta queste limitazioni incorporando tre tipi di compiti di modifica: modifica dell'entità visiva, modifica semantica visiva e modifica specifica dell'utente. Inoltre, MMKE-Bench utilizza linguaggio naturale libero per rappresentare e modificare la conoscenza, offrendo un formato più flessibile ed efficace. Il benchmark è composto da 2.940 pezzi di conoscenza e 8.363 immagini distribuite su 33 ampie categorie, con domande di valutazione generate automaticamente e verificate dall'essere umano. Valutiamo cinque metodi di modifica della conoscenza all'avanguardia su tre prominenti LMM, rivelando che nessun metodo eccelle su tutti i criteri e che le modifiche visive e specifiche dell'utente sono particolarmente impegnative. MMKE-Bench stabilisce un nuovo standard per valutare la robustezza delle tecniche di modifica della conoscenza multimodale, promuovendo il progresso in questo campo in rapida evoluzione.
I modelli linguistici di grandi dimensioni (LLM) sono diventati una componente indispensabile per le attività di elaborazione del linguaggio naturale. Tuttavia, il campionamento autoregressivo è diventato un collo di bottiglia in termini di efficienza. Il Multi-Draft Speculative Decoding (MDSD) è un approccio recente in cui, durante la generazione di ciascun token, un piccolo modello di bozze genera più bozze, e il LLM target le verifica in parallelo, assicurando che l'output finale sia conforme alla distribuzione del modello target. Le due principali scelte progettuali nell'MDSD sono il metodo di campionamento delle bozze e l'algoritmo di verifica. Per un metodo di campionamento delle bozze fissato, il tasso di accettazione ottimale è la soluzione di un problema di trasporto ottimale, ma la complessità di questo problema rende difficile calcolare il tasso di accettazione ottimale e misurare il divario tra gli algoritmi di verifica esistenti e il limite teorico superiore. Questo articolo discute il duale del problema di trasporto ottimale, fornendo un modo per calcolare in modo efficiente il tasso di accettazione ottimale. Per la prima volta, misuriamo il limite teorico superiore dell'efficienza dell'MDSD per dimensioni del vocabolario nell'ordine delle migliaia e quantifichiamo il divario tra gli algoritmi di verifica esistenti e questo limite. Confrontiamo inoltre diversi metodi di campionamento delle bozze in base ai loro tassi di accettazione ottimali. I nostri risultati mostrano che il metodo di campionamento delle bozze influenza fortemente il tasso di accettazione ottimale, con il campionamento senza sostituzione che supera il campionamento con sostituzione. Inoltre, gli algoritmi di verifica esistenti non raggiungono il limite teorico superiore sia per il campionamento senza sostituzione che con sostituzione. I nostri risultati suggeriscono che metodi di campionamento delle bozze progettati con cura possono potenzialmente migliorare il tasso di accettazione ottimale e consentire lo sviluppo di algoritmi di verifica che si avvicinino al limite teorico superiore.
Generare riassunti testuali accurati e concisi da documenti multimodali è una sfida, specialmente quando si ha a che fare con contenuti visivamente complessi come i poster scientifici. Introduciamo PosterSum, un nuovo benchmark per promuovere lo sviluppo di modelli vision-language in grado di comprendere e riassumere poster scientifici in abstract di articoli di ricerca. Il nostro dataset contiene 16.305 poster di conferenze accoppiati ai rispettivi abstract come riassunti. Ogni poster è fornito in formato immagine e presenta diverse sfide di comprensione visiva, come layout complessi, regioni di testo dense, tabelle e figure. Abbiamo testato i più avanzati Multimodal Large Language Models (MLLMs) su PosterSum e dimostrato che faticano a interpretare e riassumere accuratamente i poster scientifici. Proponiamo Segment & Summarize, un metodo gerarchico che supera gli attuali MLLMs nelle metriche automatizzate, ottenendo un miglioramento del 3,14% in ROUGE-L. Questo servirà come punto di partenza per future ricerche sulla sintesi dei poster.
La segmentazione semantica debolmente supervisionata (WSSS) utilizza tipicamente annotazioni semantiche limitate per ottenere mappe di attivazione delle classi (CAM) iniziali. Tuttavia, a causa dell'inadeguato accoppiamento tra le risposte di attivazione delle classi e le informazioni semantiche nello spazio ad alta dimensionalità, la CAM è soggetta a co-occorrenza di oggetti o sotto-attivazione, portando a una precisione di riconoscimento inferiore. Per affrontare questo problema, proponiamo DOEI, Dual Optimization of Embedding Information, un approccio innovativo che ricostruisce le rappresentazioni di embedding attraverso matrici di pesi di attenzione consapevoli del contesto semantico, ottimizzando così la capacità espressiva delle informazioni di embedding. Nello specifico, DOEI amplifica i token con alta confidenza e sopprime quelli con bassa confidenza durante l'interazione classe-patch. Questo allineamento delle risposte di attivazione con le informazioni semantiche rafforza la propagazione e il disaccoppiamento delle caratteristiche target, permettendo agli embedding generati di rappresentare in modo più accurato le caratteristiche target nello spazio semantico di alto livello. Inoltre, proponiamo un modulo di allineamento di feature ibride in DOEI che combina valori RGB, feature guidate da embedding e pesi di self-attention per aumentare l'affidabilità dei token candidati. Esperimenti completi dimostrano che DOEI è un modulo plug-and-play efficace che potenzia i modelli WSSS basati su transformer visivi all'avanguardia, migliorando significativamente la qualità delle CAM e le prestazioni di segmentazione su benchmark popolari, inclusi PASCAL VOC (+3.6%, +1.5%, +1.2% mIoU) e MS COCO (+1.2%, +1.6% mIoU). Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/DOEI.