Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo DuPO, un framework di ottimizzazione delle preferenze basato sull'apprendimento duale che genera feedback senza annotazioni attraverso una dualità generalizzata. DuPO affronta due limitazioni chiave: la dipendenza del Reinforcement Learning with Verifiable Rewards (RLVR) da etichette costose e la sua applicabilità limitata a compiti verificabili, e la restrizione dell'apprendimento duale tradizionale a coppie di compiti strettamente duali (ad esempio, traduzione e retro-traduzione). Nello specifico, DuPO scompone l'input di un compito primario in componenti note e sconosciute, quindi costruisce il suo compito duale per ricostruire la parte sconosciuta utilizzando l'output primario e le informazioni note (ad esempio, invertendo soluzioni matematiche per recuperare variabili nascoste), ampliando l'applicabilità a compiti non invertibili. La qualità di questa ricostruzione funge da ricompensa auto-supervisionata per ottimizzare il compito primario, sinergizzando con la capacità dei modelli linguistici di grandi dimensioni (LLM) di istanziare entrambi i compiti attraverso un singolo modello. Empiricamente, DuPO ottiene miglioramenti significativi in vari compiti: migliora la qualità media della traduzione di 2.13 punti COMET su 756 direzioni, aumenta l'accuratezza del ragionamento matematico di una media di 6.4 punti su tre benchmark di sfida e migliora le prestazioni di 9.3 punti come riordinatore al momento dell'inferenza (scambiando calcolo con accuratezza). Questi risultati posizionano DuPO come un paradigma scalabile, generale e privo di annotazioni per l'ottimizzazione degli LLM.
La previsione futura è un compito complesso per gli agenti LLM, che richiede un elevato livello di pensiero analitico, raccolta di informazioni, comprensione contestuale e decision-making in condizioni di incertezza. Gli agenti non solo devono raccogliere e interpretare grandi quantità di informazioni dinamiche, ma anche integrare fonti di dati diverse, valutare le incertezze e adattare le previsioni in base alle tendenze emergenti, proprio come fanno gli esperti umani in campi come la politica, l'economia e la finanza. Nonostante la sua importanza, non esiste un benchmark su larga scala per valutare gli agenti nella previsione futura, principalmente a causa delle sfide legate alla gestione degli aggiornamenti in tempo reale e al recupero di risposte tempestive e accurate. Per affrontare questo problema, introduciamo FutureX, un benchmark dinamico e in tempo reale specificamente progettato per gli agenti LLM che svolgono compiti di previsione futura. FutureX è il benchmark più grande e diversificato per la previsione futura, che supporta aggiornamenti giornalieri in tempo reale ed elimina la contaminazione dei dati attraverso una pipeline automatizzata per la raccolta di domande e risposte. Valutiamo 25 modelli LLM/agenti, inclusi quelli con capacità di ragionamento, ricerca e integrazione di strumenti esterni come l'agente di ricerca open-source Deep Research e i modelli di ricerca chiusi Deep Research. Questa valutazione completa analizza il ragionamento adattivo e le prestazioni degli agenti in ambienti dinamici. Inoltre, forniamo analisi approfondite delle modalità di fallimento e delle insidie delle prestazioni degli agenti in compiti orientati al futuro, inclusa la vulnerabilità alle pagine web false e la validità temporale. Il nostro obiettivo è stabilire uno standard di valutazione dinamico e privo di contaminazione che promuova lo sviluppo di agenti LLM in grado di performare al livello degli analisti umani professionali nel ragionamento complesso e nel pensiero predittivo.
La ricostruzione di oggetti 3D in programmi modificabili è fondamentale per applicazioni come il reverse engineering e l'editing di forme. Tuttavia, i metodi esistenti spesso si basano su linguaggi specifici di dominio (DSL) limitati e su dataset di piccole dimensioni, riducendo la loro capacità di modellare geometrie e strutture complesse. Per affrontare queste sfide, introduciamo MeshCoder, un framework innovativo che ricostruisce oggetti 3D complessi da nuvole di punti in script Python modificabili per Blender. Sviluppiamo un insieme completo di API Python per Blender espressive, in grado di sintetizzare geometrie intricate. Sfruttando queste API, costruiamo un dataset su larga scala di oggetti e codice accoppiati, in cui il codice per ciascun oggetto è scomposto in parti semantiche distinte. Successivamente, addestriamo un modello di linguaggio multimodale di grandi dimensioni (LLM) che traduce nuvole di punti 3D in script Python eseguibili per Blender. Il nostro approccio non solo raggiunge prestazioni superiori nei compiti di ricostruzione da forma a codice, ma facilita anche l'editing geometrico e topologico intuitivo attraverso modifiche convenienti del codice. Inoltre, la nostra rappresentazione basata su codice migliora le capacità di ragionamento degli LLM nei compiti di comprensione delle forme 3D. Insieme, questi contributi stabiliscono MeshCoder come una soluzione potente e flessibile per la ricostruzione e la comprensione programmatica delle forme 3D.
I Large Language Model (LLM) hanno dimostrato potenziale per applicazioni finanziarie, ma la loro idoneità per questo dominio ad alto rischio rimane in gran parte non verificata a causa delle carenze nei benchmark esistenti. I benchmark attuali si basano esclusivamente su valutazioni a livello di punteggio, riassumendo le prestazioni con un singolo punteggio che oscura la comprensione dettagliata di ciò che i modelli sanno veramente e dei loro limiti precisi. Inoltre, si affidano a dataset che coprono solo un sottoinsieme ristretto di concetti finanziari, trascurando altri elementi essenziali per applicazioni nel mondo reale. Per colmare queste lacune, introduciamo FinCDM, il primo framework di valutazione diagnostica cognitiva progettato specificamente per LLM finanziari, che consente la valutazione dei modelli a livello di conoscenza e abilità, identificando quali competenze e conoscenze finanziarie possiedono o mancano in base ai loro schemi di risposta su task etichettati per abilità, anziché un singolo numero aggregato. Costruiamo CPA-QKA, il primo dataset di valutazione finanziaria cognitivamente informato derivato dall'esame per Certified Public Accountant (CPA), con una copertura completa delle competenze contabili e finanziarie del mondo reale. È rigorosamente annotato da esperti del settore, che creano, validano e annotano le domande con un elevato accordo tra annotatori e etichette di conoscenza granulari. I nostri esperimenti estensivi su 30 LLM proprietari, open-source e specifici per il dominio mostrano che FinCDM rivela lacune di conoscenza nascoste, identifica aree sottoposte a test insufficienti come il ragionamento fiscale e normativo trascurato dai benchmark tradizionali, e scopre cluster comportamentali tra i modelli. FinCDM introduce un nuovo paradigma per la valutazione degli LLM finanziari, consentendo una diagnosi interpretabile e consapevole delle abilità che supporta uno sviluppo di modelli più affidabile e mirato. Tutti i dataset e gli script di valutazione saranno rilasciati pubblicamente per supportare ulteriori ricerche.
Il Model Context Protocol è emerso come uno standard trasformativo per collegare i grandi modelli linguistici a fonti di dati e strumenti esterni, guadagnando rapidamente adozione tra i principali fornitori di IA e piattaforme di sviluppo. Tuttavia, i benchmark esistenti sono eccessivamente semplicistici e non riescono a cogliere le sfide reali delle applicazioni, come il ragionamento a lungo termine e spazi di strumenti ampi e sconosciuti. Per colmare questa lacuna critica, introduciamo MCP-Universe, il primo benchmark completo progettato specificamente per valutare i LLM in compiti realistici e complessi attraverso l'interazione con server MCP del mondo reale. Il nostro benchmark comprende 6 domini principali che coprono 11 diversi server MCP: Navigazione Geografica, Gestione di Repository, Analisi Finanziaria, Progettazione 3D, Automazione del Browser e Ricerca Web. Per garantire una valutazione rigorosa, implementiamo valutatori basati sull'esecuzione, inclusi valutatori di formato per la conformità al formato degli agenti, valutatori statici per la corrispondenza di contenuti invarianti nel tempo e valutatori dinamici che recuperano automaticamente la verità di base in tempo reale per compiti temporalmente sensibili. Attraverso una valutazione estensiva dei principali LLM, scopriamo che anche modelli all'avanguardia come GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%) mostrano significative limitazioni nelle prestazioni. Inoltre, il nostro benchmark rappresenta una sfida significativa per i contesti lunghi degli agenti LLM, poiché il numero di token di input aumenta rapidamente con il numero di passi di interazione. Inoltre, introduce una sfida legata agli strumenti sconosciuti, poiché gli agenti LLM spesso non hanno familiarità con l'uso preciso dei server MCP. È interessante notare che agenti di livello aziendale come Cursor non riescono a ottenere prestazioni migliori rispetto ai framework ReAct standard. Oltre alla valutazione, rendiamo open-source il nostro framework di valutazione estensibile con supporto UI, consentendo a ricercatori e professionisti di integrare facilmente nuovi agenti e server MCP, promuovendo l'innovazione nel rapido ecosistema MCP in evoluzione.
Presentiamo Tinker, un framework versatile per l'editing 3D ad alta fedeltà che opera sia in modalità one-shot che few-shot senza alcuna ottimizzazione specifica per scena. A differenza delle tecniche precedenti che richiedono un'ampia ottimizzazione per scena per garantire la coerenza multi-vista o per produrre decine di viste modificate coerenti, Tinker offre modifiche robuste e coerenti su più viste partendo da una o due immagini. Questa capacità deriva dal riutilizzo di modelli di diffusione pre-addestrati, sbloccando la loro consapevolezza latente del 3D. Per promuovere la ricerca in questo ambito, abbiamo curato il primo dataset e pipeline di dati su larga scala per l'editing multi-vista, che copre una vasta gamma di scene e stili. Basandoci su questo dataset, abbiamo sviluppato il nostro framework in grado di generare viste modificate coerenti su più viste senza addestramento specifico per scena, che consiste in due componenti innovativi: (1) Editor multi-vista di riferimento: Consente modifiche precise e guidate da riferimenti che rimangono coerenti in tutte le prospettive. (2) Sintetizzatore da qualsiasi vista a video: Sfrutta i precedenti spazio-temporali dalla diffusione video per eseguire il completamento della scena e la generazione di nuove viste di alta qualità anche da input sparsi. Attraverso esperimenti estensivi, Tinker riduce significativamente la barriera alla creazione di contenuti 3D generalizzabili, raggiungendo prestazioni all'avanguardia nelle attività di editing, sintesi di nuove viste e miglioramento del rendering. Crediamo che Tinker rappresenti un passo fondamentale verso un editing 3D veramente scalabile e zero-shot. Pagina web del progetto: https://aim-uofa.github.io/Tinker
Presentiamo Nemotron-Nano-9B-v2, un modello linguistico ibrido Mamba-Transformer progettato per aumentare la produttività nei carichi di lavoro di ragionamento, raggiungendo al contempo un'accuratezza all'avanguardia rispetto a modelli di dimensioni simili. Nemotron-Nano-9B-v2 si basa sull'architettura Nemotron-H, in cui la maggior parte degli strati di self-attention della comune architettura Transformer è sostituita da strati Mamba-2, per ottenere una velocità di inferenza migliorata durante la generazione delle lunghe tracce di pensiero necessarie per il ragionamento. Abbiamo creato Nemotron-Nano-9B-v2 pre-addestrando inizialmente un modello da 12 miliardi di parametri (Nemotron-Nano-12B-v2-Base) su 20 trilioni di token utilizzando una ricetta di addestramento FP8. Dopo aver allineato Nemotron-Nano-12B-v2-Base, abbiamo impiegato la strategia Minitron per comprimere e distillare il modello con l'obiettivo di abilitare l'inferenza su fino a 128k token su una singola GPU NVIDIA A10G (22GiB di memoria, precisione bfloat16). Rispetto ai modelli esistenti di dimensioni simili (ad esempio, Qwen3-8B), dimostriamo che Nemotron-Nano-9B-v2 raggiunge un'accuratezza pari o superiore nei benchmark di ragionamento, ottenendo fino a 6 volte la produttività di inferenza in contesti di ragionamento come 8k token di input e 16k token di output. Stiamo rilasciando i checkpoint di Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base e Nemotron-Nano-9B-v2-Base insieme alla maggior parte dei nostri dataset di pre- e post-addestramento su Hugging Face.
L'intelligenza artificiale (IA) sta ridefinendo la scoperta scientifica, evolvendosi da strumenti computazionali specializzati a veri e propri partner di ricerca autonomi. Posizioniamo la Scienza Agente come una fase cruciale all'interno del più ampio paradigma dell'IA per la Scienza, in cui i sistemi di IA progrediscono da un'assistenza parziale a una piena agenzialità scientifica. Abilitata da modelli linguistici di grandi dimensioni (LLM), sistemi multimodali e piattaforme di ricerca integrate, l'IA agente dimostra capacità nella generazione di ipotesi, progettazione di esperimenti, esecuzione, analisi e affinamento iterativo — comportamenti un tempo considerati esclusivamente umani. Questa rassegna offre una revisione orientata ai domini della scoperta scientifica autonoma nelle scienze della vita, chimica, scienza dei materiali e fisica. Unifichiamo tre prospettive precedentemente frammentate — orientate al processo, all'autonomia e ai meccanismi — attraverso un quadro completo che collega capacità fondamentali, processi core e realizzazioni specifiche per dominio. Basandoci su questo quadro, (i) tracciamo l'evoluzione dell'IA per la Scienza, (ii) identifichiamo cinque capacità fondamentali alla base dell'agenzialità scientifica, (iii) modelliamo la scoperta come un flusso di lavoro dinamico in quattro fasi, (iv) esaminiamo le applicazioni nei suddetti domini e (v) sintetizziamo le principali sfide e le opportunità future. Questo lavoro stabilisce una sintesi orientata ai domini della scoperta scientifica autonoma e posiziona la Scienza Agente come un paradigma strutturato per avanzare la ricerca guidata dall'IA.
I recenti progressi nei modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno introdotto una valida alternativa ai modelli linguistici autoregressivi (AR) per le attività di generazione del linguaggio naturale, sfruttando strategie di decodifica basate sull'attenzione completa e sul denoising. Tuttavia, il dispiegamento di questi modelli su dispositivi edge rimane impegnativo a causa della loro vasta scala di parametri e delle elevate richieste di risorse. Sebbene la quantizzazione post-addestramento (PTQ) sia emersa come una tecnica ampiamente adottata per comprimere i modelli linguistici AR, la sua applicabilità ai dLLM rimane in gran parte inesplorata. In questo lavoro, presentiamo il primo studio sistematico sulla quantizzazione dei modelli linguistici basati su diffusione. Iniziamo identificando la presenza di outlier di attivazione, caratterizzati da valori di attivazione anormalmente grandi che dominano l'intervallo dinamico. Questi outlier rappresentano una sfida chiave per la quantizzazione a basso numero di bit, poiché rendono difficile preservare la precisione per la maggior parte dei valori. Ancora più importante, implementiamo metodi PTQ all'avanguardia e conduciamo una valutazione completa su più tipi di attività e varianti di modelli. La nostra analisi è strutturata lungo quattro dimensioni chiave: larghezza di bit, metodo di quantizzazione, categoria di attività e tipo di modello. Attraverso questa valutazione multi-prospettica, offriamo intuizioni pratiche sul comportamento di quantizzazione dei dLLM sotto diverse configurazioni. Speriamo che i nostri risultati forniscano una base per future ricerche sul dispiegamento efficiente dei dLLM. Tutti i codici e le configurazioni sperimentali saranno rilasciati per supportare la comunità.
Presentiamo RynnEC, un modello linguistico multimodale per video progettato per la cognizione incarnata. Basato su un modello di base visione-linguaggio a scopo generale, RynnEC incorpora un codificatore di regioni e un decodificatore di maschere, consentendo un'interazione flessibile a livello di regione con i video. Nonostante la sua architettura compatta, RynnEC raggiunge prestazioni all'avanguardia nella comprensione delle proprietà degli oggetti, nella segmentazione degli oggetti e nel ragionamento spaziale. Concettualmente, offre un paradigma video centrato sulle regioni per il cervello degli agenti incarnati, fornendo una percezione fine del mondo fisico e abilitando interazioni più precise. Per mitigare la scarsità di dataset 3D annotati, proponiamo una pipeline basata su video egocentrici per generare dati di cognizione incarnata. Inoltre, introduciamo RynnEC-Bench, un benchmark centrato sulle regioni per valutare le capacità cognitive incarnate. Anticipiamo che RynnEC promuoverà lo sviluppo di nuclei cognitivi a scopo generale per agenti incarnati e faciliterà la generalizzazione attraverso una varietà di compiti incarnati. Il codice, i checkpoint del modello e il benchmark sono disponibili all'indirizzo: https://github.com/alibaba-damo-academy/RynnEC
I sistemi di intelligenza artificiale stanno trasformando la scoperta scientifica accelerando specifiche attività di ricerca, dalla previsione della struttura delle proteine alla progettazione di materiali, ma rimangono confinati a domini ristretti che richiedono un sostanziale controllo umano. La crescita esponenziale della letteratura scientifica e la crescente specializzazione dei domini limitano la capacità dei ricercatori di sintetizzare conoscenze tra discipline e sviluppare teorie unificanti, motivando l'esplorazione di sistemi di IA più generalisti per la scienza. Qui dimostriamo che un sistema di IA agente e indipendente dal dominio può navigare autonomamente il flusso di lavoro scientifico, dalla generazione di ipotesi alla raccolta dei dati fino alla preparazione del manoscritto. Il sistema ha progettato ed eseguito autonomamente tre studi psicologici sulla memoria di lavoro visiva, la rotazione mentale e la vividezza delle immagini, ha condotto una nuova raccolta di dati online con 288 partecipanti, ha sviluppato pipeline di analisi attraverso sessioni di codifica continue di oltre 8 ore e ha prodotto manoscritti completi. I risultati dimostrano la capacità delle pipeline di scoperta scientifica basate su IA di condurre ricerche non banali con ragionamento teorico e rigore metodologico paragonabili a quelli di ricercatori esperti, sebbene con limitazioni nella sfumatura concettuale e nell'interpretazione teorica. Questo rappresenta un passo verso un'IA incarnata in grado di testare ipotesi attraverso esperimenti nel mondo reale, accelerando la scoperta esplorando autonomamente regioni dello spazio scientifico che i vincoli cognitivi e di risorse umane potrebbero altrimenti lasciare inesplorate. Solleva importanti interrogativi sulla natura della comprensione scientifica e sull'attribuzione del merito scientifico.
Il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo (RL) sono due paradigmi di post-addestramento prominenti per affinare le capacità e allineare il comportamento dei Modelli Linguistici di Grande Scala (LLMs). Gli approcci esistenti che integrano SFT e RL spesso affrontano il rischio di perturbare i pattern consolidati del modello e indurre un overfitting sui dati esperti. Per affrontare questo problema, presentiamo una nuova indagine sulla visione unificata di SFT e RL attraverso una lente off-policy versus on-policy. Proponiamo CHORD, un framework per l'Armonizzazione Controllabile dell'Apprendimento per Rinforzo On- e Off-Policy tramite Ponderazione Dinamica, che riformula l'SFT non come una fase separata ma come un obiettivo ausiliario dinamicamente ponderato all'interno del processo RL on-policy. Basandoci su un'analisi dell'influenza dei dati esperti off-policy a livello sia olistico che granulare, incorporiamo in CHORD un meccanismo di controllo duale. Nello specifico, il framework impiega prima un coefficiente globale per guidare olisticamente la transizione dall'imitazione off-policy all'esplorazione on-policy, e poi applica una funzione di ponderazione token-wise che consente un apprendimento granulare dai token esperti, preservando l'esplorazione on-policy e mitigando le perturbazioni dai dati off-policy. Condurremo esperimenti estesi su benchmark ampiamente utilizzati, fornendo evidenze empiriche che CHORD raggiunge un processo di apprendimento stabile ed efficiente. Armonizzando efficacemente i dati esperti off-policy con l'esplorazione on-policy, CHORD dimostra miglioramenti significativi rispetto ai baseline. Rilasciamo l'implementazione su https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord per ispirare ulteriori ricerche.
La complessità quadratica del meccanismo di self-attention ne limita l'applicabilità e la scalabilità su mesh non strutturate di grandi dimensioni. Introduciamo Fast Low-rank Attention Routing Engine (FLARE), un meccanismo di self-attention a complessità lineare che instrada l'attenzione attraverso sequenze latenti di lunghezza fissa. Ogni testa di attenzione esegue una comunicazione globale tra N token proiettando la sequenza di input su una sequenza latente di lunghezza fissa di M ll N token utilizzando token query apprendibili. Instradando l'attenzione attraverso una sequenza bottleneck, FLARE apprende una forma di attenzione a basso rango che può essere applicata con un costo di O(NM). FLARE non solo scala a dimensioni di problemi senza precedenti, ma offre anche una precisione superiore rispetto ai surrogati neurali PDE all'avanguardia su diversi benchmark. Rilasciamo inoltre un nuovo dataset di manifattura additiva per stimolare ulteriori ricerche. Il nostro codice è disponibile all'indirizzo https://github.com/vpuri3/FLARE.py.
I modelli linguistici visivi (VLMs) dimostrano capacità notevoli nei compiti multimodali in inglese, ma le loro prestazioni su lingue a bassa risorsa con contenuti educativi autenticamente multimodali rimangono in gran parte inesplorate. In questo lavoro, testiamo come i VLMs si comportano nelle valutazioni educative vietnamite, indagando se i VLMs addestrati prevalentemente su dati in inglese possano gestire il ragionamento multimodale cross-linguale nel mondo reale. Il nostro lavoro presenta la prima valutazione completa delle capacità dei VLMs sugli esami multimodali vietnamiti attraverso la proposta di ViExam, un benchmark contenente 2.548 domande multimodali. Scopriamo che i VLMs all'avanguardia raggiungono solo il 57,74%, mentre i modelli open-source ottengono una precisione media del 27,70% in 7 domini accademici, tra cui Matematica, Fisica, Chimica, Biologia, Geografia, Test di Guida e Test di QI. La maggior parte dei VLMs ha prestazioni inferiori alla media dei partecipanti umani (66,54%), con solo il VLM pensante o3 (74,07%) che supera la media umana, ma rimane comunque significativamente al di sotto della migliore prestazione umana (99,60%). Il prompting cross-linguale con istruzioni in inglese mantenendo il contenuto in vietnamita non migliora le prestazioni, riducendo la precisione di 1 punto percentuale per i VLMs all'avanguardia. La collaborazione human-in-the-loop può migliorare parzialmente le prestazioni dei VLMs di 5 punti percentuali. Codice e dati sono disponibili su: https://vi-exam.github.io.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nei compiti di ragionamento attraverso metodi come il ragionamento a catena di pensiero (CoT). Tuttavia, spesso non riescono a svolgere compiti che richiedono calcoli precisi. Il Ragionamento Integrato con Strumenti (TIR) è emerso come soluzione, incorporando strumenti esterni nel processo di ragionamento. Tuttavia, la generalizzazione del TIR nel migliorare le capacità di ragionamento degli LLM rimane poco chiara. Inoltre, resta da studiare se il TIR abbia migliorato il comportamento di ragionamento del modello e abbia aiutato il modello a pensare. Introduciamo ReasonZoo, un benchmark completo che comprende nove categorie di ragionamento diverse, per valutare l'efficacia del TIR in vari domini. Inoltre, proponiamo due nuove metriche, il Costo Consapevole della Prestazione (PAC) e l'Area Sotto la Curva Prestazione-Costo (AUC-PCC), per valutare l'efficienza del ragionamento. La nostra valutazione empirica dimostra che i modelli abilitati al TIR superano costantemente le loro controparti non-TIR sia nei compiti matematici che non matematici. Inoltre, il TIR migliora l'efficienza del ragionamento, come evidenziato dai miglioramenti in PAC e AUC-PCC, indicando una riduzione del sovrapensiero e un ragionamento più snello. Questi risultati sottolineano i benefici generali del TIR e il suo potenziale per avanzare le capacità degli LLM nei compiti di ragionamento complesso.
La variazione di scala è una sfida fondamentale nella visione artificiale. Oggetti della stessa classe possono avere dimensioni diverse, e la loro dimensione percepita è ulteriormente influenzata dalla distanza dalla fotocamera. Queste variazioni sono locali agli oggetti, cioè diverse dimensioni degli oggetti possono cambiare in modo diverso all'interno della stessa immagine. Per gestire efficacemente le variazioni di scala, presentiamo un canonicalizzatore di equilibrio profondo (DEC) per migliorare l'equivarianza locale della scala di un modello. DEC può essere facilmente integrato nelle architetture di rete esistenti e può essere adattato a un modello pre-addestrato. In particolare, dimostriamo che sul competitivo benchmark ImageNet, DEC migliora sia le prestazioni del modello che la coerenza locale della scala in quattro popolari reti neurali profonde pre-addestrate, ad esempio ViT, DeiT, Swin e BEiT. Il nostro codice è disponibile all'indirizzo https://github.com/ashiq24/local-scale-equivariance.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) potenziati per il ragionamento hanno dimostrato capacità notevoli in compiti di ragionamento complesso. Tuttavia, il meccanismo alla base del loro utilizzo di diverse abilità di ragionamento umano rimane poco esplorato, specialmente per quanto riguarda il ragionamento di senso comune multilingue che coinvolge conoscenze quotidiane attraverso diverse lingue e culture. Per colmare questa lacuna, proponiamo un benchmark multilingue e scalabile per il ragionamento di senso comune basato su abilità (mSCoRe). Il nostro benchmark incorpora tre componenti chiave progettate per valutare sistematicamente le capacità di ragionamento degli LLM, tra cui: (1) una nuova tassonomia delle abilità di ragionamento che consente un'analisi granulare dei processi di ragionamento dei modelli, (2) una pipeline robusta per la sintesi dei dati specificamente adattata per la valutazione del ragionamento di senso comune, e (3) un framework di scalabilità della complessità che permette alla difficoltà dei compiti di aumentare dinamicamente in parallelo ai futuri miglioramenti delle capacità degli LLM. Esperimenti estesi su otto LLM all'avanguardia di dimensioni e approcci di addestramento vari dimostrano che mSCoRe rimane significativamente impegnativo per i modelli attuali, specialmente a livelli di complessità più elevati. I nostri risultati rivelano i limiti di tali modelli potenziati per il ragionamento quando confrontati con il senso comune generale e culturale multilingue sfumato. Forniamo inoltre un'analisi dettagliata dei processi di ragionamento dei modelli, suggerendo direzioni future per migliorare le capacità di ragionamento di senso comune multilingue.
Questo articolo presenta un approccio innovativo per il calcolo della distanza di Levenshtein (edit) all'interno del framework della Fully Homomorphic Encryption (FHE), con particolare attenzione agli schemi di terza generazione come TFHE. I calcoli della distanza di edit sono essenziali in applicazioni che spaziano dalla finanza alla genomica, come l'allineamento di sequenze di DNA. Introduciamo un algoritmo ottimizzato che riduce significativamente il costo dei calcoli della distanza di edit, denominato Leuvenshtein. Questo algoritmo riduce specificamente il numero di bootstraps programmabili (PBS) necessari per cella del calcolo, portandolo da circa 94 operazioni -- richieste dal convenzionale algoritmo di Wagner-Fisher -- a soltanto 1. Inoltre, proponiamo un metodo efficiente per eseguire controlli di uguaglianza sui caratteri, riducendo i confronti di caratteri ASCII a sole 2 operazioni PBS. Infine, esploriamo il potenziale per ulteriori miglioramenti delle prestazioni sfruttando il preprocessing quando una delle stringhe di input non è cifrata. Il nostro algoritmo Leuvenshtein raggiunge prestazioni fino a 278 volte più veloci rispetto alla migliore implementazione TFHE disponibile e fino a 39 volte più veloci rispetto a un'implementazione ottimizzata dell'algoritmo di Wagner-Fisher. Inoltre, quando è possibile eseguire un preprocessing offline grazie alla presenza di un input non cifrato lato server, è possibile ottenere un ulteriore aumento di velocità di 3 volte.
I sistemi di raccomandazione multi-modali si concentrano sull'utilizzo di informazioni modali ricche (ad esempio, immagini e descrizioni testuali) degli elementi per migliorare le prestazioni di raccomandazione. I metodi attuali hanno ottenuto un notevole successo grazie alla potente capacità di modellazione strutturale delle reti neurali a grafo. Tuttavia, questi metodi sono spesso ostacolati dalla scarsità di dati negli scenari reali. Sebbene l'apprendimento contrastivo e l'omografia (ad esempio, grafi omogenei) siano impiegati per affrontare la sfida della scarsità di dati, i metodi esistenti soffrono ancora di due principali limitazioni: 1) I semplici contrasti di caratteristiche multi-modali non riescono a produrre rappresentazioni efficaci, causando caratteristiche condivise tra le modalità rumorose e la perdita di informazioni preziose nelle caratteristiche uniche delle modalità; 2) La mancanza di esplorazione delle relazioni omografe tra gli interessi degli utenti e la co-occorrenza degli elementi porta a un'estrazione incompleta dell'interazione utente-elemento. Per affrontare le suddette limitazioni, proponiamo un nuovo framework per l'affinamento dell'apprendimento contrastivo multi-modale e delle relazioni omografe (REARM). Nello specifico, integriamo l'apprendimento contrastivo multi-modale utilizzando strategie di meta-rete e vincoli ortogonali, che filtrano il rumore nelle caratteristiche condivise tra le modalità e conservano le informazioni rilevanti per la raccomandazione nelle caratteristiche uniche delle modalità. Per estrarre efficacemente le relazioni omogenee, integriamo un grafo degli interessi degli utenti appena costruito e un grafo di co-occorrenza degli elementi con i grafi esistenti di co-occorrenza degli utenti e semantici degli elementi per l'apprendimento su grafo. Gli esperimenti estensivi su tre dataset del mondo reale dimostrano la superiorità di REARM rispetto a vari baseline all'avanguardia. La nostra visualizzazione mostra inoltre un miglioramento apportato da REARM nel distinguere tra caratteristiche condivise e uniche delle modalità. Il codice è disponibile {qui}https://github.com/MrShouxingMa/REARM.