Articoli di ricerca IA selezionati quotidianamente con traduzioni
Come gli studenti di fronte a domande d'esame difficili, i grandi modelli linguistici a volte indovinano quando sono incerti, producendo affermazioni plausibili ma errate invece di ammettere l'incertezza. Tali "allucinazioni" persistono anche nei sistemi più avanzati e minano la fiducia. Sosteniamo che i modelli linguistici allucinano perché le procedure di addestramento e valutazione premiano l'indovinare piuttosto che il riconoscere l'incertezza, e analizziamo le cause statistiche delle allucinazioni nella pipeline di addestramento moderna. Le allucinazioni non devono essere misteriose: nascono semplicemente come errori nella classificazione binaria. Se le affermazioni errate non possono essere distinte dai fatti, allora le allucinazioni nei modelli linguistici pre-addestrati emergeranno attraverso pressioni statistiche naturali. Sosteniamo inoltre che le allucinazioni persistono a causa del modo in cui la maggior parte delle valutazioni vengono classificate: i modelli linguistici sono ottimizzati per essere bravi a superare i test, e indovinare quando si è incerti migliora le prestazioni nei test. Questa "epidemia" di penalizzare le risposte incerte può essere affrontata solo attraverso una mitigazione socio-tecnica: modificando il punteggio dei benchmark esistenti che sono disallineati ma dominano le classifiche, piuttosto che introducendo ulteriori valutazioni sulle allucinazioni. Questo cambiamento potrebbe orientare il campo verso sistemi di IA più affidabili.
I modelli linguistici autoregressivi per la previsione del token successivo offrono capacità potenti, ma affrontano sfide significative nella distribuzione pratica a causa degli elevati costi computazionali e di memoria durante l'inferenza, in particolare nella fase di decodifica. Introduciamo il Set Block Decoding (SBD), un paradigma semplice e flessibile che accelera la generazione integrando la previsione standard del token successivo (NTP) e la previsione del token mascherato (MATP) all'interno di un'unica architettura. SBD consente al modello di campionare più token futuri, non necessariamente consecutivi, in parallelo, una distinzione chiave rispetto ai metodi di accelerazione precedenti. Questa flessibilità permette l'uso di risolutori avanzati tratti dalla letteratura sulla diffusione discreta, offrendo accelerazioni significative senza sacrificare l'accuratezza. SBD non richiede modifiche architetturali o iperparametri di addestramento aggiuntivi, mantiene la compatibilità con la KV-caching esatta e può essere implementato tramite il fine-tuning di modelli esistenti per la previsione del token successivo. Mediante il fine-tuning di Llama-3.1 8B e Qwen-3 8B, dimostriamo che SBD consente una riduzione di 3-5x nel numero di passaggi in avanti necessari per la generazione, mantenendo le stesse prestazioni dell'addestramento NTP equivalente.
I grandi modelli linguistici (LLM) eccellono nella sintesi di programmi, ma la loro capacità di produrre programmi grafici simbolici (SGP) che si traducono in contenuti visivi precisi rimane poco esplorata. Studiamo la programmazione grafica simbolica, in cui l'obiettivo è generare un SGP a partire da una descrizione in linguaggio naturale. Questo compito funge anche da lente per comprendere come i LLM interpretano il mondo visivo, spingendoli a generare immagini renderizzate da SGP. Tra i vari SGP, il nostro articolo si concentra sulla grafica vettoriale scalabile (SVG). Iniziamo esaminando fino a che punto i LLM possono generare SGP. A tal fine, introduciamo SGP-GenBench, un benchmark completo che copre fedeltà dell'oggetto, fedeltà della scena e composizionalità (associazione di attributi, relazioni spaziali, capacità numerica). Su SGP-GenBench, scopriamo che i modelli proprietari all'avanguardia superano significativamente i modelli open-source, e le prestazioni sono ben correlate con le capacità generali di codifica. Motivati da questo divario, miriamo a migliorare la capacità dei LLM di generare SGP. Proponiamo un approccio di apprendimento per rinforzo (RL) con ricompense verificabili, in cui un gate di validità del formato garantisce SVG renderizzabili, e una ricompensa cross-modale allinea il testo e l'immagine renderizzata tramite encoder visivi potenti (ad esempio, SigLIP per testo-immagine e DINO per immagine-immagine). Applicato a Qwen-2.5-7B, il nostro metodo migliora sostanzialmente la qualità e la semantica della generazione di SVG, raggiungendo prestazioni paragonabili ai sistemi all'avanguardia. Analizziamo ulteriormente le dinamiche di addestramento, dimostrando che l'RL induce (i) una scomposizione più fine degli oggetti in primitive controllabili e (ii) dettagli contestuali che migliorano la coerenza della scena. I nostri risultati dimostrano che la programmazione grafica simbolica offre una lente precisa e interpretabile sul grounding cross-modale.
La stima dell'illuminazione di una scena a partire da una singola immagine o video rimane una sfida di lunga data nel campo della visione artificiale e della grafica. Gli approcci basati sull'apprendimento sono limitati dalla scarsità di mappe HDR dell'ambiente con verità di riferimento, che sono costose da acquisire e limitate in termini di diversità. Sebbene i recenti modelli generativi offrano forti prior per la sintesi di immagini, la stima dell'illuminazione rimane difficile a causa della sua dipendenza da indizi visivi indiretti, della necessità di inferire un contesto globale (non locale) e del recupero di output ad alto intervallo dinamico. Proponiamo LuxDiT, un approccio innovativo basato sui dati che perfeziona un trasformatore di diffusione video per generare mappe HDR dell'ambiente condizionate dall'input visivo. Addestrato su un ampio dataset sintetico con condizioni di illuminazione diverse, il nostro modello impara a inferire l'illuminazione da indizi visivi indiretti e si generalizza efficacemente a scene del mondo reale. Per migliorare l'allineamento semantico tra l'input e la mappa dell'ambiente prevista, introduciamo una strategia di perfezionamento adattivo a basso rango utilizzando un dataset raccolto di panorami HDR. Il nostro metodo produce previsioni accurate dell'illuminazione con dettagli angolari ad alta frequenza realistici, superando le tecniche esistenti all'avanguardia sia nelle valutazioni quantitative che qualitative.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti in vari compiti di visione e linguaggio. Tuttavia, le loro abilità di ragionamento nel dominio della musica simbolica multimodale rimangono in gran parte inesplorate. Introduciamo WildScore, il primo benchmark di ragionamento e analisi della musica simbolica multimodale "in-the-wild", progettato per valutare la capacità degli MLLMs di interpretare partiture musicali del mondo reale e rispondere a complesse domande musicologiche. Ogni istanza in WildScore è tratta da composizioni musicali autentiche ed è accompagnata da domande e discussioni generate dagli utenti, catturando le complessità dell'analisi musicale pratica. Per facilitare una valutazione sistematica, proponiamo una tassonomia sistematica, comprendente ontologie musicologiche sia di alto livello che dettagliate. Inoltre, inquadriamo il ragionamento musicale complesso come risposta a domande a scelta multipla, consentendo una valutazione controllata e scalabile della comprensione della musica simbolica da parte degli MLLMs. Il benchmarking empirico degli MLLMs più avanzati su WildScore rivela modelli interessanti nel loro ragionamento visivo-simbolico, evidenziando sia direzioni promettenti che sfide persistenti per gli MLLMs nel ragionamento e nell'analisi della musica simbolica. Rilasciamo il dataset e il codice.
La ricerca recente si sta concentrando sempre più sullo sviluppo di modelli di mondi 3D che simulano scenari complessi del mondo reale. I modelli di mondo hanno trovato ampie applicazioni in vari domini, tra cui l'AI incarnata, la guida autonoma, l'intrattenimento, ecc. Una simulazione più realistica con una fisica accurata ridurrà efficacemente il divario tra simulazione e realtà e ci permetterà di raccogliere informazioni dettagliate sul mondo reale in modo conveniente. Mentre la modellazione manuale tradizionale ha permesso la creazione di scene virtuali 3D, gli approcci moderni hanno sfruttato algoritmi avanzati di machine learning per la generazione di mondi 3D, con i progressi più recenti che si concentrano su metodi generativi in grado di creare mondi virtuali basati su istruzioni dell'utente. Questo lavoro esplora una tale direzione di ricerca proponendo LatticeWorld, un framework semplice ma efficace per la generazione di mondi 3D che semplifica la pipeline di produzione industriale degli ambienti 3D. LatticeWorld sfrutta modelli linguistici leggeri (LLaMA-2-7B) insieme a motori di rendering di livello industriale (ad esempio, Unreal Engine 5) per generare un ambiente dinamico. Il nostro framework proposto accetta descrizioni testuali e istruzioni visive come input multimodali e crea mondi interattivi 3D su larga scala con agenti dinamici, caratterizzati da un'interazione competitiva tra più agenti, una simulazione fisica ad alta fedeltà e un rendering in tempo reale. Abbiamo condotto esperimenti completi per valutare LatticeWorld, dimostrando che raggiunge una precisione superiore nella generazione del layout delle scene e nella fedeltà visiva. Inoltre, LatticeWorld ottiene un aumento di oltre 90 volte nell'efficienza della produzione industriale mantenendo un'elevata qualità creativa rispetto ai metodi di produzione manuale tradizionali. Il nostro video dimostrativo è disponibile all'indirizzo https://youtu.be/8VWZXpERR18.
Presentiamo WinT3R, un modello di ricostruzione feed-forward in grado di prevedere online pose precise della fotocamera e mappe di punti di alta qualità. I metodi precedenti soffrono di un compromesso tra qualità della ricostruzione e prestazioni in tempo reale. Per affrontare questo problema, introduciamo innanzitutto un meccanismo a finestra scorrevole che garantisce un sufficiente scambio di informazioni tra i fotogrammi all'interno della finestra, migliorando così la qualità delle previsioni geometriche senza un elevato costo computazionale. Inoltre, sfruttiamo una rappresentazione compatta delle fotocamere e manteniamo un pool globale di token delle fotocamere, il che aumenta l'affidabilità della stima della posa della fotocamera senza sacrificare l'efficienza. Questi design consentono a WinT3R di raggiungere prestazioni all'avanguardia in termini di qualità della ricostruzione online, stima della posa della fotocamera e velocità di ricostruzione, come dimostrato da ampi esperimenti su diversi dataset. Il codice e il modello sono disponibili pubblicamente all'indirizzo https://github.com/LiZizun/WinT3R.
Il progresso in molti domini di attività emerge da ripetute revisioni di precedenti tentativi di soluzione. Addestrare agenti in grado di migliorarsi in modo affidabile attraverso tali sequenze durante il tempo di inferenza è un obiettivo naturale per l'apprendimento per rinforzo (RL), ma l'approccio ingenuo presuppone una profondità massima di iterazione fissa, che può essere sia costosa che arbitraria. Presentiamo Exploratory Iteration (ExIt), una famiglia di metodi RL di autocurriculum che sfrutta direttamente la struttura ricorrente dei compiti di auto-miglioramento per addestrare LLM a eseguire un miglioramento multi-step durante il tempo di inferenza, addestrandosi solo sulle iterazioni a singolo passo più informative. ExIt espande uno spazio di compiti campionando selettivamente le storie intermedie e parziali più informative incontrate durante un episodio per continuare l'iterazione, trattando questi punti di partenza come nuove istanze di compiti di auto-iterazione per addestrare una politica di auto-miglioramento. ExIt può inoltre abbinarsi a meccanismi di esplorazione esplicita per sostenere una maggiore diversità di compiti. In diversi domini, che comprendono la matematica competitiva, l'uso di strumenti multi-turn e l'ingegneria del machine learning, dimostriamo che le strategie ExIt, partendo da una singola o da molte istanze di compiti, possono produrre politiche che mostrano un forte auto-miglioramento durante il tempo di inferenza su istanze di compiti tenute da parte, e la capacità di iterare verso prestazioni più elevate su un budget di passi che si estende oltre la profondità media di iterazione incontrata durante l'addestramento.
Gli attuali benchmark per i Large Language Models (LLM) si concentrano principalmente su metriche di prestazione, spesso tralasciando le caratteristiche comportamentali sfumate che li differenziano. Questo articolo introduce un nuovo framework di "Impronta Comportamentale" progettato per andare oltre la valutazione tradizionale, creando un profilo multifaccettato degli stili cognitivi e interattivi intrinseci di un modello. Utilizzando una suite di prompt diagnostici curata e una pipeline di valutazione automatizzata innovativa, in cui un potente LLM funge da giudice imparziale, analizziamo diciotto modelli di diversi livelli di capacità. I nostri risultati rivelano una divergenza critica nel panorama degli LLM: mentre le capacità fondamentali come il ragionamento astratto e causale convergono tra i modelli di punta, i comportamenti legati all'allineamento, come la sifofanza e la robustezza semantica, variano in modo significativo. Documentiamo inoltre un raggruppamento trasversale di personalità predefinita (ISTJ/ESTJ) che probabilmente riflette incentivi comuni di allineamento. Nel complesso, ciò suggerisce che la natura interattiva di un modello non sia una proprietà emergente della sua scala o potenza di ragionamento, ma una conseguenza diretta di strategie di allineamento specifiche e altamente variabili da parte degli sviluppatori. Il nostro framework fornisce una metodologia riproducibile e scalabile per scoprire queste profonde differenze comportamentali. Progetto: https://github.com/JarvisPei/Behavioral-Fingerprinting
Proponiamo U-Arm, un framework di teleoperazione leader-follower a basso costo e rapidamente adattabile, progettato per interfacciarsi con la maggior parte dei bracci robotici disponibili in commercio. Il nostro sistema supporta la teleoperazione attraverso tre bracci leader stampati in 3D strutturalmente distinti che condividono una logica di controllo coerente, consentendo una compatibilità senza soluzione di continuità con diverse configurazioni di robot commerciali. Rispetto alle precedenti interfacce leader-follower open-source, abbiamo ulteriormente ottimizzato sia il design meccanico che la selezione dei servomotori, raggiungendo un costo della distinta base (BOM) di soli \50,5 per il braccio leader a 6 gradi di libertà (DoF) e 56,8 per la versione a 7 DoF. Per migliorare l'usabilità, mitigiamo la comune sfida nel controllo dei gradi di libertà ridondanti attraverso ottimizzazioni meccaniche e di controllo. I risultati sperimentali dimostrano che U-Arm raggiunge un'efficienza nella raccolta dei dati del 39% superiore e tassi di successo comparabili in molteplici scenari di manipolazione rispetto a Joycon, un'altra interfaccia di teleoperazione a basso costo. Abbiamo reso open-source tutti i modelli CAD delle tre configurazioni e fornito supporto alla simulazione per validare i flussi di lavoro di teleoperazione. Abbiamo anche reso open-source i dati di manipolazione del mondo reale raccolti con U-Arm. Il sito web del progetto è https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.
L'efficacia dei Large Language Models (LLM) viene solitamente valutata mediante benchmark come MMLU, ARC-C o HellaSwag, dove le domande sono presentate nella loro formulazione originale, quindi in un formato fisso e standardizzato. Tuttavia, le applicazioni nel mondo reale implicano variabilità linguistica, richiedendo ai modelli di mantenere la loro efficacia attraverso diverse riformulazioni della stessa domanda o query. In questo studio, valutiamo sistematicamente la robustezza dei LLM rispetto a domande benchmark parafrasate e indaghiamo se le valutazioni basate su benchmark forniscono una misura affidabile delle capacità del modello. Generiamo sistematicamente varie parafrasi di tutte le domande in sei diversi benchmark comuni e misuriamo le variazioni risultanti nell'efficacia di 34 LLM all'avanguardia, di dimensioni ed efficacia diverse. I nostri risultati rivelano che, sebbene le classificazioni dei LLM rimangano relativamente stabili rispetto agli input parafrasati, i punteggi assoluti di efficacia cambiano e diminuiscono significativamente. Ciò suggerisce che i LLM faticano a gestire la variabilità linguistica, sollevando preoccupazioni sulle loro capacità di generalizzazione e sulle metodologie di valutazione. Inoltre, il calo di prestazioni osservato mette in discussione l'affidabilità delle valutazioni basate su benchmark, indicando che punteggi elevati nei benchmark potrebbero non catturare pienamente la robustezza di un modello rispetto alle variazioni degli input nel mondo reale. Discutiamo le implicazioni di questi risultati per le metodologie di valutazione dei LLM, sottolineando la necessità di benchmark consapevoli della robustezza che riflettano meglio gli scenari di implementazione pratica.
Gli errori diagnostici radiologici - errori di sottovalutazione, cecità attentiva e fallimenti nella comunicazione - rimangono prevalenti nella pratica clinica. Questi problemi spesso derivano da anomalie localizzate mancate, contesto globale limitato e variabilità nel linguaggio dei referti. Queste sfide sono amplificate nell'imaging 3D, dove i clinici devono esaminare centinaia di sezioni per scansione. Affrontarle richiede sistemi con rilevamento localizzato preciso, ragionamento a livello di volume globale e refertazione in linguaggio naturale semanticamente coerente. Tuttavia, i modelli visione-linguaggio 3D esistenti non sono in grado di soddisfare congiuntamente tutte e tre le esigenze, mancando di comprensione locale-globale per il ragionamento spaziale e lottando con la variabilità e il rumore dei referti radiologici non curati. Presentiamo MedVista3D, un framework di pre-addestramento visione-linguaggio arricchito semanticamente su più scale per l'analisi di TC 3D. Per abilitare il rilevamento congiunto delle patologie e l'interpretazione olistica, MedVista3D esegue l'allineamento locale e globale immagine-testo per l'apprendimento di rappresentazioni granulari nel contesto del volume completo. Per affrontare la variabilità dei referti, applichiamo riscritture con modelli linguistici e introduciamo una Banca di Corrispondenza Semantica Radiologica per l'allineamento consapevole della semantica. MedVista3D raggiunge prestazioni all'avanguardia nella classificazione zero-shot delle patologie, nel recupero dei referti e nella risposta a domande visive mediche, trasferendosi bene anche alla segmentazione degli organi e alla previsione della prognosi. Codice e dataset verranno rilasciati.