Articoli di ricerca IA selezionati quotidianamente con traduzioni
La percezione egocentrica consente agli esseri umani di esperire e comprendere il mondo direttamente dal proprio punto di vista. La traduzione di video eterocentrici (in terza persona) in video egocentrici (in prima persona) apre nuove possibilità per una comprensione immersiva, ma rimane estremamente impegnativa a causa delle estreme variazioni della posa della telecamera e della sovrapposizione minima delle visuali. Questo compito richiede di preservare fedelmente il contenuto visibile sintetizzando al contempo le regioni non visibili in modo geometricamente coerente. Per raggiungere questo obiettivo, presentiamo EgoX, un framework innovativo per la generazione di video egocentrici a partire da un singolo input eterocentrico. EgoX sfrutta la conoscenza spaziotemporale preaddestrata dei modelli di diffusione video su larga scala attraverso un adattamento LoRA leggero e introduce una strategia di condizionamento unificata che combina prior eterocentrici ed egocentrici mediante concatenazione lungo le dimensioni di larghezza e canale. Inoltre, un meccanismo di self-attention guidato dalla geometria seleziona dinamicamente le regioni spazialmente rilevanti, garantendo coerenza geometrica e alta fedeltà visiva. Il nostro approccio consente una generazione di video egocentrici coerenti e realistici, dimostrando al contempo una forte scalabilità e robustezza su video non visti e in contesti non controllati.
L'interpretazione affidabile dei dati multimodali in odontoiatria è essenziale per l'assistenza odontoiatrica automatizzata, tuttavia gli attuali modelli linguistici multimodali (MLLM) faticano a catturare i dettagli visivi odontoiatrici granulari e mancano di sufficiente capacità di ragionamento per una diagnosi precisa. Per affrontare queste limitazioni, presentiamo DentalGPT, un MLLM odontoiatrico specializzato sviluppato attraverso l'iniezione di conoscenza di dominio di alta qualità e l'apprendimento per rinforzo. Nello specifico, è stato costruito il più grande dataset multimodale annotato per l'odontoiatria fino ad oggi, aggregando oltre 120.000 immagini dentali abbinate a descrizioni dettagliate che evidenziano caratteristiche visive clinicamente rilevanti, rendendolo il dataset multimodale con la più vasta collezione di immagini dentali esistente. L'addestramento su questo dataset migliora significativamente la comprensione visiva delle condizioni odontoiatriche del MLLM, mentre la successiva fase di apprendimento per rinforzo ne rafforza ulteriormente la capacità di ragionamento complesso multimodale. Valutazioni complete su benchmark intraorali e panoramici, insieme a sottoinsiemi odontoiatrici di benchmark di VQA medici, mostrano che DentalGPT raggiunge prestazioni superiori nelle attività di classificazione delle patologie e di VQA odontoiatrico, superando molti MLLM all'avanguardia nonostante abbia solo 7 miliardi di parametri. Questi risultati dimostrano che dati odontoiatrici di alta qualità combinati con un adattamento graduale forniscono un percorso efficace per costruire MLLM odontoiatrici capaci e specializzati nel dominio.
La generazione visiva basata su rappresentazioni di Modelli Fondazionali Visivi (VFM) offre una via unificata estremamente promettente per integrare comprensione, percezione e generazione visiva. Nonostante questo potenziale, l'addestramento di modelli di diffusione testo-immagine su larga scala interamente nello spazio rappresentazionale dei VFM rimane in gran parte inesplorato. Per colmare questa lacuna, abbiamo scalato il framework SVG (Rappresentazioni Auto-supervisionate per la Generazione Visiva), proponendo SVG-T2I per supportare la sintesi di alta qualità da testo a immagine direttamente nel dominio delle caratteristiche VFM. Sfruttando una pipeline standard di diffusione testo-immagine, SVG-T2I raggiunge prestazioni competitive, ottenendo 0.75 su GenEval e 85.78 su DPG-Bench. Queste prestazioni convalidano il potere rappresentazionale intrinseco dei VFM per compiti generativi. Rendiamo il progetto completamente open-source, includendo l'autoencoder e il modello di generazione, insieme alle loro pipeline di addestramento, inferenza, valutazione e pesi pre-addestrati, per facilitare ulteriori ricerche nella generazione visiva guidata da rappresentazioni.
I modelli di generazione video su larga scala hanno dimostrato un potenziale notevole nella modellazione di aspetti fotorealistici e interazioni luminose in scene del mondo reale. Tuttavia, un framework a ciclo chiuso che comprenda congiuntamente le proprietà intrinseche della scena (ad esempio, albedo, normale, materiale e irraggiamento), le sfrutti per la sintesi video e supporti rappresentazioni intrinseche modificabili rimane inesplorato. Presentiamo V-RGBX, il primo framework end-to-end per l'editing video consapevole delle proprietà intrinseche. V-RGBX unifica tre capacità chiave: (1) l'inverse rendering video in canali intrinseci, (2) la sintesi video fotorealistica a partire da queste rappresentazioni intrinseche e (3) l'editing video basato su keyframe condizionato dai canali intrinseci. Il cuore di V-RGBX è un meccanismo di condizionamento interlacciato che consente un editing video intuitivo e fisicamente fondato attraverso keyframe selezionate dall'utente, supportando la manipolazione flessibile di qualsiasi modalità intrinseca. Risultati qualitativi e quantitativi estensivi mostrano che V-RGBX produce video fotorealistici e temporalmente coerenti, propagando le modifiche dei keyframe attraverso le sequenze in modo fisicamente plausibile. Ne dimostriamo l'efficacia in diverse applicazioni, inclusa la modifica dell'aspetto di oggetti e il re-illuminazione a livello di scena, superando le prestazioni di metodi precedenti.
Gli attuali modelli di animazione ritrattistica basati su diffusione si concentrano prevalentemente sul miglioramento della qualità visiva e del realismo espressivo, trascurando la latenza di generazione e le prestazioni in tempo reale, il che ne limita l'applicabilità negli scenari di streaming live. Proponiamo PersonaLive, un innovativo framework basato su diffusione per l'animazione ritrattistica in streaming real-time, dotato di ricette di addestramento multi-stadio. Nello specifico, adottiamo inizialmente segnali ibridi impliciti, ovvero rappresentazioni facciali implicite e keypoint 3D impliciti, per ottenere un controllo espressivo del movimento a livello d'immagine. Successivamente, viene proposta una strategia di distillazione dell'aspetto con meno step per eliminare la ridondanza apparenziale nel processo di denoising, migliorando notevolmente l'efficienza inferenziale. Infine, introduciamo un paradigma di generazione in streaming micro-chunk autoregressivo, dotato di una strategia di addestramento a scorrimento e un meccanismo a frame chiave storici, per abilitare la generazione video a lungo termine a bassa latenza e stabile. Esperimenti estensivi dimostrano che PersonaLive raggiunge prestazioni all'avanguardia con un accelerazione fino a 7-22x rispetto ai precedenti modelli di animazione ritrattistica basati su diffusione.
Il meccanismo di self-attention nei modelli linguistici di grandi dimensioni (LLM) basati su Transformer scala quadraticamente con la lunghezza dell'input, rendendo costosa l'inferenza su contesti lunghi. L'attenzione a finestra scorrevole (SWA) riduce questo costo a una complessità lineare, ma abilitare ingenuamente la SWA completa durante l'inferenza per modelli preaddestrati con attenzione completa (FA) causa un grave deterioramento delle prestazioni su contesti lunghi a causa di una discrepanza tra addestramento e inferenza. Ciò ci porta a chiederci: è possibile adattare efficacemente LLM preaddestrati con FA alla SWA senza un nuovo preaddestramento? Investigiamo questa possibilità proponendo Sliding Window Attention Adaptation (SWAA), un insieme di ricette pratiche che combinano cinque metodi per un migliore adattamento: (1) applicare la SWA solo durante la fase di prefilling; (2) preservare i token "sink"; (3) intervallare strati FA/SWA; (4) chain-of-thought (CoT); e (5) fine-tuning. I nostri esperimenti mostrano che l'adattamento alla SWA è fattibile ma non banale: nessun singolo metodo è sufficiente, eppure specifiche combinazioni sinergiche recuperano efficacemente le prestazioni originali su contesti lunghi. Analizziamo inoltre i compromessi prestazione-efficienza delle diverse configurazioni SWAA e forniamo ricette raccomandate per scenari diversi. Il nostro codice è disponibile all'indirizzo https://github.com/yuyijiong/sliding-window-attention-adaptation.
L'apprendimento multimodale ha rapidamente fatto progredire la comprensione visiva, principalmente attraverso i modelli linguistici multimodali di grandi dimensioni (MLLM) che utilizzano potenti LLM come nuclei cognitivi. Nella generazione visiva, tuttavia, questi potenti modelli centrali sono tipicamente ridotti a encoder di testo globali per i modelli di diffusione, lasciando inutilizzata la maggior parte delle loro capacità di ragionamento e pianificazione. Ciò crea un divario: gli attuali MLLM multimodali possono analizzare layout complessi, attributi e scene ad alta intensità di conoscenza, ma faticano a generare immagini o video con un controllo altrettanto preciso e strutturato. Proponiamo MetaCanvas, un framework leggero che consente agli MLLM di ragionare e pianificare direttamente negli spazi latenti spaziali e spazio-temporali e di interfacciarsi strettamente con i generatori di diffusione. Implementiamo empiricamente MetaCanvas su tre diversi backbone di diffusione e lo valutiamo in sei compiti, inclusi la generazione di immagini da testo, la generazione di video da testo/immagini, l'editing di immagini/video e la generazione di video in contesto, ciascuno dei quali richiede un controllo preciso dei layout, un robusto binding degli attributi e un controllo intensivo di ragionamento. MetaCanvas supera costantemente i baseline di condizionamento globale, suggerendo che trattare gli MLLM come pianificatori nello spazio latente sia una direzione promettente per colmare il divario tra comprensione e generazione multimodale.
I metodi di splatting basati su primitive come il 3D Gaussian Splatting hanno rivoluzionato la sintesi di nuove viste con rendering in tempo reale. Tuttavia, le loro rappresentazioni basate su punti rimangono incompatibili con le pipeline basate su mesh che alimentano i motori di AR/VR e videogiochi. Presentiamo MeshSplatting, un approccio di ricostruzione basato su mesh che ottimizza congiuntamente geometria e aspetto attraverso il rendering differenziabile. Applicando la connettività tramite triangolazione di Delaunay ristretta e perfezionando la coerenza superficiale, MeshSplatting crea mesh end-to-end lisce e di alta qualità visiva che si renderizzano efficientemente nei motori 3D in tempo reale. Su Mip-NeRF360, migliora il PSNR di +0,69 dB rispetto all'attuale stato dell'arte MiLo per la sintesi di nuove viste basata su mesh, addestrandosi 2 volte più velocemente e utilizzando 2 volte meno memoria, colmando il divario tra il rendering neurale e la grafica 3D interattiva per un'interazione scenica in tempo reale senza soluzione di continuità. La pagina del progetto è disponibile all'indirizzo https://meshsplatting.github.io/.
La realtà è una danza tra vincoli rigidi e strutture deformabili. Per i modelli video, ciò significa generare movimenti che preservino sia la fedeltà che la struttura. Nonostante i progressi nei modelli di diffusione, produrre movimenti realistici che preservino la struttura rimane una sfida, specialmente per oggetti articolati e deformabili come esseri umani e animali. Finora, il semplice aumento dei dati di addestramento non è riuscito a risolvere le transizioni fisicamente implausibili. Gli approcci esistenti si basano su condizionamenti con rappresentazioni di movimento rumorose, come il flusso ottico o gli scheletri estratti utilizzando un modello esterno imperfetto. Per affrontare queste sfide, introduciamo un algoritmo per distillare prior di movimento che preservano la struttura da un modello di tracking video autoregressivo (SAM2) in un modello di diffusione video bidirezionale (CogVideoX). Con il nostro metodo, addestriamo SAM2VideoX, che contiene due innovazioni: (1) un modulo di fusione delle feature bidirezionale che estrae prior di movimento globali che preservano la struttura da un modello ricorrente come SAM2; (2) una perdita Local Gram Flow che allinea il modo in cui le feature locali si muovono insieme. Esperimenti su VBench e studi umani mostrano che SAM2VideoX fornisce miglioramenti consistenti (+2,60% su VBench, FVD inferiore del 21-22% e preferenza umana del 71,4%) rispetto ai baseline precedenti. In particolare, su VBench, otteniamo il 95,51%, superando REPA (92,91%) del 2,60% e riduciamo l'FVD a 360,57, un miglioramento rispettivamente del 21,20% e del 22,46% rispetto a REPA e alla messa a punto LoRA. Il sito web del progetto è disponibile all'indirizzo https://sam2videox.github.io/.
Proponiamo LEO-RobotAgent, un framework di agenti intelligenti general-purpose guidati dal linguaggio per robot. Questo framework consente ai Large Language Model (LLM) di operare diversi tipi di robot per completare compiti complessi e imprevedibili in vari scenari. Il framework si caratterizza per una forte generalizzazione, robustezza ed efficienza. Il sistema a livello applicativo costruito attorno ad esso può potenziare completamente la comprensione bidirezionale delle intenzioni uomo-robot e abbassare la soglia per l'interazione uomo-robot. Per quanto riguarda la pianificazione dei compiti robotici, la stragrande maggioranza degli studi esistenti si concentra sull'applicazione di grandi modelli in scenari a compito singolo e per singoli tipi di robot. Questi algoritmi hanno spesso strutture complesse e mancano di generalizzabilità. Pertanto, il framework LEO-RobotAgent proposto è progettato con una struttura il più snella possibile, permettendo ai grandi modelli di pensare, pianificare e agire in modo indipendente all'interno di questa struttura chiara. Forniamo un set di strumenti modulare e di facile registrazione, che consente ai grandi modelli di richiamare flessibilmente vari strumenti per soddisfare diverse esigenze. Nel contempo, il framework incorpora un meccanismo di interazione uomo-robot, permettendo all'algoritmo di collaborare con gli esseri umani come un partner. Gli esperimenti hanno verificato che questo framework può essere facilmente adattato alle principali piattaforme robotiche, inclusi droni (UAV), bracci robotici e robot su ruote, ed eseguire efficientemente una varietà di compiti accuratamente progettati con diversi livelli di complessità. Il nostro codice è disponibile all'indirizzo https://github.com/LegendLeoChen/LEO-RobotAgent.
Il pre-addestramento dei moderni LLM consuma enormi quantità di potenza di calcolo e dati di addestramento, rendendo il comportamento di scaling, o le leggi di scaling, dei diversi modelli un fattore distintivo chiave. I modelli linguistici a diffusione discreta (DLM) sono stati proposti come alternativa ai modelli linguistici autoregressivi (ALM). Tuttavia, il loro comportamento di scaling non è stato ancora completamente esplorato, con lavori precedenti che suggeriscono che richiedono più dati e potenza di calcolo per eguagliare le prestazioni degli ALM. Studiamo il comportamento di scaling dei DLM su diversi tipi di rumore interpolando gradualmente tra la diffusione mascherata e quella uniforme, prestando particolare attenzione a iperparametri cruciali come la dimensione del batch e il tasso di apprendimento. I nostri esperimenti rivelano che il comportamento di scaling dei DLM dipende fortemente dal tipo di rumore ed è considerevolmente diverso da quello degli ALM. Sebbene tutti i tipi di rumore convergano a valori di loss simili nello scaling vincolato dal calcolo, scopriamo che la diffusione uniforme richiede più parametri e meno dati per un addestramento efficiente in termini computazionali rispetto alla diffusione mascherata, rendendola un candidato promettente in scenari vincolati dai dati. Scaliamo il nostro modello a diffusione uniforme fino a 10 miliardi di parametri addestrati per 10^{22} FLOP, confermando il comportamento di scaling previsto e rendendolo il più grande modello a diffusione uniforme pubblicamente noto fino ad oggi.
Presentiamo SHARP, un approccio per la sintesi di viste fotorealistiche a partire da una singola immagine. Dato un'unica fotografia, SHARP regredisce i parametri di una rappresentazione 3D tramite Gaussiane della scena raffigurata. Ciò avviene in meno di un secondo su una GPU standard mediante un singolo passaggio in avanti attraverso una rete neurale. La rappresentazione 3D con Gaussiane prodotta da SHARP può quindi essere renderizzata in tempo reale, generando immagini fotorealistiche ad alta risoluzione per punti di vista vicini. La rappresentazione è metrica, con scala assoluta, e supporta movimenti metrici della telecamera. I risultati sperimentali dimostrano che SHARP offre una robusta generalizzazione zero-shot su diversi dataset. Il metodo stabilisce un nuovo stato dell'arte su più dataset, riducendo l'LPIPS del 25-34% e il DISTS del 21-43% rispetto al miglior modello precedente, riducendo al contempo il tempo di sintesi di tre ordini di grandezza. Codice e pesi sono disponibili all'indirizzo https://github.com/apple/ml-sharp.
I grandi modelli linguistici (LLM) hanno rivoluzionato l'intelligenza artificiale, ma le loro enormi richieste di memoria e computazione rendono necessaria una quantizzazione aggressiva, spingendo sempre più le rappresentazioni verso il limite teorico del singolo bit. Sebbene i modelli linguistici a valori complessi, come iFairy, offrano una possibilità superiore di rappresentazione a basso numero di bit rispetto alle controparti a valori reali, richiedono un addestramento da zero, impedendo l'utilizzo del vasto ecosistema di modelli fondazione pre-addestrati a valori reali. Qui presentiamo Fairy2i, un framework universale che trasforma strati pre-addestrati a valori reali in una forma complessa a linearità ampia equivalente, consentendo una quantizzazione a numero di bit estremamente basso riutilizzando i checkpoint esistenti. Dimostrando un'equivalenza matematica senza perdite tra mappe reali e a linearità ampia, convertiamo i Transformer standard nel dominio complesso e impieghiamo uno schema di quantizzazione consapevole della fase con un codebook altamente efficiente delle radici quarte dell'unità. Inoltre, introduciamo un meccanismo di quantizzazione residua ricorsiva che minimizza iterativamente l'errore di quantizzazione, consentendo all'inferenza di procedere tramite un'accumulazione efficiente senza moltiplicazioni. Dimostriamo che Fairy2i ripristina le prestazioni di LLaMA-2 7B a una precisione effettiva di 2 bit a livelli quasi paragonabili ai baseline in precisione completa, superando significativamente i metodi di quantizzazione binaria e ternaria a valori reali all'avanguardia. Questo lavoro colma il divario tra l'efficienza rappresentativa dell'aritmetica a valori complessi e l'utilità pratica dei modelli pre-addestrati, aprendo una nuova strada per l'inferenza efficiente su hardware comune.
La valutazione LLM-as-judge è diventata lo standard de facto per scalare la valutazione dei modelli, ma questa pratica è statisticamente inaffidabile: punteggi non calibrati possono invertire le preferenze, gli intervalli di confidenza ingenui su punteggi non calibrati raggiungono una copertura prossima allo 0%, e gli stimatori importance-weighted collassano in caso di limited overlap nonostante un'elevata dimensione campionaria efficace (ESS). Introduciamo la Causal Judge Evaluation (CJE), un framework che corregge tutti e tre questi fallimenti. Su n=4.961 prompt di Chatbot Arena (dopo filtraggio da 5k), CJE raggiunge un'accuratezza di ranking pairwise del 99% a dimensione campionaria completa (94% in media tra le configurazioni), eguagliando la qualità di un oracolo, con un costo 14 volte inferiore (per classificare 5 policy) calibrando un giudice 16 volte più economico su appena il 5% di etichette oracolo (~250 etichette). CJE combina tre componenti: (i) AutoCal-R, calibrazione della reward tramite regressione isotonica mean-preserving; (ii) SIMCal-W, stabilizzazione dei pesi tramite stacking di candidati S-monotoni; e (iii) inferenza Oracle-Uncertainty Aware (OUA) che propaga l'incertezza di calibrazione negli intervalli di confidenza. Formalizziamo la diagnosi Coverage-Limited Efficiency (CLE), che spiega perché gli stimatori in stile IPS falliscono anche quando l'ESS supera il 90%: il logger visita raramente le regioni in cui le policy target si concentrano. Risultati chiave: SNIPS inverte i ranking anche con calibrazione della reward (38% pairwise, tau di Kendall negativo) a causa dell'instabilità dei pesi; IPS calibrato rimane quasi casuale (47%) nonostante la stabilizzazione dei pesi, in linea con CLE; OUA migliora la copertura da quasi 0% a ~86% (Direct) e ~96% (stacked-DR), mentre gli intervalli ingenui sottostimano gravemente la copertura.
Presentiamo Particulate, un approccio feed-forward che, dato un singolo mesh 3D statico di un oggetto comune, inferisce direttamente tutti gli attributi della struttura articolata sottostante, inclusi le sue parti 3D, la struttura cinematica e i vincoli di movimento. Il suo nucleo è una rete transformer, il Part Articulation Transformer, che elabora una nuvola di punti del mesh di input utilizzando un'architettura flessibile e scalabile per prevedere tutti gli attributi suddetti con supporto nativo per giunti multipli. Addestriamo la rete end-to-end su una raccolta diversificata di asset 3D articolati provenienti da dataset pubblici. Durante l'inferenza, Particulate eleva la previsione feed-forward della rete al mesh di input, producendo un modello 3D completamente articolato in pochi secondi, molto più velocemente delle approcci precedenti che richiedono un'ottimizzazione per oggetto. Particulate può anche inferire con precisione la struttura articolata di asset 3D generati dall'IA, abilitando l'estrazione completa di oggetti 3D articolati da una singola immagine (reale o sintetica) quando combinato con un generatore immagine-3D standard. Introduciamo inoltre un nuovo benchmark impegnativo per la stima dell'articolazione 3D, curato da asset 3D pubblici di alta qualità, e ridisegniamo il protocollo di valutazione per renderlo più coerente con le preferenze umane. I risultati quantitativi e qualitativi mostrano che Particulate supera significativamente gli approcci all'avanguardia.
I modelli stereo di base (foundation models) raggiungono una forte generalizzazione zero-shot ma rimangono computazionalmente proibitivi per applicazioni in tempo reale. Le architetture stereo efficienti, d'altro canto, sacrificano la robustezza a favore della velocità e richiedono una costosa messa a punto (fine-tuning) per ogni dominio. Per colmare questa lacuna, presentiamo Fast-FoundationStereo, una famiglia di architetture che raggiunge, per la prima volta, una solida generalizzazione zero-shot a una frequenza fotogrammi (frame rate) in tempo reale. Adottiamo una strategia di accelerazione divide-et-impera con tre componenti: (1) distillazione della conoscenza (knowledge distillation) per comprimere il backbone ibrido in un singolo studente efficiente; (2) ricerca dell'architettura neurale (neural architecture search) a blocchi per scoprire automaticamente progetti ottimali di filtraggio dei costi (cost filtering) sotto vincoli di latenza, riducendo esponenzialmente la complessità della ricerca; e (3) potatura strutturata (structured pruning) per eliminare la ridondanza nel modulo di raffinamento iterativo. Inoltre, introduciamo una pipeline automatica di pseudo-etichettatura (pseudo-labeling) utilizzata per curare 1,4 milioni di coppie stereo del mondo reale (in-the-wild) per integrare i dati di addestramento sintetici e facilitare la distillazione della conoscenza. Il modello risultante può essere eseguito oltre 10 volte più velocemente di FoundationStereo, avvicinandosi alla sua accuratezza zero-shot, stabilendo così un nuovo stato dell'arte tra i metodi in tempo reale. Pagina del progetto: https://nvlabs.github.io/Fast-FoundationStereo/
Presentiamo una politica visione-azione che si è aggiudicata il primo posto nella BEHAVIOR Challenge 2025, un benchmark su larga scala che comprende 50 diverse attività domestiche a lungo orizzonte in simulazione fotorealistica, richiedendo manipolazione bimanuale, navigazione e processi decisionali contestuali. Basandoci sull'architettura Pi0.5, introduciamo diverse innovazioni. Il nostro contributo principale è l'utilizzo di rumore correlato per il flow matching, che migliora l'efficienza dell'addestramento e abilita un inpainting consapevole delle correlazioni per sequenze di azioni fluide. Applichiamo inoltre un'attenzione a strati misti apprendibili e un tracking a stadi di Sistema 2 per la risoluzione di ambiguità. L'addestramento impiega il multi-sample flow matching per ridurre la varianza, mentre l'inferenza utilizza la compressione delle azioni e regole di correzione specifiche per la challenge. Il nostro approccio raggiunge un q-score del 26% su tutte le 50 attività sia nella classifica pubblica che in quella privata.
L'integrazione di modelli linguistici (LM) nei sistemi sanitari promette notevoli miglioramenti nei flussi di lavoro medici e nei processi decisionali. Tuttavia, una barriera critica per la loro adozione nel mondo reale è la mancanza di una valutazione affidabile della loro attendibilità, specialmente in contesti sanitari multilingue. Gli LM esistenti sono addestrati prevalentemente su lingue ad alte risorse, il che li rende impreparati a gestire la complessità e la diversità delle richieste sanitarie in lingue a risorse medie e scarse, ponendo sfide significative per il loro dispiegamento in contesti sanitari globali dove la diversità linguistica è cruciale. In questo lavoro, presentiamo CLINIC, un benchmark multilingue completo per valutare l'affidabilità dei modelli linguistici in ambito sanitario. CLINIC analizza sistematicamente gli LM lungo cinque dimensioni chiave dell'affidabilità: veridicità, equità, sicurezza, robustezza e privacy, operazionalizzate attraverso 18 compiti diversi, che coprono 15 lingue (abbracciando tutti i continenti principali) e comprendono una vasta gamma di argomenti sanitari critici come condizioni patologiche, azioni preventive, test diagnostici, trattamenti, interventi chirurgici e farmaci. La nostra valutazione estensiva rivela che gli LM hanno difficoltà con la correttezza fattuale, dimostrano pregiudizi tra gruppi demografici e linguistici, e sono suscettibili a violazioni della privacy e ad attacchi avversari. Mettendo in luce queste carenze, CLINIC getta le basi per potenziare la portata globale e la sicurezza degli LM in ambito sanitario attraverso le diverse lingue.
Gli esseri umani possono parallelizzare intuitivamente attività complesse, ma un modello può impararlo osservando una singola persona? Dato un video egocentrico, introduciamo il Problema degli N-Corpi: come N individui potrebbero ipoteticamente eseguire lo stesso insieme di compiti osservati in questo video. L'obiettivo è massimizzare lo speed-up, ma l'assegnazione ingenua di segmenti video a diversi individui viola spesso i vincoli del mondo reale, portando a scenari fisicamente impossibili come due persone che usano lo stesso oggetto o occupano lo stesso spazio. Per affrontare ciò, formalizziamo il Problema degli N-Corpi e proponiamo una serie di metriche per valutare sia le prestazioni (speed-up, copertura dei compiti) che la fattibilità (collisioni spaziali, conflitti sugli oggetti e vincoli causali). Introduciamo quindi una strategia di prompting strutturato che guida un Modello Visione-Linguaggio (VLM) a ragionare sull'ambiente 3D, l'uso degli oggetti e le dipendenze temporali per produrre un'esecuzione parallela fattibile. Su 100 video di EPIC-Kitchens e HD-EPIC, il nostro metodo per N = 2 aumenta la copertura delle azioni del 45% rispetto a un prompt baseline per Gemini 2.5 Pro, riducendo simultaneamente i tassi di collisione, i conflitti su oggetti e quelli causali rispettivamente del 55%, 45% e 55%.
La stima dell'incertezza è essenziale per un impiego clinico sicuro dei sistemi di segmentazione di immagini mediche, poiché consente l'identificazione di previsioni inaffidabili e supporta la supervisione umana. Sebbene i lavori precedenti si siano concentrati prevalentemente sull'incertezza a livello di pixel, la segmentazione basata su landmark offre garanzie topologiche intrinseche, ma rimane ancora poco esplorata da una prospettiva di incertezza. In questo lavoro, studiamo la stima dell'incertezza per la segmentazione basata su landmark anatomici nelle radiografie del torace. Ispirati dalle architetture ibride di reti neurali che combinano encoder convoluzionali standard per immagini con decoder generativi basati su grafi, e sfruttandone lo spazio latente variazionale, deriviamo due misure complementari: (i) l'incertezza latente, catturata direttamente dai parametri della distribuzione appresa, e (ii) l'incertezza predittiva, ottenuta generando multiple previsioni di output stocastiche da campioni latenti. Attraverso esperimenti di corruzione controllata mostriamo che entrambe le misure di incertezza aumentano con la gravità della perturbazione, riflettendo sia un degrado globale che locale. Dimostriamo che questi segnali di incertezza possono identificare previsioni inaffidabili confrontandole con ground-truth manuali e supportano il rilevamento di dati fuori distribuzione sul dataset CheXmask. Ancora più importante, rilasciamo CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U), un dataset su larga scala di 657.566 segmentazioni di landmark di radiografie del torace con stime di incertezza per nodo, che consente ai ricercatori di tenere conto delle variazioni spaziali nella qualità della segmentazione quando utilizzano queste maschere anatomiche. I nostri risultati stabiliscono la stima dell'incertezza come una direzione promettente per migliorare la robustezza e l'impiego sicuro dei metodi di segmentazione anatomica basati su landmark nelle radiografie del torace. Una demo interattiva completamente funzionante del metodo è disponibile all'indirizzo huggingface.co/spaces/matiasky/CheXmask-U e il codice sorgente su github.com/mcosarinsky/CheXmask-U.
L'analisi di corpora testuali su larga scala rappresenta una sfida centrale nell'apprendimento automatico, cruciale per compiti come l'identificazione di comportamenti indesiderati dei modelli o di bias nei dati di addestramento. I metodi attuali si basano spesso su tecniche costose basate su LLM (ad esempio, l'annotazione delle differenze tra dataset) o su modelli di embedding densi (ad esempio, per il clustering), che non consentono un controllo sulle proprietà di interesse. Proponiamo l'uso di autoencoder sparsi (SAE) per creare SAE embedding: rappresentazioni le cui dimensioni mappano concetti interpretabili. Attraverso quattro compiti di analisi dei dati, dimostriamo che gli SAE embedding sono più convenienti e affidabili degli LLM e più controllabili degli embedding densi. Sfruttando il grande spazio delle ipotesi degli SAE, possiamo scoprire insight come (1) differenze semantiche tra dataset e (2) correlazioni inaspettate tra concetti nei documenti. Ad esempio, confrontando le risposte dei modelli, scopriamo che Grok-4 chiarisce le ambiguità più spesso di altri nove modelli all'avanguardia. Rispetto agli LLM, gli SAE embedding rilevano differenze più ampie con un costo inferiore di 2-8x e identificano i bias in modo più affidabile. Inoltre, gli SAE embedding sono controllabili: filtrando i concetti, possiamo (3) raggruppare i documenti lungo assi di interesse e (4) superare gli embedding densi nel retrieval basato su proprietà. Utilizzando gli SAE embedding, studiamo il comportamento del modello con due case study: investigando come il comportamento dei modelli OpenAI sia cambiato nel tempo e individuando frasi "trigger" apprese da Tulu-3 (Lambert et al., 2024) dai suoi dati di addestramento. Questi risultati posizionano gli SAE come uno strumento versatile per l'analisi di dati non strutturati e sottolineano l'importanza trascurata di interpretare i modelli attraverso i loro dati.