Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'OCR per documenti in arabo rimane un compito impegnativo a causa della scrittura corsiva della lingua, dei caratteri tipografici vari, dei segni diacritici e dell'orientamento da destra a sinistra. Sebbene i moderni Modelli Linguistici Multimodali (MLLM) abbiano fatto progressi nella comprensione dei documenti per le lingue ad alta risorsa, le loro prestazioni sull'arabo rimangono limitate. In questo lavoro, presentiamo Baseer, un modello visione-linguaggio fine-tuned specificamente per l'OCR di documenti in arabo. Sfruttando un ampio dataset che combina documenti sintetici e del mondo reale, Baseer viene addestrato utilizzando una strategia di fine-tuning decoder-only per adattare un MLLM pre-addestrato preservando le caratteristiche visive generali. Presentiamo inoltre Misraj-DocOCR, un benchmark di alta qualità verificato da esperti, progettato per una valutazione rigorosa dei sistemi OCR per l'arabo. I nostri esperimenti dimostrano che Baseer supera significativamente le soluzioni open-source e commerciali esistenti, raggiungendo un WER di 0,25 e stabilendo un nuovo stato dell'arte nel campo dell'OCR per documenti in arabo. I nostri risultati evidenziano i vantaggi dell'adattamento specifico per dominio di MLLM generici e stabiliscono una solida baseline per un OCR ad alta precisione su lingue morfologicamente ricche come l'arabo.
La crescente disparità tra la scalabilità esponenziale delle risorse computazionali e la crescita limitata di dati testuali di alta qualità ora limita gli approcci convenzionali di scalabilità per i grandi modelli linguistici (LLM). Per affrontare questa sfida, introduciamo il Reinforcement Learning on Pre-Training data (RLPT), un nuovo paradigma di scalabilità durante l'addestramento per ottimizzare gli LLM. A differenza degli approcci precedenti che scalano l'addestramento principalmente attraverso l'apprendimento supervisionato, RLPT consente alla policy di esplorare autonomamente traiettorie significative per apprendere dai dati di pre-addestramento e migliorare le proprie capacità attraverso il reinforcement learning (RL). Mentre le strategie RL esistenti, come il reinforcement learning from human feedback (RLHF) e il reinforcement learning with verifiable rewards (RLVR), si basano sull'annotazione umana per la costruzione delle ricompense, RLPT elimina questa dipendenza derivando i segnali di ricompensa direttamente dai dati di pre-addestramento. Nello specifico, adotta un obiettivo di ragionamento sul segmento successivo, premiando la policy per la previsione accurata dei segmenti testuali successivi condizionati dal contesto precedente. Questa formulazione consente di scalare il RL sui dati di pre-addestramento, incoraggiando l'esplorazione di traiettorie più ricche in contesti più ampi e favorendo così capacità di ragionamento più generalizzabili. Esperimenti estesi su benchmark di ragionamento generale e matematico su più modelli convalidano l'efficacia di RLPT. Ad esempio, applicato a Qwen3-4B-Base, RLPT produce miglioramenti assoluti di 3.0, 5.1, 8.1, 6.0, 6.6 e 5.3 rispettivamente su MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 e AIME25. I risultati dimostrano inoltre un comportamento di scalabilità favorevole, suggerendo un forte potenziale per ulteriori guadagni con più risorse computazionali. Inoltre, RLPT fornisce una solida base, estendendo i confini del ragionamento degli LLM e migliorando le prestazioni di RLVR.
Le politiche visuomotorie basate sull'apprendimento per imitazione sono ampiamente utilizzate nella manipolazione robotica, dove tipicamente vengono adottate insieme osservazioni visive e stati propriocettivi per un controllo preciso. Tuttavia, in questo studio, scopriamo che questa pratica comune rende la politica eccessivamente dipendente dall'input dello stato propriocettivo, causando un overfitting rispetto alle traiettorie di addestramento e portando a una scarsa generalizzazione spaziale. Al contrario, proponiamo la Politica senza Stato, rimuovendo l'input dello stato propriocettivo e prevedendo azioni condizionate solo sulle osservazioni visive. La Politica senza Stato è costruita nello spazio relativo delle azioni dell'effettore finale e dovrebbe garantire osservazioni visive complete e rilevanti per il compito, qui fornite da doppie telecamere grandangolari montate sul polso. I risultati empirici dimostrano che la Politica senza Stato raggiunge una generalizzazione spaziale significativamente più forte rispetto alla politica basata sullo stato: in compiti del mondo reale come il pick-and-place, la complessa piegatura di una camicia e la manipolazione complessa di tutto il corpo, che coinvolgono molteplici incarnazioni di robot, il tasso di successo medio migliora dallo 0\% all'85\% nella generalizzazione in altezza e dal 6\% al 64\% nella generalizzazione orizzontale. Inoltre, mostrano anche vantaggi in termini di efficienza dei dati e adattamento cross-incarnazione, migliorando la loro praticità per il dispiegamento nel mondo reale.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) stanno registrando progressi rapidi e rappresentano l'avanguardia dello sviluppo dell'IA. Tuttavia, l'efficienza nel loro addestramento e inferenza è emersa come un collo di bottiglia fondamentale per rendere gli MLLMs più accessibili e scalabili. Per affrontare queste sfide, presentiamo MiniCPM-V 4.5, un modello da 8 miliardi di parametri progettato per alta efficienza e prestazioni robuste. Introduciamo tre miglioramenti chiave nell'architettura del modello, nella strategia dei dati e nel metodo di addestramento: un'architettura unificata 3D-Resampler per una codifica altamente compatta di immagini e video, un paradigma di apprendimento unificato per la conoscenza documentale e il riconoscimento del testo senza la necessità di un'ingegnerizzazione pesante dei dati, e una strategia ibrida di apprendimento per rinforzo per competenza sia nei modi di ragionamento brevi che lunghi. I risultati sperimentali completi nella valutazione OpenCompass mostrano che MiniCPM-V 4.5 supera modelli proprietari ampiamente utilizzati come GPT-4o-latest, e modelli open-source significativamente più grandi come Qwen2.5-VL 72B. È degno di nota che queste prestazioni robuste siano raggiunte con un'efficienza straordinaria. Ad esempio, sul benchmark VideoMME ampiamente adottato, MiniCPM-V 4.5 raggiunge prestazioni all'avanguardia tra i modelli di dimensioni inferiori a 30 miliardi, utilizzando solo il 46,7% del costo della memoria GPU e l'8,7% del tempo di inferenza rispetto a Qwen2.5-VL 7B.
Comprendere e ragionare su interi repository software è una capacità essenziale per strumenti di ingegneria del software intelligenti. Sebbene benchmark esistenti come CoSQA e CodeQA abbiano fatto progredire il campo, si concentrano prevalentemente su piccoli frammenti di codice autosufficienti. Queste configurazioni non riescono a catturare la complessità dei repository del mondo reale, dove una comprensione e un ragionamento efficaci spesso richiedono la navigazione tra più file, la comprensione dell'architettura software e l'ancoraggio delle risposte a dipendenze di codice a lungo raggio. In questo articolo, presentiamo SWE-QA, un benchmark di risposta alle domande (QA) a livello di repository progettato per facilitare la ricerca su sistemi QA automatizzati in ambienti di codice realistici. SWE-QA comprende 576 coppie domanda-risposta di alta qualità che abbracciano diverse categorie, tra cui la comprensione delle intenzioni, il ragionamento tra file e l'analisi delle dipendenze multi-hop. Per costruire SWE-QA, abbiamo prima raccolto 77.100 issue da 11 repository popolari su GitHub. Sulla base di un'analisi delle domande naturalmente poste dagli sviluppatori estratte da queste issue, abbiamo sviluppato una tassonomia a due livelli per le domande a livello di repository e costruito un insieme di domande iniziali per ciascuna categoria. Per ogni categoria, abbiamo curato e validato manualmente le domande e raccolto le risposte corrispondenti. Come applicazione prototipo, abbiamo ulteriormente sviluppato SWE-QA-Agent, un framework agentico in cui gli agenti LLM ragionano e agiscono per trovare risposte automaticamente. Valutiamo sei LLM avanzati su SWE-QA utilizzando varie strategie di arricchimento del contesto. I risultati sperimentali evidenziano il potenziale degli LLM, in particolare del nostro framework SWE-QA-Agent, nell'affrontare QA a livello di repository, rivelando al contempo sfide aperte e indicando direzioni future per la ricerca.
Il ragionamento visivo-spaziale (Visual Spatial Reasoning, VSR) è un'abilità cognitiva umana fondamentale e un requisito critico per lo sviluppo dell'intelligenza incarnata e dei sistemi autonomi. Nonostante i recenti progressi nei modelli visione-linguaggio (Vision-Language Models, VLMs), raggiungere un livello umano di VSR rimane estremamente impegnativo a causa della complessità nella rappresentazione e nel ragionamento sullo spazio tridimensionale. In questo articolo, presentiamo un'indagine sistematica del VSR nei VLMs, che include una revisione delle metodologie esistenti riguardanti le modalità di input, le architetture dei modelli, le strategie di addestramento e i meccanismi di ragionamento. Inoltre, categorizziamo l'intelligenza spaziale in tre livelli di capacità, ovvero percezione di base, comprensione spaziale e pianificazione spaziale, e curiamo SIBench, un benchmark di intelligenza spaziale che comprende quasi 20 dataset open-source in 23 contesti di task. Gli esperimenti condotti con i VLMs più avanzati rivelano un divario significativo tra percezione e ragionamento, poiché i modelli dimostrano competenza nei task percettivi di base ma costantemente sottoperformano nei task di comprensione e pianificazione, in particolare nella stima numerica, nel ragionamento multi-vista, nelle dinamiche temporali e nell'immaginazione spaziale. Questi risultati evidenziano le sfide sostanziali che rimangono nel raggiungere l'intelligenza spaziale, fornendo al contempo una roadmap sistematica e un benchmark completo per guidare la ricerca futura in questo campo. Le risorse correlate di questo studio sono accessibili all'indirizzo https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
I recenti progressi nell'apprendimento per rinforzo per modelli di base, come l'ottimizzazione delle politiche relative ai gruppi (GRPO), hanno migliorato significativamente le prestazioni dei modelli di base nei compiti di ragionamento. In particolare, la funzione di vantaggio rappresenta un meccanismo centrale nel GRPO per classificare l'importanza delle traiettorie. Tuttavia, le esplorazioni esistenti incontrano sia il problema della reversione del vantaggio che quello dello specchio del vantaggio, che ostacolano un'allocazione ragionevole del vantaggio tra diversi campioni di query. In questo lavoro, proponiamo una strategia GRPO semplice ma efficace, l'ottimizzazione delle politiche con vantaggio misto (MAPO). Riveliamo che la traiettoria si presenta con diversa certezza e proponiamo la deviazione percentuale del vantaggio per campioni con traiettorie ad alta certezza. Inoltre, rivalutiamo dinamicamente la funzione di vantaggio per campioni con diversa certezza della traiettoria, configurando così in modo adattivo la funzione di vantaggio per tenere conto delle caratteristiche specifiche del campione. Il confronto con i metodi correlati all'avanguardia, insieme a studi di ablazione su diverse varianti del vantaggio, convalida l'efficacia del nostro approccio.
Il Feed-forward 3D Gaussian Splatting (3DGS) è emerso come una soluzione altamente efficace per la sintesi di nuove viste. I metodi esistenti si basano prevalentemente su un paradigma di predizione Gaussiana allineata ai pixel, in cui ogni pixel 2D viene mappato su una Gaussiana 3D. Riconsideriamo questa formulazione ampiamente adottata e identifichiamo diverse limitazioni intrinseche: rende i modelli 3D ricostruiti fortemente dipendenti dal numero di viste di input, porta a distribuzioni di densità distorte dalla vista e introduce errori di allineamento, specialmente quando le viste sorgente contengono occlusioni o texture scarse. Per affrontare queste sfide, introduciamo VolSplat, un nuovo paradigma feed-forward multi-vista che sostituisce l'allineamento ai pixel con Gaussiane allineate ai voxel. Predicendo direttamente le Gaussiane da una griglia 3D di voxel prevista, supera la dipendenza dell'allineamento ai pixel da un'accoppiamento di feature 2D soggetto a errori, garantendo una robusta coerenza multi-vista. Inoltre, consente un controllo adattivo sulla densità delle Gaussiane basato sulla complessità della scena 3D, producendo nuvole di punti Gaussiane più fedeli, una migliore coerenza geometrica e una qualità superiore nel rendering di nuove viste. Gli esperimenti su benchmark ampiamente utilizzati, come RealEstate10K e ScanNet, dimostrano che VolSplat raggiunge prestazioni all'avanguardia, producendo ricostruzioni Gaussiane più plausibili e coerenti tra le viste. Oltre a risultati superiori, il nostro approccio stabilisce un framework più scalabile per la ricostruzione 3D feed-forward con rappresentazioni più dense e robuste, aprendo la strada a ulteriori ricerche in comunità più ampie. I risultati video, il codice e i modelli addestrati sono disponibili sulla nostra pagina del progetto: https://lhmd.top/volsplat.
La capacità di generare ambienti virtuali è cruciale per applicazioni che spaziano dai giochi ai domini dell'IA fisica come la robotica, la guida autonoma e l'IA industriale. Gli attuali metodi di ricostruzione 3D basati sull'apprendimento si affidano alla disponibilità di dati multi-vista catturati dal mondo reale, che non sono sempre facilmente accessibili. I recenti progressi nei modelli di diffusione video hanno dimostrato notevoli capacità immaginative, ma la loro natura 2D limita le applicazioni alla simulazione in cui un robot deve navigare e interagire con l'ambiente. In questo articolo, proponiamo un framework di auto-distillazione che mira a distillare la conoscenza 3D implicita nei modelli di diffusione video in una rappresentazione esplicita di 3D Gaussian Splatting (3DGS), eliminando la necessità di dati di addestramento multi-vista. Nello specifico, integriamo il tipico decoder RGB con un decoder 3DGS, supervisionato dall'output del decoder RGB. In questo approccio, il decoder 3DGS può essere addestrato esclusivamente con dati sintetici generati da modelli di diffusione video. Al momento dell'inferenza, il nostro modello può sintetizzare scene 3D da un prompt testuale o da una singola immagine per il rendering in tempo reale. Il nostro framework si estende ulteriormente alla generazione di scene 3D dinamiche da un video monoculare in input. I risultati sperimentali dimostrano che il nostro framework raggiunge prestazioni all'avanguardia nella generazione di scene 3D statiche e dinamiche.
I grandi modelli di ragionamento (LRM) dedicano una quantità significativa di risorse computazionali durante il test a lunghe tracce di ragionamento a catena (CoT), ma ciò che *caratterizza* una CoT efficace rimane poco chiaro. Mentre lavori precedenti riportano miglioramenti derivanti dall'allungamento delle CoT e dall'aumento della revisione (rivisitazione dei passaggi precedenti) tramite l'aggiunta di token di *attesa*, studi recenti suggeriscono che un ragionamento più breve può superare tracce più lunghe. Pertanto, conduciamo una valutazione sistematica su dieci LRM nel contesto del ragionamento matematico e scientifico. Contrariamente alla narrativa del "più lungo è meglio", scopriamo che sia l'allungamento ingenuo delle CoT sia l'aumento della revisione sono associati a una precisione *inferiore*. Man mano che la CoT si sviluppa passo dopo passo, le metriche a livello di token possono confondere la verbosità con la qualità del processo. Introduciamo una visione a grafo della CoT per estrarne la struttura e identificare una singola statistica—la *Frazione di Passaggi Falliti (FSF)*, la frazione di passaggi nei rami abbandonati—che supera costantemente la lunghezza e il rapporto di revisione nel predire la correttezza tra i modelli. Per indagare la causalità, progettiamo due interventi. Primo, classifichiamo le CoT candidate in base a ciascuna metrica durante il test, dove la FSF produce i maggiori guadagni in termini di pass@1; secondo, modifichiamo le CoT rimuovendo i rami falliti, il che migliora significativamente la precisione, indicando che i rami falliti influenzano negativamente il ragionamento successivo. Nel complesso, questi risultati caratterizzano le CoT efficaci come quelle che *falliscono meno* e supportano un ridimensionamento durante il test *consapevole della struttura* rispetto alla generazione indiscriminata di CoT lunghe.
I modelli multimodali unificati hanno recentemente attirato notevole attenzione per le loro straordinarie capacità di comprendere e generare congiuntamente contenuti diversificati. Tuttavia, man mano che i contesti integrano un numero crescente di token multimodali intervallati, i processi iterativi di denoising diffusivo e decodifica autoregressiva impongono un significativo sovraccarico computazionale. Per affrontare questo problema, proponiamo Hyper-Bagel, un framework di accelerazione unificato progettato per velocizzare simultaneamente sia i task di comprensione che di generazione multimodale. Il nostro approccio utilizza una strategia divide-et-impera, impiegando la decodifica speculativa per la previsione del token successivo e un processo di distillazione multi-stadio per il denoising diffusivo. Il framework offre sostanziali miglioramenti delle prestazioni, raggiungendo un incremento di velocità superiore a 2x nella comprensione multimodale. Per i task generativi, il nostro modello 6-NFE senza perdite produce un incremento di velocità di 16,67x nella generazione di immagini da testo e di 22x nell'editing di immagini, mantenendo comunque l'alta qualità dell'output del modello originale. Abbiamo inoltre sviluppato un modello 1-NFE altamente efficiente che consente editing e generazione interattivi quasi in tempo reale. Combinando la distillazione avversaria avanzata con l'apprendimento basato sul feedback umano, questo modello raggiunge la massima efficienza in termini di costi e reattività, rendendo le interazioni multimodali complesse fluide e istantanee.
Questo articolo introduce CommonForms, un dataset su scala web per il rilevamento di campi di modulo. Trasforma il problema del rilevamento dei campi di modulo in un problema di rilevamento di oggetti: data un'immagine di una pagina, prevedere la posizione e il tipo (Input di Testo, Pulsante di Scelta, Firma) dei campi di modulo. Il dataset è stato costruito filtrando Common Crawl per trovare PDF che contengono elementi compilabili. Partendo da 8 milioni di documenti, il processo di filtraggio è stato utilizzato per ottenere un dataset finale di circa 55k documenti che contengono oltre 450k pagine. L'analisi mostra che il dataset contiene una miscela diversificata di lingue e domini; un terzo delle pagine è in lingue diverse dall'inglese, e tra i 14 domini classificati, nessun dominio rappresenta più del 25% del dataset. Inoltre, questo articolo presenta una famiglia di rilevatori di campi di modulo, FFDNet-Small e FFDNet-Large, che raggiungono una precisione media molto elevata sul set di test di CommonForms. Ogni modello è costato meno di $500 per l'addestramento. I risultati di ablazione mostrano che input ad alta risoluzione sono cruciali per un rilevamento di alta qualità dei campi di modulo, e che il processo di pulizia migliora l'efficienza dei dati rispetto all'utilizzo di tutti i PDF con campi compilabili presenti in Common Crawl. Un'analisi qualitativa mostra che superano un popolare lettore PDF commerciale in grado di preparare moduli. A differenza delle soluzioni commerciali più popolari, FFDNet può prevedere caselle di controllo oltre ai campi di testo e firma. Questo è, a nostra conoscenza, il primo dataset su larga scala rilasciato per il rilevamento dei campi di modulo, nonché i primi modelli open source. Il dataset, i modelli e il codice saranno rilasciati su https://github.com/jbarrow/commonforms.
L'uso di token continui invece di token discreti durante la fase di ragionamento a catena di pensiero (Chain-of-Thought, CoT) nei modelli linguistici di grandi dimensioni (LLMs) ha attirato recentemente l'attenzione, basandosi sull'intuizione che una miscela continua di token discreti potrebbe simulare una sovrapposizione di diversi percorsi di ragionamento simultaneamente. Risultati teorici hanno formalmente dimostrato che i token continui hanno una capacità espressiva molto maggiore e possono risolvere problemi specifici in modo più efficiente. Tuttavia, l'uso pratico dei token continui è stato limitato da forti difficoltà di addestramento: lavori precedenti utilizzano i token continui solo al momento dell'inferenza su un modello pre-addestrato con token discreti, oppure devono distillare il CoT continuo da CoT discreti di riferimento e affrontano costi computazionali che limitano il CoT a un numero molto ridotto di token. Questo è il primo lavoro che introduce un metodo scalabile per apprendere CoT continui tramite apprendimento per rinforzo (Reinforcement Learning, RL), senza distillazione da CoT discreti di riferimento. Utilizziamo token "soft": miscele di token insieme a rumore sull'embedding di input per fornire esplorazione RL. Il sovraccarico computazionale è minimo, consentendoci di apprendere CoT continui con centinaia di token. Su benchmark di ragionamento matematico con modelli Llama e Qwen fino a 8B, l'addestramento con CoT continui eguaglia i CoT con token discreti per pass@1 e li supera per pass@32, mostrando una maggiore diversità nei CoT. In confronti sistematici, lo scenario con le migliori prestazioni è addestrare con token CoT continui e poi utilizzare token discreti per l'inferenza, il che significa che i modelli "soft" possono essere distribuiti in modo standard. Infine, dimostriamo che l'addestramento RL con CoT continui preserva meglio le previsioni del modello base su task fuori dominio, fornendo così un tocco più delicato al modello base.
Recentemente, il 3D Gaussian Splatting (3DGS) è emerso come una valida alternativa agli approcci basati su NeRF, consentendo la sintesi di nuove viste in tempo reale e di alta qualità attraverso Gaussiane 3D esplicite e ottimizzabili. Tuttavia, il 3DGS soffre di un significativo sovraccarico di memoria a causa della sua dipendenza da parametri per-Gaussiana per modellare effetti dipendenti dalla vista e forme anisotrope. Sebbene lavori recenti propongano di comprimere il 3DGS con campi neurali, questi metodi faticano a catturare variazioni spaziali ad alta frequenza nelle proprietà delle Gaussiane, portando a una ricostruzione degradata dei dettagli fini. Presentiamo Hybrid Radiance Fields (HyRF), una nuova rappresentazione di scena che combina i punti di forza delle Gaussiane esplicite e dei campi neurali. HyRF scompone la scena in (1) un insieme compatto di Gaussiane esplicite che memorizzano solo i parametri critici ad alta frequenza e (2) campi neurali basati su griglia che predicono le proprietà rimanenti. Per migliorare la capacità rappresentativa, introduciamo un'architettura di campo neurale disaccoppiata, modellando separatamente la geometria (scala, opacità, rotazione) e il colore dipendente dalla vista. Inoltre, proponiamo uno schema di rendering ibrido che combina il Gaussian splatting con uno sfondo predetto da un campo neurale, affrontando le limitazioni nella rappresentazione di scene distanti. Gli esperimenti dimostrano che HyRF raggiunge una qualità di rendering all'avanguardia riducendo le dimensioni del modello di oltre 20 volte rispetto al 3DGS e mantenendo prestazioni in tempo reale. La nostra pagina del progetto è disponibile all'indirizzo https://wzpscott.github.io/hyrf/.
I dialetti rappresentano una componente significativa della cultura umana e sono presenti in tutte le regioni del mondo. In Germania, oltre il 40% della popolazione parla un dialetto regionale (Adler e Hansen, 2022). Tuttavia, nonostante la loro importanza culturale, gli individui che parlano dialetti spesso affrontano stereotipi sociali negativi. Esaminiamo se tali stereotipi siano riflessi dai grandi modelli linguistici (LLM). Attingiamo alla letteratura sociolinguistica sulla percezione dei dialetti per analizzare i tratti comunemente associati ai parlanti dialettali. Sulla base di questi tratti, valutiamo il bias nella denominazione dei dialetti e il bias nell'uso dei dialetti espresso dagli LLM in due compiti: un compito di associazione e un compito decisionale. Per valutare il bias nell'uso dei dialetti da parte di un modello, costruiamo un nuovo corpus di valutazione che accoppia frasi di sette dialetti regionali tedeschi (ad esempio, alemanno e bavarese) con le loro controparti in tedesco standard. Scopriamo che: (1) nel compito di associazione, tutti gli LLM valutati mostrano un significativo bias nella denominazione e nell'uso dei dialetti contro i parlanti di dialetti tedeschi, riflesso in associazioni aggettivali negative; (2) tutti i modelli riproducono questi bias nella denominazione e nell'uso dei dialetti nelle loro decisioni; e (3) contrariamente a lavori precedenti che mostravano un bias minimo con menzioni esplicite di dati demografici, troviamo che etichettare esplicitamente i dati demografici linguistici—i parlanti di dialetti tedeschi—amplifica il bias più di segnali impliciti come l'uso del dialetto.
La modellazione generativa condizionale mira a apprendere una distribuzione di dati condizionata a partire da campioni contenenti coppie di dati e condizioni. A tal fine, i metodi basati su diffusione e flussi hanno ottenuto risultati convincenti. Questi metodi utilizzano un modello (di flusso) appreso per trasportare un rumore gaussiano standard iniziale, che ignora la condizione, verso la distribuzione di dati condizionata. Il modello è quindi tenuto a apprendere sia il trasporto di massa che l'iniezione condizionale. Per alleviare la richiesta sul modello, proponiamo il Riparametrizzamento Condizionato per il Flow Matching (CAR-Flow) — uno spostamento leggero e appreso che condiziona la distribuzione sorgente, quella target, o entrambe. Rilocando queste distribuzioni, CAR-Flow accorcia il percorso di probabilità che il modello deve apprendere, portando a un addestramento più rapido nella pratica. Su dati sintetici a bassa dimensionalità, visualizziamo e quantifichiamo gli effetti di CAR. Su dati di immagini naturali a dimensionalità più elevata (ImageNet-256), equipaggiare SiT-XL/2 con CAR-Flow riduce l'FID da 2.07 a 1.68, introducendo meno dello 0.6% di parametri aggiuntivi.
La scarsità di dati rimane uno dei fattori più limitanti nel guidare il progresso della robotica. Tuttavia, la quantità di dati robotici disponibili in contesti reali sta crescendo in modo esponenziale, creando nuove opportunità per l'utilizzo su larga scala dei dati. Una previsione affidabile del completamento temporale delle attività potrebbe aiutare a annotare e curare automaticamente questi dati su vasta scala. Recentemente è stato proposto l'approccio Generative Value Learning (GVL), che sfrutta la conoscenza incorporata nei modelli vision-language (VLM) per prevedere l'avanzamento delle attività dalle osservazioni visive. Basandoci su GVL, proponiamo OpenGVL, un benchmark completo per stimare l'avanzamento delle attività in una varietà di compiti di manipolazione impegnativi che coinvolgono sia robot che esseri umani. Valutiamo le capacità dei modelli open-source disponibili pubblicamente, dimostrando che le famiglie di modelli open-source hanno prestazioni significativamente inferiori rispetto alle controparti closed-source, raggiungendo solo circa il 70% delle loro prestazioni nei compiti di previsione del progresso temporale. Inoltre, mostriamo come OpenGVL possa servire come strumento pratico per la cura e il filtraggio automatico dei dati, consentendo una valutazione efficiente della qualità di grandi dataset robotici. Rilasciamo il benchmark insieme al codice completo su github.com/budzianowski/opengvl{OpenGVL}.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno significativamente migliorato le capacità di comprensione video, aprendo nuove possibilità per applicazioni pratiche. Tuttavia, gli attuali benchmark video si concentrano principalmente su scene indoor o attività outdoor a breve distanza, lasciando in gran parte inesplorate le sfide associate a viaggi a lunga distanza. Padroneggiare traiettorie geospaziali-temporali estese è fondamentale per la prossima generazione di MLLM, sostenendo compiti del mondo reale come la pianificazione e la navigazione di sistemi di intelligenza artificiale incarnata. Per colmare questa lacuna, presentiamo VIR-Bench, un nuovo benchmark composto da 200 video di viaggio che inquadra la ricostruzione degli itinerari come un compito impegnativo progettato per valutare e far progredire l'intelligenza geospaziale-temporale degli MLLM. I risultati sperimentali rivelano che gli MLLM all'avanguardia, inclusi quelli proprietari, faticano a ottenere punteggi elevati, sottolineando la difficoltà di gestire video che coprono scale spaziali e temporali estese. Inoltre, conduciamo uno studio di caso approfondito in cui sviluppiamo un prototipo di agente di pianificazione di viaggi che sfrutta le intuizioni ottenute da VIR-Bench. Le raccomandazioni di itinerario significativamente migliorate dell'agente verificano che il nostro protocollo di valutazione non solo valuta efficacemente i modelli, ma si traduce anche in concreti miglioramenti delle prestazioni nelle applicazioni rivolte agli utenti.
I sistemi di traduzione simultanea da parlato a testo (SimulST) devono bilanciare la qualità della traduzione con la latenza—il ritardo tra l'input vocale e l'output tradotto. Mentre la valutazione della qualità è ben consolidata, la misurazione accurata della latenza rimane una sfida. Le metriche esistenti spesso producono risultati incoerenti o fuorvianti, specialmente nel contesto ampiamente utilizzato del formato breve, in cui il parlato è artificialmente pre-segmentato. In questo articolo, presentiamo la prima analisi completa delle metriche di latenza per SimulST attraverso coppie di lingue, sistemi e regimi sia brevi che lunghi. Riveliamo un bias strutturale nelle metriche attuali legato alla segmentazione che compromette confronti equi e significativi. Per affrontare questo problema, introduciamo YAAL (Yet Another Average Lagging), una metrica di latenza raffinata che fornisce valutazioni più accurate nel regime di formato breve. Estendiamo YAAL a LongYAAL per audio non segmentato e proponiamo SoftSegmenter, uno strumento innovativo di ri-segmentazione basato sull'allineamento a livello di parola. I nostri esperimenti dimostrano che YAAL e LongYAAL superano le metriche di latenza più diffuse, mentre SoftSegmenter migliora la qualità dell'allineamento nella valutazione di formato lungo, consentendo insieme valutazioni più affidabili dei sistemi SimulST.
La ricostruzione accurata di superfici mediante campi di radianza ha compiuto progressi significativi negli ultimi anni. Tuttavia, gli approcci prevalenti, basati principalmente su Gaussian Splatting, sono sempre più limitati da colli di bottiglia rappresentazionali. In questo articolo, introduciamo GeoSVR, un framework esplicito basato su voxel che esplora e amplia il potenziale poco investigato dei voxel sparsi per ottenere una ricostruzione superficiale accurata, dettagliata e completa. Tra i punti di forza, i voxel sparsi supportano la preservazione della completezza della copertura e della chiarezza geometrica, mentre sorgono anche sfide legate all'assenza di vincoli sulla scena e alla località nel perfezionamento delle superfici. Per garantire una convergenza corretta della scena, proponiamo innanzitutto un Vincolo di Profondità con Incertezza dei Voxel che massimizza l'effetto degli indizi di profondità monoculari, presentando al contempo un'incertezza orientata ai voxel per evitare il degrado della qualità, consentendo vincoli di scena efficaci e robusti pur preservando geometrie altamente accurate. Successivamente, la Regolarizzazione della Superficie con Voxel Sparsi è progettata per migliorare la coerenza geometrica dei voxel di piccole dimensioni e facilitare la formazione di superfici nitide e accurate basate su voxel. Esperimenti estensivi dimostrano la nostra superiorità rispetto ai metodi esistenti in una varietà di scenari complessi, eccellendo in accuratezza geometrica, preservazione dei dettagli e completezza della ricostruzione, mantenendo al contempo un'elevata efficienza. Il codice è disponibile all'indirizzo https://github.com/Fictionarry/GeoSVR.
Presentiamo RadEval, un framework unificato e open-source per la valutazione di testi radiologici. RadEval consolida una vasta gamma di metriche, dai classici overlap di n-grammi (BLEU, ROUGE) e misure contestuali (BERTScore) a punteggi basati su concetti clinici (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e valutatori avanzati basati su LLM (GREEN). Affiniamo e standardizziamo le implementazioni, estendiamo GREEN per supportare multiple modalità di imaging con un modello più leggero, e pre-addestriamo un encoder specifico per il dominio radiologico, dimostrando una forte performance di recupero zero-shot. Rilasciamo inoltre un dataset riccamente annotato da esperti con oltre 450 etichette di errori clinicamente significativi e mostriamo come diverse metriche si correlino con il giudizio dei radiologi. Infine, RadEval fornisce strumenti di test statistici e valutazioni di modelli di riferimento su più dataset pubblicamente disponibili, facilitando la riproducibilità e il benchmarking robusto nella generazione di referti radiologici.
Le politiche di manipolazione robotica spesso falliscono nella generalizzazione perché devono apprendere simultaneamente dove focalizzare l'attenzione, quali azioni intraprendere e come eseguirle. Sosteniamo che il ragionamento di alto livello su "dove" e "cosa" può essere delegato ai modelli visione-linguaggio (VLMs), lasciando alle politiche il compito di specializzarsi nel "come" agire. Presentiamo PEEK (Policy-agnostic Extraction of Essential Keypoints), che perfeziona i VLMs per prevedere una rappresentazione intermedia unificata basata su punti: 1. percorsi dell'end-effector che specificano quali azioni intraprendere, e 2. maschere rilevanti per il compito che indicano dove focalizzarsi. Queste annotazioni sono sovrapposte direttamente alle osservazioni del robot, rendendo la rappresentazione indipendente dalla politica e trasferibile tra diverse architetture. Per abilitare un addestramento scalabile, introduciamo una pipeline di annotazione automatica, generando dati etichettati da oltre 20 dataset robotici che coprono 9 diverse configurazioni. Nelle valutazioni nel mondo reale, PEEK migliora costantemente la generalizzazione zero-shot, includendo un miglioramento di 41,4x nel mondo reale per una politica 3D addestrata solo in simulazione, e guadagni di 2-3,5x sia per grandi VLAs che per piccole politiche di manipolazione. Consentendo ai VLMs di assorbire la complessità semantica e visiva, PEEK fornisce alle politiche di manipolazione i segnali minimi necessari—dove, cosa e come. Sito web: https://peek-robot.github.io/.
Le immagini multi-spettrali svolgono un ruolo cruciale in diverse applicazioni di telerilevamento, tra cui la classificazione dell'uso del suolo, il monitoraggio ambientale e la pianificazione urbana. Queste immagini sono ampiamente adottate perché le loro bande spettrali aggiuntive sono fortemente correlate con i materiali fisici presenti sul terreno, come ghiaccio, acqua e vegetazione. Ciò consente un'identificazione più accurata, e la loro disponibilità pubblica da missioni come Sentinel-2 e Landsat ne aumenta ulteriormente il valore. Attualmente, l'analisi automatica di tali dati è gestita principalmente attraverso modelli di machine learning appositamente addestrati per input multi-spettrali, il cui addestramento e mantenimento sono costosi. Inoltre, sebbene offrano molta utilità per il telerilevamento, tali input aggiuntivi non possono essere utilizzati con potenti modelli multimodali generalisti di grandi dimensioni, che sono in grado di risolvere molti problemi visivi ma non sono in grado di comprendere segnali multi-spettrali specializzati. Per affrontare questa problematica, proponiamo un approccio senza addestramento che introduce nuovi dati multi-spettrali in modalità esclusivamente Zero-Shot, come input per modelli multimodali generalisti addestrati su input esclusivamente RGB. Il nostro approccio sfrutta la comprensione dello spazio visivo da parte dei modelli multimodali e propone di adattare gli input a tale spazio, iniettando informazioni specifiche del dominio come istruzioni nel modello. Esemplifichiamo questa idea con il modello Gemini2.5 e osserviamo significativi miglioramenti delle prestazioni Zero-Shot dell'approccio su benchmark popolari di telerilevamento per la classificazione della copertura e dell'uso del suolo, dimostrando la facile adattabilità di Gemini2.5 a nuovi input. Questi risultati evidenziano il potenziale per i professionisti del settore geospaziale, che lavorano con input specializzati non standard, di sfruttare facilmente potenti modelli multimodali come Gemini2.5 per accelerare il loro lavoro, beneficiando delle loro ricche capacità di ragionamento e contestuali, basate sui dati specializzati dei sensori.
Presentiamo DRISHTIKON, un benchmark multimodale e multilingue senza precedenti, focalizzato esclusivamente sulla cultura indiana, progettato per valutare la comprensione culturale dei sistemi di intelligenza artificiale generativa. A differenza dei benchmark esistenti con un ambito generico o globale, DRISHTIKON offre una copertura approfondita e dettagliata delle diverse regioni dell'India, abbracciando 15 lingue, coprendo tutti gli stati e i territori dell'Unione, e incorporando oltre 64.000 coppie testo-immagine allineate. Il dataset cattura ricchi temi culturali, tra cui festival, abbigliamento, cucine, forme d'arte e patrimonio storico, tra molti altri. Valutiamo un'ampia gamma di modelli visione-linguaggio (VLMs), inclusi modelli open-source di piccole e grandi dimensioni, sistemi proprietari, VLMs specializzati nel ragionamento e modelli focalizzati sulle lingue indiane, in contesti zero-shot e di ragionamento a catena (chain-of-thought). I nostri risultati evidenziano limitazioni significative nella capacità dei modelli attuali di ragionare su input multimodali radicati nella cultura, in particolare per le lingue a bassa risorsa e le tradizioni meno documentate. DRISHTIKON colma una lacuna cruciale nella ricerca sull'IA inclusiva, offrendo un solido banco di prova per avanzare tecnologie linguistiche culturalmente consapevoli e competenti a livello multimodale.