Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il compito di geolocalizzazione delle immagini mira a prevedere la posizione in cui un'immagine è stata scattata in qualsiasi punto della Terra utilizzando indizi visivi. Gli approcci esistenti basati su grandi modelli visione-linguaggio (LVLM) sfruttano la conoscenza mondiale, il ragionamento a catena del pensiero e le capacità agentiche, ma trascurano una strategia comune utilizzata dagli esseri umani: l'uso delle mappe. In questo lavoro, dotiamo innanzitutto il modello della capacità di Pensare con la Mappa e la formuliamo come un ciclo agente-nella-mappa. Sviluppiamo per essa uno schema di ottimizzazione a due stadi, comprendente un reinforcement learning (RL) agentico seguito da un parallel test-time scaling (TTS). Il RL potenzia la capacità agentica del modello per migliorare l'efficienza di campionamento, mentre il TTS parallelo consente al modello di esplorare percorsi candidati multipli prima di effettuare la previsione finale, aspetto cruciale per la geolocalizzazione. Per valutare il nostro metodo su immagini aggiornate e in contesti reali, presentiamo inoltre MAPBench, un benchmark completo di addestramento e valutazione per la geolocalizzazione composto interamente da immagini del mondo reale. I risultati sperimentali mostrano che il nostro metodo supera i modelli esistenti open-source e closed-source nella maggior parte delle metriche, migliorando in particolare l'Acc@500m dall'8.0% al 22.1% rispetto a Gemini-3-Pro con modalità groundata su Google Search/Map.
L'autoformalizzazione, che traduce la matematica in linguaggio naturale in enunciati formali per abilitare il ragionamento automatico, affronta sfide fondamentali in contesti reali a causa della natura multimodale del mondo fisico, dove la fisica richiede di inferire vincoli nascosti (ad esempio, massa o energia) da elementi visivi. Per affrontare ciò, proponiamo MMFormalizer, che estende l'autoformalizzazione oltre il testo integrando un ancoraggio adattivo con entità dei domini matematici e fisici del mondo reale. MMFormalizer costruisce ricorsivamente proposizioni formali da primitive perceptualmente ancorate attraverso l'ancoraggio ricorsivo e la composizione assiomatica, con una terminazione ricorsiva adattiva che garantisce che ogni astrazione sia supportata da evidenza visiva e ancorata in basi dimensionali o assiomatiche. Valutiamo MMFormalizer su un nuovo benchmark, PhyX-AF, comprendente 115 campioni curati da MathVerse, PhyX, Geometria Sintetica e Geometria Analitica, coprendo diverse attività di autoformalizzazione multimodale. I risultati mostrano che modelli all'avanguardia come GPT-5 e Gemini-3-Pro raggiungono la più alta accuratezza di compilazione e semantica, con GPT-5 eccellente nel ragionamento fisico, mentre la geometria rimane il dominio più impegnativo. Nel complesso, MMFormalizer fornisce un framework scalabile per l'autoformalizzazione multimodale unificata, colmando il divario tra percezione e ragionamento formale. Per quanto a nostra conoscenza, questo è il primo metodo di autoformalizzazione multimodale in grado di gestire la meccanica classica (derivata dall'Hamiltoniana), così come la relatività, la meccanica quantistica e la termodinamica. Maggiori dettagli sono disponibili sulla nostra pagina progetto: MMFormalizer.github.io
In questo rapporto presentiamo le serie di modelli Qwen3-VL-Embedding e Qwen3-VL-Reranker, le ultime estensioni della famiglia Qwen costruite sul modello base Qwen3-VL. Insieme, forniscono una pipeline end-to-end per la ricerca multimodale ad alta precisione, mappando diverse modalità, inclusi testo, immagini, immagini di documenti e video, in uno spazio di rappresentazione unificato. Il modello Qwen3-VL-Embedding utilizza un paradigma di addestramento multi-stadio, che procede da un pre-addestramento contrastivo su larga scala alla distillazione del modello di reranking, per generare vettori ad alta dimensionalità semanticamente ricchi. Supporta il Matryoshka Representation Learning, consentendo dimensioni di embedding flessibili, e gestisce input fino a 32k token. A complemento, Qwen3-VL-Reranker esegue una stima della rilevanza fine per coppie query-documento utilizzando un'architettura cross-encoder con meccanismi di cross-attention. Entrambe le serie di modelli ereditano le capacità multilingue di Qwen3-VL, supportando più di 30 lingue, e vengono rilasciate in dimensioni di 2B e 8B parametri per soddisfare diverse esigenze di deployment. Le valutazioni empiriche dimostrano che la serie Qwen3-VL-Embedding raggiunge risultati allo stato dell'arte su vari benchmark di valutazione per l'embedding multimodale. Nello specifico, Qwen3-VL-Embedding-8B ottiene un punteggio complessivo di 77.8 su MMEB-V2, classificandosi al primo posto tra tutti i modelli (aggiornamento all'8 gennaio 2025). Questo rapporto presenta l'architettura, la metodologia di addestramento e le capacità pratiche della serie, dimostrandone l'efficacia in varie attività di retrieval multimodale, incluse image-text retrieval, visual question answering e video-text matching.
Viene presentato un framework fotorealistico e controllabile per la caricaturizzazione 3D di volti. Si parte da una tecnica di esagerazione della superficie basata sulla curvatura Gaussiana intrinseca che, se combinata con la texture, tende a produrre rendering eccessivamente levigati. Per ovviare a questo problema, si ricorre al 3D Gaussian Splatting (3DGS), che è stato recentemente dimostrato in grado di generare avatar realistici in viewpoint libero. Data una sequenza multivista, si estrae una mesh FLAME, si risolve un'equazione di Poisson pesata sulla curvatura e si ottiene la sua forma esagerata. Tuttavia, la deformazione diretta dei Gaussiani produce risultati scadenti, rendendo necessaria la sintesi di immagini caricaturali pseudo-ground-truth deformando ogni fotogramma verso la sua rappresentazione 2D esagerata mediante trasformazioni affini locali. Si elabora quindi uno schema di addestramento che alterna supervisione su dati reali e sintetizzati, permettendo a una singola collezione di Gaussiani di rappresentare sia avatar naturali che esagerati. Questo schema migliora la fedeltà, supporta modifiche locali e consente un controllo continuo sull'intensità della caricatura. Per ottenere deformazioni in tempo reale, viene introdotta un'interpolazione efficiente tra le superfici originale ed esagerata. Si analizza inoltre e si dimostra che essa presenta una deviazione limitata rispetto alle soluzioni in forma chiusa. In valutazioni sia quantitative che qualitative, i nostri risultati superano il lavoro precedente, fornendo avatar caricaturali fotorealistici e controllati geometricamente.
I grandi modelli linguistici (LLM) spesso non riescono ad apprendere un ragionamento efficace a lunga catena di pensiero (Long CoT) dall'imitazione di dati umani o di LLM non specializzati in Long CoT. Per comprendere questo fenomeno, proponiamo che le traiettorie Long CoT efficaci e apprendibili presentino, in una visione unificata, strutture stabili simili a molecole, formate da tre tipi di interazione: Ragionamento Profondo (simile a legame covalente), Auto-Riflessione (simile a legame a idrogeno) e Auto-Esplorazione (simile a forza di van der Waals). L'analisi delle traiettorie distillate rivela che queste strutture emergono dalla messa a punto (fine-tuning) Long CoT, non dall'imitazione di parole chiave. Introduciamo il concetto di Isomeri Semantici Efficaci e dimostriamo che solo i legami che promuovono una rapida convergenza dell'entropia supportano un apprendimento Long CoT stabile, mentre la competizione strutturale compromette l'addestramento. Sulla base di questi risultati, presentiamo Mole-Syn, un metodo basato su grafo di trasferimento della distribuzione che guida la sintesi di strutture Long CoT efficaci, migliorando le prestazioni e la stabilità dell'apprendimento per rinforzo (RL) su diversi benchmark.
L’apprendimento per rinforzo (RL) è emerso come una tecnica fondamentale per potenziare gli agenti di deep search basati su LLM. Tuttavia, gli approcci esistenti si basano principalmente su ricompense basate su esiti binari, che non riescono a cogliere la completezza e la factualità del processo di ragionamento degli agenti, e spesso portano a comportamenti indesiderati come lo sfruttamento di scorciatoie e allucinazioni. Per affrontare queste limitazioni, proponiamo Citation-aware Rubric Rewards (CaRR), un framework di ricompensa granulare per agenti di deep search che enfatizza la completezza del ragionamento, il radicamento fattuale e la connettività delle evidenze. CaRR scompone domande complesse in rubriche verificabili a salto singolo e richiede agli agenti di soddisfare queste rubriche identificando esplicitamente entità nascoste, supportandole con citazioni corrette e costruendo catene di evidenze complete che si colleghino alla risposta prevista. Introduciamo inoltre la Citation-aware Group Relative Policy Optimization (C-GRPO), che combina CaRR e le ricompense basate sull'esito per addestrare agenti di deep search robusti. Gli esperimenti mostrano che C-GRPO supera costantemente i baseline RL standard basati sull'esito in molteplici benchmark di deep search. La nostra analisi convalida anche che C-GRPO scoraggia efficacemente lo sfruttamento di scorciatoie, promuove un ragionamento completo e fondato sulle evidenze, e mostra una forte generalizzazione per compiti aperti di deep research. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/THUDM/CaRR.
I grandi modelli linguistici (LLM) dovrebbero essere addestrati per agire come agenti in vari ambienti del mondo reale, ma questo processo si basa su sandbox di interazione con strumenti ricche e variegate. Tuttavia, l'accesso ai sistemi reali è spesso limitato; gli ambienti simulati dagli LLM sono soggetti ad allucinazioni e incongruenze; e le sandbox costruite manualmente sono difficili da scalare. In questo articolo, proponiamo EnvScaler, un framework automatizzato per ambienti scalabili di interazione con strumenti tramite sintesi programmatica. EnvScaler comprende due componenti. Innanzitutto, SkelBuilder costruisce scheletri di ambiente diversificati attraverso l'estrazione di argomenti, la modellazione logica e la valutazione della qualità. Successivamente, ScenGenerator genera molteplici scenari di attività e funzioni di convalida delle traiettorie basate su regole per ciascun ambiente. Con EnvScaler, sintetizziamo 191 ambienti e circa 7.000 scenari, e li applichiamo al Fine-Tuning Supervisionato (SFT) e all'Apprendimento per Rinforzo (RL) per i modelli della serie Qwen3. I risultati su tre benchmark mostrano che EnvScaler migliora significativamente la capacità degli LLM di risolvere compiti in ambienti complessi che coinvolgono interazioni multi-turno e multi-strumento. Rilasciamo il nostro codice e i nostri dati all'indirizzo https://github.com/RUC-NLPIR/EnvScaler.
I recenti progressi nei grandi modelli linguistici (LLM) abilitano sistemi agenti addestrati con apprendimento per rinforzo (RL) su traiettorie di interazione multi-turno, ma la diffusione pratica è limitata dalla rapida crescita delle cronologie testuali che gonfiano i budget di token e l'utilizzo di memoria. Introduciamo AgentOCR, un framework che sfrutta la densità informativa superiore dei token visivi rappresentando la cronologia accumulata di osservazioni-azioni come un'immagine renderizzata compatta. Per rendere scalabili i rollout multi-turno, AgentOCR propone la segment optical caching. Scomponendo la cronologia in segmenti hashable e mantenendo una cache visiva, questo meccanismo elimina il re-rendering ridondante. Oltre al rendering fisso, AgentOCR introduce l'agentic self-compression, dove l'agente emette attivamente un tasso di compressione ed è addestrato con una ricompensa compression-aware per bilanciare adattivamente il successo del task e l'efficienza dei token. Condividiamo esperimenti estesi su benchmark agentici complessi, ALFWorld e QA basato su ricerca. Notevolmente, i risultati dimostrano che AgentOCR preserva oltre il 95% delle prestazioni dell'agente basato su testo riducendo sostanzialmente il consumo di token (>50%), garantendo un'efficienza consistente di token e memoria. La nostra ulteriore analizza convalida un aumento di velocità di rendering di 20x dalla segment optical caching e l'effettivo bilanciamento strategico della self-compression.
Gli agenti autonomi di apprendimento automatico hanno rivoluzionato la scoperta scientifica, ma rimangono vincolati a un paradigma di Generazione-Esecuzione-Feedback. Gli approcci precedenti soffrono di un severo Collo di Bottiglia Esecutivo, poiché la valutazione delle ipotesi dipende rigorosamente da costose esecuzioni fisiche. Per superare questi vincoli fisici, internalizziamo priorità esecutive per sostituire controlli runtime costosi con ragionamenti predittivi istantanei, traendo ispirazione dai Modelli del Mondo. In questo lavoro, formalizziamo il compito della Preferenza di Soluzione Data-centric e costruiamo un corpus completo di 18.438 confronti a coppie. Dimostriamo che i LLM mostrano capacità predittive significative quando preparati con un Report di Analisi Dati Verificato, raggiungendo un'accuratezza del 61,5% e una robusta calibrazione della confidenza. Infine, implementiamo questo framework in FOREAGENT, un agente che utilizza un ciclo di Previsione-Verifica, ottenendo un'accelerazione di 6x nella convergenza superando i baseline basati sull'esecuzione del +6%. Il nostro codice e dataset saranno presto disponibili pubblicamente su https://github.com/zjunlp/predict-before-execute.
I recenti progressi nella generazione video sono stati dominati da modelli di diffusione e flow-matching, che producono risultati di alta qualità ma rimangono computazionalmente intensivi e difficili da scalare. In questo lavoro, introduciamo VideoAR, il primo framework Visual Autoregressivo (VAR) su larga scala per la generazione video che combina la predizione multi-scala del frame successivo con la modellazione autoregressiva. VideoAR districa le dipendenze spaziali e temporali integrando la modellazione VAR intra-frame con la predizione causale del frame successivo, supportata da un tokenizer 3D multi-scala che codifica efficientemente le dinamiche spazio-temporali. Per migliorare la coerenza a lungo termine, proponiamo il Multi-scale Temporal RoPE, la Correzione degli Errori Cross-Frame e il Mascheramento Casuale dei Frame, tecniche che mitigano collettivamente la propagazione degli errori e stabilizzano la coerenza temporale. La nostra pipeline di pre-addestramento multi-stadio allinea progressivamente l'apprendimento spaziale e temporale attraverso risoluzioni e durate crescenti. Empiricamente, VideoAR raggiunge nuovi risultati state-of-the-art tra i modelli autoregressivi, migliorando l'FVD su UCF-101 da 99.5 a 88.6 riducendo al contempo i passi di inferenza di oltre 10 volte, e raggiungendo un punteggio VBench di 81.74, competitivo con modelli basati su diffusione di un ordine di grandezza più grandi. Questi risultati dimostrano che VideoAR riduce il divario prestazionale tra i paradigmi autoregressivo e di diffusione, offrendo una base scalabile, efficiente e temporalmente coerente per la futura ricerca sulla generazione video.
L'ottimizzazione delle preferenze allinea i modelli linguistici preaddestrati ai giudizi umani su qualità, utilità o sicurezza, ottimizzando segnali espliciti di preferenza anziché la sola verosimiglianza. Ricerche precedenti hanno dimostrato che l'ottimizzazione delle preferenze degrada le prestazioni e riduce l'utilità quando valutata al di fuori del dominio di addestramento. Tuttavia, la misura in cui le strategie di adattamento mitigano questo scostamento di dominio rimane inesplorata. Affrontiamo questa sfida conducendo uno studio sistematico e completo della generalizzazione dell'allineamento sotto scostamento di dominio. Confrontiamo cinque obiettivi di allineamento popolari e varie strategie di adattamento dalla sorgente al target, inclusi fine-tuning supervisionato e pseudo-etichettamento nel dominio target, attraverso task di utilità in riassunto e question-answering. I nostri risultati rivelano differenze sistematiche nella generalizzazione tra obiettivi di allineamento sotto scostamento di dominio. Dimostriamo che strategie di adattamento basate su pseudo-etichettamento possono ridurre sostanzialmente il degrado da scostamento di dominio.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più impiegati in scenari reali, la sola correttezza non è sufficiente. Un utilizzo affidabile richiede il mantenimento di convinzioni veritiere sotto perturbazioni contestuali. Le valutazioni esistenti si basano in larga misura su misure puntuali di confidenza come l'Auto-Consistenza, che può mascherare convinzioni fragili. Dimostriamo che persino fatti risposti con auto-consistenza perfetta possono collassare rapidamente sotto lievi interferenze contestuali. Per colmare questa lacuna, proponiamo la Consistenza di Vicinato (NCB), una misura strutturale della robustezza delle convinzioni che valuta la coerenza delle risposte attraverso un intorno concettuale. Per validare l'efficienza dell'NCB, introduciamo un nuovo protocollo di stress test cognitivo che analizza la stabilità degli output sotto interferenze contestuali. Esperimenti su molteplici LLM mostrano che le prestazioni dei dati con alto NCB sono relativamente più resistenti alle interferenze. Infine, presentiamo l'Addestramento Consapevole della Struttura (SAT), che ottimizza la struttura delle convinzioni invariante al contesto e riduce la fragilità della conoscenza a coda lunga di circa il 30%. Il codice sarà disponibile su https://github.com/zjunlp/belief.
I recenti progressi nella generazione video hanno permesso lo sviluppo di "modelli mondiali" in grado di simulare futuri potenziali per la robotica e la pianificazione. Tuttavia, specificare obiettivi precisi per questi modelli rimane una sfida; le istruzioni testuali sono spesso troppo astratte per cogliere le sfumature fisiche, mentre le immagini target sono spesso irrealizzabili da specificare per compiti dinamici. Per affrontare questo problema, introduciamo Goal Force, un nuovo framework che consente agli utenti di definire obiettivi tramite vettori di forza espliciti e dinamiche intermedie, riflettendo il modo in cui gli umani concettualizzano i compiti fisici. Addestriamo un modello di generazione video su un dataset curato di primitive causali sintetiche—come collisioni elastiche e domino che cadono—insegnandogli a propagare le forze attraverso il tempo e lo spazio. Nonostante l'addestramento su dati fisici semplici, il nostro modello mostra una notevole generalizzazione zero-shot a scenari complessi del mondo reale, inclusa la manipolazione di utensili e catene causali multi-oggetto. I nostri risultati suggeriscono che, ancorando la generazione video a interazioni fisiche fondamentali, i modelli possono emergere come simulatori fisici neurali impliciti, consentendo una pianificazione precisa e consapevole della fisica senza dipendere da motori esterni. Rilasciamo tutti i dataset, il codice, i pesi del modello e le demo video interattive sulla nostra pagina del progetto.
I grandi modelli linguistici hanno subito una rapida evoluzione, emergendo come tecnologia fondamentale per l'intelligenza nelle operazioni finanziarie. Tuttavia, i benchmark esistenti sono spesso limitati da problematiche come la dipendenza da campioni simulati o generici e una focalizzazione su scenari singoli, statici e offline. Di conseguenza, non riescono ad allinearsi con i requisiti di autenticità e responsività in tempo reale dei servizi finanziari, portando a una significativa discrepanza tra le prestazioni misurate dai benchmark e l'efficacia operativa reale. Per affrontare questo problema, presentiamo BizFinBench.v2, il primo benchmark di valutazione su larga scala basato su dati aziendali autentici provenienti dai mercati azionari cinesi e statunitensi, integrando una valutazione online. Abbiamo eseguito un'analisi cluster su query utente autentiche da piattaforme finanziarie, ottenendo otto task fondamentali e due task online attraverso quattro scenari aziendali core, per un totale di 29.578 coppie domanda-risposta di livello esperto. I risultati sperimentali dimostrano che ChatGPT-5 raggiunge una notevole accuratezza del 61.5% nei task principali, sebbene permanga un divario sostanziale rispetto agli esperti finanziari; nei task online, DeepSeek-R1 supera tutti gli altri LLM commerciali. L'analisi degli errori identifica ulteriormente le specifiche carenze capacitative dei modelli esistenti all'interno di contesti pratici del business finanziario. BizFinBench.v2 supera i limiti degli attuali benchmark, raggiungendo una decostruzione a livello aziendale delle capacità finanziarie degli LLM e fornendo una base precisa per valutare l'efficacia nella diffusione su larga scala degli LLM all'interno del dominio finanziario. I dati e il codice sono disponibili su https://github.com/HiThink-Research/BizFinBench.v2.
La stima monoculare della profondità mira a recuperare le informazioni di profondità delle scene 3D a partire da immagini 2D. I lavori recenti hanno compiuto progressi significativi, ma la loro dipendenza da dataset su larga scala e decoder complessi ne ha limitato l'efficienza e la capacità di generalizzazione. In questo articolo, proponiamo un framework leggero e incentrato sui dati per la stima monoculare della profondità zero-shot. In primo luogo, adottiamo DINOv3 come encoder visivo per ottenere feature dense di alta qualità. In secondo luogo, per affrontare gli svantaggi intrinseci della struttura complessa del DPT, progettiamo il Simple Depth Transformer (SDT), un decoder compatto basato su transformer. Rispetto al DPT, esso utilizza un processo di fusione e upsampling delle feature a percorso singolo per ridurre il sovraccarico computazionale della fusione di feature cross-scale, raggiungendo una maggiore accuratezza riducendo allo stesso tempo il numero di parametri di circa l'85%-89%. Inoltre, proponiamo una strategia di filtraggio basata sulla qualità per filtrare i campioni dannosi, riducendo così le dimensioni del dataset migliorando al contempo la qualità complessiva dell'addestramento. Esperimenti estesi su cinque benchmark dimostrano che il nostro framework supera il DPT in accuratezza. Questo lavoro evidenzia l'importanza di bilanciare la progettazione del modello e la qualità dei dati per ottenere una stima della profondità zero-shot efficiente e generalizzabile. Codice: https://github.com/AIGeeksGroup/AnyDepth. Sito web: https://aigeeksgroup.github.io/AnyDepth.
I grandi modelli linguistici (LLM) sono stati ampiamente applicati in vari ambiti della finanza. Poiché i loro dati di addestramento derivano in gran parte da corpora redatti da esseri umani, gli LLM possono ereditare una serie di pregiudizi umani. I pregiudizi comportamentali possono portare a instabilità e incertezza nel processo decisionale, in particolare durante l'elaborazione di informazioni finanziarie. Tuttavia, la ricerca esistente sui pregiudizi degli LLM si è concentrata principalmente su interrogazioni dirette o contesti semplificati e generalisti, con una considerazione limitata dei complessi ambienti finanziari del mondo reale e dei compiti di rilevamento di informazioni finanziarie errate ad alto rischio, sensibili al contesto e multilingue (\mfmd). In questo lavoro, proponiamo \mfmdscen, un benchmark completo per valutare i pregiudizi comportamentali degli LLM nel \mfmd attraverso diversi scenari economici. In collaborazione con esperti finanziari, abbiamo costruito tre tipi di scenari finanziari complessi: (i) scenari basati su ruolo e personalità, (ii) scenari basati su ruolo e regione, e (iii) scenari basati sul ruolo che incorporano etnia e credenze religiose. Abbiamo inoltre sviluppato un dataset multilingue di informazioni finanziarie errate che copre inglese, cinese, greco e bengalese. Integrando questi scenari con affermazioni di disinformazione, \mfmdscen consente una valutazione sistematica di 22 LLM mainstream. I nostri risultati rivelano che pregiudizi comportamentali pronunciati persistono sia nei modelli commerciali che in quelli open-source. Questo progetto sarà disponibile all'indirizzo https://github.com/lzw108/FMD.
Gli agenti di ricerca basati su Large Language Model (LLM) si sono dimostrati promettenti per affrontare problemi ad alta intensità di conoscenza grazie all'integrazione di capacità di information retrieval. I lavori esistenti si concentrano prevalentemente sull'ottimizzazione dei paradigmi di ragionamento degli agenti di ricerca, trascurando però la qualità delle query di ricerca intermedie generate durante il processo. Di conseguenza, le query generate risultano spesso inaccurate, portando a risultati di retrieval inattesi e limitando in ultima analisi l'efficacia complessiva degli agenti. Per mitigare questo problema, introduciamo SmartSearch, un framework basato su due meccanismi chiave: (1) Ricompense di processo, che forniscono una supervisione granulare della qualità di ogni query di ricerca intermedia attraverso una Valutazione del Credito a Doppio Livello. (2) Affinamento delle query, che promuove l'ottimizzazione della generazione delle query mediante la raffinazione selettiva di query di ricerca di bassa qualità e la rigenerazione dei successivi round di ricerca basandosi su questi affinamenti. Per permettere all'agente di ricerca di interiorizzare progressivamente la capacità di migliorare la qualità delle query sotto la guida delle ricompense di processo, progettiamo un framework di apprendimento curriculare a tre stadi. Questo framework guida l'agente attraverso una progressione dall'imitazione, all'allineamento, fino alla generalizzazione. I risultati sperimentali mostrano che SmartSearch supera costantemente i baseline esistenti, e ulteriori analisi quantitative confermano i suoi significativi guadagni sia in termini di efficienza di ricerca che di qualità delle query. Il codice è disponibile all'indirizzo https://github.com/MYVAE/SmartSearch.
Questo lavoro presenta Orient Anything V2, un modello base potenziato per la comprensione unificata dell'orientamento e della rotazione 3D di oggetti a partire da immagini singole o accoppiate. Basandosi su Orient Anything V1, che definisce l'orientamento tramite un'unica faccia frontale, la versione V2 estende questa capacità per gestire oggetti con diverse simmetrie rotazionali e stimare direttamente le rotazioni relative. Questi miglioramenti sono resi possibili da quattro innovazioni chiave: 1) Risorse 3D scalabili sintetizzate da modelli generativi, che garantiscono un'ampia copertura di categorie e una distribuzione bilanciata dei dati; 2) Un sistema di annotazione efficiente con modello in-the-loop che identifica in modo robusto da 0 a N facce frontali valide per ogni oggetto; 3) Un obiettivo di adattamento di distribuzione periodica e consapevole della simmetria, che cattura tutte le orientazioni frontali plausibili, modellando efficacemente la simmetria rotazionale dell'oggetto; 4) Un'architettura multi-fotogramma che predice direttamente le rotazioni relative degli oggetti. Esperimenti estesi dimostrano che Orient Anything V2 raggiunge prestazioni state-of-the-art zero-shot nella stima dell'orientamento, nella stima della posa 6DoF e nel riconoscimento della simmetria degli oggetti su 11 benchmark ampiamente utilizzati. Il modello mostra una forte generalizzazione, ampliando significativamente l'applicabilità della stima dell'orientamento in vari task downstream.
I modelli linguistici di grandi dimensioni (LLM) potenziati dalla ricerca eccellono in compiti ad alta intensità di conoscenza grazie all'integrazione di recupero esterno. Tuttavia, spesso incorrono in un eccesso di ricerca (over-searching) – invocando inutilmente lo strumento di ricerca anche quando questo non migliora la qualità della risposta, il che porta a inefficienze computazionali e allucinazioni attraverso l'incorporazione di contesto irrilevante. In questo lavoro, conduciamo una valutazione sistematica dell'eccesso di ricerca attraverso molteplici dimensioni, inclusi tipi di query, categorie di modelli, condizioni di recupero e conversazioni multi-turno. I nostri risultati mostrano che: (i) la ricerca generalmente migliora l'accuratezza delle risposte per query rispondibili, ma compromette l'astensione per quelle non rispondibili; (ii) l'eccesso di ricerca è più pronunciato nei modelli di ragionamento complesso e nei sistemi di ricerca approfondita, è aggravato da recupero rumoroso e si accumula across i turni nelle conversazioni multi-turno; e (iii) la composizione delle evidenze recuperate è cruciale, poiché la presenza di evidenze negative migliora l'astensione. Per quantificare l'eccesso di ricerca, introduciamo il Tokens Per Correctness (TPC), una metrica di valutazione che cattura il trade-off prestazioni-costo per gli LLM potenziati dalla ricerca. Infine, investigiamo approcci di mitigazione a livello sia della query che del recupero e rilasciamo l'OverSearchQA per promuovere la ricerca continua su LLM potenziati dalla ricerca efficienti.
I sistemi multi-agente (MAS) sono diventati un paradigma potente per la costruzione di applicazioni intelligenti ad alte prestazioni. In questi sistemi, il router responsabile di determinare quali agenti esperti dovrebbero gestire una determinata query svolge un ruolo cruciale per le prestazioni complessive. Le strategie di routing esistenti rientrano generalmente in due categorie: il routing delle prestazioni, che bilancia latenza e costo tra modelli di diverse dimensioni, e il routing dei task, che assegna le query a esperti di dominio specifici per migliorare l'accuratezza. Nelle applicazioni aziendali reali, il routing dei task è più adatto; tuttavia, la maggior parte degli approcci esistenti si basa su decisioni statiche a etichetta singola, che introducono due limitazioni principali: (i) difficoltà nell'integrare perfettamente nuovi agenti con l'espansione dei domini aziendali e (ii) conflitti di routing causati da capacità degli agenti sovrapposte, che alla fine degradano accuratezza e robustezza. Per affrontare queste sfide, proponiamo TCAndon-Router (TCAR): un router di reasoning adattivo per la collaborazione multi-agente. A differenza dei router tradizionali, TCAR supporta l'onboarding dinamico degli agenti e genera prima una catena di ragionamento in linguaggio naturale prima di prevedere un insieme di agenti candidati in grado di gestire la query. Inoltre, progettiamo una pipeline di esecuzione collaborativa in cui gli agenti selezionati producono risposte in modo indipendente, che vengono poi aggregate e raffinate in un'unica risposta di alta qualità da un Agente di Raffinamento dedicato. Esperimenti su dataset pubblici e dati aziendali reali dimostrano che TCAR migliora significativamente l'accuratezza del routing, riduce i conflitti di routing e rimane robusto in scenari ambigui. Abbiamo rilasciato TCAR all'indirizzo https://huggingface.co/tencent/TCAndon-Router per supportare la futura ricerca sul routing multi-agente spiegabile e collaborativo.
Il Mixture-of-Experts (MoE) è diventato un paradigma di rilievo per il ridimensionamento dei Large Language Model (LLM). Il Parameter-efficient Fine-Tuning (PEFT), come LoRA, è ampiamente adottato per adattare i LLM MoE pre-addestrati a compiti specifici. Tuttavia, gli approcci esistenti assegnano ranghi LoRA identici a tutti gli esperti, trascurando la specializzazione funzionale intrinseca all'interno dei LLM MoE. Questa allocazione uniforme porta a uno squilibrio di risorse: gli esperti rilevanti per il compito ricevono capacità insufficienti, mentre quelli meno rilevanti ottengono parametri ridondanti. Proponiamo un framework LoRA a Rango Dinamico, denominato DR-LoRA, che incrementa dinamicamente i ranghi LoRA degli esperti durante il fine-tuning in base alle richieste specifiche del compito. DR-LoRA impiega un meccanismo di Punteggio della Salienza degli Esperti che integra la frequenza di instradamento degli esperti e l'importanza del rango LoRA per quantificare la domanda di capacità aggiuntiva di ciascun esperto. Agli esperti con punteggi di salienza più elevati viene data priorità per l'espansione del rango, consentendo la formazione automatica di una distribuzione eterogenea dei ranghi ottimizzata per il compito target. Esperimenti su molteplici benchmark dimostrano che DR-LoRA supera costantemente il LoRA standard e le strategie di allocazione statica a parità di budget parametrico, raggiungendo prestazioni superiori nel compito con un utilizzo dei parametri più efficiente.
I grandi modelli linguistici (LLM) vengono sempre più impiegati come agenti intelligenti in grado di ragionare, pianificare e interagire con il proprio ambiente. Per scalare efficacemente in scenari a lungo termine, una capacità fondamentale per tali agenti è un meccanismo di memoria che possa conservare, organizzare e recuperare esperienze passate per supportare il processo decisionale. Tuttavia, la maggior parte degli approcci esistenti organizza e memorizza i ricordi in modo piatto e si affida a semplici tecniche di recupero basate sulla similarità. Anche quando viene introdotta una memoria strutturata, i metodi attuali spesso faticano a catturare esplicitamente le relazioni logiche tra le esperienze o le unità di memoria. Inoltre, l'accesso alla memoria è largamente scollegato dalla struttura costruita e dipende ancora da un recupero semantico superficiale, impedendo agli agenti di ragionare logicamente su dipendenze a lungo termine. In questo lavoro, proponiamo CompassMem, un framework di memoria incentrato sugli eventi e ispirato alla Teoria della Segmentazione degli Eventi. CompassMem organizza la memoria come un Grafo degli Eventi, segmentando incrementalmente le esperienze in eventi e collegandoli attraverso relazioni logiche esplicite. Questo grafo funge da mappa logica, consentendo agli agenti di eseguire una navigazione strutturata e finalizzata sulla memoria che va oltre il recupero superficiale, raccogliendo progressivamente ricordi preziosi per supportare il ragionamento a lungo termine. Esperimenti su LoCoMo e NarrativeQA dimostrano che CompassMem migliora costantemente le prestazioni sia di recupero che di ragionamento su molteplici modelli di base.
I recenti progressi nei Modelli Linguistici di Grande Dimensioni (LLM) li hanno posizionati come un paradigma promettente per gli agenti, con la pianificazione a lungo termine e la presa di decisioni che emergono come capacità generali fondamentali per l'adattamento a scenari e compiti diversi. I giochi di strategia in tempo reale (RTS) rappresentano un banco di prova ideale per valutare queste due capacità, poiché la loro gameplay intrinseca richiede sia una pianificazione strategica a livello macro che un adattamento tattico e un'esecuzione di azioni a livello micro. Gli ambienti esistenti basati su giochi RTS soffrono di richieste computazionali relativamente elevate o della mancanza di supporto per osservazioni testuali, il che ha limitato l'uso dei giochi RTS per la valutazione degli LLM. Motivati da ciò, presentiamo TowerMind, un nuovo ambiente basato sul sottogenere tower defense (TD) dei giochi RTS. TowerMind preserva i punti di forza valutativi chiave dei giochi RTS per valutare gli LLM, pur caratterizzandosi per basse richieste computazionali e uno spazio di osservazione multimodale, che include rappresentazioni dello stato di gioco basate su pixel, testuali e strutturate. Inoltre, TowerMind supporta la valutazione delle allucinazioni del modello e offre un alto grado di personalizzabilità. Progettiamo cinque livelli benchmark per valutare diversi LLM ampiamente utilizzati in diverse configurazioni di input multimodale. I risultati rivelano un chiaro divario prestazionale tra gli LLM e gli esperti umani sia nelle dimensioni delle capacità che delle allucinazioni. Gli esperimenti evidenziano ulteriormente limitazioni chiave nel comportamento degli LLM, come una validazione inadeguata della pianificazione, una mancanza di multifinalità nel processo decisionale e un uso inefficiente delle azioni. Valutiamo anche due classici algoritmi di apprendimento per rinforzo: Ape-X DQN e PPO. Offrendo un design leggero e multimodale, TowerMind completa il panorama esistente degli ambienti basati su giochi RTS e introduce un nuovo benchmark per il campo degli agenti di IA. Il codice sorgente è pubblicamente disponibile su GitHub (https://github.com/tb6147877/TowerMind).
L'allineamento dell'intelligenza artificiale (IA) comprende il problema normativo di specificare come i sistemi di IA dovrebbero agire e il problema tecnico di garantire che tali sistemi rispettino tali specifiche. Fino ad oggi, l'allineamento dell'IA ha generalmente trascurato un'importante fonte di conoscenza e pratica per affrontare questi problemi: il diritto. In questo articolo, intendiamo colmare questa lacuna esplorando come regole, principi e metodi giuridici possano essere sfruttati per affrontare i problemi di allineamento e informare la progettazione di sistemi di IA che operino in modo sicuro ed etico. Questo campo emergente – l’*allineamento giuridico* – si concentra su tre direzioni di ricerca: (1) progettare sistemi di IA in modo che rispettino il contenuto delle norme giuridiche sviluppate attraverso istituzioni e processi legittimi, (2) adattare i metodi dell'interpretazione giuridica per guidare il ragionamento e il processo decisionale dei sistemi di IA, e (3) utilizzare concetti giuridici come modello strutturale per affrontare le sfide dell'affidabilità, della fiducia e della cooperazione nei sistemi di IA. Queste direzioni di ricerca pongono nuovi quesiti concettuali, empirici e istituzionali, che includono l'identificazione del specifico corpus normativo che determinati sistemi di IA dovrebbero seguire, la creazione di valutazioni per verificarne la conformità giuridica in contesti reali e lo sviluppo di quadri di governance a supporto dell'attuazione pratica dell'allineamento giuridico. Affrontare queste questioni richiede competenze trasversali in ambito giuridico, informatico e di altre discipline, offrendo a queste comunità l'opportunità di collaborare nella progettazione di un'IA a beneficio dell'umanità.
Man mano che i modelli generativi diventano onnipresenti, si rende necessaria una gestione granulare del processo di generazione. Tuttavia, nonostante la proliferazione di metodi per la generazione controllata – dal prompting al fine-tuning – una domanda fondamentale rimane senza risposta: questi modelli sono effettivamente controllabili? In questo lavoro, forniamo un quadro teorico per rispondere formalmente a questa domanda. Inquadrando l'interazione uomo-modello come un processo di controllo, proponiamo un nuovo algoritmo per stimare gli insiemi controllabili dei modelli in un contesto dialogico. In modo significativo, forniamo garanzie formali sull'errore di stima in funzione della complessità campionaria: deriviamo limiti probably-approximately correct per le stime degli insiemi controllabili che sono indipendenti dalla distribuzione, non impiegano alcuna assunzione eccetto la limitatezza degli output e funzionano per qualsiasi sistema di controllo non lineare di tipo black-box (ovvero, per qualsiasi modello generativo). Dimostriamo empiricamente il quadro teorico su diversi compiti di controllo di processi dialogici, sia per modelli linguistici che per la generazione testo-immagine. I nostri risultati mostrano che la controllabilità del modello è sorprendentemente fragile e altamente dipendente dall'impostazione sperimentale. Ciò evidenzia la necessità di un'analisi rigorosa della controllabilità, spostando l'attenzione dal semplice tentativo di controllo alla comprensione preliminare dei suoi limiti fondamentali.
I recenti progressi nel Reinforcement Learning con Ricompense Verificabili (RLVR) per il ragionamento dei Large Language Model (LLM) sono stati ostacolati da una sfida persistente: il collasso dell'esplorazione. L'omogeneità semantica dei rollouts casuali intrappola spesso i modelli in comportamenti ristretti e iper-ottimizzati. Sebbene i metodi esistenti sfruttino l'entropia della policy per incoraggiare l'esplorazione, essi presentano limitazioni intrinseche. La regolarizzazione dell'entropia globale è suscettibile al reward hacking, che può indurre verbosità priva di significato, mentre gli aggiornamenti locali selettivi sui token faticano a contrastare il forte bias induttivo dei modelli pre-addestrati. Per affrontare questo problema, proponiamo la Latent Policy Optimization tramite Information Bottleneck Iterativo (IIB-LPO), un approccio innovativo che sposta l'esplorazione dalla perturbazione statistica delle distribuzioni di token al branching topologico delle traiettorie di ragionamento. IIB-LPO innesca un branching latente negli stati ad alta entropia per diversificare i percorsi logici e impiega il principio dell'Information Bottleneck sia come filtro delle traiettorie che come meccanismo di auto-ricompensa, garantendo un'esplorazione concisa e informativa. I risultati empirici su quattro benchmark di ragionamento matematico dimostrano che IIB-LPO raggiunge prestazioni all'avanguardia, superando i metodi precedenti con margini fino al 5,3% in accuratezza e al 7,4% nelle metriche di diversità.
L'Africa ospita oltre un terzo delle lingue del mondo, ma rimane sottorappresentata nella ricerca sull'intelligenza artificiale. Presentiamo Afri-MCQA, il primo benchmark multilingue di domande e risposte culturali, che comprende 7.500 coppie di domande e risposte in 15 lingue africane provenienti da 12 paesi. Il benchmark offre coppie di domande e risposte parallele in inglese e lingue africane attraverso le modalità di testo e parlato ed è stato interamente creato da parlanti nativi. Il benchmarking di modelli linguistici di grandi dimensioni (LLM) su Afri-MCQA mostra che i modelli open-weight hanno prestazioni scarse in tutte le culture valutate, con un'accuratezza quasi zero su VQA a risposta aperta quando interrogati in lingua nativa o tramite parlato. Per valutare la competenza linguistica, includiamo esperimenti di controllo progettati per valutare questo aspetto specifico separatamente dalla conoscenza culturale, e osserviamo divari significativi nelle prestazioni tra le lingue native e l'inglese, sia per il testo che per il parlato. Questi risultati sottolineano la necessità di approcci "speech-first", di pre-addestramento culturalmente radicato e di trasferimento culturale cross-linguistico. Per supportare uno sviluppo più inclusivo dell'IA multimodale nelle lingue africane, rilasciamo il nostro Afri-MCQA con licenza accademica o CC BY-NC 4.0 su HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
La valutazione della qualità delle immagini facciali (FIQA) è fondamentale per sistemi di riconoscimento facciale affidabili. Gli approcci attuali sfruttano principalmente solo le rappresentazioni dell'ultimo strato, mentre i metodi senza addestramento richiedono multiple passate in avanti o la retropropagazione. Proponiamo ViTNT-FIQA, un approccio senza addestramento che misura la stabilità dell'evoluzione degli embedding di patch attraverso i blocchi intermedi di un Vision Transformer (ViT). Dimostriamo che le immagini facciali di alta qualità presentano traiettorie di raffinamento delle caratteristiche stabili attraverso i blocchi, mentre le immagini degradate mostrano trasformazioni irregolari. Il nostro metodo calcola le distanze euclidee tra gli embedding di patch normalizzati L2 da blocchi transformer consecutivi e li aggrega in punteggi di qualità a livello di immagine. Convalidiamo empiricamente questa correlazione su un dataset sintetico etichettato per qualità con livelli di degrado controllati. A differenza degli approcci esistenti senza addestramento, ViTNT-FIQA richiede solo una singola passata in avanti senza retropropagazione o modifiche architetturali. Attraverso una valutazione estesa su otto benchmark (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostriamo che ViTNT-FIQA raggiunge prestazioni competitive con i metodi all'avanguardia, mantenendo al contempo efficienza computazionale e applicabilità immediata a qualsiasi modello di riconoscimento facciale pre-addestrato basato su ViT.
Proponiamo un framework che ammortizza il costo del ragionamento in fase di inferenza convertendo critiche transitorie in linee guida recuperabili, attraverso un sistema di memoria basato su file e chiamate a strumenti controllate da agenti. Valutiamo questo metodo sul Rubric Feedback Bench, un nuovo dataset per l'apprendimento basato su rubriche. Gli esperimenti dimostrano che i nostri LLM potenziati eguagliano rapidamente le prestazioni delle pipeline di raffinamento in fase di test, riducendo drasticamente il costo di inferenza.
Il completamento automatico multimodale in tempo reale è essenziale per assistenti digitali, chatbot, strumenti di progettazione e consulti sanitari, dove gli input dell'utente si basano su un contesto visivo condiviso. Introduciamo il Completamento Automatico Multimodale (MAC), un compito che prevede i caratteri imminenti nelle chat live utilizzando testo parzialmente digitato e segnali visivi. A differenza del completamento automatico tradizionale basato solo sul testo (TAC), il MAC fonda le previsioni su un contesto multimodale per catturare meglio l'intento dell'utente. Per abilitare questo compito, adattiamo MMDialog e ImageChat per creare dataset di benchmark. Valutiamo modelli visione-linguaggio (VLM) all'avanguardia confrontandoli con solidi baseline testuali, evidenziando i compromessi tra accuratezza ed efficienza. Presentiamo Router-Suggest, un framework router che seleziona dinamicamente tra modelli testuali e VLM in base al contesto dialogico, insieme a una variante leggera per ambienti con risorse limitate. Router-Suggest raggiunge un'accelerazione da 2,3x a 10x rispetto al VLM dalle prestazioni migliori. Uno studio utente mostra che i VLM eccellono significativamente rispetto ai modelli testuali nella soddisfazione dell'utente, risparmiando notevolmente lo sforzo di digitazione e migliorando la qualità dei completamenti nelle conversazioni a più turni. Questi risultati sottolineano la necessità di un contesto multimodale nei completamenti automatici, portando a assistenti più intelligenti e consapevoli dell'utente.
Il condizionamento della persona può essere visto come un precedente comportamentale per i grandi modelli linguistici (LLM) e si presume spesso che conferisca competenza e migliori la sicurezza in modo monotono. Tuttavia, i suoi effetti sul processo decisionale clinico ad alto rischio rimangono scarsamente caratterizzati. Valutiamo sistematicamente il controllo basato sulla persona nei LLM clinici, esaminando come i ruoli professionali (ad esempio, medico di Pronto Soccorso, infermiere) e gli stili di interazione (audace vs. cauto) influenzino il comportamento tra modelli e compiti medici. Valutiamo le prestazioni nelle attività di triage clinico e di sicurezza del paziente utilizzando valutazioni multidimensionali che catturano l'accuratezza del compito, la calibrazione e il comportamento di rischio rilevante per la sicurezza. Troviamo effetti sistematici, contestuali e non monotoni: le persone mediche migliorano le prestazioni nelle attività di cure critiche, producendo guadagni fino a circa +20% in accuratezza e calibrazione, ma degradano le prestazioni in contesti di cure primarie con margini comparabili. Lo stile di interazione modula la propensione al rischio e la sensibilità, ma è fortemente dipendente dal modello. Sebbene le classificazioni aggregate del giudice-LLM favoriscano le persone mediche rispetto a quelle non mediche nei casi critici per la sicurezza, abbiamo riscontrato che i clinici umani mostrano un accordo moderato sulla conformità alla sicurezza (κ di Cohen medio = 0,43) ma indicano una bassa fiducia nel 95,9% delle loro risposte sulla qualità del ragionamento. Il nostro lavoro mostra che le persone funzionano come precedenti comportamentali che introducono compromessi contestuali piuttosto che garanzie di sicurezza o competenza. Il codice è disponibile all'indirizzo https://github.com/rsinghlab/Persona_Paradox.