Articoli di ricerca IA selezionati quotidianamente con traduzioni
La Generazione Aumentata dal Recupero (RAG) migliora la fattualità dei Modelli Linguistici di Grande Dimensione (LLM) iniettando conoscenza esterna, ma risulta carente nei problemi che richiedono inferenze multi-step; al contrario, approcci puramente orientati al ragionamento spesso producono allucinazioni o basano erroneamente i fatti. Questa rassegna sintetizza entrambe le linee di ricerca sotto una prospettiva unificata di ragionamento-recupero. In primo luogo, mappiamo come il ragionamento avanzato ottimizzi ogni fase del RAG (RAG Potenziato dal Ragionamento). Poi, mostriamo come la conoscenza recuperata di diverso tipo fornisca premesse mancanti e amplii il contesto per inferenze complesse (Ragionamento Potenziato dal RAG). Infine, mettiamo in luce i nuovi framework Sinergizzati RAG-Ragionamento, in cui LLM (agenti) intercalano iterativamente ricerca e ragionamento per raggiungere prestazioni all'avanguardia su benchmark intensivi di conoscenza. Categorizziamo metodi, dataset e sfide aperte, e delineamo percorsi di ricerca verso sistemi RAG-Ragionamento più profondi, efficaci, adattabili multimodalmente, affidabili e centrati sull'uomo. La raccolta è disponibile all'indirizzo https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
La modellazione 3D si sta spostando dal virtuale al fisico. Le attuali tecniche di generazione 3D si concentrano principalmente su geometrie e texture, trascurando la modellazione basata su principi fisici. Di conseguenza, nonostante il rapido sviluppo dei modelli generativi 3D, gli asset 3D sintetizzati spesso ignorano proprietà fisiche ricche e importanti, limitando la loro applicazione nel mondo reale in ambiti come la simulazione e l'AI incarnata. Come primo tentativo di affrontare questa sfida, proponiamo PhysX, un paradigma end-to-end per la generazione di asset 3D basati su principi fisici. 1) Per colmare il divario critico nei dataset 3D annotati con informazioni fisiche, presentiamo PhysXNet, il primo dataset 3D basato su principi fisici, annotato sistematicamente lungo cinque dimensioni fondamentali: scala assoluta, materiale, affordance, cinematica e descrizione funzionale. In particolare, abbiamo ideato una pipeline di annotazione scalabile basata su modelli visione-linguaggio con intervento umano, che consente la creazione efficiente di asset con priorità fisica a partire da asset 3D grezzi. 2) Inoltre, proponiamo PhysXGen, un framework feed-forward per la generazione di asset 3D basati su principi fisici a partire da immagini, che integra conoscenze fisiche nello spazio strutturale 3D pre-addestrato. Nello specifico, PhysXGen utilizza un'architettura a doppio ramo per modellare esplicitamente le correlazioni latenti tra strutture 3D e proprietà fisiche, producendo così asset 3D con previsioni fisiche plausibili pur mantenendo la qualità geometrica originale. Esperimenti estensivi convalidano le prestazioni superiori e la promettente capacità di generalizzazione del nostro framework. Tutto il codice, i dati e i modelli saranno rilasciati per facilitare future ricerche nell'ambito dell'AI generativa basata su principi fisici.
L'ottimizzazione delle prestazioni del codice è fondamentale nell'ingegneria del software reale e cruciale per i sistemi di livello produttivo. Sebbene i Large Language Model (LLM) abbiano dimostrato capacità impressionanti nella generazione di codice e nella correzione di bug, la loro competenza nel migliorare le prestazioni del codice a livello di repository rimane in gran parte inesplorata. Per colmare questa lacuna, introduciamo SWE-Perf, il primo benchmark progettato specificamente per valutare sistematicamente gli LLM in compiti di ottimizzazione delle prestazioni del codice all'interno di contesti di repository autentici. SWE-Perf comprende 140 istanze accuratamente selezionate, ciascuna derivata da pull request di miglioramento delle prestazioni provenienti da repository GitHub popolari. Ogni istanza del benchmark include il codice rilevante, le funzioni target, test legati alle prestazioni, patch create da esperti e ambienti eseguibili. Attraverso una valutazione completa di metodi rappresentativi che spaziano da approcci a livello di file a livello di repository (ad esempio, Agentless e OpenHands), riveliamo un divario sostanziale tra gli LLM esistenti e le prestazioni di ottimizzazione di livello esperto, evidenziando opportunità di ricerca critiche in questo campo emergente.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nel risolvere problemi del mondo reale e promettono di essere una soluzione per l'automazione dei compiti nell'industria. Tuttavia, sono necessari ulteriori benchmark per valutare sistematicamente gli agenti di automazione da una prospettiva industriale, ad esempio nell'ingegneria civile. Pertanto, proponiamo DrafterBench per la valutazione completa degli agenti LLM nel contesto della revisione di disegni tecnici, un compito di rappresentazione nell'ingegneria civile. DrafterBench contiene dodici tipi di compiti riassunti da file di disegno reali, con 46 funzioni/strumenti personalizzati e un totale di 1920 compiti. DrafterBench è un benchmark open-source progettato per testare rigorosamente la competenza degli agenti AI nell'interpretare istruzioni complesse e a lungo contesto, sfruttare conoscenze pregresse e adattarsi alla qualità dinamica delle istruzioni attraverso una consapevolezza implicita delle politiche. Il toolkit valuta in modo completo diverse capacità nella comprensione di dati strutturati, esecuzione di funzioni, seguire istruzioni e ragionamento critico. DrafterBench offre un'analisi dettagliata dell'accuratezza dei compiti e delle statistiche degli errori, con l'obiettivo di fornire una visione più approfondita delle capacità degli agenti e identificare obiettivi di miglioramento per l'integrazione degli LLM nelle applicazioni ingegneristiche. Il nostro benchmark è disponibile all'indirizzo https://github.com/Eason-Li-AIS/DrafterBench, con il set di test ospitato su https://huggingface.co/datasets/Eason666/DrafterBench.
Gli esseri umani sono componenti integrali dell'ecosistema dei trasporti, e comprendere i loro comportamenti è fondamentale per facilitare lo sviluppo di sistemi di guida sicuri. Sebbene i recenti progressi abbiano esplorato vari aspetti del comportamento umano—come il movimento, le traiettorie e le intenzioni—un benchmark completo per valutare la comprensione del comportamento umano nella guida autonoma rimane indisponibile. In questo lavoro, proponiamo MMHU, un benchmark su larga scala per l'analisi del comportamento umano, caratterizzato da annotazioni ricche, come il movimento e le traiettorie umane, descrizioni testuali dei movimenti umani, intenzioni umane ed etichette di comportamenti critici rilevanti per la sicurezza alla guida. Il nostro dataset comprende 57k clip di movimento umano e 1.73M frame raccolti da fonti diverse, inclusi dataset di guida consolidati come Waymo, video in contesti reali da YouTube e dati auto-raccolti. È stato sviluppato un pipeline di annotazione con l'uomo nel ciclo per generare descrizioni dettagliate dei comportamenti. Forniamo un'analisi approfondita del dataset e benchmarkiamo molteplici task—dalla previsione del movimento alla generazione del movimento e al question answering sul comportamento umano—offrendo così una suite di valutazione ampia. Pagina del progetto: https://MMHU-Benchmark.github.io.
La comunità dei grandi modelli linguistici (LLM) si concentra quasi esclusivamente su modelli linguistici di tipo decoder-only, poiché sono più facili da utilizzare per la generazione di testo. Tuttavia, una vasta parte della comunità continua a utilizzare modelli encoder-only per compiti come la classificazione o il retrieval. Precedenti lavori hanno tentato di confrontare queste architetture, ma sono stati costretti a fare confronti con modelli che hanno un numero diverso di parametri, tecniche di addestramento e dataset. Introduciamo la suite di modelli SOTA open-data Ettin: modelli accoppiati encoder-only e decoder-only che vanno da 17 milioni di parametri a 1 miliardo, addestrati su fino a 2 trilioni di token. Utilizzando la stessa ricetta sia per i modelli encoder-only che decoder-only, produciamo ricette SOTA in entrambe le categorie per le rispettive dimensioni, superando ModernBERT come encoder e Llama 3.2 e SmolLM2 come decoder. Come nei lavori precedenti, troviamo che i modelli encoder-only eccellono nei compiti di classificazione e retrieval, mentre i decoder eccellono nei compiti generativi. Tuttavia, dimostriamo che adattare un modello decoder ai compiti encoder (e viceversa) attraverso un addestramento continuo è inferiore rispetto all'utilizzo solo dell'obiettivo inverso (ad esempio, un encoder da 400M supera un decoder da 1B su MNLI, e viceversa per i compiti generativi). Rendiamo open-source tutti gli artefatti di questo studio, inclusi i dati di addestramento, l'ordine di addestramento segmentato per checkpoint e oltre 200 checkpoint, per consentire a futuri lavori di analizzare o estendere tutti gli aspetti dell'addestramento.
Abilitare gli esseri umani virtuali a rispondere in modo dinamico e realistico a stimoli uditivi diversi rimane una sfida chiave nell'animazione dei personaggi, richiedendo l'integrazione di modellazione percettiva e sintesi del movimento. Nonostante la sua importanza, questo compito rimane in gran parte inesplorato. La maggior parte dei lavori precedenti si è concentrata principalmente sulla mappatura di modalità come il parlato, l'audio e la musica per generare il movimento umano. Fino ad ora, questi modelli tipicamente trascurano l'impatto delle caratteristiche spaziali codificate nei segnali audio spaziali sul movimento umano. Per colmare questa lacuna e consentire una modellazione di alta qualità dei movimenti umani in risposta all'audio spaziale, introduciamo il primo dataset completo di Movimento Umano Guidato da Audio Spaziale (SAM), che contiene dati audio spaziali e di movimento diversi e di alta qualità. Per il benchmarking, sviluppiamo un framework generativo basato su diffusione semplice ma efficace per la generazione del movimento umano guidato da audio spaziale, denominato MOSPA, che cattura fedelmente la relazione tra il movimento del corpo e l'audio spaziale attraverso un meccanismo di fusione efficace. Una volta addestrato, MOSPA può generare movimenti umani realistici e diversificati condizionati da diversi input audio spaziali. Effettuiamo un'indagine approfondita del dataset proposto e conduciamo esperimenti estesi per il benchmarking, dove il nostro metodo raggiunge prestazioni all'avanguardia su questo compito. Il nostro modello e il dataset saranno open-source al momento dell'accettazione. Si prega di fare riferimento al nostro video supplementare per maggiori dettagli.
Proponiamo Lizard, un framework di linearizzazione che trasforma modelli linguistici di grandi dimensioni (LLM) basati su Transformer pre-addestrati in architetture flessibili e sub-quadratiche per la generazione di contesto infinito. I LLM basati su Transformer affrontano significativi colli di bottiglia di memoria e computazione all'aumentare della lunghezza del contesto, a causa della complessità quadratica dell'attenzione softmax e della crescita della cache chiave-valore (KV). Lizard affronta queste limitazioni introducendo un meccanismo di attenzione sub-quadratica che approssima strettamente l'attenzione softmax preservando la qualità dell'output. A differenza dei precedenti metodi di linearizzazione, spesso limitati da strutture di modello fisse che escludono meccanismi di gating, Lizard incorpora un modulo di gating ispirato dai recenti modelli lineari all'avanguardia. Ciò consente un controllo adattivo della memoria, supporta inferenza a memoria costante, offre una forte generalizzazione sulla lunghezza e permette una progettazione del modello più flessibile. Lizard combina l'attenzione lineare con gating per la compressione del contesto globale con l'attenzione a finestra scorrevole potenziata da meta-memoria, formando un meccanismo ibrido che cattura sia le dipendenze a lungo raggio che le interazioni locali dettagliate. Inoltre, introduciamo un algoritmo hardware-aware che accelera la velocità di addestramento dei nostri modelli. Esperimenti estesi dimostrano che Lizard raggiunge un recupero quasi senza perdite delle prestazioni del modello insegnante in compiti standard di modellazione del linguaggio, superando significativamente i precedenti metodi di linearizzazione. Sul benchmark MMLU a 5-shot, Lizard migliora di 18 punti rispetto ai modelli precedenti e mostra miglioramenti significativi nei compiti di richiamo associativo.
Presentiamo SpatialTrackerV2, un metodo di tracciamento 3D feed-forward per video monoculari. Andando oltre le pipeline modulari costruite su componenti preesistenti per il tracciamento 3D, il nostro approccio unifica le connessioni intrinseche tra il tracciamento dei punti, la profondità monoculare e la stima della posa della fotocamera in un tracciatore 3D ad alte prestazioni e feedforward. Esso scompone il movimento 3D nello spazio mondiale in geometria della scena, movimento ego della fotocamera e movimento pixel-per-pixel degli oggetti, con un'architettura completamente differenziabile e end-to-end, consentendo un addestramento scalabile su un'ampia gamma di dataset, inclusi sequenze sintetiche, video RGB-D con pose e riprese non etichettate in ambienti reali. Apprendendo congiuntamente la geometria e il movimento da tali dati eterogenei, SpatialTrackerV2 supera i metodi di tracciamento 3D esistenti del 30% e raggiunge la precisione dei principali approcci di ricostruzione 3D dinamica, operando 50 volte più velocemente.
I recenti progressi hanno stabilito un nuovo paradigma di apprendimento automatico basato sull'aumento della potenza di calcolo sia durante l'inferenza che durante l'addestramento. In questo filone di ricerca, viene utilizzata una combinazione di Fine-Tuning Supervisionato (SFT) su dimostrazioni sintetiche e Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per addestrare Modelli Linguistici di Grande Scala a impiegare ulteriore potenza di calcolo durante l'inferenza sotto forma di "pensieri" espressi in linguaggio naturale. In questo articolo, proponiamo invece di formattare questi token come una traccia di interazione multi-turn con uno strumento dotato di stato. Ad ogni turno, il nuovo stato dello strumento viene aggiunto al contesto del modello, il cui compito è generare i token necessari per controllare lo strumento tramite un DSL personalizzato. Valutiamo questo approccio sul problema della riparazione di codice Python malfunzionante e dimostriamo che questa configurazione vincolata consente un campionamento più rapido dell'esperienza e un segnale di ricompensa più denso, permettendo anche a modelli di dimensioni fino a 3B di parametri di apprendere come impiegare proficuamente ulteriore potenza di calcolo sul compito.
I recenti progressi nella generazione video, in particolare nei modelli di diffusione, hanno portato a notevoli avanzamenti nella sintesi da testo a video (T2V) e da immagine a video (I2V). Tuttavia, permangono sfide nell'integrazione efficace di segnali di movimento dinamico e vincoli spaziali flessibili. I metodi T2V esistenti si basano tipicamente su prompt testuali, che intrinsecamente mancano di un controllo preciso sul layout spaziale del contenuto generato. Al contrario, i metodi I2V sono limitati dalla loro dipendenza da immagini reali, il che restringe l'editabilità del contenuto sintetizzato. Sebbene alcuni metodi incorporino ControlNet per introdurre condizionamenti basati su immagini, spesso mancano di un controllo esplicito del movimento e richiedono un addestramento computazionalmente costoso. Per affrontare queste limitazioni, proponiamo AnyI2V, un framework senza addestramento che anima qualsiasi immagine condizionale con traiettorie di movimento definite dall'utente. AnyI2V supporta una gamma più ampia di modalità come immagine condizionale, inclusi tipi di dati come mesh e nuvole di punti non supportati da ControlNet, consentendo una generazione video più flessibile e versatile. Inoltre, supporta input condizionali misti e permette il trasferimento di stile e l'editing tramite LoRA e prompt testuali. Esperimenti estensivi dimostrano che il proposto AnyI2V raggiunge prestazioni superiori e offre una nuova prospettiva nella generazione video controllata spazialmente e nel movimento. Il codice è disponibile all'indirizzo https://henghuiding.com/AnyI2V/.
La rapida evoluzione delle librerie software rappresenta un ostacolo considerevole per la generazione di codice, richiedendo un adattamento continuo ai frequenti aggiornamenti di versione pur mantenendo la compatibilità con le versioni precedenti. Sebbene i benchmark esistenti sull'evoluzione del codice forniscano intuizioni preziose, generalmente mancano di una valutazione basata sull'esecuzione per la generazione di codice conforme a specifiche versioni delle librerie. Per affrontare questo problema, introduciamo GitChameleon, un nuovo dataset accuratamente curato che comprende 328 problemi di completamento del codice Python, ciascuno condizionato a specifiche versioni di libreria e accompagnato da test unitari eseguibili. GitChameleon valuta rigorosamente la capacità dei moderni modelli linguistici di grandi dimensioni (LLM), agenti basati su LLM, assistenti di codice e sistemi RAG di eseguire una generazione di codice condizionata alla versione che dimostri accuratezza funzionale attraverso l'esecuzione. Le nostre valutazioni estensive indicano che i sistemi all'avanguardia incontrano sfide significative in questo compito; i modelli aziendali raggiungono tassi di successo di base compresi tra il 48% e il 51%, sottolineando la complessità del problema. Offrendo un benchmark basato sull'esecuzione che enfatizza la natura dinamica delle librerie di codice, GitChameleon consente una comprensione più chiara di questa sfida e aiuta a guidare lo sviluppo di metodi di generazione di codice AI più adattabili e affidabili. Rendiamo disponibili pubblicamente il dataset e il codice di valutazione all'indirizzo https://github.com/mrcabbage972/GitChameleonBenchmark.
L'apprendimento per rinforzo (Reinforcement Learning, RL) per i modelli linguistici di grandi dimensioni è un'impresa ad alta intensità energetica: l'addestramento può essere instabile e la politica potrebbe gradualmente allontanarsi dai pesi pre-addestrati. Presentiamo RLEP (Reinforcement Learning with Experience rePlay), un framework in due fasi che prima raccoglie traiettorie verificate e poi le riproduce durante l'addestramento successivo. Ad ogni passo di aggiornamento, la politica viene ottimizzata su mini-batch che mescolano rollout generati di recente con questi successi riprodotti. Riproducendo esempi di alta qualità, RLEP allontana il modello da esplorazioni infruttuose, concentra l'apprendimento su percorsi di ragionamento promettenti e garantisce sia una convergenza più rapida che prestazioni finali più solide. Sul modello base Qwen2.5-Math-7B, RLEP raggiunge l'accuratezza di picco di riferimento con un numero sostanzialmente inferiore di aggiornamenti e alla fine la supera, migliorando l'accuratezza su AIME-2024 dal 38,2% al 39,9%, su AIME-2025 dal 19,8% al 22,3% e su AMC-2023 dal 77,0% all'82,2%. Il nostro codice, i dataset e i checkpoint sono pubblicamente disponibili all'indirizzo https://github.com/Kwai-Klear/RLEP per facilitare la riproducibilità e ulteriori ricerche.
Questo articolo presenta la partecipazione di AI Wizards al CLEF 2025 CheckThat! Lab Task 1: Rilevamento della Soggettività negli Articoli di Notizie, classificando le frasi come soggettive/oggettive in contesti monolingue, multilingue e zero-shot. Sono stati forniti dataset di addestramento/sviluppo per arabo, tedesco, inglese, italiano e bulgaro; la valutazione finale ha incluso ulteriori lingue non viste (ad esempio, greco, rumeno, polacco, ucraino) per valutare la generalizzazione. La nostra strategia principale ha migliorato i classificatori basati su transformer integrando punteggi di sentiment, derivati da un modello ausiliario, con le rappresentazioni delle frasi, con l'obiettivo di migliorare il fine-tuning standard. Abbiamo esplorato questa architettura arricchita dal sentiment con mDeBERTaV3-base, ModernBERT-base (inglese) e Llama3.2-1B. Per affrontare lo squilibrio delle classi, prevalente tra le lingue, abbiamo utilizzato la calibrazione della soglia decisionale ottimizzata sul set di sviluppo. I nostri esperimenti mostrano che l'integrazione delle feature di sentiment migliora significativamente le prestazioni, in particolare il punteggio F1 soggettivo. Questo framework ha portato a posizioni elevate, in particolare il 1° posto per il greco (Macro F1 = 0.51).
I modelli multi-modali di base sono spesso progettati combinando più modelli pre-addestrati uni-modali esistenti: ad esempio, un classificatore di immagini con un modello di testo. Questo processo di combinazione viene eseguito addestrando un modulo connettore che mira ad allineare gli spazi di rappresentazione di questi modelli uni-modali verso un obiettivo multi-modale. Tuttavia, data la complessità dell'addestramento di tali connettori su dataset su larga scala basati sul web, unita al numero sempre crescente di modelli pre-addestrati uni-modali disponibili, il compito di selezione dei modelli uni-modali e il successivo addestramento del modulo connettore diventa computazionalmente impegnativo. Per affrontare questo problema critico e poco studiato, proponiamo Hypernetwork Model Alignment (Hyma), una soluzione innovativa tutto-in-uno per la selezione ottimale dei modelli uni-modali e l'addestramento del connettore sfruttando le iper-reti. Nello specifico, il nostro framework utilizza la capacità di previsione dei parametri di un'iper-rete per ottenere moduli connettori addestrati congiuntamente per N volte M combinazioni di modelli uni-modali. Nei nostri esperimenti, Hyma riduce il costo della ricerca della coppia di modelli uni-modali con le migliori prestazioni di 10 volte, eguagliando il ranking e le prestazioni del connettore addestrato ottenuti tramite la ricerca a griglia su una serie di benchmark multi-modali diversificati.
La distillazione della conoscenza, come tecnica efficiente di trasferimento della conoscenza, ha ottenuto un notevole successo in scenari unimodali. Tuttavia, in contesti cross-modali, i metodi convenzionali di distillazione incontrano sfide significative a causa delle eterogeneità dei dati e delle statistiche, fallendo nel sfruttare la conoscenza a priori complementare incorporata nei modelli insegnanti cross-modali. Questo articolo rivela empiricamente due problemi critici negli approcci esistenti: la selezione del percorso di distillazione e la deriva della conoscenza. Per affrontare queste limitazioni, proponiamo MST-Distill, un nuovo framework di distillazione della conoscenza cross-modale che presenta una miscela di insegnanti specializzati. Il nostro approccio utilizza un insieme diversificato di modelli insegnanti sia in configurazioni cross-modali che multimodali, integrato con una rete di routing a livello di istanza che facilita una distillazione adattiva e dinamica. Questa architettura supera efficacemente i vincoli dei metodi tradizionali che si basano su modelli insegnanti monotoni e statici. Inoltre, introduciamo un modulo di mascheramento plug-in, addestrato in modo indipendente per sopprimere le discrepanze specifiche della modalità e ricostruire le rappresentazioni degli insegnanti, mitigando così la deriva della conoscenza e migliorando l'efficacia del trasferimento. Esperimenti estesi su cinque diversi dataset multimodali, che coprono visuale, audio e testo, dimostrano che il nostro metodo supera significativamente i metodi di distillazione della conoscenza all'avanguardia esistenti nei compiti di distillazione cross-modale. Il codice sorgente è disponibile all'indirizzo https://github.com/Gray-OREO/MST-Distill.