Articoli di ricerca IA selezionati quotidianamente con traduzioni
I LLM hanno dimostrato forti capacità di ragionamento matematico sfruttando il reinforcement learning con lunghe catene di pensiero, ma continuano a incontrare difficoltà nella dimostrazione di teoremi a causa della mancanza di segnali di supervisione chiari quando si utilizza esclusivamente il linguaggio naturale. Linguaggi specifici di dominio come Lean forniscono una supervisione chiara attraverso la verifica formale delle dimostrazioni, consentendo un addestramento efficace tramite reinforcement learning. In questo lavoro, proponiamo Seed-Prover, un modello di ragionamento a dimostrazione completa in stile lemma. Seed-Prover può affinare iterativamente la sua dimostrazione basandosi sul feedback di Lean, sui lemmi dimostrati e sull'auto-riassunto. Per risolvere problemi di livello IMO, progettiamo tre strategie di inferenza al momento del test che consentono sia un ragionamento profondo che ampio. Seed-Prover dimostra il 78,1% dei problemi IMO formalizzati del passato, satura MiniF2F e raggiunge oltre il 50% su PutnamBench, superando di gran lunga lo stato dell'arte precedente. Per affrontare la mancanza di supporto per la geometria in Lean, introduciamo un motore di ragionamento geometrico, Seed-Geometry, che supera i precedenti motori formali di geometria. Utilizziamo questi due sistemi per partecipare all'IMO 2025 e dimostrare completamente 5 su 6 problemi. Questo lavoro rappresenta un significativo avanzamento nel ragionamento matematico automatizzato, dimostrando l'efficacia della verifica formale con ragionamento a lunga catena di pensiero.
Con lo sviluppo di modelli di ragionamento multimodale, gli Agenti per l'Uso del Computer (Computer Use Agents, CUAs), simili a Jarvis di "Iron Man", stanno diventando una realtà. Il grounding delle interfacce grafiche (GUI) è un componente fondamentale affinché i CUAs possano eseguire azioni concrete, analogamente al controllo meccanico nella robotica, e determina direttamente il successo o il fallimento del sistema. Esso definisce azioni come cliccare e digitare, nonché parametri correlati come le coordinate per i clic. Gli attuali modelli di grounding end-to-end raggiungono ancora un'accuratezza inferiore al 65% su benchmark impegnativi come ScreenSpot-pro e UI-Vision, indicando che sono lontani dall'essere pronti per il deployment. In questo lavoro, conduciamo uno studio empirico sull'addestramento dei modelli di grounding, esaminando i dettagli dalla raccolta dei dati al training del modello. Alla fine, abbiamo sviluppato la famiglia di modelli Phi-Ground, che raggiunge prestazioni all'avanguardia su tutti e cinque i benchmark di grounding per modelli con meno di 10 miliardi di parametri in contesti di agenti. Nel contesto dei modelli end-to-end, il nostro modello ottiene comunque risultati SOTA con punteggi di \textbf{43,2} su ScreenSpot-pro e \textbf{27,2} su UI-Vision. Crediamo che i vari dettagli discussi in questo articolo, insieme ai nostri successi e fallimenti, non solo chiariscano la costruzione dei modelli di grounding, ma siano anche utili per altre attività di percezione. Pagina del progetto: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
I modelli di dialogo parlato (Spoken Dialogue Models, SDM) hanno recentemente attirato notevole attenzione per la loro capacità di generare risposte vocali direttamente alle query vocali degli utenti. Nonostante la loro crescente popolarità, esiste un vuoto nella ricerca focalizzato sulla comprensione completa della loro efficacia pratica nel comprendere e emulare le conversazioni umane. Questo è particolarmente vero se confrontati con i modelli linguistici di grandi dimensioni (Large Language Models, LLM) basati su testo, che beneficiano di un ampio benchmarking. Le interazioni vocali umane sono intrinsecamente più complesse del testo a causa di caratteristiche uniche del dialogo parlato. L'ambiguità rappresenta una sfida, derivante da fattori semantici come la polisemia, nonché aspetti fonologici come gli eterografi, gli eteronimi e i modelli di accento. Inoltre, la dipendenza dal contesto, come l'omissione, la coreferenza e l'interazione multi-turn, aggiunge ulteriore complessità alla dinamica delle conversazioni umane. Per illuminare lo stato attuale dello sviluppo degli SDM e affrontare queste sfide, presentiamo in questo articolo un dataset di benchmark, che comprende 1.079 istanze in inglese e cinese. Accompagnato da un metodo di valutazione basato su LLM che si allinea strettamente al giudizio umano, questo dataset facilita un'esplorazione completa delle prestazioni degli SDM nell'affrontare queste sfide pratiche.
I sistemi di raccomandazione sono tra le applicazioni più impattanti dell'intelligenza artificiale, rappresentando un'infrastruttura critica che collega utenti, commercianti e piattaforme. Tuttavia, la maggior parte dei sistemi industriali attuali rimane fortemente dipendente da modelli storici di co-occorrenza e obiettivi di adattamento ai log, ovvero ottimizzando le interazioni passate degli utenti senza modellare esplicitamente le loro intenzioni. Questo approccio di adattamento ai log spesso porta a un overfitting verso preferenze storiche ristrette, fallendo nel cogliere gli interessi evolutivi e latenti degli utenti. Di conseguenza, rafforza le bolle informative e i fenomeni della coda lunga, danneggiando l'esperienza dell'utente e minacciando la sostenibilità dell'intero ecosistema di raccomandazione. Per affrontare queste sfide, ripensiamo il paradigma di progettazione complessivo dei sistemi di raccomandazione e proponiamo RecGPT, un framework di nuova generazione che pone l'intenzione dell'utente al centro del processo di raccomandazione. Integrando modelli linguistici di grandi dimensioni (LLM) nelle fasi chiave di estrazione degli interessi degli utenti, recupero degli elementi e generazione di spiegazioni, RecGPT trasforma la raccomandazione basata sui log in un processo centrato sull'intenzione. Per allineare efficacemente gli LLM generici ai suddetti compiti di raccomandazione specifici del dominio su larga scala, RecGPT incorpora un paradigma di addestramento multi-stadio, che integra un pre-allineamento potenziato dal ragionamento e un'evoluzione tramite auto-addestramento, guidato da un sistema di giudizio cooperativo Uomo-LLM. Attualmente, RecGPT è stato completamente implementato sull'app Taobao. Esperimenti online dimostrano che RecGPT ottiene miglioramenti consistenti delle prestazioni per tutte le parti interessate: gli utenti beneficiano di una maggiore diversità dei contenuti e soddisfazione, mentre commercianti e piattaforma ottengono una maggiore esposizione e conversione. Questi risultati di miglioramento complessivo per tutte le parti interessate convalidano che un design guidato da LLM e centrato sull'intenzione può favorire un ecosistema di raccomandazione più sostenibile e reciprocamente vantaggioso.
I modelli Visual-Language-Action (VLA) sono emersi come un paradigma popolare per l'apprendimento di politiche di manipolazione robotica in grado di seguire istruzioni linguistiche e generalizzare a scenari nuovi. Recenti lavori hanno iniziato a esplorare l'incorporazione di azioni latenti, una rappresentazione astratta del cambiamento visivo tra due frame, nel pre-addestramento VLA. In questo articolo, introduciamo villa-X, un nuovo framework Visual-Language-Latent-Action (ViLLA) che avanza la modellazione delle azioni latenti per l'apprendimento di politiche di manipolazione robotica generalizzabili. Il nostro approccio migliora sia il modo in cui le azioni latenti vengono apprese sia il modo in cui vengono integrate nel pre-addestramento VLA. Insieme, questi contributi consentono a villa-X di ottenere prestazioni superiori in ambienti simulati come SIMPLER e LIBERO, nonché in due configurazioni robotiche del mondo reale, inclusa la manipolazione con pinza e mano destra. Crediamo che il paradigma ViLLA abbia un potenziale significativo e che villa-X fornisca una solida base per la ricerca futura.
La modellazione 3D feed-forward è emersa come un approccio promettente per una ricostruzione 3D rapida e di alta qualità. In particolare, la generazione diretta di rappresentazioni 3D esplicite, come lo splatting con Gaussiane 3D, ha attirato notevole attenzione grazie al rendering veloce e di alta qualità, nonché alle numerose applicazioni. Tuttavia, molti metodi all'avanguardia, basati principalmente su architetture transformer, soffrono di gravi problemi di scalabilità poiché si affidano a un'attenzione completa tra i token delle immagini provenienti da più viste di input, risultando in costi computazionali proibitivi all'aumentare del numero di viste o della risoluzione delle immagini. Verso una ricostruzione 3D feed-forward scalabile ed efficiente, introduciamo un Large 3D Reconstruction Model iterativo (iLRM) che genera rappresentazioni di Gaussiane 3D attraverso un meccanismo di raffinamento iterativo, guidato da tre principi fondamentali: (1) disaccoppiare la rappresentazione della scena dalle immagini delle viste di input per consentire rappresentazioni 3D compatte; (2) scomporre le interazioni multi-vista completamente attentive in uno schema di attenzione a due stadi per ridurre i costi computazionali; e (3) iniettare informazioni ad alta risoluzione in ogni livello per ottenere una ricostruzione ad alta fedeltà. I risultati sperimentali su dataset ampiamente utilizzati, come RE10K e DL3DV, dimostrano che iLRM supera i metodi esistenti sia nella qualità della ricostruzione che nella velocità. In particolare, iLRM mostra una scalabilità superiore, fornendo una qualità di ricostruzione significativamente più elevata a parità di costo computazionale, sfruttando in modo efficiente un numero maggiore di viste di input.
I grandi modelli linguistici interagiscono con gli utenti attraverso una "Assistente" simulata. Sebbene l'Assistente sia tipicamente addestrata per essere utile, innocua e onesta, a volte devia da questi ideali. In questo articolo, identifichiamo direzioni nello spazio di attivazione del modello - vettori di personalità - che sottendono diversi tratti, come la malvagità, la piaggeria e la propensione a produrre allucinazioni. Confermiamo che questi vettori possono essere utilizzati per monitorare le fluttuazioni della personalità dell'Assistente durante il dispiegamento. Applichiamo quindi i vettori di personalità per prevedere e controllare i cambiamenti di personalità che si verificano durante l'addestramento. Scopriamo che sia i cambiamenti di personalità intenzionali che quelli non intenzionali dopo il fine-tuning sono fortemente correlati con gli spostamenti lungo i vettori di personalità rilevanti. Questi spostamenti possono essere mitigati attraverso un intervento post-hoc, o evitati fin dall'inizio con un nuovo metodo di guida preventiva. Inoltre, i vettori di personalità possono essere utilizzati per segnalare i dati di addestramento che produrranno cambiamenti di personalità indesiderati, sia a livello di dataset che a livello di singolo campione. Il nostro metodo per estrarre i vettori di personalità è automatizzato e può essere applicato a qualsiasi tratto di personalità di interesse, data solo una descrizione in linguaggio naturale.
Sebbene il Reinforcement Learning (RL) abbia ottenuto risultati notevoli nella modellazione del linguaggio, il suo successo non si è ancora pienamente tradotto negli agenti visuomotori. Una delle principali sfide nei modelli RL è la loro tendenza a sovradattarsi a compiti o ambienti specifici, ostacolando così l'acquisizione di comportamenti generalizzabili in contesti diversi. Questo articolo fornisce una risposta preliminare a questa sfida dimostrando che gli agenti visuomotori ottimizzati con RL in Minecraft possono ottenere una generalizzazione zero-shot in mondi non visti. Nello specifico, esploriamo il potenziale del RL per migliorare le capacità di ragionamento spaziale e di interazione generalizzabili in mondi 3D. Per affrontare le sfide nella rappresentazione multi-task del RL, analizziamo e stabiliamo la specificazione degli obiettivi cross-view come uno spazio di obiettivi multi-task unificato per le politiche visuomotorie. Inoltre, per superare il significativo collo di bottiglia della progettazione manuale dei compiti, proponiamo la sintesi automatizzata dei compiti all'interno dell'ambiente altamente personalizzabile di Minecraft per l'addestramento su larga scala di RL multi-task, e costruiamo un framework distribuito di RL efficiente per supportare questo processo. I risultati sperimentali mostrano che il RL aumenta significativamente i tassi di successo delle interazioni di 4 volte e consente la generalizzazione zero-shot del ragionamento spaziale in ambienti diversi, comprese le impostazioni del mondo reale. Le nostre scoperte sottolineano l'enorme potenziale dell'addestramento RL in ambienti simulati 3D, specialmente quelli adatti alla generazione su larga scala di compiti, per far avanzare significativamente il ragionamento spaziale degli agenti visuomotori.
Introduciamo NeRF-GS, un nuovo framework che ottimizza congiuntamente i Neural Radiance Fields (NeRF) e il 3D Gaussian Splatting (3DGS). Questo framework sfrutta la rappresentazione spaziale continua intrinseca di NeRF per mitigare diverse limitazioni del 3DGS, tra cui la sensibilità all'inizializzazione gaussiana, la consapevolezza spaziale limitata e le deboli correlazioni inter-gaussiane, migliorando così le sue prestazioni. In NeRF-GS, rivediamo il design del 3DGS e allineiamo progressivamente le sue caratteristiche spaziali con NeRF, consentendo a entrambe le rappresentazioni di essere ottimizzate all'interno della stessa scena attraverso informazioni spaziali 3D condivise. Affrontiamo ulteriormente le distinzioni formali tra i due approcci ottimizzando i vettori residui sia per le caratteristiche implicite che per le posizioni gaussiane, al fine di potenziare le capacità personalizzate del 3DGS. I risultati sperimentali su dataset di riferimento dimostrano che NeRF-GS supera i metodi esistenti e raggiunge prestazioni all'avanguardia. Questo risultato conferma che NeRF e 3DGS sono complementari piuttosto che in competizione, offrendo nuove prospettive su approcci ibridi che combinano 3DGS e NeRF per una rappresentazione efficiente delle scene 3D.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) abilitano il ragionamento visivo-linguistico, ma spesso generano output plausibili che sono fattualmente errati o visivamente non fondati, compromettendo così la loro affidabilità. L'ottimizzazione diretta delle preferenze (DPO) è una strategia comune per correggere le allucinazioni allineando gli output del modello con le preferenze umane. Le strategie DPO esistenti trattano tipicamente le preferenze relative alle allucinazioni come obiettivi fissi, basandosi su segnali di supervisione statici durante l'addestramento. Questo approccio tende a sovraadattarsi a indizi linguistici superficiali nei dati di preferenza, portando a rigidità distributiva e correlazioni spurie che compromettono il fondamento in informazioni visive causalmente rilevanti. Per superare questa limitazione, proponiamo TARS, una strategia di preferenza adattativa a livello di token che riformula la DPO come un problema di ottimizzazione min-max. TARS massimizza gli spostamenti distributivi a livello di token sotto vincoli semantici per simulare l'incertezza di allineamento, e minimizza simultaneamente la perdita attesa di preferenza sotto queste perturbazioni controllate. Questo obiettivo congiunto preserva il fondamento causale mitigando il sovraadattamento ai modelli di preferenza, riducendo così le allucinazioni nel ragionamento multimodale. Valutiamo TARS su più benchmark di allucinazioni e riscontriamo prestazioni costantemente solide. Utilizzando solo 4.8k campioni di preferenza e nessun feedback esperto, TARS riduce i tassi di allucinazione dal 26.4% al 13.2% e diminuisce il valore di cognizione da 2.5 a 0.4. Supera la DPO standard e raggiunge prestazioni paragonabili a GPT-4o su diverse metriche chiave.
Una comprensione precisa e automatizzata di compiti agricoli come l'identificazione delle malattie è essenziale per una produzione sostenibile delle colture. I recenti progressi nei modelli visione-linguaggio (VLMs) sono destinati a espandere ulteriormente la gamma di compiti agricoli, facilitando l'interazione uomo-modello attraverso una comunicazione semplice e basata sul testo. Qui presentiamo AgroBench (Agronomist AI Benchmark), un benchmark per valutare i modelli VLM su sette tematiche agricole, coprendo aree chiave dell'ingegneria agricola e rilevanti per l'agricoltura reale. A differenza dei recenti benchmark agricoli per VLMs, AgroBench è annotato da agronomi esperti. Il nostro AgroBench copre una gamma all'avanguardia di categorie, includendo 203 categorie di colture e 682 categorie di malattie, per valutare approfonditamente le capacità dei VLMs. Nella nostra valutazione su AgroBench, riveliamo che i VLMs hanno margine di miglioramento nei compiti di identificazione fine. In particolare, nell'identificazione delle erbe infestanti, la maggior parte dei VLMs open-source performa vicino al caso. Con la nostra ampia gamma di tematiche e categorie annotate da esperti, analizziamo i tipi di errori commessi dai VLMs e suggeriamo potenziali percorsi per lo sviluppo futuro dei VLMs. Il nostro dataset e il codice sono disponibili su https://dahlian00.github.io/AgroBenchPage/.
La classificazione degli stili artistici rimane una sfida formidabile nell'ambito dell'estetica computazionale a causa della scarsità di dataset etichettati da esperti e dell'intricata, spesso non lineare, interazione degli elementi stilistici. Sebbene i recenti framework auto-supervisionati a doppio insegnante riducano la dipendenza dai dati etichettati, i loro strati di proiezione lineare e l'attenzione localizzata faticano a modellare il contesto compositivo globale e le complesse interazioni tra le caratteristiche stilistiche. Miglioriamo il framework di distillazione della conoscenza a doppio insegnante per affrontare queste limitazioni sostituendo le tradizionali proiezioni MLP e le teste di previsione con le Reti di Kolmogorov-Arnold (KAN). Il nostro approccio mantiene una guida complementare da due reti insegnanti, una che enfatizza le texture localizzate e i modelli di pennellata, l'altra che cattura gerarchie stilistiche più ampie, sfruttando le attivazioni basate su spline delle KAN per modellare con precisione matematica le correlazioni non lineari delle caratteristiche. Gli esperimenti su WikiArt e Pandora18k dimostrano che il nostro approccio supera l'architettura di base a doppio insegnante in termini di accuratezza Top-1. I nostri risultati evidenziano l'importanza delle KAN nel districare complessi manifold stilistici, portando a una migliore accuratezza delle sonde lineari rispetto alle proiezioni MLP.
Dalla sua introduzione, l'attenzione softmax è diventata la spina dorsale delle moderne architetture transformer grazie alla sua espressività e scalabilità su un'ampia gamma di compiti. Tuttavia, il principale svantaggio dell'attenzione softmax è il requisito di memoria quadratico e la complessità computazionale rispetto alla lunghezza della sequenza. Sostituendo la non linearità softmax, sono state introdotte l'attenzione lineare e metodi simili per evitare il collo di bottiglia quadratico dell'attenzione softmax. Nonostante queste forme lineari di attenzione derivino dalla formulazione originale della softmax, in genere risultano inferiori in termini di accuratezza nei compiti downstream. Sebbene una forte intuizione sulla non linearità softmax applicata al prodotto interno tra query e chiavi suggerisca che essa abbia proprietà desiderabili rispetto ad altre non linearità, la questione del perché esista questa discrepanza rimane ancora senza risposta. Questo lavoro dimostra che l'attenzione lineare è un'approssimazione dell'attenzione softmax derivando la forma ricorrente dell'attenzione softmax. Utilizzando questa forma, ogni parte dell'attenzione softmax può essere descritta nel linguaggio delle reti neurali ricorrenti (RNN). Descrivere l'attenzione softmax come una RNN consente di effettuare un'ablazione delle componenti dell'attenzione softmax per comprenderne l'importanza e il modo in cui interagiscono. In questo modo, il nostro lavoro aiuta a spiegare perché l'attenzione softmax è più espressiva rispetto alle sue controparti.
I dati raggiungono i nostri sensi come un flusso continuo, trasformandosi dolcemente da un istante all'altro. Queste trasformazioni fluide possono essere viste come simmetrie continue dell'ambiente in cui viviamo, definendo relazioni di equivalenza tra gli stimoli nel tempo. Nell'apprendimento automatico, le architetture di reti neurali che rispettano le simmetrie dei loro dati sono chiamate equivarianti e presentano vantaggi dimostrabili in termini di capacità di generalizzazione ed efficienza campionaria. Tuttavia, fino ad oggi, l'equivarianza è stata considerata solo per trasformazioni statiche e reti feed-forward, limitando la sua applicabilità a modelli sequenziali, come le reti neurali ricorrenti (RNN), e alle corrispondenti trasformazioni sequenziali parametrizzate nel tempo. In questo lavoro, estendiamo la teoria delle reti equivarianti a questo regime di "flussi" - sottogruppi di Lie a un parametro che catturano trasformazioni naturali nel tempo, come il movimento visivo. Iniziamo mostrando che le RNN standard generalmente non sono equivarianti rispetto ai flussi: i loro stati nascosti non si trasformano in modo geometricamente strutturato per stimoli in movimento. Mostriamo poi come l'equivarianza rispetto ai flussi possa essere introdotta e dimostriamo che questi modelli superano significativamente le loro controparti non equivarianti in termini di velocità di addestramento, generalizzazione della lunghezza e generalizzazione della velocità, sia nella previsione del passo successivo che nella classificazione di sequenze. Presentiamo questo lavoro come un primo passo verso la costruzione di modelli sequenziali che rispettano le simmetrie parametrizzate nel tempo che governano il mondo che ci circonda.
L'arabo rappresenta una sfida particolare per l'elaborazione del linguaggio naturale (NLP) e il recupero delle informazioni (IR) a causa della sua morfologia complessa, dei diacritici opzionali e della coesistenza dell'Arabo Standard Moderno (MSA) e di vari dialetti. Nonostante la crescente importanza globale dell'arabo, esso è ancora sottorappresentato nella ricerca NLP e nelle risorse di benchmark. In questo articolo, presentiamo un framework avanzato di Recupero di Passaggi Densi (DPR) sviluppato specificamente per l'arabo. Al centro del nostro approccio c'è un nuovo sistema di Punteggio di Rilevanza Attento (ARS) che sostituisce i meccanismi di interazione standard con una funzione di punteggio adattiva che modella in modo più efficace la rilevanza semantica tra domande e passaggi. Il nostro metodo integra modelli linguistici arabi pre-addestrati e perfezionamenti architetturali per migliorare le prestazioni di recupero e aumentare significativamente l'accuratezza del ranking nella risposta a domande in arabo. Il codice è reso disponibile pubblicamente su https://github.com/Bekhouche/APR{GitHub}.
A causa delle crescenti preoccupazioni sulla privacy, il machine unlearning, che mira a consentire ai modelli di machine learning di "dimenticare" specifici dati di addestramento, ha ricevuto un'attenzione sempre maggiore. Tra i metodi esistenti, l'unlearning basato sull'influenza è emerso come un approccio prominente grazie alla sua capacità di stimare l'impatto dei singoli campioni di addestramento sui parametri del modello senza dover riaddestrare. Tuttavia, questo approccio soffre di un sovraccarico computazionale proibitivo derivante dalla necessità di calcolare la matrice Hessiana e la sua inversa su tutti i campioni di addestramento e i parametri, rendendolo impraticabile per modelli su larga scala e scenari che coinvolgono frequenti richieste di cancellazione dei dati. Ciò evidenzia la difficoltà del dimenticare. Ispirati dalla scienza cognitiva, che suggerisce che memorizzare è più facile che dimenticare, questo articolo stabilisce un collegamento teorico tra il memorizzare (apprendimento incrementale) e il dimenticare (unlearning). Questa connessione consente di affrontare il machine unlearning dalla prospettiva dell'apprendimento incrementale. A differenza dei calcoli Hessiani dispendiosi in termini di tempo nell'unlearning (dimenticare), l'apprendimento incrementale (memorizzare) si basa tipicamente su un'ottimizzazione del gradiente più efficiente, che supporta la teoria cognitiva sopra menzionata. Basandoci su questa connessione, introduciamo l'algoritmo Influence Approximation Unlearning (IAU) per un machine unlearning efficiente dalla prospettiva incrementale. Valutazioni empiriche estensive dimostrano che IAU raggiunge un equilibrio superiore tra garanzia di rimozione, efficienza dell'unlearning e utilità comparabile del modello, superando i metodi all'avanguardia su diversi dataset e architetture di modelli. Il nostro codice è disponibile all'indirizzo https://github.com/Lolo1222/IAU.