Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) sono sempre più chiamati a superare le semplici query fattuali per affrontare compiti di Deep Research che richiedono la scomposizione delle domande in sottoproblemi, il coordinamento di ragionamenti multi-step e la sintesi di evidenze provenienti da fonti diverse. Formalizziamo i compiti di Deep Research con risposte verificabili come Problemi di Soddisfazione di Vincoli Gerarchici (HCSP), che sono fondamentalmente diversi dalle formulazioni di CSP a singolo vincolo, multi-hop o piatte. Tuttavia, i benchmark esistenti (ad esempio, Natural Questions, HotpotQA) non riescono a catturare questa complessità, mentre i recenti dataset sintetici spesso introducono scorciatoie di ragionamento, perdite di conoscenza o mancano di sufficiente profondità strutturale. Per colmare questa lacuna, introduciamo InfoSeek, un framework scalabile per sintetizzare complessi compiti di Deep Research. InfoSeek utilizza un sistema dual-agent per costruire ricorsivamente un Albero di Ricerca da pagine web su larga scala, sfumando i nodi intermedi in sottoproblemi validi e convertendo questi alberi in domande in linguaggio naturale che richiedono l'attraversamento dell'intera gerarchia. Consente inoltre una rapida scalabilità, producendo oltre 50K esempi di addestramento, un test set curato e traiettorie di ragionamento generate tramite reject sampling. Gli esperimenti mostrano che i modelli addestrati su InfoSeek superano costantemente i baseline forti. Su un benchmark impegnativo come BrowseComp-Plus, LLM da 3B ottimizzati con InfoSeek superano modelli molto più grandi da 32B e API commerciali leggere (ad esempio, Gemini2.5-Flash), raggiungendo prestazioni comparabili a API più potenti (ad esempio, Gemini2.5-Pro). Preservando meta-informazioni come passaggi intermedi ed etichette di recupero, InfoSeek supporta ulteriormente strategie di ottimizzazione avanzate, tra cui il design di ricompense composte e l'esplorazione a livello di traiettoria. Forniamo i nostri codici e dataset in {questo repository} https://github.com/VectorSpaceLab/InfoSeek.
Presentiamo Robix, un modello unificato che integra il ragionamento robotico, la pianificazione delle attività e l'interazione in linguaggio naturale all'interno di un'unica architettura visione-linguaggio. Agendo come strato cognitivo di alto livello in un sistema robotico gerarchico, Robix genera dinamicamente comandi atomici per il controller di basso livello e risposte verbali per l'interazione umana, consentendo ai robot di seguire istruzioni complesse, pianificare attività a lungo termine e interagire naturalmente con gli esseri umani in un framework end-to-end. Robix introduce inoltre nuove capacità come il dialogo proattivo, la gestione delle interruzioni in tempo reale e il ragionamento di buon senso contestuale durante l'esecuzione delle attività. Nel suo nucleo, Robix sfrutta il ragionamento a catena di pensiero e adotta una strategia di addestramento in tre fasi: (1) pretraining continuato per potenziare le capacità di ragionamento incarnato di base, inclusa la comprensione spaziale 3D, il grounding visivo e il ragionamento centrato sulle attività; (2) fine-tuning supervisionato per modellare l'interazione uomo-robot e la pianificazione delle attività come una sequenza unificata di ragionamento-azione; e (3) apprendimento per rinforzo per migliorare la coerenza tra ragionamento e azione e la coerenza delle attività a lungo termine. Esperimenti estensivi dimostrano che Robix supera sia le baseline open-source che quelle commerciali (ad esempio, GPT-4o e Gemini 2.5 Pro) nell'esecuzione interattiva delle attività, mostrando una forte generalizzazione su diversi tipi di istruzioni (ad esempio, aperte, multi-stadio, vincolate, non valide e interrotte) e su varie attività che coinvolgono l'utente come il riordino dei tavoli, la spesa al supermercato e il filtraggio dietetico.
I modelli linguistici (LM) stanno sempre più alimentando applicazioni del mondo reale che richiedono conoscenza del mondo. Tuttavia, i processi interni attraverso i quali i modelli trasformano i dati in rappresentazioni di conoscenza e credenze sul mondo sono poco compresi. Approfondimenti su questi processi potrebbero aprire la strada allo sviluppo di LM con rappresentazioni di conoscenza più coerenti, robuste e complete. Per facilitare lo studio di queste questioni, presentiamo LMEnt, una suite per analizzare l'acquisizione di conoscenza nei LM durante il pre-training. LMEnt introduce: (1) un corpus di pre-training ricco di conoscenza, completamente annotato con menzioni di entità, basato su Wikipedia, (2) un metodo di recupero basato su entità sui dati di pre-training che supera i precedenti approcci fino all'80,4%, e (3) 12 modelli pre-addestrati con fino a 1 miliardo di parametri e 4.000 checkpoint intermedi, con prestazioni comparabili a modelli open-source popolari su benchmark di conoscenza. Insieme, queste risorse forniscono un ambiente controllato per analizzare le connessioni tra le menzioni di entità nel pre-training e le prestazioni a valle, e gli effetti di interventi causali nei dati di pre-training. Dimostriamo l'utilità di LMEnt studiando l'acquisizione di conoscenza attraverso i checkpoint, scoprendo che la frequenza dei fatti è fondamentale, ma non spiega completamente le tendenze di apprendimento. Rilasciamo LMEnt per supportare studi sulla conoscenza nei LM, inclusi rappresentazioni di conoscenza, plasticità, modifica, attribuzione e dinamiche di apprendimento.
Una pianificazione efficace richiede modelli del mondo robusti, ma i modelli del mondo di alto livello in grado di comprendere e ragionare sulle azioni con astrazione semantica e temporale rimangono in gran parte sottosviluppati. Introduciamo il Vision Language World Model (VLWM), un modello di base addestrato per la modellazione del mondo basata sul linguaggio su video naturali. Dato un'osservazione visiva, il VLWM inferisce prima il raggiungimento complessivo degli obiettivi, quindi predice una traiettoria composta da azioni intercalate e cambiamenti di stato del mondo. Questi obiettivi vengono estratti tramite un processo iterativo di Self-Refine di LLM condizionato su osservazioni future compresse rappresentate da un Albero di Didascalie. Il VLWM apprende sia una politica di azione che un modello di dinamica, che facilitano rispettivamente la decodifica reattiva del piano di sistema-1 e la pianificazione riflessiva di sistema-2 tramite la minimizzazione dei costi. Il costo valuta la distanza semantica tra gli stati futuri ipotetici forniti dalle simulazioni del VLWM e lo stato obiettivo atteso, ed è misurato da un modello critico che abbiamo addestrato in modo auto-supervisionato. Il VLWM raggiunge prestazioni all'avanguardia nella Pianificazione Visiva per l'Assistenza (VPA) sia nelle valutazioni benchmark che nelle nostre valutazioni umane proposte in PlannerArena, dove il sistema-2 migliora il punteggio Elo del +27% rispetto al sistema-1. I modelli VLWM superano anche i forti baseline VLM nei benchmark RoboVQA e WorldPrediction.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è emerso come un paradigma predominante per i compiti di ragionamento matematico, offrendo miglioramenti stabili nelle capacità di ragionamento. Tuttavia, i Modelli di Ricompensa basati sul Risultato (ORMs) nell'RLVR sono troppo grossolani per distinguere ragionamenti imperfetti all'interno di risposte corrette o ragionamenti validi all'interno di risposte errate. Questa mancanza di granularità introduce gradienti rumorosi e fuorvianti in modo significativo e ostacola ulteriori progressi nella qualità del processo di ragionamento. Sebbene i Modelli di Ricompensa basati sul Processo (PRMs) offrano una guida granulare per i passaggi intermedi, spesso soffrono di inesattezze e sono suscettibili al reward hacking. Per risolvere questo dilemma, introduciamo il Filtro di Consistenza del Processo (PROF), un metodo efficace di curatela dei dati che armonizza ricompense di processo rumorose e granulari con ricompense di risultato accurate e grossolane. Piuttosto che mescolare in modo ingenuo PRM e ORM nella funzione obiettivo (arXiv:archive/2506.18896), PROF sfrutta i loro punti di forza complementari attraverso una selezione dei campioni guidata dalla consistenza. Il nostro approccio mantiene risposte corrette con valori di processo medi più alti e risposte errate con valori di processo medi più bassi, preservando l'equilibrio tra campioni di addestramento positivi e negativi. Esperimenti estensivi dimostrano che il nostro metodo non solo migliora costantemente l'accuratezza finale di oltre il 4% rispetto agli approcci di miscelazione, ma rafforza anche la qualità dei passaggi intermedi di ragionamento. I codici e le ricette di addestramento sono disponibili su https://github.com/Chenluye99/PROF.
La generazione controllata di volti presenta sfide critiche nella modellazione generativa a causa del delicato equilibrio richiesto tra controllabilità semantica e fotorealismo. Mentre gli approcci esistenti faticano a separare i controlli semantici dalle pipeline di generazione, noi esploriamo nuovamente il potenziale architetturale dei Diffusion Transformer (DiT) attraverso la lente della specializzazione degli esperti. Questo articolo introduce Face-MoGLE, un nuovo framework che include: (1) Modellazione latente disaccoppiata semanticamente attraverso la fattorizzazione dello spazio condizionata da maschere, consentendo una manipolazione precisa degli attributi; (2) Una miscela di esperti globali e locali che catturano la struttura olistica e la semantica a livello regionale per una controllabilità fine; (3) Una rete di gating dinamica che produce coefficienti dipendenti dal tempo, che evolvono con i passi di diffusione e le posizioni spaziali. Face-MoGLE offre una soluzione potente e flessibile per la generazione di volti di alta qualità e controllabile, con un forte potenziale nella modellazione generativa e nelle applicazioni di sicurezza. Esperimenti estensivi dimostrano la sua efficacia in contesti di generazione di volti multimodali e monomodali e la sua robusta capacità di generalizzazione zero-shot. La pagina del progetto è disponibile all'indirizzo https://github.com/XavierJiezou/Face-MoGLE.
La generazione personalizzata multi-soggetto presenta sfide uniche nel mantenere la fedeltà dell'identità e la coerenza semantica durante la sintesi di immagini condizionate su più soggetti di riferimento. I metodi esistenti spesso soffrono di fusione delle identità e dispersione degli attributi a causa di una modellazione inadeguata di come i diversi soggetti dovrebbero interagire all'interno di spazi di rappresentazione condivisi. Presentiamo MOSAIC, un framework centrato sulla rappresentazione che ripensa la generazione multi-soggetto attraverso corrispondenze semantiche esplicite e la separazione ortogonale delle caratteristiche. La nostra intuizione chiave è che la generazione multi-soggetto richiede un allineamento semantico preciso a livello di rappresentazione - sapere esattamente quali regioni nell'immagine generata dovrebbero fare riferimento a quali parti di ciascun riferimento. Per abilitare ciò, introduciamo SemAlign-MS, un dataset meticolosamente annotato che fornisce corrispondenze semantiche granulari tra più soggetti di riferimento e immagini target, precedentemente non disponibile in questo dominio. Basandoci su questa fondazione, proponiamo la perdita di attenzione per la corrispondenza semantica per imporre un allineamento semantico punto a punto preciso, garantendo un'elevata coerenza da ciascun riferimento alle sue regioni designate. Inoltre, sviluppiamo la perdita di separazione multi-riferimento per spingere i diversi soggetti in sottospazi di attenzione ortogonali, prevenendo l'interferenza delle caratteristiche preservando le caratteristiche individuali dell'identità. Esperimenti estensivi dimostrano che MOSAIC raggiunge prestazioni all'avanguardia su più benchmark. In particolare, mentre i metodi esistenti tipicamente si degradano oltre 3 soggetti, MOSAIC mantiene un'elevata fedeltà con 4+ soggetti di riferimento, aprendo nuove possibilità per applicazioni complesse di sintesi multi-soggetto.
La manipolazione robotica moderna si basa principalmente su osservazioni visive in uno spazio colore 2D per l'apprendimento delle abilità, ma soffre di una scarsa generalizzazione. Al contrario, gli esseri umani, che vivono in un mondo 3D, dipendono più dalle proprietà fisiche—come distanza, dimensione e forma—che dalla texture quando interagiscono con gli oggetti. Poiché tali informazioni geometriche 3D possono essere acquisite da telecamere di profondità ampiamente disponibili, sembra fattibile dotare i robot di capacità percettive simili. Il nostro studio pilota ha rilevato che l'uso di telecamere di profondità per la manipolazione è impegnativo, principalmente a causa della loro limitata accuratezza e della suscettibilità a vari tipi di rumore. In questo lavoro, proponiamo i Modelli di Profondità da Telecamera (Camera Depth Models, CDMs) come un semplice plugin per telecamere di profondità di uso quotidiano, che prendono immagini RGB e segnali di profondità grezzi come input e restituiscono una profondità metrica accurata e priva di rumore. Per raggiungere questo obiettivo, sviluppiamo un motore di dati neurali che genera dati accoppiati di alta qualità dalla simulazione modellando il pattern di rumore di una telecamera di profondità. I nostri risultati mostrano che i CDMs raggiungono un'accuratezza nella previsione della profondità quasi a livello di simulazione, colmando efficacemente il divario sim-to-real per i compiti di manipolazione. In particolare, i nostri esperimenti dimostrano, per la prima volta, che una politica addestrata su dati di profondità simulati grezzi, senza la necessità di aggiungere rumore o di ottimizzazione nel mondo reale, si generalizza senza soluzione di continuità ai robot reali in due impegnativi compiti a lungo termine che coinvolgono oggetti articolati, riflettenti e sottili, con un degrado delle prestazioni minimo o nullo. Speriamo che i nostri risultati ispirino future ricerche sull'utilizzo di dati di simulazione e informazioni 3D nelle politiche generali dei robot.
I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) hanno dimostrato capacità di ragionamento generale notevoli. Tuttavia, valutare e migliorare sistematicamente queste capacità di ragionamento è complesso a causa della mancanza di strumenti controllabili e scalabili per un'analisi granulare. I benchmark e i dataset esistenti spesso non dispongono del controllo variabile necessario per un'analisi e un addestramento sistematici e multidimensionali, o presentano tipologie e formati di problemi limitati. Per affrontare queste limitazioni, introduciamo SATQuest, un verificatore sistematico progettato per valutare e migliorare il ragionamento logico negli LLM generando problemi di ragionamento logico basati sulla Soddisfacibilità direttamente da istanze in Forma Normale Congiuntiva (CNF). SATQuest struttura questi problemi lungo tre dimensioni ortogonali: scala dell'istanza, tipo di problema e formato della domanda, impiegando una generazione casuale di problemi basata su SAT e una verifica oggettiva delle risposte tramite PySAT. Questo design mitiga i problemi di memorizzazione, consente approfondimenti sfumati sulle prestazioni di ragionamento e abilita un efficace fine-tuning di rinforzo. La nostra valutazione estesa di vari LLM utilizzando SATQuest ha identificato significative limitazioni nel loro ragionamento logico, in particolare nella generalizzazione oltre i formati matematici familiari. Inoltre, dimostriamo che il fine-tuning di rinforzo con ricompense di SATQuest migliora sostanzialmente le prestazioni nei compiti mirati e generalizza a istanze più complesse, evidenziando al contempo le sfide rimanenti nell'adattamento cross-format. Attraverso queste dimostrazioni, mostriamo il potenziale di SATQuest come strumento fondamentale e un punto di partenza prezioso per avanzare il ragionamento logico degli LLM.