Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento per rinforzo è diventato l'approccio centrale per consentire ai modelli linguistici (LM) di apprendere da ricompense o feedback ambientali. Nella pratica, il feedback ambientale è solitamente sparso e ritardato. Apprendere da tali segnali è complesso, poiché i LM devono dedurre implicitamente come i fallimenti osservati debbano tradursi in cambiamenti comportamentali per le iterazioni future. Introduciamo l'Apprendimento per Rinforzo Esperienziale (ERL), un paradigma di addestramento che incorpora un ciclo esplicito di esperienza-riflessione-consolidamento nel processo di apprendimento per rinforzo. Dato un compito, il modello genera un tentativo iniziale, riceve un feedback ambientale e produce una riflessione che guida un secondo tentativo raffinato, il cui successo viene rinforzato e internalizzato nella politica base. Questo processo converte il feedback in una revisione comportamentale strutturata, migliorando l'esplorazione e stabilizzando l'ottimizzazione, preservando al contempo i guadagni durante il deployment senza costi aggiuntivi di inferenza. In ambienti di controllo a ricompensa sparsa e benchmark di ragionamento agentico, l'ERL migliora costantemente l'efficienza di apprendimento e le prestazioni finali rispetto a solidi baseline di apprendimento per rinforzo, raggiungendo miglioramenti fino al +81% in ambienti complessi multi-step e fino all'+11% in compiti di ragionamento con strumenti. Questi risultati suggeriscono che l'integrazione di un'autoriflessione esplicita nell'addestramento delle politiche fornisce un meccanismo pratico per trasformare il feedback in un miglioramento comportamentale duraturo.
I sistemi di recupero multimodali esistenti eccellono nell'abbianamento semantico ma assumono implicitamente che la rilevanza query-immagine possa essere misurata in isolamento. Questo paradigma trascina le ricche dipendenze intrinseche nei flussi visivi realistici, dove le informazioni sono distribuite su sequenze temporali piuttosto che confinate a singoli fotogrammi. Per colmare questa lacuna, introduciamo DeepImageSearch, un nuovo paradigma agentico che riformula il recupero di immagini come un compito di esplorazione autonoma. I modelli devono pianificare ed eseguire ragionamenti a più passaggi sulle cronologie visive grezze per localizzare i target sulla base di indizi contestuali impliciti. Costruiamo DISBench, un benchmark impegnativo basato su dati visivi interconnessi. Per affrontare la sfida della scalabilità nella creazione di query dipendenti dal contesto, proponiamo una pipeline collaborativa uomo-modello che impiega modelli visione-linguaggio per estrarre associazioni spaziotemporali latenti, delegando efficacemente l'intensa scoperta del contesto prima della verifica umana. Inoltre, costruiamo una baseline robusta utilizzando un framework agentico modulare dotato di strumenti a grana fine e un sistema a doppia memoria per la navigazione a lungo termine. Esperimenti estesi dimostrano che DISBench pone sfide significative ai modelli all'avanguardia, evidenziando la necessità di incorporare il ragionamento agentico nei sistemi di recupero di prossima generazione.
Presentiamo Nanbeige4.1-3B, un modello linguistico generalista unificato che, con soli 3 miliardi di parametri, raggiunge simultaneamente un forte comportamento agentivo, capacità di generazione di codice e ragionamento generale. Per quanto a nostra conoscenza, è il primo piccolo modello linguistico (SLM) open-source a conseguire una tale versatilità in un unico modello. Per migliorare il ragionamento e l'allineamento alle preferenze, combiniamo la modellazione di ricompensa punto-punto e coppia-punto, garantendo risposte di alta qualità e allineate con l'umano. Per la generazione di codice, progettiamo ricompense basate sulla complessità nel Reinforcement Learning, ottimizzando sia la correttezza che l'efficienza. Nella ricerca approfondita, eseguiamo una sintesi di dati complessi e incorporiamo una supervisione a livello di turno durante l'addestramento. Ciò consente interazioni stabili e a lungo termine con strumenti, permettendo a Nanbeige4.1-3B di eseguire in modo affidabile fino a 600 turni di chiamate a strumenti per la risoluzione di problemi complessi. I risultati sperimentali estesi mostrano che Nanbeige4.1-3B supera significativamente i modelli precedenti di scala simile, come Nanbeige4-3B-2511 e Qwen3-4B, raggiungendo persino prestazioni superiori rispetto a modelli molto più grandi, come Qwen3-30B-A3B. I nostri risultati dimostrano che i modelli piccoli possono conseguire simultaneamente sia un'ampia competenza generale che una forte specializzazione, ridefinendo il potenziale dei modelli da 3 miliardi di parametri.
I grandi modelli linguistici stanno evolvendo da motori di conoscenza generalisti a risolutori di problemi del mondo reale, ma ottimizzarli per compiti di ricerca approfondita rimane una sfida. Il collo di bottiglia principale risiede nell'estrema sparsità di traiettorie di ricerca di alta qualità e segnali di ricompensa, derivanti dalla difficoltà di costruire task scalabili a lungo orizzonte e dall'elevato costo di rollout ad alta interazione che coinvolgono chiamate a strumenti esterni. Per affrontare queste sfide, proponiamo REDSearcher, un framework unificato che co-progetta sintesi di task complessi, addestramento intermedio e post-addestramento per un'ottimizzazione scalabile degli agenti di ricerca. Nello specifico, REDSearcher introduce i seguenti miglioramenti: (1) Inquadriamo la sintesi dei task come un'ottimizzazione a doppio vincolo, in cui la difficoltà del task è governata con precisione dalla topologia del grafo e dalla dispersione delle evidenze, consentendo la generazione scalabile di task complessi e di alta qualità. (2) Introduciamo query potenziate da strumenti per incoraggiare un uso proattivo degli strumenti anziché un richiamo passivo. (3) Durante l'addestramento intermedio, rafforziamo le capacità atomiche fondamentali - conoscenza, pianificazione e chiamata di funzioni - riducendo sostanzialmente il costo della raccolta di traiettorie di alta qualità per l'addestramento a valle. (4) Costruiamo un ambiente simulato locale che consente un'iterazione algoritmica rapida e a basso costo per esperimenti di apprendimento per rinforzo. Su benchmark sia per agenti di ricerca testuali che multimodali, il nostro approccia raggiunge prestazioni all'avanguardia. Per facilitare la ricerca futura sugli agenti di ricerca a lungo orizzonte, renderemo disponibili 10.000 traiettorie di ricerca testuale complesse di alta qualità, 5.000 traiettorie multimodali e un set di 1.000 query testuali per RL, insieme a codice e checkpoint del modello.
Presentiamo BitDance, un generatore di immagini autoregressivo (AR) scalabile che predice token visivi binari invece di indici di codebook. Grazie a latenti binarie ad alta entropia, BitDance consente a ciascun token di rappresentare fino a 2^{256} stati, producendo una rappresentazione discreta compatta ma altamente espressiva. Il campionamento da uno spazio di token così vasto è difficile con la classificazione standard. Per risolvere questo problema, BitDance utilizza una testa di diffusione binaria: invece di predire un indice con softmax, impiega la diffusione in spazio continuo per generare i token binari. Inoltre, proponiamo la next-patch diffusion, un nuovo metodo di decodifica che predice più token in parallelo con alta accuratezza, accelerando notevolmente l'inferenza. Su ImageNet 256x256, BitDance raggiunge un FID di 1.24, il migliore tra i modelli AR. Con la next-patch diffusion, BitDance supera i modelli AR paralleli all'avanguardia che utilizzano 1.4 miliardi di parametri, impiegando 5.4 volte meno parametri (260 milioni) e ottenendo un'accelerazione di 8.7 volte. Per la generazione di immagini da testo, BitDance si allena su token multimodali su larga scala e genera efficientemente immagini ad alta risoluzione e fotorealistiche, dimostrando prestazioni solide e una scalabilità favorevole. Nella generazione di immagini 1024x1024, BitDance raggiunge un'accelerazione di oltre 30 volte rispetto ai precedenti modelli AR. Rilasciamo codice e modelli per facilitare ulteriori ricerche sui modelli di base AR. Codice e modelli sono disponibili su: https://github.com/shallowdream204/BitDance.
L'apprendimento della rappresentazione degli utenti su scala industriale richiede un bilanciamento tra robusta universalità e acuta sensibilità al compito. Tuttavia, i paradigmi esistenti producono principalmente embedding statici e indipendenti dal compito, che faticano a conciliare i requisiti divergenti degli scenari downstream all'interno di spazi vettoriali unificati. Inoltre, dati eterogenei multi-sorgente introducono rumore intrinseco e conflitti di modalità, degradando la rappresentazione. Proponiamo Query-as-Anchor, un framework che sposta la modellazione utente dalla codifica statica a una sintesi dinamica e consapevole della query. Per dotare i Large Language Model (LLM) di una profonda comprensione dell'utente, costruiamo prima UserU, un dataset di pre-addestramento su scala industriale che allinea sequenze comportamentali multi-modali con la semantica della comprensione dell'utente. La nostra architettura Q-Anchor Embedding integra encoder gerarchici coarse-to-fine in LLM a doppia torre tramite un'ottimizzazione congiunta contrastivo-autoregressiva per la rappresentazione utente consapevole della query. Per colmare il divario tra il pre-addestramento generale e la logica di business specializzata, introduciamo inoltre il Cluster-based Soft Prompt Tuning per imporre strutture latenti discriminative, allineando efficacemente l'attenzione del modello con le modalità specifiche dello scenario. Per il deployment, l'ancoraggio delle query alle estremità delle sequenze abilita un'inferenza accelerata da KV-cache con una latenza incrementale trascurabile. Le valutazioni su 10 benchmark industriali di Alipay mostrano prestazioni SOTA consistenti, una forte scalabilità e un deployment efficiente. Test A/B online su larga scala nel sistema di produzione di Alipay, in due scenari reali, convalidano ulteriormente la sua efficacia pratica. Il nostro codice è pronto per il rilascio pubblico e sarà disponibile all'indirizzo: https://github.com/JhCircle/Q-Anchor.
I metodi di Inferenza-Time-Compute (ITC) come Best-of-N e Tree-of-Thoughts sono concepiti per produrre candidati di output che siano sia di alta qualità che diversificati, ma il loro utilizzo del campionamento ad alta temperatura spesso non riesce a raggiungere una diversità di output significativa. Inoltre, i metodi ITC esistenti offrono un controllo limitato su come eseguire il ragionamento, il che a sua volta ne limita la spiegabilità. Presentiamo STATe-of-Thoughts (STATe), un metodo ITC interpretabile che effettua una ricerca su pattern di ragionamento di alto livello. STATe sostituisce il campionamento stocastico con interventi testuali discreti e interpretabili: un controllore seleziona azioni che codificano scelte di ragionamento di alto livello, un generatore produce passaggi di ragionamento condizionati da tali scelte, e un valutatore assegna un punteggio ai candidati per guidare la ricerca. Questo approccio strutturato offre tre vantaggi principali. In primo luogo, gli interventi testuali guidati da azioni producono una maggiore diversità delle risposte rispetto al campionamento basato sulla temperatura. In secondo luogo, in uno studio di caso sulla generazione di argomentazioni, le sequenze di azioni esplicite di STATe catturano caratteristiche interpretabili che sono altamente predittive della qualità dell'output. In terzo luogo, stimare l'associazione tra prestazioni e scelte di azione ci permette di identificare regioni promettenti ma inesplorate dello spazio delle azioni e indirizzare direttamente la generazione verso di esse. Nel complesso, questi risultati stabiliscono STATe come un quadro pratico per generare testo di alta qualità, diversificato e interpretabile. Il nostro framework è disponibile all'indirizzo https://github.com/zbambergerNLP/state-of-thoughts.
La rapida evoluzione dei Large Language Model ha catalizzato un'impennata nella produzione di idee scientifiche, ma questo balzo in avanti non è stato accompagnato da un progresso equivalente nella valutazione delle idee. La natura fondamentale della valutazione scientifica richiede basi conoscitive solide, deliberazione collettiva e processi decisionali multi-criterio. Tuttavia, i metodi di valutazione esistenti spesso soffrono di orizzonti conoscitivi limitati, dimensioni di valutazione appiattite e il bias intrinseco dell'approccio "LLM-as-a-Judge". Per affrontare queste criticità, concettualizziamo la valutazione delle idee come un problema di ragionamento basato sulla conoscenza e multi-prospettica, introducendo InnoEval, un framework di valutazione dell'innovazione profonda progettato per emulare la valutazione delle idee a livello umano. Applichiamo un motore di ricerca eterogeneo di conoscenza profonda che recupera e fonda evidenze dinamiche da fonti online diversificate. Otteniamo inoltre un consenso valutativo attraverso un comitato di revisione dell'innovazione composto da revisori con distinti background accademici, abilitando una valutazione scomposta multi-dimensionale su molteplici metriche. Costruiamo dataset completi derivati da submission autorevoli sottoposte a revisione paritaria per valutare le prestazioni di InnoEval. Gli esperimenti dimostrano che InnoEval supera costantemente i baseline in compiti di valutazione point-wise, pair-wise e group-wise, mostrando pattern di giudizio e consensi altamente allineati con quelli di esperti umani.
La qualità dei dati determina le prestazioni dei modelli di base, ma mancano framework di elaborazione sistematici. Introduciamo Data Darwinism, una tassonomia a dieci livelli (L0-L9) che concettualizza la co-evoluzione dati-modello: i modelli avanzati producono dati superiori per i sistemi di prossima generazione. Convalidiamo questo approccio sulla letteratura scientifica costruendo Darwin-Science, un corpus di 900 miliardi di token (L0-L5). Identifichiamo un divario di apprendibilità nel testo scientifico grezzo, che colmiamo tramite L4 (Affinamento Generativo) e L5 (Completamento Cognitivo) utilizzando LLM all'avanguardia per esplicitare ragionamenti e terminologia. Per garantire un'attribuzione rigorosa, abbiamo pre-addestrato da zero i modelli daVinci-origin-3B/7B, escludendo contenuti scientifici per creare baseline non contaminate. Dopo 600 miliardi di token di pre-training continuato, Darwin-Science supera le baseline di +2,12 (3B) e +2,95 (7B) punti su oltre 20 benchmark, arrivando a +5,60 e +8,40 punti su compiti allineati al dominio. La progressione sistematica a L5 produce un guadagno totale di +1,36, confermando che l'elaborazione a livello superiore sblocca il valore latente dei dati. Rilasciamo il corpus Darwin-Science e i modelli daVinci-origin per consentire uno sviluppo co-evolutivo e basato su principi.
I Modelli Linguistici Multimodali Unificati (MLLM) richiedono una rappresentazione visiva che supporti simultaneamente la ricostruzione ad alta fedeltà, l'estrazione semantica complessa e l'idoneità generativa. Tuttavia, i tokenizzatori visivi esistenti generalmente faticano a soddisfare questi obiettivi contrastanti all'interno di un unico framework. In questo articolo, introduciamo UniWeTok, un tokenizzatore discreto unificato progettato per colmare questa lacuna utilizzando un codebook binario massiccio (2^{128}). Per il framework di addestramento, introduciamo la Distillazione Pre-Post e un Prior Generativo-Consapevole per potenziare l'estrazione semantica e il prior generativo dei token discreti. In termini di architettura del modello, proponiamo un'architettura ibrida convoluzione-attenzione con la funzione di attivazione SigLu. L'attivazione SigLu non solo vincola l'output dell'encoder e stabilizza il processo di distillazione semantica, ma affronta anche efficacemente il conflitto di ottimizzazione tra la perdita di entropia dei token e la perdita di commitment. Proponiamo inoltre un framework di addestramento in tre fasi progettato per migliorare l'adattabilità di UniWeTok a varie risoluzioni di immagine e scenari sensibili alla percezione, come quelli che coinvolgono volti umani e contenuti testuali. Su ImageNet, UniWeTok raggiunge prestazioni all'avanguardia nella generazione di immagini (FID: UniWeTok 1.38 vs. REPA 1.42) richiedendo un calcolo di addestramento notevolmente basso (Token di Addestramento: UniWeTok 33B vs. REPA 262B). Nel dominio generale, UniWeTok dimostra capacità altamente competitive in un'ampia gamma di compiti, inclusi la comprensione multimodale, la generazione di immagini (Punteggio DPG: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) e l'editing (Punteggio Generale GEdit: UniWeTok 5.09 vs. OmniGen 5.06). Rilasciamo codice e modelli per facilitare l'esplorazione comunitaria del tokenizzatore unificato e degli MLLM.
Valutare se i Modelli Linguistici Multimodali (MLLM) ragionino veramente sulla dinamica fisica rimane una sfida. La maggior parte dei benchmark esistenti si basa su protocolli di tipo riconoscitivo come il Visual Question Answering (VQA) e la Violazione dell'Aspettativa (VoE), che spesso possono essere risolti senza impegnarsi in un'ipotesi fisica esplicita e verificabile. Proponiamo VisPhyWorld, un framework basato sull'esecuzione che valuta il ragionamento fisico richiedendo ai modelli di generare codice eseguibile per simulatori a partire da osservazioni visive. Producendo codice eseguibile, la rappresentazione del mondo inferita è direttamente ispezionabile, modificabile e falsificabile. Ciò separa il ragionamento fisico dal rendering. Basandoci su questo framework, introduciamo VisPhyBench, che comprende 209 scene di valutazione derivate da 108 modelli fisici e un protocollo sistematico che valuta quanto bene i modelli ricostruiscono l'aspetto e riproducono un movimento fisicamente plausibile. La nostra pipeline produce video ricostruiti validi nel 97.7% dei casi sul benchmark. Gli esperimenti mostrano che, sebbene gli MLLM all'avanguardia raggiungano una forte comprensione semantica della scena, hanno difficoltà a inferire accuratamente i parametri fisici e a simulare dinamiche fisiche consistenti.
Questo articolo propone un database quantistico (Qute) che considera il calcolo quantistico come un'opzione di esecuzione di prima classe. A differenza dei metodi precedenti basati su simulazione, che eseguono algoritmi quantistici su macchine classiche o adattano database esistenti per la simulazione quantistica, Qute invece (i) compila una forma estesa di SQL in circuiti quantistici efficienti in termini di gate, (ii) utilizza un ottimizzatore ibrido per selezionare dinamicamente tra piani di esecuzione quantistici e classici, (iii) introduce un indicizzazione quantistica selettiva e (iv) progetta una memoria che preserva la fedeltà per mitigare i vincoli attuali sui qubit. Presentiamo inoltre una roadmap evolutiva in tre fasi verso un database nativamente quantistico. Infine, implementando Qute su un processore quantistico reale (origin_wukong), dimostriamo che supera una baseline classica su larga scala e rilasciamo un prototipo open-source all'indirizzo https://github.com/weAIDB/Qute.
La configurazione di sistemi agenti basati su LLM implica la selezione di flussi di lavoro, strumenti, budget di token e prompt da un ampio spazio di progettazione combinatoria, ed è tipicamente gestita oggi mediante modelli fissi di grandi dimensioni o euristiche regolate manualmente. Ciò comporta un comportamento fragile e un consumo computazionale non necessario, poiché la stessa configurazione macchinosa viene spesso applicata sia a query di input semplici che complesse. Inquadriamo la configurazione dell'agente come un problema decisionale per singola query e introduciamo ARC (Agentic Resource & Configuration learner), che apprende una politica gerarchica leggera utilizzando l'apprendimento per rinforzo per adattare dinamicamente queste configurazioni. In numerosi benchmark che coprono il ragionamento e question answering potenziato da strumenti, la politica appresa supera costantemente solide baseline progettate manualmente e altre, raggiungendo un'accuratezza del compito fino al 25% superiore riducendo al contempo i costi in termini di token e tempo di esecuzione. Questi risultati dimostrano che l'apprendimento di configurazioni agente per singola query è una valida alternativa ai design "one size fits all".
Gli agenti web richiedono traiettorie massive per generalizzare, ma l'addestramento nel mondo reale è limitato da latenza di rete, limiti di frequenza e rischi per la sicurezza. Introduciamo la serie WebWorld, il primo simulatore open-web addestrato su larga scala. Mentre i simulatori esistenti sono limitati ad ambienti chiusi con migliaia di traiettorie, WebWorld sfrutta una pipeline di dati scalabile per addestrarsi su oltre 1 milione di interazioni open-web, supportando ragionamento, dati multi-formato e simulazioni a lungo orizzonte di oltre 30 passi. Per la valutazione intrinseca, introduciamo WebWorld-Bench con metriche duali che coprono nove dimensioni, dove WebWorld raggiunge prestazioni di simulazione paragonabili a Gemini-3-Pro. Per la valutazione estrinseca, Qwen3-14B addestrato su traiettorie sintetizzate da WebWorld migliora del +9,2% su WebArena, raggiungendo prestazioni comparabili a GPT-4o. WebWorld abilita una ricerca efficace in fase di inferenza, superando GPT-5 come modello mondiale. Oltre alla simulazione web, WebWorld mostra generalizzazione cross-dominio per ambienti di codice, GUI e giochi, fornendo una ricetta replicabile per la costruzione di modelli mondiali.
I modelli linguistici multimodali di grandi dimensioni (MLLM), dotati di capacità di pianificazione e utilizzo di strumenti sempre più avanzate, si stanno evolvendo in agenti autonomi in grado di effettuare navigazione web multimodale e ricerche approfondite in ambienti open-world. Tuttavia, i benchmark esistenti per la navigazione multimodale rimangono limitati nella complessità dei compiti, nell'accessibilità delle evidenze e nella granularità della valutazione, ostacolando valutazioni complete e riproducibili delle capacità di ricerca approfondita. Per affrontare queste limitazioni, introduciamo BrowseComp-V^3, un nuovo benchmark costituito da 300 domande accuratamente selezionate e complesse, che abbracciano domini diversi. Il benchmark enfatizza un ragionamento approfondito, multilivello e multi-hop cross-modale, in cui le evidenze critiche sono intercalate tra le modalità testuale e visiva all'interno e attraverso le pagine web. Tutte le evidenze di supporto devono essere rigorosamente ricercabili pubblicamente, garantendo equità e riproducibilità. Oltre all'accuratezza della risposta finale, incorporiamo un meccanismo di valutazione del processo guidato da sottobiettivi e convalidato da esperti, che consente un'analisi granulare dei comportamenti di ragionamento intermedi e una caratterizzazione sistematica dei limiti delle capacità. Inoltre, proponiamo OmniSeeker, un framework unificato per agenti di navigazione multimodale che integra diversi strumenti di ricerca web e percezione visiva. Esperimenti completi dimostrano che anche i modelli più all'avanguardia raggiungono solo un'accuratezza del 36% sul nostro benchmark, rivelando colli di bottiglia critici nell'integrazione delle informazioni multimodali e nella percezione fine. I nostri risultati evidenziano un divario fondamentale tra le capacità dei modelli attuali e una ricerca approfondita multimodale robusta in scenari reali.
L'utilizzo di modelli linguistici multimodali di grandi dimensioni (MLLM) è diventato fondamentale per far progredire gli embedding multimodali universali (UME) nell'affrontare compiti cross-modali diversificati. Studi recenti dimostrano che l'incorporazione del ragionamento generativo a catena del pensiero (CoT) può migliorare sostanzialmente le rappresentazioni specifiche per il compito rispetto ai metodi discriminativi. Tuttavia, i CoT generati dai metodi di embedding generativi esistenti si limitano all'analisi testuale delle query e sono irrilevanti per il recupero dei target. Per affrontare queste limitazioni, proponiamo un framework UME guidato dal ragionamento che integra l'apprendimento per rinforzo guidato dall'Embedder (EG-RL) per ottimizzare il Reasoner a produrre CoT di tracciabilità evidenziale (T-CoT). I nostri contributi chiave sono tre: (1) Progettiamo un framework EG-RL in cui l'Embedder fornisce supervisione esplicita al Reasoner, garantendo che le tracce CoT generate siano allineate con i compiti di embedding. (2) Introduciamo il T-CoT, che estrae indizi multimodali critici per focalizzarsi sugli elementi rilevanti per il recupero e fornisce input multimodali all'Embedder. (3) Con risorse computazionali limitate, il nostro framework supera il modello di embedding pionieristico su entrambi i benchmark MMEB-V2 e UVRB. L'integrazione di evidenze multimodali nel ragionamento strutturato, abbinata all'allineamento orientato al recupero, rafforza efficacemente la consistenza semantica cross-modale e potenzia la capacità di matching granulare del modello, nonché la generalizzazione attraverso scenari complessi. Il nostro lavoro dimostra che l'ottimizzazione mirata del ragionamento può migliorare significativamente la qualità degli embedding multimodali, fornendo una soluzione pratica ed efficiente per lo sviluppo di UME guidati dal ragionamento.
I modelli linguistici di diffusione (dLLM) sono recentemente emersi come una valida alternativa ai modelli linguistici auto-regressivi (LLM). I lavori più recenti li hanno ulteriormente estesi a compiti di comprensione e generazione multimodale. In questo lavoro, proponiamo LaViDa-R1, un dLLM multimodale e general-purpose per il ragionamento. A differenza dei lavori esistenti che costruiscono dLLM per il ragionamento tramite apprendimento per rinforzo specifico per task, LaViDa-R1 incorpora in modo unificato compiti diversificati di comprensione e generazione multimodale. In particolare, LaViDa-R1 è costruito con un innovativo framework di post-addestramento unificato che integra in modo fluido la messa a punto supervisionata (SFT) e l'apprendimento per rinforzo multi-task (RL). Impiega diverse tecniche di addestramento innovative, tra cui l'answer-forcing, la tree search e la stima della verosimiglianza complementare, per migliorare l'efficacia e la scalabilità. Esperimenti estensivi dimostrano le solide prestazioni di LaViDa-R1 su un'ampia gamma di task multimodali, inclusi il ragionamento matematico visivo, la localizzazione ad alta intensità di ragionamento e la modifica delle immagini.
Mantenere la coerenza spaziale del mondo su orizzonti lunghi rimane una sfida centrale per la generazione di video controllabile tramite telecamera. Gli approcci esistenti basati sulla memoria condizionano spesso la generazione su scene 3D ricostruite globalmente, renderizzando video di ancoraggio dalla geometria ricostruita nella cronologia. Tuttavia, ricostruire una scena 3D globale da viste multiple introduce inevitabilmente disallineamenti tra le viste, poiché gli errori di stima della posa e della profondità causano la ricostruzione delle stesse superfici in posizioni 3D leggermente diverse tra le viste. Quando fuse, queste incongruenze si accumulano in una geometria rumorosa che contamina i segnali di condizionamento e degrada la qualità della generazione. Introduciamo AnchorWeave, un framework di generazione video potenziato dalla memoria che sostituisce un'unica memoria globale disallineata con multiple memorie geometriche locali pulite e impara a riconciliare le loro incongruenze cross-view. A tal fine, AnchorWeave esegue un recupero della memoria locale guidato dalla copertura, allineato con la traiettoria target, e integra le memorie locali selezionate attraverso un controller di tessitura multi-ancora durante la generazione. Esperimenti estesi dimostrano che AnchorWeave migliora significativamente la coerenza della scena a lungo termine mantenendo una forte qualità visiva, con studi di ablazione e analisi che convalidano ulteriormente l'efficacia del condizionamento geometrico locale, del controllo multi-ancora e del recupero guidato dalla copertura.
La segmentazione di immagini conversazionale traduce concetti astratti e guidati dall'intento in maschere a livello di pixel con precisione. I precedenti lavori sul grounding di immagini referenziali si concentrano su query categoriali e spaziali (ad esempio, "la mela più a sinistra") e trascurano il ragionamento funzionale e fisico (ad esempio, "dove posso riporre in sicurezza il coltello?"). Affrontiamo questa lacuna introducendo la Segmentazione di Immagini Conversazionale (CIS) e ConverSeg, un benchmark che copre entità, relazioni spaziali, intento, affordance, funzioni, sicurezza e ragionamento fisico. Presentiamo inoltre ConverSeg-Net, che fonde forti prior di segmentazione con la comprensione del linguaggio, e un motore di dati basato su IA che genera coppie prompt-maschera senza supervisione umana. Dimostriamo che gli attuali modelli di segmentazione guidata dal linguaggio sono inadeguati per la CIS, mentre ConverSeg-Net, addestrato sul nostro motore di dati, ottiene miglioramenti significativi su ConverSeg e mantiene prestazioni solide sui benchmark esistenti di segmentazione guidata dal linguaggio. Pagina web del progetto: https://glab-caltech.github.io/converseg/
La comprensione e la generazione del moto umano sono cruciali per la visione artificiale e la robotica, ma rimangono limitate nelle capacità di ragionamento e nella pianificazione in fase di test. Proponiamo MoRL, un modello di moto multimodale unificato addestrato con fine-tuning supervisionato e apprendimento per rinforzo con ricompense verificabili. La nostra progettazione di ricompense specifiche per task combina allineamento semantico e coerenza del ragionamento per la comprensione, con plausibilità fisica e coerenza testo-moto per la generazione, migliorando sia il ragionamento logico che il realismo percettivo. Per potenziare ulteriormente l'inferenza, introduciamo Chain-of-Motion (CoM), un metodo di ragionamento in fase di test che consente una pianificazione e una riflessione passo-passo. Costruiamo inoltre due dataset CoT su larga scala, MoUnd-CoT-140K e MoGen-CoT-140K, per allineare sequenze di moto con tracce di ragionamento e descrizioni di azioni. Gli esperimenti su HumanML3D e KIT-ML mostrano che MoRL ottiene miglioramenti significativi rispetto ai baseline state-of-the-art. Codice: https://github.com/AIGeeksGroup/MoRL. Sito web: https://aigeeksgroup.github.io/MoRL.
Presentiamo FireRed-Image-Edit, un diffusion transformer per la modifica di immagini basata su istruzioni che raggiunge prestazioni all'avanguardia attraverso un'ottimizzazione sistematica della cura dei dati, della metodologia di addestramento e del design di valutazione. Costruiamo un corpus di addestramento da 1,6 miliardi di campioni, comprendente 900 milioni di coppie testo-immagine e 700 milioni di coppie per la modifica di immagini provenienti da fonti diverse. Dopo un rigoroso processo di pulizia, stratificazione, etichettatura automatica e filtraggio in due fasi, tratteniamo oltre 100 milioni di campioni di alta qualità bilanciati tra generazione e modifica, garantendo una forte copertura semantica e allineamento con le istruzioni. La nostra pipeline di addestramento multi-stadio costruisce progressivamente la capacità di modifica attraverso pre-addestramento, fine-tuning supervisionato e apprendimento per rinforzo. Per migliorare l'efficienza dei dati, introduciamo un *Multi-Condition Aware Bucket Sampler* per il batching a risoluzione variabile e uno *Stochastic Instruction Alignment* con re-indicizzazione dinamica dei prompt. Per stabilizzare l'ottimizzazione e migliorare la controllabilità, proponiamo un'*Asymmetric Gradient Optimization* per DPO, *DiffusionNFT* con ricompense OCR *layout-aware* per la modifica del testo e una *Consistency Loss* differenziabile per la preservazione dell'identità. Istituiamo inoltre REDEdit-Bench, un benchmark completo che copre 15 categorie di modifica, inclusi nuovi task di abbellimento e miglioramento di basso livello. Esperimenti estensivi su REDEdit-Bench e benchmark pubblici (ImgEdit e GEdit) dimostrano prestazioni competitive o superiori rispetto a sistemi sia open-source che proprietari. Rilasciamo codice, modelli e la suite di benchmark per supportare la ricerca futura.
Gli agenti di codifica IA stanno rapidamente trasformando l'ingegneria del software svolgendo compiti come lo sviluppo di funzionalità, il debug e i test. Nonostante il loro impatto crescente, la comunità di ricerca manca di un dataset completo che catturi come questi agenti vengono utilizzati in progetti reali. Per colmare questa lacuna, presentiamo AIDev, un dataset su larga scala incentrato sulle pull request scritte da agenti (Agentic-PR) in repository GitHub reali. AIDev aggrega 932.791 Agentic-PR prodotte da cinque agenti: OpenAI Codex, Devin, GitHub Copilot, Cursor e Claude Code. Queste PR coprono 116.211 repository e coinvolgono 72.189 sviluppatori. Inoltre, AIDev include un sottoinsieme curato di 33.596 Agentic-PR provenienti da 2.807 repository con oltre 100 stelle, fornendo ulteriori informazioni come commenti, revisioni, commit e issue correlate. Questo dataset offre una base per future ricerche sull'adozione dell'IA, la produttività degli sviluppatori e la collaborazione uomo-IA nella nuova era dell'ingegneria del software. > Agente IA, IA Agente, Agente di Codifica, Codifica Agente, Ingegneria del Software Agente, Ingegneria Agente
Introduciamo LM-Lexicon, un approccio innovativo alla modellazione di definizioni che incorpora il clustering dei dati, l'apprendimento di esperti semantici e la fusione di modelli mediante un'architettura sparsa *mixture-of-experts*. Scomponendo il compito di modellazione delle definizioni in domini semantici specializzati, in cui piccoli modelli linguistici vengono addestrati come esperti di dominio, LM-Lexicon ottiene miglioramenti sostanziali (+7% di punteggio BLEU rispetto al precedente modello state-of-the-art) rispetto ai metodi esistenti su cinque benchmark ampiamente utilizzati. Empiricamente, dimostriamo che 1) la strategia di clustering consente una specializzazione fine degli esperti con un miglioramento di quasi il 10% nella qualità delle definizioni; 2) il meccanismo di instradamento a livello di dominio, consapevole della semantica, raggiunge un'efficacia degli esperti superiore (+1%) rispetto all'instradamento convenzionale a livello di token; e 3) ulteriori guadagni prestazionali possono essere ottenuti mediante l'aumento del calcolo al momento del test e la scalabilità degli esperti semantici. Il nostro lavoro fa progredire la modellazione delle definizioni fornendo al contempo spunti per lo sviluppo di modelli linguistici efficienti per applicazioni semanticamente intensive.
La sonificazione – la mappatura di dati in audio non vocale – rappresenta un canale poco esplorato per rappresentare sistemi dinamici complessi. Trattiamo l'Oscillazione Meridionale di El Niño (ENSO), esempio canonico di caos climatico a bassa dimensionalità, come caso di prova per una sonificazione culturalmente situata valutata mediante diagnostici propri dei sistemi complessi. Utilizzando una sonificazione per mappatura parametrica dell'indice di anomalia della temperatura superficiale del mare Niño 3.4 (1870-2024), codifichiamo la variabilità dell'ENSO in due sistemi pentatonici tradizionali del gamelan giavanese (pelog e slendro) attraverso quattro strategie compositive, per poi analizzare l'audio risultante come traiettorie in uno spazio delle fasi acustico bidimensionale. Diagnostiche basate sulla ricorrenza, geometria dell'inviluppo convesso e analisi di accoppiamento rivelano che la pipeline di sonificazione preserva firme dinamiche chiave: le modalità alternanti producono i tassi di ricorrenza delle traiettorie più elevati, riflettendo la quasi-periodicità dell'ENSO; le modalità polifoniche stratificate esplorano le regioni più ampie dello spazio delle fasi; e le due famiglie di scale inducono regimi di accoppiamento qualitativamente distinti tra brillantezza spettrale ed energia – prevalentemente in antifase nel pelog ma quasi indipendenti nello slendro. L'analisi delle traiettorie nello spazio delle fasi fornisce un quadro geometrico rigoroso per confrontare i progetti di sonificazione nel contesto dei sistemi complessi. La validazione percettiva rimane necessaria; il nostro contributo consiste nella metodologia basata sui sistemi dinamici per valutare tali mappature.
L'editing generativo di video ad alta fedeltà ha registrato significativi miglioramenti qualitativi grazie all'utilizzo di modelli fondazionali video pre-addestrati. Tuttavia, il loro costo computazionale rappresenta un collo di bottiglia maggiore, poiché sono spesso progettati per elaborare inefficientemente l'intero contesto video indipendentemente dalla dimensione della maschera di inpainting, anche per modifiche sparse e localizzate. In questo articolo, presentiamo EditCtrl, un framework di controllo per l'inpainting video efficiente che concentra il calcolo solo dove è necessario. Il nostro approccio include un innovativo modulo per il contesto video locale che opera esclusivamente sui token mascherati, producendo un costo computazionale proporzionale alla dimensione della modifica. Questa generazione di tipo "locale-prima" è poi guidata da un embedder di contesto globale temporale leggero che garantisce la coerenza contestuale sull'intero video con un overhead minimo. EditCtrl non solo è 10 volte più efficiente dal punto di vista computazionale rispetto ai metodi di editing generativo all'avanguardia, ma migliora persino la qualità dell'editing rispetto ai metodi progettati con attenzione completa. Infine, dimostriamo come EditCtrl sblocchi nuove capacità, inclusi l'editing multi-regione con prompt testuali e la propagazione di contenuto autoregressiva.
Sebbene la decodifica plan-and-infill nei Modelli di Diffusione con Mascheramento (MDM) mostri potenzialità per il ragionamento matematico e nella generazione di codice, le prestazioni rimangono altamente sensibili all'ordine di riempimento degli slot, producendo spesso una variazione sostanziale dell'output. Introduciamo McDiffuSE, un framework che formula la selezione degli slot come un processo decisionale e ottimizza gli ordine di riempimento attraverso la Ricerca ad Albero Monte Carlo (MCTS). McDiffuSE utilizza simulazioni di look-ahead per valutare i completamenti parziali prima del commitment, esplorando sistematicamente lo spazio combinatorio degli ordine di generazione. Gli esperimenti mostrano un miglioramento medio del 3,2% rispetto ai baseline autoregressivi e dell'8,0% rispetto al baseline plan-and-infill, con guadagni significativi del 19,5% su MBPP e del 4,9% su MATH500. La nostra analisi rivela che, sebbene McDiffuSE segua prevalentemente un ordinamento sequenziale, l'incorporazione di una generazione non sequenziale è essenziale per massimizzare le prestazioni. Osserviamo che costanti di esplorazione più ampie, piuttosto che un aumento delle simulazioni, sono necessarie per superare i bias di confidenza del modello e scoprire ordinamenti efficaci. Questi risultati stabiliscono la pianificazione basata su MCTS come un approccio efficace per migliorare la qualità della generazione negli MDM.
La tecnica di RNA-seq a singola cellula (scRNA-seq) consente la profilazione su scala atlantica di tessuti complessi, rivelando lignaggi rari e stati transitori. Tuttavia, l'assegnazione di identità cellulari biologicamente valide rimane un collo di bottiglia, poiché i marcatori sono tessuto- e stato-dipendenti, e gli stati nuovi mancano di riferimenti. Presentiamo CellMaster, un agente di IA che imita la pratica esperta per l'annotazione dei tipi cellulari zero-shot. A differenza degli strumenti automatizzati esistenti, CellMaster sfrutta la conoscenza codificata negli LLM (ad esempio, GPT-4o) per eseguire annotazioni in tempo reale con giustificazioni interpretabili, senza pre-addestramento o database di marcatori fissi. Su 9 dataset che coprono 8 tessuti, CellMaster ha migliorato l'accuratezza del 7,1% rispetto alle migliori baseline (inclusi CellTypist e scTab) in modalità automatica. Con un perfezionamento human-in-the-loop, questo vantaggio è aumentato al 18,6%, con un guadagno del 22,1% sulle popolazioni di sottotipi. Il sistema dimostra una forza particolare negli stati cellulari rari e nuovi, dove le baseline spesso falliscono. Il codice sorgente e l'applicazione web sono disponibili su https://github.com/AnonymousGym/CellMaster{https://github.com/AnonymousGym/CellMaster}.
In questo articolo di risorsa, presentiamo DHPLT, una collezione aperta di corpora diacronici in 41 lingue diverse. DHPLT si basa sui dataset HPLT ottenuti tramite web crawling; utilizziamo i timestamp del web crawling come segnale approssimativo del tempo di creazione del documento. La collezione copre tre periodi temporali: 2011-2015, 2020-2021 e 2024-oggi (un milione di documenti per periodo temporale per ciascuna lingua). Forniamo inoltre embedding pre-calcolati per tipo di parola e token e sostituzioni lessicali per le nostre parole target selezionate, lasciando al contempo aperta la possibilità per altri ricercatori di individuare le proprie parole target utilizzando gli stessi dataset. DHPLT mira a colmare l'attuale carenza di corpora diacronici multilingue per la modellizzazione del cambiamento semantico (al di là di una dozzina di lingue ad alte risorse). Esso apre la strada a una varietà di nuovi setup sperimentali in questo campo. Tutte le risorse descritte in questo articolo sono disponibili all'indirizzo https://data.hplt-project.org/three/diachronic/, ordinate per lingua.
L'analisi dell'acustica ambientale riveste un ruolo centrale nella progettazione architettonica, nell'ingegneria del suono, nella valutazione dell'intelligibilità del parlato e nella ricerca audiologica. Nonostante la disponibilità di metriche standardizzate come il tempo di riverberazione, la chiarezza e l'indice di trasmissione del parlato, strumenti accessibili che combinino un rigoroso processing del segnale con una visualizzazione intuitiva rimangono scarsi. Questo articolo presenta AcoustiVision Pro, una piattaforma open-source basata su web per l'analisi completa della risposta impulsiva ambientale (RIR). Il sistema calcola dodici parametri acustici distinti da RIR caricate o provenienti da dataset, fornisce visualizzazioni 3D interattive delle prime riflessioni, genera caratteristiche di decadimento in frequenza tramite waterfall plot e verifica la conformità agli standard internazionali tra cui ANSI S12.60 e ISO 3382. Introduciamo i dataset correlati RIRMega e RIRMega Speech ospitati su Hugging Face, contenenti migliaia di risposte impulsive ambientali simulate con metadati completi. La piattaforma supporta l'auralizzazione in tempo reale tramite convoluzione basata su FFT, esporta report PDF dettagliati adatti per la documentazione tecnica e fornisce l'esportazione dei dati in formato CSV per ulteriori analisi. Descriviamo i fondamenti matematici alla base di ciascuna metrica acustica, dettagliamo l'architettura di sistema e presentiamo studi preliminari che dimostrano l'utilità della piattaforma in diversi domini applicativi, inclusa l'acustica delle aule, la progettazione di strutture sanitarie e la valutazione di studi di registrazione.
La Generazione Aumentata dal Recupero (RAG) è diventata un pilastro delle applicazioni ad alta intensità di conoscenza, inclusi chatbot aziendali, assistenti sanitari e sistemi di gestione della memoria agentica. Tuttavia, studi recenti dimostrano che attacchi di estrazione della conoscenza possono recuperare contenuti sensibili della knowledge base tramite query costruite malevolmente, sollevando serie preoccupazioni riguardo alla violazione della proprietà intellettuale e alla fuoriuscita di dati privati. Sebbene lavori precedenti abbiano esplorato singole tecniche di attacco e difesa, il panorama della ricerca rimane frammentato, abbracciando embedding di recupero eterogenei, modelli di generazione diversificati e valutazioni basate su metriche non standardizzate e dataset incoerenti. Per colmare questa lacuna, introduciamo il primo benchmark sistematico per gli attacchi di estrazione della conoscenza sui sistemi RAG. Il nostro benchmark copre un'ampia gamma di strategie di attacco e difesa, modelli rappresentativi di embedding per il recupero, e generatori sia open-source che proprietari, tutti valutati in un quadro sperimentale unificato con protocolli standardizzati su più dataset. Consolidando il panorama sperimentale e consentendo una valutazione riproducibile e comparabile, questo benchmark fornisce spunti operativi e una base pratica per lo sviluppo di sistemi RAG che preservano la privacy di fronte alle minacce emergenti di estrazione della conoscenza. Il nostro codice è disponibile qui.
I giudici basati su grandi modelli linguistici (LLM) sono spesso utilizzati insieme alle metriche tradizionali basate su algoritmi per compiti come la summarizzazione, poiché catturano meglio le informazioni semantiche, sono più abili nel ragionamento e più robusti alla parafrasi. Tuttavia, i giudici LLM mostrano pregiudizi, tra gli altri, per la lunghezza e l'ordine, e sono vulnerabili a vari prompt di input avversariali. Sebbene studi recenti abbiano esaminato questi bias, pochi li hanno analizzati a un livello più granulare in relazione a una metrica di sovrapposizione ben definita. In questo lavoro forniamo un'analisi del bias dei giudici LLM in funzione della sovrapposizione con risposte scritte da esseri umani nel dominio della summarizzazione. Testiamo 9 LLM recenti con conteggi di parametri che vanno da 1 a 12 miliardi, includendo varianti di Gemma 3 e LLaMA 3. Scopriamo che i giudici LLM preferiscono sempre più i riassunti generati da altri LLM rispetto a quelli scritti da umani man mano che le somiglianze (misurate da ROUGE e BLEU) tra i riassunti valutati diminuiscono, e questo modello si estende a tutti i modelli testati tranne uno, ed esiste indipendentemente dai bias di posizione dei modelli stessi. Inoltre, scopriamo che i modelli faticano a giudicare anche riassunti con sovrapposizioni limitate, suggerendo che l'utilizzo dell'LLM come giudice nel dominio della summarizzazione dovrebbe basarsi su tecniche che vanno oltre un semplice confronto.
Mentre le capacità dei grandi modelli linguistici continuano a progredire, aumenta anche il loro potenziale di uso improprio. Se i modelli closed-source si basano tipicamente su difese esterne, i modelli open-weight devono fare principalmente affidamento su meccanismi di sicurezza interni per mitigare comportamenti dannosi. La precedente ricerca di red-teaming si è concentrata prevalentemente su jailbreaking basato sugli input e su manipolazioni a livello parametrico. Tuttavia, i modelli open-weight supportano nativamente anche il prefilling, che consente a un attaccante di predefinire i token di risposta iniziali prima che la generazione abbia inizio. Nonostante il suo potenziale, questo vettore di attacco ha ricevuto scarsa attenzione sistematica. Presentiamo il più ampio studio empirico fino ad oggi sugli attacchi via prefilling, valutando oltre 20 strategie, sia esistenti che nuove, su diverse famiglie di modelli e sui modelli open-weight più all'avanguardia. I nostri risultati dimostrano che gli attacchi via prefilling sono costantemente efficaci contro tutti i principali modelli open-weight contemporanei, rivelando una vulnerabilità critica e precedentemente poco esplorata, con implicazioni significative per il deployment. Sebbene alcuni modelli di ragionamento su larga scala mostrino una certa robustezza contro tecniche generiche di prefilling, rimangono vulnerabili a strategie specifiche e mirate al modello. Le nostre scoperte sottolineano l'urgente necessità per gli sviluppatori di modelli di dare priorità alle difese contro gli attacchi via prefilling nei LLM open-weight.
Gli agenti basati su LLM stanno iniziando ad automatizzare le attività degli utenti sul web aperto, spesso con accesso a risorse utente come email e calendari. A differenza dei LLM standard che rispondono a domande in un ambiente controllato come i chatbot, gli agenti web agiscono "in natura", interagendo con terze parti e lasciando una traccia di azioni. Pertanto, ci poniamo la domanda: come gestiscono gli agenti web le risorse utente quando svolgono compiti per loro conto su siti web attivi? In questo articolo, formalizziamo il Natural Agentic Oversharing – la divulgazione non intenzionale di informazioni utente irrilevanti per il compito attraverso una traccia di azioni dell'agente sul web. Introduciamo SPILLage, un framework che caratterizza l'oversharing lungo due dimensioni: canale (contenuto vs. comportamento) e direttezza (esplicito vs. implicito). Questa tassonomia rivela un punto cieco critico: mentre i lavori precedenti si concentrano sulla fuga di informazioni testuali, gli agenti web condividono in eccesso anche a livello comportamentale attraverso click, scroll e pattern di navigazione che possono essere monitorati. Eseguiamo benchmark su 180 compiti su siti e-commerce attivi con annotazioni di ground-truth che separano attributi rilevanti per il compito da quelli irrilevanti. Su 1.080 esecuzioni che coprono due framework agentici e tre LLM di base, dimostriamo che l'oversharing è pervasivo, con l'oversharing comportamentale che domina quello di contenuto di 5 volte. Questo effetto persiste – e può persino peggiorare – con mitigazioni a livello di prompt. Tuttavia, rimuovere le informazioni irrilevanti per il compito prima dell'esecuzione migliora il successo del compito fino al 17,9%, dimostrando che ridurre l'oversharing migliora il successo del compito. I nostri risultati sottolineano che proteggere la privacy negli agenti web è una sfida fondamentale, che richiede una visione più ampia di "output" che tenga conto di ciò che gli agenti fanno sul web, non solo di ciò che digitano. I nostri dataset e codice sono disponibili su https://github.com/jrohsc/SPILLage.
L'apprendimento per rinforzo (RL) è emerso come un paradigma dominante per la guida autonoma end-to-end (AD). Tuttavia, il RL soffre di inefficienza campionaria e di una mancanza di interpretabilità semantica in scenari complessi. I Modelli di Fondazione (Foundation Models), in particolare i Modelli Visione-Linguaggio (VLM), possono mitigare questo problema offrendo conoscenze ricche e consapevoli del contesto, ma la loro elevata latenza di inferenza ostacola la distribuzione nei cicli di addestramento RL ad alta frequenza. Per colmare questa lacuna, presentiamo Found-RL, una piattaforma progettata per potenziare efficientemente il RL per la AD utilizzando modelli di fondazione. Un'innovazione fondamentale è il framework di inferenza asincrona in batch, che disaccoppia l'oneroso ragionamento dei VLM dal ciclo di simulazione, risolvendo efficacemente i colli di bottiglia della latenza per supportare l'apprendimento in tempo reale. Introduciamo meccanismi di supervisione diversificati: la Regolarizzazione del Margine del Valore (VMR) e la Guida all'Azione Ponderata per il Vantaggio (AWAG) per distillare efficacemente i suggerimenti di azione simili a quelli di un esperto forniti dai VLM nella politica di RL. Inoltre, adottiamo CLIP ad alta produttività per la modellazione di ricompense dense. Affrontiamo la cecità dinamica di CLIP tramite l'Allineamento Azione-Contrastivo Condizionale, che condiziona i prompt su velocità/comandi discretizzati e produce un bonus normalizzato, basato sul margine, dalla valutazione di ancoraggi azione specifici del contesto. Found-RL fornisce una pipeline end-to-end per l'integrazione di VLM messi a punto e dimostra che un modello RL leggero può raggiungere prestazioni vicine a quelle dei VLM con miliardi di parametri, mantenendo al contempo un'inferenza in tempo reale (circa 500 FPS). Codice, dati e modelli saranno pubblicamente disponibili su https://github.com/ys-qu/found-rl.
L'ottimizzazione fine delle istruzioni per i grandi modelli linguistici (LLM) spesso prevede la selezione di un sottoinsieme di dati di addestramento da un ampio pool di candidati, utilizzando un piccolo set di query proveniente dal task target. Nonostante il crescente interesse, la letteratura sulla selezione mirata delle istruzioni rimane frammentata e opaca: i metodi variano notevolmente nei budget di selezione, spesso omettono i benchmark zero-shot e frequentemente confondono i contributi dei componenti chiave. Di conseguenza, i professionisti mancano di linee guida operative per selezionare le istruzioni per i propri task target. In questo lavoro, miriamo a portare chiarezza in questo panorama separando e analizzando sistematicamente i due ingredienti fondamentali: la rappresentazione dei dati e gli algoritmi di selezione. Il nostro framework consente confronti controllati tra modelli, task e budget. Rileviamo che solo le rappresentazioni dei dati basate sul gradiente selezionano sottoinsiemi la cui somiglianza con la query predice costantemente le prestazioni attraverso dataset e modelli. Sebbene nessun metodo singolo sia dominante, le rappresentazioni basate sul gradiente abbinate a un algoritmo greedy di selezione round-robin tendono a ottenere in media le migliori prestazioni con budget ridotti, ma questi vantaggi diminuiscono con budget più ampi. Infine, unifichiamo diversi algoritmi di selezione esistenti come forme di minimizzazione approssimata della distanza tra il sottoinsieme selezionato e il set di query, e supportiamo questa visione con nuovi limiti di generalizzazione. Più in generale, i nostri risultati forniscono intuizioni cruciali e una base per una selezione dei dati più principiata nell'ottimizzazione fine degli LLM. Il codice è disponibile all'indirizzo https://github.com/dcml-lab/targeted-instruction-selection.
Gli agenti di intelligenza artificiale generativa equiparano la comprensione alla risoluzione di richieste esplicite, un presupposto che confina l'interazione a ciò che gli utenti sono in grado di articolare. Questo presupposto cessa di valere quando sono gli utenti stessi a non essere consapevoli di ciò che manca, di ciò che è rischioso o di ciò che vale la pena considerare. In tali condizioni, la proattività non è solo un miglioramento dell'efficienza, ma una necessità epistemica. Definiamo questa condizione come incompletezza epistemica: una situazione in cui il progresso dipende dall'impegnarsi con le "incognite sconosciute" per una partnership efficace. Gli approcci esistenti alla proattività rimangono strettamente anticipatori, estrapolando dal comportamento passato e presumendo che gli obiettivi siano già ben definiti, fallendo così nel supportare significativamente gli utenti. Tuttavia, portare alla luce possibilità oltre la consapevolezza attuale di un utente non è di per sé benefico. Interventi proattivi privi di vincoli possono dirottare l'attenzione, sopraffare gli utenti o introdurre danni. Gli agenti proattivi richiedono pertanto un ancoraggio comportamentale: vincoli principiati su quando, come e in quale misura un agente dovrebbe intervenire. Avanziamo la tesi che la proattività generativa debba essere ancorata sia epistemicamente che comportamentalmente. Attingendo dalla filosofia dell'ignoranza e dalla ricerca sul comportamento proattivo, sosteniamo che queste teorie offrono una guida cruciale per progettare agenti in grado di agire in modo responsabile e favorire partnership significative.