Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'Embedding Posizionale Rotary (RoPE) nei modelli Transformer presenta limiti intrinseci che indeboliscono l'estrapolazione di lunghezza. Reinterpretiamo la mappa di attenzione con codifica posizionale come una mappa di feature rumorosa e proponiamo Denoising Positional Encoding (DoPE), un metodo senza training basato sull'entropia di matrice troncata per rilevare bande di frequenza anomale nella mappa di feature. Sfruttando le caratteristiche di rumore della mappa di feature, la riparametrizziamo ulteriormente con una distribuzione Gaussiana senza parametri per ottenere un'estrapolazione robusta. Il nostro metodo rivela teoricamente la causa sottostante del fenomeno dell'attention sink e la sua connessione con l'entropia di matrice troncata. Esperimenti su task di needle-in-a-haystack e di apprendimento in contesto many-shot dimostrano che DoPE migliora significativamente l'accuratezza di recupero e la stabilità del ragionamento in contesti estesi (fino a 64K token). I risultati mostrano che la strategia di denoising per gli embedding posizionali mitiga efficacemente gli attention sink e ripristina pattern di attenzione bilanciati, fornendo una soluzione semplice ma potente per migliorare la generalizzazione di lunghezza. La nostra pagina del progetto è: https://The-physical-picture-of-LLMs.github.io
I recenti progressi nei modelli multimodali unificati (UMM) hanno permesso avanzamenti impressionanti nella comprensione e generazione visiva. Tuttavia, i dataset e i benchmark esistenti si concentrano principalmente su interazioni a turno singolo, non riuscendo a catturare la natura multi-turno e dipendente dal contesto della creazione e modifica di immagini nel mondo reale. Per colmare questa lacuna, presentiamo WEAVE, la prima suite per la comprensione e generazione cross-modale interallacciata in-context. La nostra suite è composta da due parti complementari. WEAVE-100k è un dataset su larga scala di 100.000 campioni interallacciati, che copre oltre 370.000 turni di dialogo e 500.000 immagini, affrontando compiti di comprensione, modifica e generazione che richiedono ragionamento sul contesto storico. WEAVEBench è un benchmark annotato manualmente con 100 task basati su 480 immagini, caratterizzato da un framework di valutazione ibrido con giudicatore VLM basato sia sull'immagine di riferimento che sulla combinazione dell'immagine originale con le istruzioni di modifica, che valuta le capacità dei modelli nella generazione multi-turno, nella memoria visiva e nel ragionamento basato sulla conoscenza del mondo attraverso domini diversificati. Gli esperimenti dimostrano che l'addestramento su WEAVE-100k abilita capacità di comprensione visiva, modifica di immagini e collaborazione comprensione-generazione. Inoltre, facilmente gli UMM a sviluppare capacità emergenti di memoria visiva, mentre le valutazioni estensive su WEAVEBench rivelano le limitazioni persistenti e le sfide degli approcci attuali nella generazione e modifica di immagini multi-turno e consapevole del contesto. Riteniamo che WEAVE fornisca una prospettiva e una base per lo studio della comprensione e generazione interallacciata in-context per la comunità multimodale.
Introduciamo le Virtual Width Networks (VWN), un framework che fornisce i vantaggi di rappresentazioni più ampie senza incorrere nel costo quadratico dell'aumento della dimensione dello strato nascosto. Le VWN disaccoppiano l'ampiezza rappresentativa dall'ampiezza della backbone, espandendo lo spazio di embedding mantenendo quasi costante il calcolo della backbone. Nel nostro esperimento su larga scala, un'espansione di 8 volte accelera l'ottimizzazione di oltre 2 volte per la predizione del token successivo e di 3 volte per la predizione dei 2 token successivi. Il vantaggio si amplifica durante l'addestramento man mano che cresce il divario della loss e aumenta il rapporto di accelerazione della convergenza, dimostrando che le VWN non sono solo efficienti in termini di token, ma anche sempre più efficaci con la scala. Inoltre, identifichiamo una relazione di scaling approssimativamente log-lineare tra l'ampiezza virtuale e la riduzione della loss, offrendo una base empirica iniziale e una motivazione per esplorare lo scaling dell'ampiezza virtuale come una nuova dimensione dell'efficienza dei modelli di grandi dimensioni.
L'avvento dei Modelli Multimodali Unificati (UMM) segnala un cambio di paradigma nell'intelligenza artificiale, spostandosi dalla percezione passiva alla generazione attiva e cross-modale. Nonostante la loro capacità senza precedenti di sintetizzare informazioni, persiste una lacuna critica nella valutazione: i benchmark esistenti valutano principalmente la comprensione discriminatoria o la generazione di immagini non vincolata separatamente, non riuscendo a misurare il processo cognitivo integrato del ragionamento generativo. Per colmare questa lacuna, proponiamo che la costruzione geometrica costituisca un banco di prova ideale poiché richiede intrinsecamente una fusione di comprensione linguistica e generazione visiva precisa. Introduciamo GGBench, un benchmark progettato specificamente per valutare il ragionamento generativo geometrico. Fornisce un quadro completo per diagnosticare sistematicamente la capacità di un modello non solo di comprendere e ragionare, ma di costruire attivamente una soluzione, stabilendo così uno standard più rigoroso per la prossima generazione di sistemi intelligenti. Sito web del progetto: https://opendatalab-raiser.github.io/GGBench/.
La programmazione dell'interfaccia utente (UI) è un aspetto fondamentale ma estremamente complesso dello sviluppo software moderno. I recenti progressi nei modelli linguistici visivi (VLM) evidenziano il potenziale della codifica automatica delle UI, ma gli approcci attuali presentano due limitazioni principali: le capacità di codifica multimodale rimangono sottosviluppate e i paradigmi a turno singolo fanno scarso uso del feedback visivo iterativo. Affrontiamo queste sfide con un paradigma interattivo da UI a codice che riflette meglio i flussi di lavoro reali e innalza il limite superiore delle prestazioni ottenibili. In questo paradigma, presentiamo UI2Code^N, un modello linguistico visivo addestrato attraverso pre-addestramento, fine-tuning e apprendimento per rinforzo in stadi, per ottenere miglioramenti fondamentali nella codifica multimodale. Il modello unifica tre capacità chiave: generazione da UI a codice, modifica dell'UI e rifinitura dell'UI. Esploriamo inoltre lo scaling al tempo di test per la generazione interattiva, consentendo un uso sistematico del feedback a più turni. Esperimenti sui benchmark di generazione da UI a codice e di rifinitura dell'UI mostrano che UI2Code^N stabilisce un nuovo stato dell'arte tra i modelli open-source e raggiunge prestazioni paragonabili a modelli closed-source leader come Claude-4-Sonnet e GPT-5. Il nostro codice e i nostri modelli sono disponibili su https://github.com/zai-org/UI2Code_N.
Il panorama della generazione video sta evolvendo, spostando l'attenzione dalla creazione di clip visivamente accattivanti alla costruzione di ambienti virtuali che supportino l'interazione e mantengano la plausibilità fisica. Questi sviluppi indicano l'emergere di modelli fondazionali video che funzionano non solo come generatori visivi, ma anche come modelli mondiali impliciti, in grado di simulare le dinamiche fisiche, le interazioni agente-ambiente e la pianificazione di compiti che governano mondi reali o immaginati. Questa rassegna fornisce una panoramica sistematica di questa evoluzione, concettualizzando i moderni modelli fondazionali video come la combinazione di due componenti fondamentali: un modello mondiale implicito e un renderizzatore video. Il modello mondiale codifica conoscenza strutturata sul mondo, incluse le leggi fisiche, le dinamiche di interazione e il comportamento degli agenti. Funge da motore di simulazione latente che abilita ragionamenti visivi coerenti, consistenza temporale a lungo termine e pianificazione guidata da obiettivi. Il renderizzatore video trasforma questa simulazione latente in osservazioni visive realistiche, producendo efficacemente video come "finestre" sul mondo simulato. Tracciamo la progressione della generazione video attraverso quattro generazioni, in cui le capacità fondamentali avanzano gradualmente, culminando infine in un modello mondiale, costruito su un modello di generazione video, che incorpora una plausibilità fisica intrinseca, un'interazione multimodale in tempo reale e capacità di pianificazione che abbracciano scale spaziotemporali multiple. Per ogni generazione, ne definiamo le caratteristiche principali, evidenziamo i lavori rappresentativi ed esaminiamo i loro ambiti applicativi come la robotica, la guida autonoma e i giochi interattivi. Infine, discutiamo le sfide aperte e i principi di progettazione per i modelli mondiali di prossima generazione, incluso il ruolo dell'intelligenza degli agenti nel modellare e valutare questi sistemi. Un elenco aggiornato dei lavori correlati è mantenuto a questo link.
I Diffusion Transformer, in particolare per la generazione video, raggiungono una qualità notevole ma soffrono di una complessità quadratica dell'attenzione, che porta a una latenza proibitiva. I metodi di accelerazione esistenti affrontano un compromesso fondamentale: stimare dinamicamente pattern di attenzione sparsi ad ogni passo di denoising comporta un elevato sovraccarico computazionale e errori di stima, mentre pattern di sparsità statici rimangono fissi e spesso subottimali durante l'intero processo di denoising. Identifichiamo una proprietà strutturale chiave dell'attenzione nei modelli diffusion, ovvero il fatto che i suoi pattern di sparsità mostrano una forte coerenza temporale attraverso i passi di denoising. I riquadri (tile) considerati non essenziali al passo t tipicamente rimangono tali al passo t+δ. Sfruttando questa osservazione, introduciamo LiteAttention, un metodo che utilizza la coerenza temporale per abilitare salti computazionali evolutivi attraverso la sequenza di denoising. Contrassegnando precocemente i riquadri non essenziali e propagando in avanti le decisioni di salto, LiteAttention elimina i calcoli ridondanti di attenzione senza i sovraccarichi della profilazione ripetuta, combinando l'adattività dei metodi dinamici con l'efficienza di quelli statici. Implementiamo un kernel LiteAttention altamente ottimizzato basato su FlashAttention e dimostriamo accelerazioni sostanziali su modelli diffusion video di produzione, senza alcuna degradazione della qualità. Il codice e i dettagli implementativi saranno rilasciati pubblicamente.
La scoperta di nuovi Liquidi Ionici (IL) è ostacolata da sfide critiche nella previsione delle proprietà, inclusi dati limitati, scarsa accuratezza dei modelli e flussi di lavoro frammentati. Sfruttando la potenza dei Large Language Model (LLM), introduciamo AIonopedia, a nostra conoscenza il primo agente basato su LLM per la scoperta di IL. Basato su un modello fondante multimodale di dominio per IL potenziato da LLM, AIonopedia consente previsioni accurate delle proprietà e incorpora un'architettura di ricerca gerarchica per lo screening e la progettazione molecolare. Addestrato e valutato su un nuovo dataset di IL curato e completo, il nostro modello fornisce prestazioni superiori. A complemento di questi risultati, le valutazioni su sistemi riportati in letteratura indicano che l'agente può effettuare una modifica efficace degli IL. Andando oltre i test offline, l'efficacia pratica è stata ulteriormente confermata attraverso una validazione in laboratorio reale, in cui l'agente ha dimostrato eccezionali capacità di generalizzazione su compiti complessi di out-of-distribution, sottolineando la sua capacità di accelerare la scoperta di IL nel mondo reale.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nelle attività di visione e linguaggio, ma continuano a incontrare difficoltà nella comprensione spaziale. I modelli spaziali MLLM esistenti spesso si basano su input 3D espliciti o modifiche specifiche all'architettura, rimanendo vincolati da dataset su larga scala o supervisione sparsa. Per affrontare queste limitazioni, introduciamo SpatialThinker, un MLLM con consapevolezza 3D addestrato con apprendimento per rinforzo (RL) per integrare il grounding spaziale strutturato con ragionamenti a più fasi. Il modello simula la percezione spaziale umana costruendo un grafo della scena degli oggetti rilevanti per il compito e delle relazioni spaziali, ragionando verso una risposta attraverso ricompense spaziali dense. SpatialThinker consiste in due contributi chiave: (1) una pipeline di sintesi dei dati che genera STVQA-7K, un dataset di alta qualità per VQA spaziale, e (2) un RL online con una ricompensa spaziale densa multi-obiettivo che impone il grounding spaziale. SpatialThinker-7B supera il fine-tuning supervisionato e la baseline di RL sparso nella comprensione spaziale e nei benchmark di VQA del mondo reale, quasi raddoppiando il guadagno del modello base rispetto al RL sparso e superando GPT-4o. Questi risultati dimostrano l'efficacia della combinazione tra supervisione spaziale e ragionamento alineato alle ricompense nell'abilitare una robusta comprensione spaziale 3D con dati limitati e nel far progredire gli MLLM verso un ragionamento visivo di livello umano.
I recenti progressi nei grandi modelli linguistici (LLM) sono stati favoriti dall'apprendimento per rinforzo con ricompense verificabili (RLVR) e dal ridimensionamento al momento del test. Tuttavia, la lunghezza limitata dell'output degli LLM vincola la profondità di ragionamento ottenibile in un singolo processo inferenziale. I sistemi di ragionamento multi-agente offrono un'alternativa promettente impiegando più agenti, come Risolutore, Verificatore e Correttore, per affinare iterativamente le soluzioni. Sebbene efficaci in modelli proprietari come Gemini 2.5 Pro, questi sistemi faticano a generalizzarsi per i modelli open-source a causa di capacità critiche e correttive insufficienti. Per affrontare questo problema, proponiamo MarsRL, un nuovo framework di apprendimento per rinforzo con parallelismo di pipeline agentico, progettato per ottimizzare congiuntamente tutti gli agenti nel sistema. MarsRL introduce meccanismi di ricompensa specifici per agente per mitigare il rumore nelle ricompense e impiega un addestramento di tipo pipeline per migliorare l'efficienza nella gestione di traiettorie lunghe. Applicato a Qwen3-30B-A3B-Thinking-2507, MarsRL migliora l'accuratezza su AIME2025 dall'86,5% al 93,3% e su BeyondAIME dal 64,9% al 73,8%, superando persino Qwen3-235B-A22B-Thinking-2507. Questi risultati evidenziano il potenziale di MarsRL di far progredire i sistemi di ragionamento multi-agente e ampliarne l'applicabilità in vari compiti di ragionamento.
I rilevatori open-vocabulary ottengono prestazioni impressionanti su COCO, ma spesso non riescono a generalizzare su dataset del mondo reale con classi fuori distribuzione non tipicamente presenti nel loro pre-addestramento. Invece di effettuare un semplice fine-tuning di un modello vision-language (VLM) pesante per nuovi domini, introduciamo RF-DETR, un detection transformer specializzato e leggero che scopre curve di Pareto accuratezza-latenza per qualsiasi dataset target mediante neural architecture search (NAS) con condivisione dei pesi. Il nostro approccio addestra tramite fine-tuning una rete base pre-addestrata su un dataset target e valuta migliaia di configurazioni di rete con diversi compromessi accuratezza-latenza senza ri-addestramento. Inoltre, rivisitiamo i "parametri regolabili" per il NAS per migliorare la trasferibilità dei DETR verso domini target diversi. Notevolmente, RF-DETR migliora significativamente i precedenti metodi state-of-the-art in tempo reale su COCO e Roboflow100-VL. RF-DETR (nano) raggiunge 48.0 AP su COCO, superando D-FINE (nano) di 5.3 AP a latenza simile, e RF-DETR (2x-large) supera GroundingDINO (tiny) di 1.2 AP su Roboflow100-VL mentre è 20 volte più veloce. Per quanto ne sappiamo, RF-DETR (2x-large) è il primo rilevatore in tempo reale a superare 60 AP su COCO. Il nostro codice è disponibile su https://github.com/roboflow/rf-detr.
Per fornire una soluzione unificata e flessibile per la comunicazione quotidiana delle persone con deficit uditivo, introduciamo il paradigma Omni-Model nella tecnologia assistiva e presentiamo HI-TransPA, un assistente personale audiovisivo guidato da istruzioni. Il modello fonde un parlato indistinto con la dinamica labiale ad alto frame rate, abilitando sia la traduzione che il dialogo all'interno di un unico framework multimodale. Per affrontare le sfide dei dati grezzi rumorosi ed eterogenei e della limitata adattabilità degli Omni-Model esistenti al parlato dei soggetti ipoudenti, abbiamo costruito una pipeline completa di pre-elaborazione e curazione dei dati che rileva i punti di riferimento facciali, isola e stabilizza la regione labiale e valuta quantitativamente la qualità dei campioni multimodali. Questi punteggi di qualità guidano una strategia di curriculum learning che addestra inizialmente su campioni puliti e ad alta confidenza, per incorporare progressivamente casi più difficili al fine di rafforzare la robustezza del modello. Adottiamo inoltre un encoder SigLIP combinato con un Unified 3D-Resampler per codificare efficientemente il movimento labiale ad alto frame rate. Esperimenti sul nostro dataset appositamente costruito, HI-Dialogue, dimostrano che HI-TransPA raggiunge prestazioni allo stato dell'arte sia in accuratezza letterale che in fedeltà semantica. Questo lavoro getta le basi per l'applicazione degli Omni-Model alla tecnologia di comunicazione assistiva, fornendo un framework di modellazione end-to-end e strumenti di elaborazione essenziali per la ricerca futura.
L'ottimizzazione dei sistemi di raccomandazione per obiettivi che vanno oltre la precisione, come la diversità, la novità e la personalizzazione, è cruciale per la soddisfazione degli utenti a lungo termine. A tal fine, i professionisti del settore hanno accumulato vaste quantità di conoscenza di dominio strutturata, che definiamo *human priors* (ad esempio, tassonomie di elementi, pattern temporali). Questa conoscenza viene tipicamente applicata tramite aggiustamenti *post-hoc* durante il ranking o il post-ranking. Tuttavia, questo approccio rimane disaccoppiato dall'apprendimento del modello centrale, il che è particolarmente indesiderabile man mano che l'industria si sposta verso modelli di fondazione generativi end-to-end per la raccomandazione. D'altro canto, molti metodi che mirano a questi obiettivi oltre la precisione spesso richiedono modifiche specifiche all'architettura e scartano questi preziosi *human priors* apprendendo l'intento dell'utente in modo completamente non supervisionato. Invece di scartare gli *human priors* accumulati in anni di pratica, introduciamo un framework *backbone-agnostic* che integra perfettamente questi *human priors* direttamente nell'addestramento end-to-end dei raccomandatori generativi. Grazie a teste adattatrici leggere, condizionate dai *priors* e ispirate a strategie di decodifica efficienti per LLM, il nostro approccio guida il modello a districare l'intento dell'utente lungo assi comprensibili all'uomo (ad esempio, tipi di interazione, interessi a lungo termine vs. a breve termine). Introduciamo anche una strategia di composizione gerarchica per modellare interazioni complesse tra diversi tipi di *prior*. Esperimenti estensivi su tre dataset su larga scala dimostrano che il nostro metodo migliora significativamente sia gli obiettivi di precisione che quelli oltre la precisione. Mostriamo inoltre che gli *human priors* consentono al modello *backbone* di sfruttare più efficacemente lunghezze di contesto maggiori e dimensioni del modello più ampie.
La valutazione della traduzione a livello discorsivo in ambiti specialistici rimane inadeguata, nonostante la sua centralità per la diffusione della conoscenza e la comunicazione accademica translinguistica. Sebbene queste traduzioni richiedano coerenza discorsiva e rigida precisione terminologica, i metodi di valutazione attuali si concentrano prevalentemente sull'accuratezza e fluidità a livello segmentale. Per affrontare questa limitazione, presentiamo DiscoX, un nuovo benchmark per la traduzione cinese-inglese a livello discorsivo e specialistico. Esso comprende 200 testi curati professionalmente da 7 domini, con una lunghezza media superiore a 1700 token. Per valutare le prestazioni su DiscoX, abbiamo sviluppato Metric-S, un sistema senza riferimento che fornisce valutazioni automatiche granulari su accuratezza, fluidità e appropriatezza. Metric-S dimostra una forte coerenza con i giudizi umani, superando significativamente le metriche esistenti. I nostri esperimenti rivelano un divario prestazionale notevole: anche i modelli linguistici più avanzati restano ancora inferiori agli esperti umani in questi compiti. Questa scoperta convalida la difficoltà di DiscoX e sottolinea le sfide che permangono nel raggiungere una traduzione automatica di livello professionale. Il benchmark e il sistema di valutazione proposti forniscono un quadro solido per una valutazione più rigorosa, facilitando i progressi futuri nella traduzione basata su LLM.
Consentire ai sistemi di IA agentivi di adattare le proprie strategie di problem-solving sulla base di interazioni post-addestramento rimane una sfida fondamentale. Sebbene siano stati proposti sistemi che aggiornano e mantengono una memoria durante l'inferenza, i progetti esistenti guidano il sistema solo modificando l'input testuale di un modello linguistico o agente, il che impedisce di alterare parametri di campionamento, rimuovere strumenti, modificare prompt di sistema o passare tra paradigmi agentivi e di workflow. D'altro canto, i sistemi che si adattano in modo più flessibile richiedono ottimizzazione offline e rimangono statici una volta distribuiti. Presentiamo Experience-Guided Reasoner (EGuR), che genera strategie personalizzate – procedure computazionali complete che coinvolgono chiamate a LLM, strumenti, parametri di campionamento e logica di controllo – dinamicamente durante l'inferenza, basandosi sull'esperienza accumulata. Raggiungiamo questo obiettivo utilizzando una meta-strategia basata su LLM – una strategia che produce strategie – consentendo l'adattamento di tutti i componenti strategici (prompt, parametri di campionamento, configurazioni di strumenti e logica di controllo). EGuR opera attraverso due componenti: una Guida genera multiple strategie candidate condizionate al problema corrente e alla memoria strutturata delle esperienze passate, mentre un Consolidatore integra il feedback esecutivo per migliorare la generazione strategica futura. Ciò produce strategie complete, pronte per l'esecuzione e ottimizzate per ogni problema, che possono essere memorizzate nella cache, recuperate ed eseguite secondo necessità senza spreco di risorse. Su cinque benchmark complessi (AIME 2025, 3-SAT e tre task Big Bench Extra Hard), EGuR raggiunge miglioramenti di accuratezza fino al 14% rispetto ai baseline più robusti, riducendo simultaneamente i costi computazionali fino a 111 volte, con entrambe le metriche che migliorano man mano che il sistema acquisisce esperienza.
L'emozione svolge un ruolo fondamentale nell'espressione basata su video, ma i sistemi esistenti di generazione video si concentrano prevalentemente su metriche visive di basso livello trascurando le dimensioni affettive. Sebbene l'analisi delle emozioni abbia compiuto progressi nel dominio visivo, la comunità video manca di risorse dedicate per collegare la comprensione emotiva con i compiti generativi, specialmente in contesti stilizzati e non realistici. Per colmare questa lacuna, presentiamo EmoVid, il primo dataset video multimodale annotato emotivo specificamente progettato per media creativi, che include animazioni cartonate, clip cinematografiche e sticker animati. Ogni video è annotato con etichette emotive, attributi visivi (luminosità, vivacità cromatica, tonalità) e didascalie testuali. Attraverso un'analisi sistematica, individuiamo modelli spaziali e temporali che collegano le caratteristiche visive alle percezioni emotive attraverso diverse forme video. Basandoci su queste intuizioni, sviluppiamo una tecnica di generazione video condizionata dall'emozione mediante fine-tuning del modello Wan2.1. I risultati mostrano un miglioramento significativo sia nelle metriche quantitative che nella qualità visiva dei video generati per compiti di testo-a-video e immagine-a-video. EmoVid stabilisce un nuovo punto di riferimento per l'informatica video affettiva. Il nostro lavoro non solo offre preziose intuizioni sull'analisi visiva delle emozioni in video di stile artistico, ma fornisce anche metodi pratici per potenziare l'espressione emotiva nella generazione video.
I modelli linguistici potenziati da strumenti (TaLMs) possono richiamare strumenti esterni per risolvere problemi oltre la loro capacità parametrica. Tuttavia, non è chiaro se questi vantaggi abilitati dagli strumenti riflettano un ragionamento affidabile. Concentrandoci sullo strumento Code Interpreter, dimostriamo che anche quando gli strumenti sono selezionati ed eseguiti correttamente, i TaLMs trattano gli output degli strumenti come sostituti del ragionamento, producendo soluzioni che appaiono corrette ma mancano di una giustificazione coerente. Definiamo questa modalità di fallimento Miopia Indotta da Strumenti (TIM), e la studiamo utilizzando PYMATH, un benchmark di 1.679 problemi matematici di livello competitivo per i quali il codice Python è utile ma non sufficiente. Sviluppiamo inoltre una suite di valutazione multidimensionale per quantificare il degrado del ragionamento nei TaLMs rispetto alle loro controparti senza strumenti. I nostri risultati rivelano che, sebbene i TaLMs raggiungano un guadagno fino a 19,3 punti percentuali nell'accuratezza della risposta finale, il loro comportamento di ragionamento si deteriora costantemente (ad esempio, gli LLM senza strumenti vincono fino al 41,5% più spesso nei confronti a coppie del processo di ragionamento). Questo degrado si intensifica con l'uso degli strumenti; più frequentemente un modello richiama gli strumenti, meno coerente diventa il suo ragionamento. Inoltre, l'uso degli strumenti sposta gli errori dagli errori aritmetici verso fallimenti di ragionamento globale (logica, assunzioni, creatività); con TIM presente in circa il 55% dei casi ad alto rischio. Infine, proponiamo un framework basato sull'ottimizzazione delle preferenze che riallinea i TaLMs per utilizzare gli strumenti come prove di supporto, migliorando sia l'accuratezza della risposta finale che la profondità di ragionamento con l'uso degli strumenti. I codici e i dati sono disponibili all'indirizzo: https://github.com/megagonlabs/TIM.
La generazione di idee scientifiche è al cuore della scoperta scientifica e ha guidato il progresso umano, sia risolvendo problemi irrisolti sia proponendo nuove ipotesi per spiegare fenomeni sconosciuti. A differenza del ragionamento scientifico standard o della generazione creativa generale, la generazione di idee nella scienza è un compito multi-obiettivo e aperto, dove la novità di un contributo è tanto essenziale quanto la sua solidità empirica. I grandi modelli linguistici (LLM) sono recentemente emersi come promettenti generatori di idee scientifiche, capaci di produrre output coerenti e fattuali con sorprendente intuizione e ragionamento accettabile, eppure la loro capacità creativa rimane incostante e poco compresa. Questa rassegna fornisce una sintesi strutturata dei metodi per l'ideazione scientifica guidata da LLM, esaminando come i diversi approcci bilanciano creatività e rigore scientifico. Categorizziamo i metodi esistenti in cinque famiglie complementari: arricchimento di conoscenza esterna, orientamento distribuzionale basato su prompt, scalatura al momento dell'inferenza, collaborazione multi-agente e adattamento a livello di parametri. Per interpretarne i contributi, utilizziamo due framework complementari: la tassonomia di Boden della creatività Combinatoria, Esplorativa e Trasformativa per caratterizzare il livello di idee che ciascuna famiglia si prefigge di generare, e il framework delle 4P di Rhodes - Persona, Processo, Pressione ambientale e Prodotto - per individuare l'aspetto o la fonte della creatività che ciascun metodo enfatizza. Allineando i progressi metodologici con i framework sulla creatività, questa rassegna chiarisce lo stato del campo e delinea le direzioni chiave verso applicazioni affidabili, sistematiche e trasformative degli LLM nella scoperta scientifica.
Effettuiamo un'analisi approfondita degli enunciati formali e informali nel benchmark miniF2F dalla prospettiva di un sistema di IA incaricato di partecipare a un'Olimpiade della matematica composta dai problemi in miniF2F. In tale contesto, il modello deve leggere e comprendere i problemi in linguaggio naturale, formalizzarli nel linguaggio Lean, procedere quindi alla dimostrazione dei problemi, e otterrà un punteggio per ogni problema se la dimostrazione formale corrisponde all'enunciato informale originale presentato al modello. I nostri risultati di valutazione rivelano che la massima accuratezza di una tale pipeline può essere circa del 36% utilizzando i modelli state-of-the-art (SoTA) presenti in letteratura, considerevolmente inferiore alle accuratezze SoTA individuali, rispettivamente del 97% e del 69%, riportate in letteratura per l'autoformalizzazione e la dimostrazione automatica di teoremi. Analizzando le modalità di fallimento, attribuiamo una parte considerevole di questo calo a discrepanze tra gli enunciati formali e informali per più della metà dei problemi in miniF2F. Procediamo quindi a correggere tutti gli errori, le discrepanze e le semplificazioni negli enunciati formali e informali, e presentiamo miniF2F-v2 con enunciati e dimostrazioni formali e informali completamente verificati. La valutazione della pipeline completa di dimostrazione automatica su miniF2F-v2 porta a un'accuratezza massima del 70%, un miglioramento significativo rispetto al 40% ottenuto sul miniF2F originale, che tuttavia indica un considerevole disallineamento tra i modelli di autoformalizzazione e i dimostratori di teoremi. La nostra analisi approfondita suggerisce che un benchmark di qualità superiore può aiutare la comunità a valutare meglio i progressi nel campo del ragionamento formale e anche a diagnosticare più efficacemente le modalità di fallimento e successo dei modelli di autoformalizzazione e dimostrazione automatica di teoremi. Il nostro dataset è disponibile all'indirizzo https://github.com/roozbeh-yz/miniF2F_v2.
Questo articolo presenta un approccio innovativo alla categorizzazione degli scheduler di carico di lavoro moderni. Forniamo descrizioni di tre classi di scheduler: Scheduler di Processi dei Sistemi Operativi, Scheduler di Job per Sistemi Cluster e Scheduler per Big Data. Ne descriviamo l'evoluzione dalle prime adozioni fino alle implementazioni moderne, considerando sia l'utilizzo che le caratteristiche degli algoritmi. In sintesi, discutiamo le differenze tra tutte le classi di scheduler presentate e analizziamo il loro sviluppo cronologico. In conclusione, evidenziamo le somiglianze nella progettazione delle strategie di scheduling, applicabili sia ai sistemi locali che a quelli distribuiti.
La crescente diffusione di agenti di IA autonomi sul web è ostacolata da un disallineamento fondamentale: gli agenti devono dedurre le affordance da interfacce utente progettate per gli esseri umani, portando a interazioni fragili, inefficienti e insicure. Per affrontare questo problema, introduciamo VOIX, un framework nativo per il web che consente ai siti web di esporre capacità affidabili, verificabili e che preservano la privacy per gli agenti di IA attraverso semplici elementi HTML dichiarativi. VOIX introduce i tag `<tool>` e `<context>`, permettendo agli sviluppatori di definire esplicitamente le azioni disponibili e lo stato rilevante, creando così un contratto chiaro e leggibile dalle macchine per il comportamento degli agenti. Questo approccio sposta il controllo verso lo sviluppatore del sito web preservando al contempo la privacy dell'utente, disaccoppiando le interazioni conversazionali dal sito web. Abbiamo valutato la praticità, la facilità di apprendimento e l'espressività del framework in uno studio hackathon della durata di tre giorni con 16 sviluppatori. I risultati dimostrano che i partecipanti, indipendentemente dall'esperienza pregressa, sono stati in grado di costruire rapidamente applicazioni web funzionali e diversificate abilitate per gli agenti. In definitiva, questo lavoro fornisce un meccanismo fondamentale per realizzare il Web Agente, abilitando un futuro di collaborazione umano-IA seamless e sicura sul web.
Questo articolo presenta una strategia per allocare servizi su un sistema Cloud senza sovraccaricare i nodi e mantenendo la stabilità del sistema con un costo minimo. Specifichiamo un modello astratto dell'utilizzo delle risorse cloud, che include molteplici tipi di risorse nonché considerazioni sui costi di migrazione dei servizi. Viene dimostrato un prototipo di bilanciatore del carico meta-euristico e i risultati sperimentali sono presentati e discussi. Proponiamo inoltre un nuovo algoritmo genetico, in cui la popolazione viene inizializzata con gli output di altri algoritmi meta-euristici.
La percezione cooperativa veicolo-veicolo (V2V) ha un grande potenziale per migliorare le prestazioni della guida autonoma superando i limiti percettivi negli scenari di traffico complessi e avversi (CATS). Nel contempo, i dati costituiscono l'infrastruttura fondamentale per l'IA moderna della guida autonoma. Tuttavia, a causa dei rigorosi requisiti di raccolta dati, i dataset esistenti si concentrano principalmente su scenari di traffico ordinari, limitando i vantaggi della percezione cooperativa. Per affrontare questa sfida, presentiamo CATS-V2V, il primo dataset reale al mondo per la percezione cooperativa V2V in scenari di traffico complessi e avversi. Il dataset è stato raccolto da due veicoli sincronizzati hardware temporalmente, coprendo 10 condizioni meteorologiche e di illuminazione in 10 località diverse. Il dataset da 100 clip include 60.000 frame di nuvole di punti LiDAR a 10 Hz e 1,26 milioni di immagini multi-view da telecamera a 30 Hz, insieme a 750.000 record GNSS e IMU anonimi ma ad alta precisione fissati con RTK. Corrispondentemente, forniamo annotazioni di bounding box 3D temporalmente consistenti per gli oggetti, nonché scene statiche per costruire una rappresentazione BEV 4D. Su questa base, proponiamo un metodo di allineamento temporale basato su target, garantendo che tutti gli oggetti siano precisamente allineati attraverso tutte le modalità sensoriali. Speriamo che CATS-V2V, il dataset più ampio, più supportivo e di qualità più elevata del suo genere finora, possa avvantaggiare la comunità della guida autonoma nei compiti correlati.