Articoli di ricerca IA selezionati quotidianamente con traduzioni
I metodi di reinforcement learning senza critico, in particolare le politiche di gruppo, hanno attirato notevole attenzione per la loro efficienza in compiti complessi. Tuttavia, questi metodi si basano fortemente su campionamenti multipli e confronti all'interno della politica per stimare il vantaggio, il che può portare la politica a cadere in un ottimo locale e aumentare il costo computazionale. Per affrontare questi problemi, proponiamo PVPO, un metodo efficiente di reinforcement learning potenziato da un'ancora di riferimento per il vantaggio e un pre-campionamento dei dati. Nello specifico, utilizziamo il modello di riferimento per eseguire rollout in anticipo e impieghiamo il punteggio di ricompensa calcolato come ancora di riferimento. Il nostro approccio corregge efficacemente il bias cumulativo introdotto dai confronti intra-gruppo e riduce significativamente la dipendenza dal numero di rollout. Nel frattempo, il modello di riferimento può valutare la difficoltà del campione durante il pre-campionamento dei dati, consentendo una selezione efficace di dati ad alto guadagno per migliorare l'efficienza dell'addestramento. Esperimenti condotti su nove dataset in due domini dimostrano che PVPO raggiunge prestazioni State-Of-The-Art (SOTA). Il nostro approccio non solo dimostra una robusta generalizzazione su più compiti, ma mostra anche prestazioni scalabili su modelli di varia scala.
È stata condotta un'ampia ricerca per esplorare le capacità dei grandi modelli linguistici (LLM) nel ragionamento su tabelle. Tuttavia, il compito essenziale di trasformare le informazioni delle tabelle in report rimane una sfida significativa per le applicazioni industriali. Questo compito è afflitto da due problemi critici: 1) la complessità e la diversità delle tabelle portano a risultati di ragionamento subottimali; e 2) i benchmark esistenti per le tabelle non hanno la capacità di valutare adeguatamente l'applicazione pratica di questo compito. Per colmare questa lacuna, proponiamo il compito table-to-report e costruiamo un benchmark bilingue denominato T2R-bench, in cui il flusso di informazioni chiave dalle tabelle ai report è centrale per questo compito. Il benchmark comprende 457 tabelle industriali, tutte derivate da scenari reali e che abbracciano 19 domini industriali, nonché 4 tipi di tabelle industriali. Inoltre, proponiamo un criterio di valutazione per misurare equamente la qualità della generazione dei report. Gli esperimenti su 25 LLM ampiamente utilizzati rivelano che anche modelli all'avanguardia come Deepseek-R1 raggiungono solo una performance con un punteggio complessivo di 62,71, indicando che i LLM hanno ancora margine di miglioramento su T2R-bench. Il codice sorgente e i dati saranno disponibili dopo l'accettazione.
I recenti progressi nelle capacità di ragionamento e pianificazione dei grandi modelli linguistici (LLM) hanno dimostrato il loro potenziale come agenti autonomi in grado di utilizzare strumenti in ambienti dinamici. Tuttavia, in contesti conversazionali multi-turn come tau-bench, questi agenti spesso incontrano difficoltà nel mantenere un ragionamento coerente, nell'aderire a politiche specifiche del dominio e nell'estrarre informazioni corrette su un lungo orizzonte di chiamate a strumenti e conversazioni. Per identificare e mitigare questi fallimenti, conduciamo un'analisi manuale completa degli errori comuni che si verificano nelle traiettorie conversazionali. Successivamente, sperimentiamo riformulazioni degli input forniti all'agente che chiama gli strumenti, al fine di migliorare il processo decisionale dell'agente. Infine, proponiamo il framework Input-Reformulation Multi-Agent (IRMA), che riformula automaticamente le query dell'utente arricchendole con regole di dominio pertinenti e suggerimenti di strumenti su cui l'agente deve concentrarsi. I risultati mostrano che IRMA supera significativamente ReAct, Function Calling e Self-Reflection rispettivamente del 16,1%, 12,7% e 19,1% nei punteggi complessivi pass^5. Questi risultati evidenziano l'affidabilità e la coerenza superiori di IRMA rispetto ad altri metodi in ambienti dinamici.
Il rilevamento dei difetti superficiali è un compito cruciale in numerosi settori industriali, finalizzato a identificare e localizzare in modo efficiente imperfezioni o irregolarità sui componenti prodotti. Sebbene siano stati proposti numerosi metodi, molti non soddisfano le esigenze industriali in termini di prestazioni elevate, efficienza e adattabilità. Gli approcci esistenti sono spesso limitati a specifici scenari di supervisione e faticano ad adattarsi alle diverse annotazioni dei dati riscontrate nei processi di produzione reali, come impostazioni non supervisionate, debolmente supervisionate, con supervisione mista e completamente supervisionate. Per affrontare queste sfide, proponiamo SuperSimpleNet, un modello discriminativo altamente efficiente e adattabile basato su SimpleNet. SuperSimpleNet incorpora un nuovo processo di generazione di anomalie sintetiche, una testa di classificazione migliorata e una procedura di apprendimento ottimizzata, consentendo un addestramento efficiente in tutti e quattro gli scenari di supervisione, rendendolo il primo modello in grado di sfruttare appieno tutte le annotazioni dei dati disponibili. SuperSimpleNet stabilisce un nuovo standard di prestazioni in tutti gli scenari, come dimostrato dai suoi risultati su quattro dataset di benchmark impegnativi. Oltre all'accuratezza, è estremamente veloce, raggiungendo un tempo di inferenza inferiore a 10 ms. Con la sua capacità di unificare diversi paradigmi di supervisione mantenendo una velocità e affidabilità eccezionali, SuperSimpleNet rappresenta un passo promettente verso la risoluzione delle sfide di produzione reali e il superamento del divario tra ricerca accademica e applicazioni industriali. Codice: https://github.com/blaz-r/SuperSimpleNet
La cognizione spaziale consente comportamenti adattivi orientati agli obiettivi attraverso la costruzione di modelli interni dello spazio. I sistemi biologici robusti consolidano la conoscenza spaziale in tre forme interconnesse: punti di riferimento per segnali salienti, conoscenza del percorso per traiettorie di movimento e conoscenza d'insieme per rappresentazioni simili a mappe. Sebbene i recenti progressi nei modelli linguistici multimodali su larga scala (MLLM) abbiano abilitato il ragionamento visivo-linguistico in agenti incarnati, questi approcci mancano di una memoria spaziale strutturata e operano in modo reattivo, limitando la loro generalizzazione e adattabilità in ambienti complessi del mondo reale. Qui presentiamo Brain-inspired Spatial Cognition for Navigation (BSC-Nav), un framework unificato per costruire e sfruttare una memoria spaziale strutturata in agenti incarnati. BSC-Nav costruisce mappe cognitive allocentriche a partire da traiettorie egocentriche e segnali contestuali, e recupera dinamicamente conoscenza spaziale allineata con obiettivi semantici. Integrato con potenti MLLM, BSC-Nav raggiunge un'efficacia e un'efficienza all'avanguardia in vari compiti di navigazione, dimostra una forte generalizzazione zero-shot e supporta comportamenti incarnati versatili nel mondo fisico reale, offrendo un percorso scalabile e biologicamente fondato verso un'intelligenza spaziale a scopo generale.
I grandi modelli linguistici (LLM) addestrati principalmente su corpora in inglese spesso faticano a cogliere le sfumature linguistiche e culturali dell'arabo. Per colmare questa lacuna, l'Autorità Saudita per i Dati e l'Intelligenza Artificiale (SDAIA) ha introdotto la famiglia di modelli ALLaM, focalizzata sull'arabo. Il più capace tra questi disponibile al pubblico, ALLaM-34B, è stato successivamente adottato da HUMAIN, che ha sviluppato e implementato HUMAIN Chat, un servizio web conversazionale chiuso basato su questo modello. Questo articolo presenta una valutazione ampliata e raffinata a livello di interfaccia utente (UI) di ALLaM-34B. Utilizzando un pacchetto di prompt che copre l'arabo standard moderno, cinque dialetti regionali, il code-switching, la conoscenza fattuale, il ragionamento aritmetico e temporale, la generazione creativa e la sicurezza avversaria, abbiamo raccolto 115 output (23 prompt per 5 esecuzioni) e li abbiamo valutati con tre giudici LLM all'avanguardia (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Calcoliamo le medie a livello di categoria con intervalli di confidenza del 95%, analizziamo le distribuzioni dei punteggi e visualizziamo mappe di calore metriche per dialetto. L'analisi aggiornata riviede prestazioni costantemente elevate nei compiti di generazione e code-switching (entrambi con una media di 4,92/5), insieme a risultati solidi nella gestione dell'arabo standard moderno (4,74/5), una solida capacità di ragionamento (4,64/5) e una migliore fedeltà dialettale (4,21/5). I prompt relativi alla sicurezza mostrano prestazioni stabili e affidabili (4,54/5). Nel complesso, questi risultati posizionano ALLaM-34B come un robusto e culturalmente radicato LLM per l'arabo, dimostrando sia forza tecnica che prontezza pratica per il dispiegamento nel mondo reale.
Questo articolo introduce Democracy-in-Silico, una simulazione basata su agenti in cui società di agenti AI avanzati, dotati di complesse personalità psicologiche, si autogovernano sotto diversi quadri istituzionali. Esploriamo cosa significhi essere umani in un'era dominata dall'AI affidando ai Large Language Models (LLM) il compito di incarnare agenti con memorie traumatiche, agende nascoste e trigger psicologici. Questi agenti partecipano a deliberazioni, legislazioni ed elezioni sotto vari stressor, come crisi di bilancio e scarsità di risorse. Presentiamo una nuova metrica, l'Indice di Conservazione del Potere (PPI), per quantificare comportamenti disallineati in cui gli agenti privilegiano il proprio potere rispetto al benessere pubblico. I nostri risultati dimostrano che il design istituzionale, in particolare la combinazione di una carta di Constitutional AI (CAI) e un protocollo di deliberazione mediata, funziona come un potente meccanismo di allineamento. Queste strutture riducono significativamente i comportamenti corrotti di ricerca del potere, migliorano la stabilità delle politiche e aumentano il benessere dei cittadini rispetto a modelli democratici meno vincolati. La simulazione rivela che un design istituzionale può offrire un quadro per allineare i comportamenti complessi ed emergenti delle future società di agenti artificiali, costringendoci a riconsiderare quali rituali e responsabilità umani siano essenziali in un'era di co-autoria con entità non umane.