Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ascesa degli agenti di IA introduce complesse sfide di sicurezza e protezione derivanti dall'uso autonomo di strumenti e dalle interazioni ambientali. Gli attuali modelli di guardrail mancano di consapevolezza del rischio agentico e di trasparenza nella diagnosi del rischio. Per introdurre un guardrail agentico che copra comportamenti rischiosi complessi e numerosi, proponiamo innanzitutto una tassonomia tridimensionale unificata che categorizza ortogonalmente i rischi agentici in base alla loro fonte (dove), modalità di fallimento (come) e conseguenza (cosa). Guidati da questa tassonomia strutturata e gerarchica, introduciamo un nuovo benchmark di sicurezza agentica granulare (ATBench) e un framework di Guardrail Diagnostico per la sicurezza e protezione degli agenti (AgentDoG). AgentDoG fornisce un monitoraggio granulare e contestuale lungo le traiettorie degli agenti. Ancora più crucialmente, AgentDoG è in grado di diagnosticare le cause profonde delle azioni non sicure e delle azioni apparentemente sicure ma irragionevoli, offrendo provenienza e trasparenza oltre le etichette binarie per facilitare un efficace allineamento degli agenti. Le varianti di AgentDoG sono disponibili in tre dimensioni (4B, 7B e 8B parametri) tra le famiglie di modelli Qwen e Llama. I risultati sperimentali estensivi dimostrano che AgentDoG raggiunge prestazioni all'avanguardia nella moderazione della sicurezza agentica in scenari interattivi diversificati e complessi. Tutti i modelli e i dataset sono rilasciati apertamente.
Quando gli esseri umani affrontano problemi che superano le loro capacità immediate, ricorrono a strumenti, offrendo un paradigma promettente per migliorare il ragionamento visivo nei modelli linguistici multimodali di grandi dimensioni (MLLM). Un ragionamento efficace, pertanto, dipende dalla capacità di sapere quali strumenti utilizzare, quando invocarli e come combinarli in più fasi, anche quando si confrontano con strumenti nuovi o compiti inediti. Presentiamo AdaReasoner, una famiglia di modelli multimodali che apprende l'uso degli strumenti come abilità di ragionamento generale, anziché come comportamento specifico per un dato strumento o supervisionato esplicitamente. AdaReasoner è reso possibile da: (i) una pipeline scalabile di curatela dei dati che espone i modelli a interazioni con strumenti multi-step e a lungo termine; (ii) Tool-GRPO, un algoritmo di apprendimento per rinforzo che ottimizza la selezione e la sequenziazione degli strumenti in base al successo del compito finale; e (iii) un meccanismo di apprendimento adattivo che regola dinamicamente l'uso degli strumenti. Insieme, questi componenti consentono ai modelli di inferire l'utilità degli strumenti dal contesto del compito e dai risultati intermedi, permettendo il coordinamento di più strumenti e la generalizzazione a strumenti non visti. Empiricamente, AdaReasoner mostra comportamenti marcati di adattamento e generalizzazione nell'uso degli strumenti: adotta autonomamente strumenti benefici, sopprime quelli irrilevanti e regola la frequenza d'uso in base alle esigenze del compito, pur non essendo mai stato addestrato esplicitamente per farlo. Queste capacità si traducono in prestazioni all'avanguardia su benchmark complessi, migliorando il modello base da 7B in media del +24,9% e superando forti sistemi proprietari come GPT-5 in molteplici compiti, inclusi VSP e Jigsaw.
Dotato di un grande potenziale nella manipolazione robotica, un modello base VLA (Vision-Language-Action) capace è atteso per generalizzare fedelmente tra diversi compiti e piattaforme, garantendo al contempo efficienza dei costi (ad esempio, in termini di dati e ore di GPU necessarie per l'adattamento). A tal fine, abbiamo sviluppato LingBot-VLA utilizzando circa 20.000 ore di dati del mondo reale provenienti da 9 configurazioni popolari di robot a doppio braccio. Attraverso una valutazione sistematica su 3 piattaforme robotiche, ciascuna delle quali ha completato 100 compiti con 130 episodi post-addestramento per compito, il nostro modello ha dimostrato una chiara superiorità rispetto ai concorrenti, evidenziando le sue solide prestazioni e un'ampia generalizzabilità. Abbiamo inoltre realizzato una codebase efficiente, che garantisce una velocità di elaborazione di 261 campioni al secondo per GPU con una configurazione di addestramento a 8 GPU, rappresentando un incremento di velocità di 1,5~2,8 volte (a seconda del modello base VLM utilizzato) rispetto alle codebase esistenti orientate al VLA. Le caratteristiche sopra descritte garantiscono che il nostro modello sia ben adatto per un impiego nel mondo reale. Per far progredire il campo dell'apprendimento robotico, forniamo libero accesso al codice, al modello base e ai dati di benchmark, con l'obiettivo di abilitare compiti più impegnativi e promuovere standard di valutazione solidi.
Nonostante i significativi progressi rappresentati dai Modelli Visione-Linguaggio (VLM), le architetture attuali mostrano spesso limitazioni nel conservare le informazioni visive di fine dettaglio, portando a una comprensione multimodale di tipo granulare-grossolano. Attribuiamo questa carenza a un paradigma di addestramento subottimale, intrinseco ai VLM prevalenti, che presenta un bias di ottimizzazione dominato dal testo, concettualizzando i segnali visivi semplicemente come input condizionali passivi piuttosto che come target di supervisione. Per mitigare ciò, introduciamo Youtu-VL, un framework che sfrutta il paradigma di Supervisione Autoregressiva Unificata Visione-Linguaggio (VLUAS), che sposta fondamentalmente l'obiettivo di ottimizzazione da "visione-come-input" a "visione-come-target". Integrando direttamente i token visivi nel flusso predittivo, Youtu-VL applica una supervisione autoregressiva unificata sia ai dettagli visivi che al contenuto linguistico. Inoltre, estendiamo questo paradigma per includere task incentrati sulla visione, consentendo a un VLM standard di eseguire tali compiti senza aggiunte specifiche. Valutazioni empiriche estensive dimostrano che Youtu-VL raggiunge prestazioni competitive sia sui task multimodali generali che su quelli incentrati sulla visione, stabilendo una solida base per lo sviluppo di agenti visivi generalisti e completi.
Gli esseri umani costruiscono modelli interni del mondo e ragionano manipolando i concetti all'interno di questi modelli. I recenti progressi nell'IA, in particolare il ragionamento a catena di pensiero (CoT), approssimano tali abilità cognitive umane, dove si ritiene che i modelli del mondo siano incorporati all'interno di grandi modelli linguistici. Prestazioni di livello esperto in domini formali e astratti come la matematica e la programmazione sono state raggiunte dai sistemi attuali affidandosi prevalentemente al ragionamento verbale. Tuttavia, questi sistemi sono ancora molto inferiori agli esseri umani in domini come l'intelligenza fisica e spaziale, che richiedono rappresentazioni e conoscenze pregresse più ricche. L'emergere di modelli multimodali unificati (UMM) capaci di generazione sia verbale che visiva ha quindi suscitato interesse verso un ragionamento più simile a quello umano, basato su percorsi multimodali complementari, sebbene i loro benefici rimangano poco chiari. Da una prospettiva di modellazione del mondo, questo articolo presenta il primo studio sistematico su quando e come la generazione visiva avvantaggia il ragionamento. La nostra posizione chiave è l'ipotesi della superiorità visiva: per determinati compiti – in particolare quelli radicati nel mondo fisico – la generazione visiva serve più naturalmente come modello del mondo, mentre i modelli del mondo puramente verbali incontrano colli di bottiglia derivanti da limitazioni rappresentative o da conoscenze pregresse insufficienti. Teoricamente, formalizziamo la modellazione interna del mondo come componente centrale del ragionamento CoT e analizziamo le distinzioni tra le diverse forme di modelli del mondo. Empiricamente, identifichiamo compiti che necessitano di un ragionamento CoT visivo-verbale intervallato, costruendo una nuova suite di valutazione, VisWorld-Eval. Esperimenti controllati su un UMM all'avanguardia mostrano che il CoT intervallato supera significativamente il CoT puramente verbale nei compiti che favoriscono la modellazione visiva del mondo, ma non offre alcun chiaro vantaggio negli altri casi. Nel complesso, questo lavoro chiarisce il potenziale della modellazione multimodale del mondo per un'IA multimodale più potente e simile a quella umana.
L'apprendimento continuo, che consente ai modelli di acquisire nuove abilità e conoscenze senza degradare le capacità esistenti, rimane una sfida fondamentale per i modelli di base. Sebbene l'apprendimento per rinforzo on-policy possa ridurre la dimenticanza, richiede funzioni di ricompensa esplicite che spesso non sono disponibili. L'apprendimento da dimostrazioni di esperti, la principale alternativa, è dominato dalla messa a punto supervisionata (SFT), che è intrinsecamente off-policy. Introduciamo la messa a punto per auto-distillazione (SDFT), un metodo semplice che consente l'apprendimento on-policy direttamente dalle dimostrazioni. SDFT sfrutta l'apprendimento contestuale utilizzando un modello condizionato alla dimostrazione come proprio insegnante, generando segnali di addestramento on-policy che preservano le capacità pregresse mentre acquisiscono nuove abilità. In compiti di apprendimento di abilità e acquisizione di conoscenze, SDFT supera costantemente la SFT, raggiungendo una maggiore accuratezza nei nuovi compiti riducendo sostanzialmente la dimenticanza catastrofica. In esperimenti di apprendimento sequenziale, SDFT consente a un singolo modello di accumulare più abilità nel tempo senza regressioni delle prestazioni, stabilendo la distillazione on-policy come un percorso pratico per l'apprendimento continuo da dimostrazioni.
La scalabilità dei grandi modelli linguistici (LLM) sta raggiungendo un limite. L'ampliamento dei modelli produce rendimenti decrescenti e l'estensione della lunghezza del contesto non migliora l'espressività fondamentale. Al contrario, la scalabilità in profondità offre un'espressività teoricamente superiore, eppure le attuali architetture Transformer faticano ad addestrarsi in modo affidabile a profondità estreme. Riconsideriamo la formulazione Post-LayerNorm (Post-LN), la cui instabilità su larga scala ne ha causato la sostituzione con la Pre-LN nei moderni LLM. Dimostriamo che la principale modalità di fallimento della Post-LN deriva dal percorso residuo in stile ResNet, che introduce lo scomparsa del gradiente nelle reti profonde. Presentiamo Keel, un Transformer Post-LN che sostituisce questo percorso residuo con una connessione in stile Highway. Questa modifica preserva il flusso del gradiente attraverso il ramo residuo, prevenendo la scomparsa del segnale dagli strati superiori a quelli inferiori. A differenza dei metodi precedenti, Keel consente un addestramento stabile a profondità estreme senza richiedere inizializzazioni specializzate o complessi trucchi di ottimizzazione. Keel si addestra in modo robusto a profondità superiori a 1000 livelli e migliora costantemente la perplessità e le caratteristiche di scalabilità in profondità rispetto alla Pre-LN. Questi risultati indicano che la Post-LN, se abbinata a una connessione in stile Highway, fornisce una base semplice ed efficace per costruire LLM profondamente scalabili, aprendo la possibilità per future architetture a profondità infinita.
I clip audio-visuali di Internet veicolano significati attraverso suoni e movimenti variabili nel tempo, che vanno oltre ciò che il solo testo può rappresentare. Per esaminare se i modelli di intelligenza artificiale possono comprendere tali segnali nei contesti culturali umani, introduciamo AVMeme Exam, un benchmark curato da esseri umani comprendente oltre mille suoni e video iconici di Internet, che spaziano da discorsi, canzoni, musica a effetti sonori. Ogni meme è associato a un unico set di domande e risposte che valuta i livelli di comprensione, dal contenuto superficiale al contesto, dall'emozione all'uso e alla conoscenza generale, insieme a metadati come l'anno originale, la trascrizione, il riassunto e la sensibilità. Valutiamo sistematicamente modelli linguistici multimodali all'avanguardia (MLLM) insieme a partecipanti umani utilizzando questo benchmark. I nostri risultati rivelano una limitazione costante: i modelli attuali performano scarsamente su musica ed effetti sonori privi di testo, e faticano a ragionare in modo contestuale e culturale rispetto al contenuto superficiale. Questi risultati evidenziano un divario cruciale nell'intelligenza multimodale allineata con le capacità umane e richiedono modelli in grado di percepire oltre la superficie di ciò che sentono e vedono, in modo contestuale e culturale. Pagina del progetto: avmemeexam.github.io/public
I modelli linguistici di grandi dimensioni (LLM) motivano la simulazione di agenti generativi (ad esempio, AI Town) per creare un "mondo dinamico", rivestendo un immenso valore in ambito sia ludico che di ricerca. Tuttavia, per i non esperti, in particolare per chi non possiede competenze di programmazione, è difficile personalizzare autonomamente un ambiente visualizzabile. In questo articolo presentiamo World Craft, un framework per la creazione di mondi agentivi che permette di generare una AI Town eseguibile e visualizzabile tramite descrizioni testuali dell'utente. Esso si compone di due moduli principali: World Scaffold e World Guild. World Scaffold è una standardizzazione strutturata e concisa per sviluppare scene di gioco interattive, fungendo da impalcatura efficiente per gli LLM per personalizzare un ambiente eseguibile simile ad AI Town. World Guild è un framework multi-agente che analizza progressivamente le intenzioni dell'utente partendo da descrizioni approssimative e sintetizza i contenuti strutturati richiesti (ad esempio, layout dell'ambiente e asset) per World Scaffold. Inoltre, abbiamo costruito un dataset di correzione errori di alta qualità tramite reverse engineering per migliorare la conoscenza spaziale e aumentare la stabilità e la controllabilità della generazione del layout, riportando al contempo metriche di valutazione multidimensionali per analisi future. Esperimenti estensivi dimostrano che il nostro framework supera significativamente gli agenti di codice commerciali esistenti (Cursor e Antigravity) e gli LLM (Qwen3 e Gemini-3-Pro) nella costruzione di scene e nella trasmissione dell'intento narrativo, fornendo una soluzione scalabile per la democratizzazione della creazione di ambienti.
Presentiamo SimpleSeg, un approccio sorprendentemente semplice ma altamente efficace per dotare i Modelli Linguistici Multimodali (MLLM) di una percezione nativa a livello di pixel. Il nostro metodo ridefinisce la segmentazione come un semplice problema di generazione di sequenze: il modello predice direttamente sequenze di punti (coordinate testuali) che delineano i contorni degli oggetti, interamente all'interno del suo spazio linguistico. Per ottenere un'alta fedeltà, introduciamo una pipeline di addestramento in due fasi SFtoRL, in cui l'Apprendimento per Rinforzo con una ricompensa basata sull'IoU affina le sequenze di punti per farle corrispondere accuratamente ai contorni di verità fondamentale. Scopriamo che l'architettura standard degli MLLM possiede una forte capacità intrinseca per la percezione di basso livello che può essere sbloccata senza alcuna architettura specializzata. Sui benchmark di segmentazione, SimpleSeg raggiunge prestazioni paragonabili, e spesso superiori, a metodi che si basano su progetti complessi e specifici per il compito. Questo lavoro dimostra che una comprensione spaziale precisa può emergere dalla semplice predizione di punti, mettendo in discussione la necessità prevalente di componenti ausiliarie e spianando la strada per VLM più unificati e capaci. Homepage: https://simpleseg.github.io/
La rapida espansione dei Large Language Model (LLM) a contesto lungo ha riacceso il dibattito sulla necessità della Generazione Aumentata dal Recupero (RAG). Tuttavia, evidenze empiriche rivelano persistenti limitazioni dell'inferenza a contesto lungo, incluso il fenomeno del "lost-in-the-middle", l'alto costo computazionale e la scarsa scalabilità per il ragionamento su più documenti. Al contrario, i tradizionali sistemi RAG, sebbene efficienti, sono limitati da un recupero piatto a livello di segmenti (chunk) che introduce rumore semantico e non supporta una sintesi strutturata tra documenti. Presentiamo FABLE, un framework di recupero bi-direzionale adattativo e potenziato da LLM, basato su una struttura ad albero (forest), che integra gli LLM sia nell'organizzazione della conoscenza che nel recupero. FABLE costruisce indici gerarchici a foresta potenziati da LLM con strutture semantiche multi-granularità, quindi impiega una strategia bi-direzionale che combina una traversata gerarchica guidata da LLM con una propagazione consapevole della struttura per un'acquisizione fine delle evidenze, con un controllo esplicito del budget per compromessi adattivi di efficienza. Esperimenti estensivi dimostrano che FABLE supera costantemente i metodi RAG allo stato dell'arte e raggiunge un'accuratezza paragonabile all'inferenza LLM a contesto completo con una riduzione fino al 94% dei token, mostrando come gli LLM a contesto lungo amplifichino, piuttosto che sostituire completamente, la necessità di un recupero strutturato.
Negli ultimi anni, i rischi per la sicurezza associati ai grandi modelli linguistici sono diventati sempre più rilevanti, evidenziando l'urgente necessità di mitigare la generazione di contenuti tossici e dannosi. Il paradigma principale per l'allineamento alla sicurezza degli LLM adotta tipicamente una struttura collaborativa che coinvolge tre ruoli: un attaccante per la generazione di prompt avversariali, un difensore per la sicurezza e un valutatore per la valutazione delle risposte. In questo articolo, proponiamo una struttura di apprendimento per rinforzo a ciclo chiuso denominata TriPlay-RL, che consente una collaborazione iterativa e di miglioramento reciproco tra i tre ruoli con un'annotazione manuale quasi nulla. I risultati sperimentali mostrano che l'attaccante preserva un'elevata diversità di output ottenendo al contempo un miglioramento del 20%-50% nell'efficacia avversariale; il difensore raggiunge un incremento del 10%-30% nelle prestazioni di sicurezza senza degradare le capacità di ragionamento generale; e il valutatore affina continuamente la sua capacità di giudizio granulare attraverso le iterazioni, distinguendo accuratamente tra risposte non sicure, rifiuti semplici e indicazioni utili. Nel complesso, la nostra struttura stabilisce un paradigma efficiente e scalabile per l'allineamento alla sicurezza degli LLM, consentendo una continua co-evoluzione all'interno di un ciclo di apprendimento unificato.
L'addestramento dati parallelo (DP) moderno privilegia la comunicazione collettiva rispetto ai server dei parametri (PS) per la sua semplicità ed efficienza in condizioni di carico di lavoro bilanciato. Tuttavia, l'assunzione di carico bilanciato non è più valida nel post-addestramento di grandi modelli linguistici (LLM) a causa dell'elevata varianza nelle lunghezze delle sequenze. In condizioni di carico di lavoro squilibrato, la comunicazione collettiva crea barriere di sincronizzazione, portando a un sottoutilizzo dei dispositivi con carichi di lavoro minori. Questo cambiamento nelle dinamiche di addestramento richiede una rivalutazione del paradigma PS per la sua robustezza a tali squilibri. Proponiamo la Comunicazione On-Demand (ODC), che adatta i PS al Fully Sharded Data Parallel (FSDP) sostituendo le operazioni collettive di all-gather e reduce-scatter con una comunicazione diretta punto-punto. Rispetto a FSDP, ODC riduce la barriera di sincronizzazione da una volta per layer a una volta per minibatch e disaccoppia il carico di lavoro su ciascun dispositivo, evitando che i worker più veloci vengano bloccati. Consente inoltre un bilanciamento del carico più semplice ed efficace a livello di minibatch. In varie attività di post-addestramento di LLM, ODC migliora costantemente l'utilizzo dei dispositivi e la velocità di addestramento, raggiungendo un incremento delle prestazioni fino al 36% rispetto allo standard FSDP. Questi risultati dimostrano che ODC è una soluzione superiore per i prevalenti carichi di lavoro squilibrati nel post-addestramento degli LLM. La nostra implementazione di ODC e l'integrazione con FSDP è open-source all'indirizzo https://github.com/sail-sg/odc.
Recentemente, abbiamo spesso osservato citazioni o riferimenti allucinati che non corrispondono a lavori esistenti in articoli in fase di revisione, preprint o articoli pubblicati. Tali citazioni allucinate pongono un serio problema per l'affidabilità scientifica. Quando compaiono in articoli accettati, possono anche influire negativamente sulla credibilità delle conferenze. In questo studio, ci riferiamo alle citazioni allucinate come "HalluCitation" e indaghiamo sistematicamente la loro prevalenza e il loro impatto. Analizziamo tutti gli articoli pubblicati ad ACL, NAACL ed EMNLP nel 2024 e nel 2025, inclusi gli articoli della conferenza principale, di Findings e dei workshop. La nostra analisi rivela che quasi 300 articoli contengono almeno una HalluCitation, la maggior parte dei quali è stata pubblicata nel 2025. Notevolmente, la metà di questi articoli è stata identificata all'EMNLP 2025, la conferenza più recente, indicando che il problema è in rapida crescita. Inoltre, più di 100 di questi articoli sono stati accettati come contributi per la conferenza principale e per Findings all'EMNLP 2025, compromettendone la credibilità.
I modelli di diffusione raggiungono prestazioni all'avanguardia, ma spesso falliscono nel generare output allineati con le preferenze e le intenzioni umane, producendo immagini di scarsa qualità estetica e con incoerenze semantiche. I metodi di allineamento esistenti presentano un difficile compromesso: gli approcci di fine-tuning soffrono di una perdita di diversità a causa dell'iper-ottimizzazione del reward, mentre i metodi di scaling a tempo di test introducono un sovraccarico computazionale significativo e tendono a una sotto-ottimizzazione. Per affrontare queste limitazioni, proponiamo HyperAlign, un framework innovativo che addestra un hypernetwork per un allineamento efficiente ed efficace a tempo di test. Invece di modificare gli stati latenti, HyperAlign genera dinamicamente pesi di adattamento a basso rango per modulare gli operatori di generazione del modello di diffusione. Ciò consente di regolare adattivamente la traiettoria di denoising in base ai latenti di input, ai time-step e ai prompt per un allineamento condizionato al reward. Introduciamo multiple varianti di HyperAlign che differiscono per la frequenza di applicazione dell'hypernetwork, bilanciando prestazioni ed efficienza. Inoltre, ottimizziamo l'hypernetwork utilizzando un obiettivo di punteggio di reward regolarizzato con dati di preferenza per ridurre il reward hacking. Valutiamo HyperAlign su molteplici paradigmi generativi estesi, inclusi Stable Diffusion e FLUX. Il metodo supera significativamente le baseline esistenti di fine-tuning e scaling a tempo di test nel migliorare la coerenza semantica e l'attrattiva visiva.
Nonostante i significativi progressi nell'allineamento, i grandi modelli linguistici (LLM) rimangono vulnerabili ad attacchi avversari che inducono comportamenti dannosi. Le tecniche di *steering* delle attivazioni offrono un approccio promettente di intervento al momento dell'inferenza, ma i metodi esistenti presentano limitazioni critiche: l'addizione di attivazioni richiede una regolazione accurata dei coefficienti ed è sensibile alle variazioni di norma specifiche per strato, mentre l'ablazione direzionale fornisce solo un controllo binario. Recenti lavori sull'*Angular Steering* introducono un controllo continuo mediante rotazione in un sottospazio 2D, ma la sua implementazione pratica viola la preservazione della norma, causando uno spostamento della distribuzione e un collasso della generazione, specialmente in modelli con meno di 7B di parametri. Proponiamo lo *Selective Steering*, che affronta queste limitazioni attraverso due innovazioni chiave: (1) una formulazione matematicamente rigorosa della rotazione che preserva la norma, mantenendo l'integrità della distribuzione delle attivazioni, e (2) una selezione discriminativa degli strati che applica lo *steering* solo dove le rappresentazioni delle feature mostrano un allineamento di classe con segno opposto. Esperimenti condotti su nove modelli dimostrano che lo *Selective Steering* raggiunge tassi di successo degli attacchi 5,5 volte superiori rispetto ai metodi precedenti, mantenendo zero violazioni della perplessità e una ritenzione delle capacità approssimativamente del 100% su benchmark standard. Il nostro approccio fornisce una struttura rigorosa ed efficiente per una modifica del comportamento degli LLM controllabile e stabile. Codice: https://github.com/knoveleng/steering
I sensori di profondità sono ampiamente impiegati su piattaforme robotiche, e i progressi nella simulazione di profondità rapida e ad alta fedeltà hanno consentito a politiche robotiche addestrate su osservazioni di profondità di ottenere un robusto trasferimento sim-to-real per un'ampia gamma di compiti. Nonostante ciò, l'apprendimento di rappresentazioni per la modalità di profondità rimane poco esplorato rispetto all'RGB, dove modelli foundation su larga scala definiscono ora lo stato dell'arte. Per colmare questa lacuna, presentiamo DeFM, un modello foundation auto-supervisionato addestrato interamente su immagini di profondità per applicazioni robotiche. Utilizzando un obiettivo di auto-distillazione in stile DINO su un dataset curato di 60 milioni di immagini di profondità, DeFM apprende rappresentazioni geometriche e semantiche che generalizzano a diversi ambienti, compiti e sensori. Per preservare la consapevolezza metrica attraverso scale multiple, introduciamo una nuova strategia di normalizzazione dell'input. Inoltre, distilliamo DeFM in modelli compatti adatti a sistemi robotici con risorse limitate. Quando valutato su benchmark di classificazione, segmentazione, navigazione, locomozione e manipolazione basati sulla profondità, DeFM raggiunge prestazioni all'avanguardia e dimostra una forte generalizzazione dagli ambienti simulati a quelli del mondo reale. Rilasciamo tutti i nostri modelli pre-addestrati, che possono essere adottati immediatamente per l'apprendimento robotico basato sulla profondità senza una messa a punto specifica per il compito. Pagina web: https://de-fm.github.io/
Il ciclo di progettazione in Verilog è intrinsecamente laborioso e richiede un'ampia competenza di dominio. Sebbene i Large Language Model (LLM) offrano una strada promettente verso l'automazione, i loro dati di addestramento limitati e il ragionamento sequenziale intrinseco non riescono a cogliere la logica formale rigorosa e la concorrenza insite nei sistemi hardware. Per superare queste barriere, presentiamo EvolVE, il primo framework che analizza multiple strategie evolutive su compiti di progettazione di chip, rivelando come il Monte Carlo Tree Search (MCTS) eccella nel massimizzare la correttezza funzionale, mentre l'Idea-Guided Refinement (IGR) si dimostri superiore per l'ottimizzazione. Sfruttiamo inoltre la Structured Testbench Generation (STG) per accelerare il processo evolutivo. Per colmare la carenza di benchmark complessi di ottimizzazione, introduciamo IC-RTL, mirato a problemi di scala industriale derivati dal National Integrated Circuit Contest. Le valutazioni stabiliscono EvolVE come il nuovo stato dell'arte, raggiungendo il 98,1% su VerilogEval v2 e il 92% su RTLLM v2. Inoltre, sulla suite industriale IC-RTL, il nostro framework supera le implementazioni di riferimento realizzate dai partecipanti al concorso, riducendo il prodotto Power, Performance, Area (PPA) fino al 66% nella codifica di Huffman e del 17% nella media geometrica su tutti i problemi. Il codice sorgente del benchmark IC-RTL è disponibile all'indirizzo https://github.com/weiber2002/ICRTL.
Risolvere i conflitti di team richiede non solo competenze specifiche del compito, ma anche intelligenza sociale per trovare un terreno comune e costruire un consenso. Poiché gli agenti di IA collaborano sempre più spesso in lavori complessi, essi devono sviluppare capacità di coordinamento per funzionare come membri efficaci di una squadra. Tuttavia, ipotizziamo che gli agenti attuali siano privi di queste capacità. Per testare ciò, introduciamo CooperBench, un benchmark composto da oltre 600 compiti di programmazione collaborativa relativi a 12 librerie in 4 linguaggi di programmazione. A ciascun compito vengono assegnati due agenti con diverse funzionalità che possono essere implementate in modo indipendente, ma che potrebbero entrare in conflitto senza un adeguato coordinamento. I compiti sono basati su repository open-source reali con test scritti da esperti. Valutando gli agenti di programmazione all'avanguardia, osserviamo la maledizione del coordinamento: gli agenti raggiungono in media tassi di successo inferiori del 30% quando lavorano insieme, rispetto all'esecuzione di entrambi i compiti individualmente. Ciò contrasta nettamente con i team umani, dove l'aggiunta di membri al team tipicamente migliora la produttività. La nostra analisi rivela tre problemi chiave: (1) i canali di comunicazione si intasano con messaggi vaghi, inopportuni e imprecisi; (2) anche con una comunicazione efficace, gli agenti deviano dai propri impegni; e (3) gli agenti spesso nutrono aspettative errate riguardo ai piani e alla comunicazione altrui. Attraverso simulazioni su larga scala, osserviamo anche comportamenti emergenti di coordinamento rari ma interessanti, tra cui la divisione dei ruoli, la divisione delle risorse e la negoziazione. La nostra ricerca presenta un nuovo benchmark per la programmazione collaborativa e invoca un cambiamento di prospettiva: dal perseguimento della capacità del singolo agente allo sviluppo dell'intelligenza sociale.
I recettori accoppiati a proteine G (GPCR) regolano diversi processi fisiologici e sono centrali nella farmacologia moderna. Tuttavia, la scoperta di modulatori dei GPCR rimane impegnativa poiché l'attivazione del recettore spesso deriva da complessi effetti allosterici piuttosto che dall'affinità di legame diretta, e i saggi convenzionali sono lenti, costosi e non ottimizzati per catturare queste dinamiche. Qui presentiamo GPCR-Filter, un framework di deep learning sviluppato specificamente per la scoperta di modulatori dei GPCR. Abbiamo assemblato un dataset di alta qualità di oltre 90.000 coppie GPCR-ligando validate sperimentalmente, fornendo una solida base per l'addestramento e la valutazione. GPCR-Filter integra il modello linguistico per proteine ESM-3 per rappresentazioni ad alta fedeltà delle sequenze dei GPCR con reti neurali grafo che codificano le strutture dei ligandi, accoppiate attraverso un meccanismo di fusione basato sull'attenzione che apprende le relazioni funzionali recettore-ligando. In molteplici contesti di valutazione, GPCR-Filter supera costantemente i modelli all'avanguardia per le interazioni composto-proteina ed esibisce una forte generalizzazione per recettori e ligandi non visti. Significativamente, il modello ha identificato con successo agonisti a livello micromolare del recettore 5-HT1A con distinti scaffold chimici. Questi risultati stabiliscono GPCR-Filter come un approccio computazionale scalabile ed efficace per la scoperta di modulatori dei GPCR, avanzando lo sviluppo di farmaci assistito dall'IA per sistemi di segnalazione complessi.
I benchmark sono strumenti importanti per monitorare i progressi nello sviluppo dei Large Language Model (LLM), ma le imprecisioni nei dataset e nei metodi di valutazione ne minano costantemente l'efficacia. Presentiamo qui Omni-MATH-2, una versione rivista manualmente del dataset Omni-MATH che comprende un sottoinsieme pulito con risposte esatte (n=4181) e un sottoinsieme etichettato e non standard (n=247). Ogni problema è stato verificato per garantire la compilabilità in LaTeX, la risolvibilità e la verificabilità, operazione che ha comportato l'aggiunta di figure o informazioni mancanti, l'etichettatura dei problemi che richiedono una dimostrazione, una stima o un'immagine e la rimozione del disordine. Questo processo riduce significativamente il rumore indotto dal dataset, fornendo così una valutazione più precisa delle prestazioni del modello. Il dataset annotato ci permette anche di valutare il rumore indotto dal giudice confrontando GPT-5 mini con l'Omni-Judge originale, rivelando discrepanze sostanziali tra i giudici sia sui sottoinsiemi di problemi puliti che su quelli etichettati. Le annotazioni esperte rivelano che Omni-Judge è errato nel 96,4% delle discrepanze tra giudici, indicando la sua incapacità di differenziare le abilità dei modelli, anche molto prima che il benchmark raggiunga la saturazione. Man mano che i problemi diventano più complessi, scopriamo che giudici sempre più competenti diventano essenziali per evitare che gli errori di giudizio mascherino le differenze genuine tra i modelli. Infine, nessuno dei due giudici identifica le modalità di fallimento presenti per il sottoinsieme di problemi etichettati, dimostrando che la qualità del dataset e l'affidabilità del giudice sono entrambe critiche per sviluppare benchmark accurati delle prestazioni dei modelli.