Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'evoluzione dei Large Language Model (LLM) in agenti autonomi ha ampliato la portata della programmazione IA dalla generazione di codice localizzata alla risoluzione di problemi complessi, a livello di repository e guidata dall'esecuzione. Tuttavia, gli attuali benchmark valutano principalmente la logica del codice in contesti statici, trascurando le esigenze dinamiche e di processo completo dell'ingegneria del mondo reale, in particolare nello sviluppo backend che richiede una configurazione ambientale rigorosa e il deployment di servizi. Per colmare questa lacuna, introduciamo ABC-Bench, un benchmark progettato esplicitamente per valutare la programmazione backend agentica all'interno di un flusso di lavoro realistico ed eseguibile. Utilizzando una pipeline automatizzata e scalabile, abbiamo curato 224 task pratici che coprono 8 linguaggi e 19 framework provenienti da repository open-source. A differenza delle valutazioni precedenti, ABC-Bench richiede agli agenti di gestire l'intero ciclo di vita dello sviluppo, dall'esplorazione del repository all'istanziazione di servizi containerizzati, e di superare test API end-to-end esterni. La nostra valutazione estensiva rivela che anche i modelli più all'avanguardia faticano a fornire prestazioni affidabili su questi task olistici, evidenziando una disparità sostanziale tra le capacità attuali dei modelli e le esigenze pratiche dell'ingegneria backend. Il nostro codice è disponibile all'indirizzo https://github.com/OpenMOSS/ABC-Bench.
I modelli linguistici di grandi dimensioni spesso risolvono compiti di ragionamento complesso in modo più efficace utilizzando la Catena del Pensiero (CoT), ma al costo di sequenze di token lunghe e a bassa larghezza di banda. Al contrario, gli esseri umani spesso ragionano in modo "soft" mantenendo una distribuzione sui passi successivi plausibili. Motivati da questo, proponiamo il Pensiero Multiplex, un meccanismo stocastico di ragionamento soft che, ad ogni passo di pensiero, campiona K token candidati e aggrega i loro embedding in un singolo token multiplex continuo. Ciò preserva il prior degli embedding del vocabolario e la dinamica di campionamento della generazione discreta standard, inducendo al contempo una distribuzione di probabilità trattabile sui rollout multiplex. Di conseguenza, le traiettorie multiplex possono essere ottimizzate direttamente con l'apprendimento per rinforzo (RL) on-policy. È importante sottolineare che il Pensiero Multiplex è auto-adattivo: quando il modello è confidente, il token multiplex è quasi discreto e si comporta come una CoT standard; quando è incerto, rappresenta in modo compatto molteplici passi successivi plausibili senza aumentare la lunghezza della sequenza. Su benchmark impegnativi di ragionamento matematico, il Pensiero Multiplex supera costantemente i solidi baseline di CoT discreta e RL da Pass@1 a Pass@1024, producendo al contempo sequenze più brevi. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/GMLR-Penn/Multiplex-Thinking.
Valutare accuratamente la fiducia del modello è essenziale per implementare modelli linguistici di grandi dimensioni (LLM) in domini fattuali critici. Sebbene la generazione aumentata dal recupero (RAG) sia ampiamente adottata per migliorare il grounding, la calibrazione della confidenza in contesti RAG rimane poco compresa. Conduriamo uno studio sistematico su quattro benchmark, rivelando che gli LLM mostrano scarse prestazioni di calibrazione a causa di contesti recuperati rumorosi. Nello specifico, evidenze contraddittorie o irrilevanti tendono a gonfiare la falsa certezza del modello, portando a una grave sovraffiducia. Per affrontare questo problema, proponiamo le Regole NAACL (Noise-AwAre Confidence CaLibration Rules) per fornire una base principiata per risolvere la sovraffiducia in presenza di rumore. Progettiamo inoltre NAACL, un framework di calibrazione consapevole del rumore che sintetizza supervisione da circa 2.000 esempi di HotpotQA guidato da queste regole. Eseguendo un fine-tuning supervisionato (SFT) con questi dati, NAACL fornisce ai modelli una consapevolezza intrinseca del rumore senza fare affidamento su modelli insegnanti più potenti. I risultati empirici mostrano che NAACL produce guadagni sostanziali, migliorando i punteggi ECE del 10,9% in-domain e dell'8,0% out-of-domain. Colmando il divario tra rumore nel recupero e calibrazione verbale, NAACL apre la strada a LLM sia accurati che epistemicamente affidabili.
I modelli di segmentazione foundation promptable come SAM3 hanno dimostrato forti capacità di generalizzazione attraverso prompt interattivi e basati su concetti. Tuttavia, la loro applicabilità diretta alla segmentazione di immagini mediche rimane limitata da severi domain shift, dall'assenza di prompt spaziali privilegiati e dalla necessità di ragionare su strutture anatomiche e volumetriche complesse. Qui presentiamo Medical SAM3, un modello foundation per la segmentazione universale di immagini mediche guidata da prompt, ottenuto addestrando completamente SAM3 su dataset di imaging medico 2D e 3D su larga scala ed eterogenei, con maschere di segmentazione abbinate e prompt testuali. Attraverso un'analisi sistematica del SAM3 vanilla, osserviamo che le sue prestazioni si degradano sostanzialmente sui dati medici, con la sua apparente competitività che dipende in larga misura da forti prior geometriche come bounding box derivate dalla ground truth. Questi risultati motivano un adattamento completo del modello che va oltre la sola prompt engineering. Addestrando i parametri del modello SAM3 su 33 dataset che coprono 10 modalità di imaging medico, Medical SAM3 acquisisce rappresentazioni robuste specifiche del dominio preservando la flessibilità guidata dai prompt. Esperimenti estensivi su organi, modalità di imaging e dimensionalità dimostrano miglioramenti prestazionali consistenti e significativi, specialmente in scenari complessi caratterizzati da ambiguità semantica, morfologia intricata e contesto 3D a lungo raggio. I nostri risultati stabiliscono Medical SAM3 come un modello foundation universale per la segmentazione guidata da testo nell'imaging medico e sottolineano l'importanza di un adattamento olistico del modello per ottenere una segmentazione robusta guidata da prompt sotto severi domain shift. Codice e modello saranno resi disponibili su https://github.com/AIM-Research-Lab/Medical-SAM3.
PubMed-OCR è un corpus di articoli scientifici incentrato sull'OCR, derivato dai PDF in Open Access di PubMed Central. Ogni immagine di pagina è annotata con Google Cloud Vision e rilasciata in uno schema JSON compatto con bounding box a livello di parola, riga e paragrafo. Il corpus comprende 209.500 articoli (1,5 milioni di pagine; circa 1,3 miliardi di parole) e supporta la modellazione consapevole del layout, il question answering ancorato alle coordinate e la valutazione di pipeline dipendenti dall'OCR. Analizziamo le caratteristiche del corpus (ad es. copertura delle riviste e caratteristiche di layout rilevate) e discutiamo i limiti, inclusa la dipendenza da un singolo motore OCR e la ricostruzione euristica delle righe. Rilasciamo i dati e lo schema per facilitare la ricerca downstream e invitiamo a estensioni.
I grandi modelli linguistici possono rappresentare una varietà di personaggi, ma tipicamente adottano per impostazione predefinita un'identità di Assistente utile, coltivata durante l'addestramento post-allenamento. Investigiamo la struttura dello spazio dei personaggi del modello estraendo direzioni di attivazione corrispondenti a diversi archetipi caratteriali. Attraverso diversi modelli, scopriamo che la componente principale di questo spazio dei personaggi è un "Asse dell'Assistente", che cattura la misura in cui un modello opera nella sua modalità predefinita di Assistente. Orientarsi verso la direzione dell'Assistente rinforza comportamenti utili e innocui; allontanarsi da essa aumenta la tendenza del modello a identificarsi come altre entità. Inoltre, allontanarsi con valori più estremi induce spesso uno stile di eloquio mistico e teatrale. Troviamo che questo asse è presente anche nei modelli pre-addestrati, dove promuove principalmente archetipi umani utili come consulenti e coach e inibisce quelli spirituali. Misurare le deviazioni lungo l'Asse dell'Assistente predice la "deriva del personaggio", un fenomeno in cui i modelli scivolano nel mostrare comportamenti dannosi o bizzarri che non sono caratteristici del loro personaggio tipico. Scopriamo che la deriva del personaggio è spesso guidata da conversazioni che richiedono una meta-riflessione sui processi del modello o che presentano utenti emotivamente vulnerabili. Dimostriamo che limitare le attivazioni a una regione fissa lungo l'Asse dell'Assistente può stabilizzare il comportamento del modello in questi scenari – e anche di fronte a jailbreak avversariali basati sul personaggio. I nostri risultati suggeriscono che l'addestramento post-allenamento orienta i modelli verso una particolare regione dello spazio dei personaggi ma li lega solo debolmente ad essa, motivando lavori su strategie di addestramento e orientamento che ancorino più profondamente i modelli a un personaggio coerente.
L'animazione di immagini di personaggi sta acquisendo un'importanza significativa in vari ambiti, spinta dalla domanda di rendering multi-soggetto robusto e flessibile. Sebbene i metodi esistenti eccellano nell'animazione di soggetti singoli, faticano a gestire numeri arbitrari di soggetti, tipi di personaggi diversi e disallineamenti spaziali tra l'immagine di riferimento e le pose guida. Attribuiamo queste limitazioni a un vincolo spaziale eccessivamente rigido che impone un allineamento pixel-pixel stretto tra la posa e il riferimento, e a un'incapacità di riassociare coerentemente il movimento ai soggetti desiderati. Per affrontare queste sfide, proponiamo CoDance, un nuovo framework Unbind-Rebind che abilita l'animazione di numeri arbitrari di soggetti, tipi e configurazioni spaziali condizionata da una singola sequenza di pose, potenzialmente disallineata. Nello specifico, il modulo Unbind utilizza un innovativo codificatore di spostamento delle pose (pose shift encoder) per rompere il rigido vincolo spaziale tra la posa e il riferimento introducendo perturbazioni stocastiche sia alle pose che alle loro caratteristiche latenti, costringendo così il modello ad apprendere una rappresentazione del movimento indipendente dalla posizione. Per garantire un controllo preciso e l'associazione ai soggetti, abbiamo quindi ideato un modulo Rebind, che sfrutta la guida semantica dei prompt testuali e la guida spaziale delle maschere dei soggetti per indirizzare il movimento appreso verso i personaggi desiderati. Inoltre, per facilitare una valutazione completa, introduciamo un nuovo benchmark multi-soggetto, CoDanceBench. Esperimenti estensivi su CoDanceBench e dataset esistenti mostrano che CoDance raggiunge prestazioni all'avanguardia (SOTA), dimostrando una notevole generalizzazione su soggetti diversi e layout spaziali vari. Il codice e i pesi del modello saranno resi open-source.
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è estremamente efficace per potenziare il ragionamento dei modelli linguistici di grandi dimensioni (LLM), tuttavia recenti evidenze mostrano che modelli come Qwen 2.5 raggiungono miglioramenti significativi anche con ricompense spurie o errate. Indaghiamo questo fenomeno e identifichiamo un "Paradosso della Perplessità": l'RLVR spurio innesca una divergenza in cui la perplessità dei token della risposta diminuisce mentre la coerenza lato prompt si degrada, suggerendo che il modello stia aggirando il ragionamento a favore della memorizzazione. Utilizzando Path Patching, Logit Lens, analisi JSD ed Equazioni Differenziali Neurali, scopriamo un circuito nascosto "Ancora-Adattatore" che facilita questa scorciatoia. Localizziamo un'Ancora Funzionale negli strati intermedi (L18-20) che innesca il recupero di soluzioni memorizzate, seguita da Adattatori Strutturali negli strati successivi (L21+) che trasformano le rappresentazioni per adattarsi al segnale di scorciatoia. Infine, dimostriamo che il ridimensionamento di specifici "key" MLP all'interno di questo circuito permette uno steering causale bidirezionale, amplificando o sopprimendo artificialmente le prestazioni guidate dalla contaminazione. I nostri risultati forniscono una roadmap meccanicistica per identificare e mitigare la contaminazione dei dati nei modelli ottimizzati con RLVR. Il codice è disponibile all'indirizzo https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
La guida dei Large Language Model (LLM) tramite interventi sulle attivazioni è emersa come un'alternativa leggera al fine-tuning per l'allineamento e la personalizzazione. Recenti lavori sulla Ottimizzazione delle Preferenze Bidirezionale (BiPO) dimostrano che vettori di guida densi possono essere appresi direttamente da dati di preferenza in stile Ottimizzazione Diretta delle Preferenze (DPO), consentendo il controllo su veridicità, allucinazioni e comportamenti di sicurezza. Tuttavia, i vettori di guida densi spesso intrecciano molteplici fattori latenti a causa della multi-semanticità dei neuroni, limitando la loro efficacia e stabilità in contesti a grana fine come l'allineamento culturale, dove valori e comportamenti strettamente correlati (ad esempio, tra culture mediorientali) devono essere distinti. In questo articolo, proponiamo Yet another Policy Optimization (YaPO), un metodo senza riferimento che apprende vettori di guida sparsi nello spazio latente di un Autoencoder Sparso (SAE). Ottimizzando i codici sparsi, YaPO produce direzioni di guida disaccoppiate, interpretabili ed efficienti. Empiricamente, dimostriamo che YaPO converge più velocemente, raggiunge prestazioni più robuste e mostra una stabilità di addestramento migliorata rispetto ai baseline con vettori densi. Oltre all'allineamento culturale, YaPO si generalizza a una gamma di comportamenti legati all'allineamento, inclusi allucinazioni, ricerca di ricchezza, jailbreak e ricerca di potere. È importante sottolineare che YaPO preserva la conoscenza generale, senza un degrado misurabile su MMLU. Nel complesso, i nostri risultati mostrano che YaPO fornisce una ricetta generale per l'allineamento efficiente, stabile e a grana fine degli LLM, con ampie applicazioni alla controllabilità e all'adattamento di dominio. Il codice e i dati associati sono disponibili pubblicamente all'indirizzo https://github.com/MBZUAI-Paris/YaPO.
Valutare se i modelli linguistici multimodali di grandi dimensioni comprendano veramente articoli scientifici estesi rimane una sfida: le metriche basate sulla sola risposta e i test sintetici "Needle-In-A-Haystack" (ago nel pagliaio) spesso premiano la corrispondenza della risposta senza richiedere una traccia di ragionamento causale, collegata alle evidenze, nel documento. Proponiamo il paradigma "Fish-in-the-Ocean" (FITO, Pesce nell'Oceano), che richiede ai modelli di costruire catene di evidenze cross-modali esplicite all'interno dei documenti scientifici nativi. Per implementare il FITO, costruiamo SIN-Data, un corpus scientifico intervallato che preserva la disposizione nativa di testo e figure. Sulla base di questo, costruiamo SIN-Bench con quattro compiti progressivi che coprono la scoperta di evidenze (SIN-Find), la verifica di ipotesi (SIN-Verify), domande e risposte fondate (SIN-QA) e la sintesi ancorata alle evidenze (SIN-Summary). Introduciamo inoltre il principio "No Evidence, No Score" (Nessuna Evidenza, Nessun Punteggio), valutando le previsioni solo quando ancorate a riferimenti verificabili e diagnosticando la qualità delle evidenze tramite corrispondenza, rilevanza e logica. Esperimenti su otto MLLM mostrano che l'ancoraggio alle evidenze è il collo di bottiglia principale: Gemini-3-pro raggiunge il miglior punteggio medio complessivo (0.573), mentre GPT-5 ottiene la più alta accuratezza nelle risposte SIN-QA (0.767) ma underperforma sui punteggi complessivi allineati alle evidenze, rivelando uno scarto tra correttezza e supporto tracciabile.
Per insegnare ai robot compiti di manipolazione complessi, è ormai pratica comune effettuare il fine-tuning di un modello visione-linguaggio-azione (VLA) pre-addestrato su dati specifici del compito. Tuttavia, poiché questa procedura aggiorna le rappresentazioni esistenti, non è adatta per un funzionamento a lungo termine nel mondo reale, dove i robot devono adattarsi continuamente a nuovi compiti e ambienti, conservando al contempo le conoscenze già acquisite. I metodi di apprendimento continuo esistenti per la robotica richiedono comunemente la memorizzazione di dati precedenti (esemplari), faticano con sequenze lunghe di compiti o si basano su identificatori di compito per il deployment. Per affrontare queste limitazioni, proponiamo CLARE, un framework generale ed efficiente in termini di parametri per l'apprendimento continuo senza esemplari con modelli VLA. CLARE introduce adattatori modulari leggeri in strati feedforward selezionati ed espande autonomamente il modello solo dove necessario durante l'apprendimento di un nuovo compito, guidato dalla similarità delle caratteristiche a livello di strato. Durante il deployment, un meccanismo di instradamento basato su autoencoder attiva dinamicamente gli adattatori più rilevanti senza richiedere etichette dei compiti. Attraverso esperimenti estesi sul benchmark LIBERO, dimostriamo che CLARE raggiunge alte prestazioni su nuovi compiti senza dimenticanza catastrofica dei compiti precedenti, superando significativamente anche i metodi basati su esemplari. Il codice e i dati sono disponibili all'indirizzo https://tum-lsy.github.io/clare.