Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) sono sempre più spesso incaricati di generazione creativa, inclusa la simulazione di personaggi fittizi. Tuttavia, la loro capacità di rappresentare personaggi non prosociali e antagonisti rimane in gran parte inesaminata. Ipotesizziamo che l'allineamento alla sicurezza dei moderni LLM crei un conflitto fondamentale con il compito di interpretare in modo autentico personaggi moralmente ambigui o villain. Per indagare ciò, introduciamo il benchmark Moral RolePlay, un nuovo dataset che presenta una scala di allineamento morale a quattro livelli e un insieme di test bilanciato per una valutazione rigorosa. Assegniamo a LLM all'avanguardia il compito di interpretare personaggi che vanno da paragoni di virtù a villain puri. La nostra valutazione su larga scala rivela un declino coerente e monotono nella fedeltà della recitazione al diminuire della moralità del personaggio. Rileviamo che i modelli hanno maggiori difficoltà con tratti direttamente antitetici ai principi di sicurezza, come "Ingannevole" e "Manipolatore", sostituendo spesso una malevolenza sfumata con un'aggressività superficiale. Inoltre, dimostriamo che la competenza generica di un chatbot è un predittore scarso della sua abilità nell'interpretare un villain, con i modelli altamente allineati alla sicurezza che performano in modo particolarmente deludente. Il nostro lavoro fornisce la prima evidenza sistematica di questa limitazione critica, evidenziando una tensione chiave tra sicurezza del modello e fedeltà creativa. Il nostro benchmark e i nostri risultati aprono la strada allo sviluppo di metodi di allineamento più sfumati e consapevoli del contesto.
La capacità di cogliere relazioni spaziali da input visivi è un pilastro fondamentale dell'intelligenza generale di tipo umano. Diversi studi precedenti hanno tentato di potenziare la consapevolezza spaziale dei Modelli Visione-Linguaggio (VLM) aggiungendo encoder specializzati aggiuntivi, il che comporta un sovraccarico computazionale e spesso compromette le capacità generali. Per potenziare le abilità spaziali in architetture generaliste, introduciamo Visual Spatial Tuning (VST), un framework completo per sviluppare nei VLM abilità visuo-spaziali simili a quelle umane, dalla percezione al ragionamento spaziale. Iniziamo tentando di potenziare la percezione spaziale nei VLM costruendo un dataset su larga scala denominato VST-P, che comprende 4,1 milioni di campioni che abbracciano 19 abilità attraverso viste singole, immagini multiple e video. Successivamente, presentiamo VST-R, un dataset curato con 135.000 campioni che istruisce i modelli a ragionare nello spazio. In particolare, adottiamo una pipeline di addestramento progressiva: fine-tuning supervisionato per costruire una conoscenza spaziale di base, seguito da apprendimento per rinforzo per migliorare ulteriormente le abilità di ragionamento spaziale. Senza effetti collaterali sulle capacità generali, il VST proposto ottiene costantemente risultati all'avanguardia su diversi benchmark spaziali, inclusi il 34,8% su MMSI-Bench e il 61,2% su VSIBench. I risultati dimostrano che i modelli Visione-Linguaggio-Azione possono essere significativamente potenziati con il paradigma di tuning spaziale proposto, aprendo la strada a un'IA più ancorata alla realtà fisica.
I modelli multimodali agentivi non dovrebbero solo comprendere testo e immagini, ma anche invocare attivamente strumenti esterni, come ambienti di esecuzione di codice e ricerche web, integrando queste operazioni nel ragionamento. In questo lavoro, presentiamo DeepEyesV2 ed esploriamo come costruire un modello multimodale agentivo dalle prospettive della costruzione dei dati, dei metodi di addestramento e della valutazione del modello. Osserviamo che il solo reinforcement learning diretto non riesce a indurre un comportamento robusto nell'uso degli strumenti. Questo fenomeno motiva una pipeline di addestramento in due fasi: una fase di cold-start per stabilire modelli di utilizzo degli strumenti, e una fase di reinforcement learning per affinare ulteriormente l'invocazione degli strumenti. Curiamo un dataset di addestramento diversificato e moderatamente impegnativo, includendo specificamente esempi in cui l'uso di strumenti è vantaggioso. Introduciamo inoltre RealX-Bench, un benchmark completo progettato per valutare il ragionamento multimodale nel mondo reale, che richiede intrinsecamente l'integrazione di molteplici capacità, tra cui percezione, ricerca e ragionamento. Valutiamo DeepEyesV2 su RealX-Bench e altri benchmark rappresentativi, dimostrandone l'efficacia in ambiti come la comprensione del mondo reale, il ragionamento matematico e i task ad alta intensità di ricerca. Inoltre, DeepEyesV2 mostra un'invocazione di strumenti adattiva al compito, tendendo a utilizzare operazioni sulle immagini per task di percezione e calcoli numerici per task di ragionamento. Il reinforcement learning abilita ulteriormente combinazioni complesse di strumenti e permette al modello di invocare selettivamente gli strumenti in base al contesto. Speriamo che il nostro studio possa fornire una guida per la comunità nello sviluppo di modelli multimodali agentivi.
I modelli linguistici di grandi dimensioni (LLM) possono eseguire ragionamenti a più fasi attraverso la Catena del Pensiero (CoT), ma non sono in grado di verificare in modo affidabile la propria logica. Anche quando raggiungono risposte corrette, il ragionamento sottostante può essere difettoso, minando la fiducia in scenari ad alto rischio. Per mitigare questo problema, introduciamo VeriCoT, un metodo neuro-simbolico che estrae e verifica argomentazioni logiche formali dal ragionamento CoT. VeriCoT formalizza ogni passo del ragionamento CoT in logica del primo ordine e identifica le premesse che ancorano l'argomentazione al contesto sorgente, alla conoscenza di senso comune o a passi di ragionamento precedenti. La rappresentazione simbolica consente ai solutori automatici di verificare la validità logica, mentre le premesse in linguaggio naturale permettono a esseri umani e sistemi di identificare passi di ragionamento infondati o fallaci. Esperimenti sui dataset ProofWriter, LegalBench e BioASQ dimostrano che VeriCoT identifica efficacemente i ragionamenti imperfetti e funge da forte predittore della correttezza della risposta finale. Sfruttiamo inoltre il segnale di verifica di VeriCoT per (1) l'auto-riflessione in fase di inferenza, (2) il fine-tuning supervisionato (SFT) su dataset distillati da VeriCoT e (3) il fine-tuning delle preferenze (PFT) con ottimizzazione diretta delle preferenze (DPO) utilizzando ricompense pairwise basate sulla verifica, migliorando ulteriormente la validità e l'accuratezza del ragionamento.
Gli agenti nel mondo reale devono formulare giudizi non solo logici ma anche tempestivi. Ciò richiede una consapevolezza continua dell'ambiente dinamico: i pericoli emergono, le opportunità si presentano e altri agenti agiscono mentre il ragionamento dell'agente è ancora in corso. Nonostante i progressi nel ragionamento dei modelli linguistici, gli approcci esistenti non tengono conto di questa natura dinamica. Introduciamo il ragionamento in tempo reale come nuova formulazione problematica per agenti in ambienti evolutivi e costruiamo Real-Time Reasoning Gym per dimostrarlo. Studiamo due paradigmi per implementare modelli linguistici negli agenti: (1) agenti reattivi, che impiegano modelli linguistici con ragionamento computazionale limitato per risposte rapide, e (2) agenti pianificatori, che consentono un ragionamento computazionale esteso per problemi complessi. I nostri esperimenti mostrano che anche i modelli più all'avanguardia faticano a formulare giudizi logici e tempestivi in entrambi i paradigmi. Per affrontare questa limitazione, proponiamo AgileThinker, che coinvolge simultaneamente entrambi i paradigmi di ragionamento. AgileThinker supera costantemente gli agenti che utilizzano un solo paradigma di ragionamento all'aumentare della difficoltà del compito e della pressione temporale, bilanciando efficacemente profondità di ragionamento e latenza di risposta. Il nostro lavoro stabilisce il ragionamento in tempo reale come banco di prova cruciale per lo sviluppo di agenti pratici e fornisce una base per la ricerca su sistemi di IA con vincoli temporali, delineando un percorso verso agenti capaci di operare in tempo reale.
I recenti progressi nell'integrazione tra movimento umano 3D e linguaggio si sono principalmente concentrati sulla generazione di movimento a partire da testo, lasciando il compito della comprensione del movimento relativamente inesplorato. Introduciamo la Dense Motion Captioning, un nuovo compito che mira a localizzare temporalmente e descrivere le azioni all'interno di sequenze di movimento umano 3D. I dataset attuali sono carenti nel fornire annotazioni temporali dettagliate e sono composti prevalentemente da sequenze brevi con poche azioni. Per superare queste limitazioni, presentiamo il Complex Motion Dataset (CompMo), il primo dataset su larga scala che presenta sequenze di movimento complesse, riccamente annotate con precisi confini temporali. Costruito attraverso una pipeline di generazione dati accuratamente progettata, CompMo include 60.000 sequenze di movimento, ciascuna composta da azioni multiple che vanno da un minimo di due a un massimo di dieci, annotate accuratamente con le loro estensioni temporali. Presentiamo inoltre DEMO, un modello che integra un large language model con un semplice adattatore per il movimento, addestrato per generare descrizioni dense e temporalmente ancorate. I nostri esperimenti mostrano che DEMO supera sostanzialmente i metodi esistenti sia su CompMo che su benchmark adattati, stabilendo una solida baseline per la ricerca futura nella comprensione e descrizione del movimento 3D.
In questo lavoro, identifichiamo un bias intrinseco nelle architetture LVLM prevalenti a favore della modalità linguistica, derivante in larga misura dalla pratica comune di aggiungere semplicemente gli embedding visivi alla sequenza testuale di input. Per affrontare questo problema, proponiamo un metodo semplice ma efficace che affina gli embedding testuali integrando caratteristiche visive mediate da average pooling. Il nostro approccio migliora dimostrabilmente il grounding visivo e riduce significativamente le allucinazioni sui benchmark consolidati. Sebbene l'average pooling offra un mezzo semplice, robusto ed efficiente per incorporare informazioni visive, riteniamo che metodi di fusione più sofisticati possano ulteriormente migliorare il grounding visivo e l'allineamento cross-modale. Considerando che l'obiettivo principale di questo lavoro è evidenziare lo squilibrio tra le modalità e il suo impatto sulle allucinazioni – e dimostrare che affinare gli embedding testuali con informazioni visive mitiga questo problema – lasciamo l'esplorazione di strategie di fusione avanzate a lavori futuri.
Una calibrazione accurata della confidenza nei Large Language Model (LLM) è fondamentale per un utilizzo sicuro in domini ad alto rischio, dove una chiara verbalizzazione della confidenza aumenta la fiducia dell'utente. I metodi tradizionali che imitano le espressioni di confidenza di riferimento spesso non colgono il ragionamento necessario per una valutazione accurata della confidenza. Proponiamo le critiche in linguaggio naturale come soluzione, ideale per la calibrazione della confidenza, poiché è difficile ottenere etichette auree di confidenza precise e spesso richiedono multiple generazioni. Questo articolo studia come le critiche in linguaggio naturale possano migliorare la confidenza verbalizzata, affrontando: (1) Cosa criticare: l'incertezza (centrata sulla domanda) o la confidenza (specifica della risposta)? L'analisi mostra che la confidenza è adatta per compiti a scelta multipla, mentre l'incertezza eccelle in scenari a risposta aperta. (2) Come criticare: autocritica o addestramento di calibrazione tramite critica? Proponiamo Self-Critique, che consente agli LLM di criticare e ottimizzare la propria confidenza andando oltre la mera accuratezza, e CritiCal, un innovativo metodo di addestramento per la Calibrazione tramite Critica che sfrutta le critiche in linguaggio naturale per migliorare la calibrazione della confidenza, superando l'ottimizzazione numerica diretta. Gli esperimenti mostrano che CritiCal supera significativamente Self-Critique e altri baseline competitivi, superando persino il suo modello insegnante, GPT-4o, in compiti di ragionamento complesso. CritiCal mostra anche una robusta generalizzazione in contesti fuori distribuzione, avanzando l'affidabilità degli LLM.
I recenti progressi nei modelli linguistici (LM) a contesto lungo hanno reso possibili input di milioni di token, espandendo le loro capacità in compiti complessi come gli agenti per l'uso del computer. Tuttavia, le implicazioni per la sicurezza di questi contesti estesi rimangono poco chiare. Per colmare questa lacuna, introduciamo NINJA (acronimo di *Needle-in-haystack jailbreak attack*), un metodo che effettua il jailbreak di LM allineati aggiungendo contenuti benigni, generati dal modello, a obiettivi utente dannosi. Cruciale per il nostro metodo è l'osservazione che la posizione degli obiettivi dannosi gioca un ruolo importante per la sicurezza. Esperimenti sul benchmark di sicurezza standard, HarmBench, mostrano che NINJA aumenta significativamente i tassi di successo degli attacchi su modelli open e proprietari all'avanguardia, inclusi LLaMA, Qwen, Mistral e Gemini. A differenza dei metodi di jailbreak precedenti, il nostro approccio richiede poche risorse, è trasferibile e meno rilevabile. Inoltre, dimostriamo che NINJA è computazionalmente ottimale: con un budget computazionale fisso, aumentare la lunghezza del contesto può superare in efficacia l'aumento del numero di tentativi nel jailbreak "best-of-N". Questi risultati rivelano che anche contesti lunghi benigni – quando progettati con un'attenta posizionamento degli obiettivi – introducono vulnerabilità fondamentali nei moderni LM.
La riparazione automatica di programmi (APR) si è recentemente orientata verso modelli linguistici di grandi dimensioni e sistemi basati su agenti, tuttavia la maggior parte dei sistemi si affida a contesti di snapshot locali, trascurando la cronologia del repository. Ricerche precedenti dimostrano che la cronologia del repository aiuta a riparare bug a riga singola, poiché l'ultimo commit che modifica la riga difettosa è spesso quello che ha introdotto il bug. In questo articolo, indaghiamo se la cronologia del repository possa migliorare anche i sistemi APR agentivi su larga scala, specialmente per bug complessi multi-hunk. Presentiamo HAFixAgent, un agente di correzione bug consapevole della cronologia che integra euristiche del repository derivate dal blame nel suo ciclo di riparazione. Uno studio preliminare su tutti gli 854 bug del mondo reale di Defects4J motiva il nostro design, mostrando che la cronologia rilevante per i bug è sia ampiamente disponibile che altamente concentrata. Il confronto empirico di HAFixAgent con due baseline state-of-the-art mostra: (1) Efficacia: HAFixAgent migliora significativamente rispetto alla baseline basata su agenti (del 212,3%) e alla baseline multi-hunk (del 29,9%). (2) Efficienza: la cronologia non aumenta significativamente i passi dell'agente e mantiene costi token comparabili, con costi mediani notevolmente inferiori per bug complessi multi-file e multi-hunk. (3) Praticità: combinare diverse euristiche storiche ripara più bug, offrendo un chiaro trade-off costo-beneficio. HAFixAgent offre una ricetta pratica per l'APR agentivo consapevole della cronologia: ancorare l'agente alla cronologia del controllo versione, dare priorità al contesto storico basato sui diff e integrare euristiche complementari quando necessario.