Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studi recenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) possiedono una certa capacità di migliorare le proprie risposte quando ricevono feedback esterni. Tuttavia, rimane poco chiaro quanto efficacemente e accuratamente questi modelli possano incorporare feedback estrinseci. In uno scenario ideale, se gli LLM ricevessero feedback quasi perfetti e completi, ci aspetteremmo che integrino completamente il feedback e modifichino le loro risposte errate in quelle corrette. In questo articolo, indaghiamo sistematicamente la capacità degli LLM di incorporare il feedback progettando un ambiente sperimentale controllato. Per ogni problema, un modello risolutore tenta una soluzione, quindi un generatore di feedback con accesso a risposte di riferimento quasi complete produce feedback mirato, dopo di che il risolutore tenta nuovamente. Valutiamo questa pipeline su un'ampia gamma di compiti, tra cui ragionamento matematico, ragionamento basato su conoscenze, ragionamento scientifico e valutazioni multi-dominio generali con modelli linguistici all'avanguardia, tra cui Claude 3.7 (con e senza pensiero esteso). Sorprendentemente, anche in queste condizioni quasi ideali, i modelli risolutori mostrano costantemente resistenza al feedback, una limitazione che definiamo FRICTIONE DEL FEEDBACK. Per mitigare questa limitazione, sperimentiamo strategie basate sul campionamento come aumenti progressivi della temperatura e il rifiuto esplicito di risposte errate precedentemente tentate, che portano a miglioramenti ma non consentono ancora ai modelli di raggiungere le prestazioni target. Effettuiamo inoltre un'esplorazione rigorosa delle potenziali cause della FRICTIONE DEL FEEDBACK, escludendo fattori come l'eccessiva sicurezza del modello e la familiarità con i dati. Speriamo che evidenziare questo problema negli LLM ed escludere diverse cause apparenti possa aiutare la ricerca futura sull'auto-miglioramento.
Gli agenti basati su LLM orientati ai compiti sono sempre più utilizzati in domini con politiche rigide, come l'idoneità al rimborso o le regole di cancellazione. La sfida risiede nel garantire che l'agente aderisca costantemente a queste regole e politiche, rifiutando appropriatamente qualsiasi richiesta che le violerebbe, pur mantenendo un'interazione utile e naturale. Ciò richiede lo sviluppo di metodologie di progettazione e valutazione su misura per garantire la resilienza dell'agente contro comportamenti utente malevoli. Proponiamo un nuovo modello di minaccia che si concentra su utenti avversari che mirano a sfruttare agenti aderenti alle politiche per trarne vantaggio personale. Per affrontare questo problema, presentiamo CRAFT, un sistema di red-teaming multi-agente che sfrutta strategie persuasive consapevoli delle politiche per minare un agente aderente alle politiche in uno scenario di assistenza clienti, superando metodi convenzionali di jailbreak come i prompt DAN, la manipolazione emotiva e le tattiche coercitive. Basandoci sul benchmark esistente tau-bench, introduciamo tau-break, un benchmark complementare progettato per valutare rigorosamente la robustezza dell'agente contro comportamenti utente manipolativi. Infine, valutiamo diverse strategie di difesa semplici ma efficaci. Sebbene queste misure offrano una certa protezione, si rivelano insufficienti, evidenziando la necessità di salvaguardie più forti e basate sulla ricerca per proteggere gli agenti aderenti alle politiche da attacchi avversari.
I modelli di diffusione discreta a stato uniforme promettono una generazione rapida di testo grazie alla loro intrinseca capacità di autocorrezione. Tuttavia, sono generalmente superati dai modelli autoregressivi e dai modelli di diffusione mascherata. In questo lavoro, riduciamo questo divario di prestazione sfruttando un'idea chiave: i processi di diffusione a stato uniforme emergono naturalmente da una diffusione gaussiana sottostante. Il nostro metodo, Duo, trasferisce tecniche avanzate dalla diffusione gaussiana per migliorare sia l'addestramento che il campionamento. In primo luogo, introduciamo una strategia di apprendimento curriculare guidata dal processo gaussiano, raddoppiando la velocità di addestramento riducendo la varianza. I modelli addestrati con l'apprendimento curriculare superano i modelli autoregressivi in termini di perplessità zero-shot su 3 dei 7 benchmark. In secondo luogo, presentiamo la Distillazione di Consistenza Discreta, che adatta la distillazione di consistenza dal contesto continuo a quello discreto. Questo algoritmo abilita la generazione in pochi passi nei modelli di diffusione per il linguaggio, accelerando il campionamento di due ordini di grandezza. Forniamo il codice e i checkpoint del modello sulla pagina del progetto: http://s-sahoo.github.io/duo
Introduciamo un framework basato sulla diffusione che esegue la generazione allineata di nuove viste per immagini e geometrie attraverso una metodologia di deformazione e inpainting. A differenza dei metodi precedenti che richiedono immagini con pose dense o modelli generativi incorporati di pose limitati a viste in-dominio, il nostro metodo sfrutta predittori di geometria preesistenti per prevedere geometrie parziali viste da immagini di riferimento e formula la sintesi di nuove viste come un compito di inpainting sia per l'immagine che per la geometria. Per garantire un allineamento accurato tra le immagini generate e la geometria, proponiamo una distillazione di attenzione cross-modale, in cui le mappe di attenzione del ramo di diffusione dell'immagine vengono iniettate in un ramo parallelo di diffusione della geometria durante sia l'addestramento che l'inferenza. Questo approccio multi-task ottiene effetti sinergici, facilitando una sintesi di immagini geometricamente robusta nonché una previsione di geometria ben definita. Introduciamo inoltre un condizionamento mesh basato sulla prossimità per integrare indizi di profondità e normali, interpolando tra la nuvola di punti e filtrando la geometria prevista erroneamente per evitare che influenzi il processo di generazione. Empiricamente, il nostro metodo raggiunge una sintesi di viste estrapolative ad alta fedeltà sia per l'immagine che per la geometria in una gamma di scene non viste, offre una qualità di ricostruzione competitiva in contesti di interpolazione e produce nuvole di punti colorate allineate geometricamente per un completamento 3D completo. La pagina del progetto è disponibile all'indirizzo https://cvlab-kaist.github.io/MoAI.
Recenti rapporti affermano che i grandi modelli linguistici (LLM) superano ora gli esseri umani d'élite nella programmazione competitiva. Attingendo alla conoscenza di un gruppo di medagliati in competizioni algoritmiche internazionali, esaminiamo nuovamente questa affermazione, analizzando come gli LLM differiscano dagli esperti umani e dove permangano ancora limitazioni. Introduciamo LiveCodeBench Pro, un benchmark composto da problemi provenienti da Codeforces, ICPC e IOI che vengono aggiornati continuamente per ridurre la probabilità di contaminazione dei dati. Un team di medagliati delle Olimpiadi annota ogni problema per categorie algoritmiche e conduce un'analisi riga per riga delle soluzioni generate dai modelli che falliscono. Utilizzando questi nuovi dati e benchmark, scopriamo che i modelli di frontiera presentano ancora limitazioni significative: senza strumenti esterni, il miglior modello raggiunge solo il 53% di pass@1 su problemi di media difficoltà e lo 0% su problemi difficili, ambiti in cui gli esperti umani eccellono ancora. Troviamo inoltre che gli LLM hanno successo nei problemi con un'implementazione complessa ma faticano nel ragionamento algoritmico sfumato e nell'analisi di casi complessi, spesso generando giustificazioni sicure ma errate. L'alta performance sembra essere guidata principalmente dalla precisione nell'implementazione e dall'aumento degli strumenti, non da un ragionamento superiore. LiveCodeBench Pro evidenzia quindi il significativo divario rispetto ai livelli dei grandi maestri umani, offrendo al contempo diagnosi dettagliate per orientare i futuri miglioramenti nel ragionamento degli LLM centrato sul codice.
L'apprendimento per rinforzo (RL) ha dimostrato una grande efficacia nel fine-tuning di grandi modelli linguistici (LLMs) utilizzando compiti che sono impegnativi ma facilmente verificabili, come il ragionamento matematico o la generazione di codice. Tuttavia, estendere questo successo alla percezione visiva nei modelli visione-linguaggio (VLMs) è stato ostacolato dalla scarsità di compiti centrati sulla visione che siano contemporaneamente impegnativi e inequivocabilmente verificabili. A tal fine, introduciamo ViCrit (Visual Caption Hallucination Critic), un compito proxy RL che addestra i VLMs a localizzare una sottile allucinazione visiva sintetica iniettata in paragrafi di descrizioni di immagini scritte da esseri umani. Partendo da una descrizione di 200 parole, iniettiamo un singolo errore di descrizione visiva sottile—alterando poche parole su oggetti, attributi, quantità o relazioni spaziali—e assegniamo al modello il compito di individuare il segmento corrotto data l'immagine e la descrizione modificata. Questa formulazione preserva la piena difficoltà percettiva fornendo al contempo una ricompensa binaria, a corrispondenza esatta, che è facile da calcolare e inequivocabile. I modelli addestrati con il compito ViCrit mostrano miglioramenti sostanziali su una varietà di benchmark VL. Crucialmente, i miglioramenti si trasferiscono oltre i dati di addestramento su immagini naturali al ragionamento su immagini astratte e alla matematica visiva, mostrando promesse di apprendimento della percezione piuttosto che di semplice memorizzazione di oggetti visti. Per facilitare la valutazione, introduciamo ulteriormente ViCrit-Bench, un benchmark diagnostico bilanciato per categorie che esamina sistematicamente gli errori di percezione attraverso diversi domini di immagini e tipi di errore. Insieme, i nostri risultati dimostrano che la critica fine alle allucinazioni è un obiettivo efficace e generalizzabile per migliorare la percezione visiva nei VLMs.
I grandi modelli linguistici (Large Language Models) affrontano difficoltà legate alle esigenze di memoria derivanti dalla crescente cache Chiave-Valore (KV) all'aumentare delle lunghezze del contesto. I metodi di compressione esistenti omogeneizzano le dimensioni delle testine (head dimensions) o si basano sulla potatura dei token guidata dall'attenzione, spesso sacrificando l'accuratezza o introducendo un sovraccarico computazionale. Proponiamo FourierAttention, un framework senza necessità di addestramento che sfrutta i ruoli eterogenei delle dimensioni delle testine nei trasformatori: le dimensioni inferiori privilegiano il contesto locale, mentre quelle superiori catturano le dipendenze a lungo raggio. Proiettando le dimensioni insensibili al contesto lungo su basi di Fourier ortogonali, FourierAttention approssima la loro evoluzione temporale con coefficienti spettrali a lunghezza fissa. Le valutazioni sui modelli LLaMA dimostrano che FourierAttention raggiunge la migliore accuratezza su contesti lunghi in LongBench e Needle-In-A-Haystack (NIAH). Inoltre, è stato progettato un kernel Triton personalizzato, FlashFourierAttention, per ottimizzare la memoria attraverso operazioni di lettura-scrittura semplificate, consentendo un'implementazione efficiente senza compromettere le prestazioni.
I grandi modelli linguistici hanno dimostrato potenzialità nel supporto alle decisioni cliniche, ma gli approcci attuali faticano a localizzare e correggere gli errori in specifici passaggi del processo di ragionamento. Questa limitazione è cruciale in medicina, dove identificare e affrontare gli errori di ragionamento è essenziale per una diagnosi accurata e un'assistenza efficace al paziente. Introduciamo Med-PRM, un framework di modellazione del processo di ricompensa che sfrutta la generazione aumentata da recupero per verificare ogni passaggio del ragionamento rispetto a basi di conoscenza mediche consolidate. Verificando i passaggi intermedi del ragionamento con evidenze recuperate da linee guida cliniche e letteratura, il nostro modello può valutare in modo preciso e granulare la qualità del ragionamento. Le valutazioni su cinque benchmark di domande e risposte mediche e due compiti diagnostici a risposta aperta dimostrano che Med-PRM raggiunge prestazioni all'avanguardia, migliorando le prestazioni dei modelli base fino al 13,50% con l'uso di Med-PRM. Inoltre, dimostriamo la generalità di Med-PRM integrandolo in modo plug-and-play con modelli di policy avanzati come Meerkat, raggiungendo per la prima volta un'accuratezza superiore all'80% su MedQA utilizzando modelli su piccola scala da 8 miliardi di parametri. Il nostro codice e i dati sono disponibili all'indirizzo: https://med-prm.github.io/
Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato efficace per l'addestramento di grandi modelli linguistici (LLM) su compiti di ragionamento complesso, come la risoluzione di problemi matematici. Un prerequisito per la scalabilità dell'RLVR è un insieme di problemi di alta qualità con risposte precise e verificabili. Tuttavia, la scarsità di problemi matematici ben strutturati etichettati da esseri umani e le risposte con verifica limitata nei dataset sintetici orientati alla distillazione ne limitano l'efficacia nel RL. Inoltre, la maggior parte delle strategie di sintesi dei problemi espande indiscriminatamente l'insieme di problemi senza considerare le capacità del modello, portando a una bassa efficienza nella generazione di domande utili. Per mitigare questo problema, introduciamo un framework di Sintesi dei Problemi guidata dalla Consapevolezza delle Debolezze (SwS) che identifica sistematicamente le carenze del modello e le sfrutta per l'ampliamento dei problemi. Nello specifico, definiamo le debolezze come domande che il modello non riesce costantemente a imparare attraverso il suo campionamento iterativo durante l'addestramento RL. Successivamente, estraiamo i concetti chiave da questi casi di fallimento e sintetizziamo nuovi problemi per rafforzare le aree deboli del modello in un successivo addestramento ampliato, consentendogli di concentrarsi e superare gradualmente le sue debolezze. Senza fare affidamento sulla distillazione di conoscenze esterne, il nostro framework consente una generalizzazione robusta, permettendo al modello di auto-identificare e affrontare le sue debolezze nel RL, ottenendo miglioramenti medi delle prestazioni del 10,0% e del 7,7% rispettivamente su modelli da 7B e 32B in otto benchmark di ragionamento mainstream.
I codificatori visivi di base (Foundation Vision Encoders) sono diventati essenziali per un'ampia gamma di attività di visione densa. Tuttavia, le loro uscite di caratteristiche spaziali a bassa risoluzione richiedono un'operazione di upsampling per produrre le modalità ad alta risoluzione necessarie per i task downstream. In questo lavoro, introduciamo JAFAR, un upsampler di caratteristiche leggero e flessibile che migliora la risoluzione spaziale delle caratteristiche visive provenienti da qualsiasi codificatore visivo di base fino a una risoluzione target arbitraria. JAFAR utilizza un modulo basato sull'attenzione progettato per promuovere l'allineamento semantico tra query ad alta risoluzione, derivate da caratteristiche di immagine di basso livello, e chiavi a bassa risoluzione semanticamente arricchite, utilizzando la modulazione Spatial Feature Transform (SFT). È degno di nota che, nonostante l'assenza di supervisione ad alta risoluzione, dimostriamo come l'apprendimento a bassi rapporti di upsampling e risoluzioni si generalizzi in modo eccezionale a scale di output significativamente più elevate. Esperimenti estesi mostrano che JAFAR recupera efficacemente dettagli spaziali fini e supera costantemente i metodi di upsampling esistenti su un'ampia varietà di task downstream. Pagina del progetto disponibile all'indirizzo https://jafar-upsampler.github.io.
Recenti lavori hanno dimostrato l'efficacia del post-addestramento basato sull'apprendimento per rinforzo (Reinforcement Learning, RL) nel potenziare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). In particolare, l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO) ha mostrato un notevole successo impiegando un algoritmo di rinforzo di tipo PPO con ricompense normalizzate basate sui gruppi. Tuttavia, l'applicazione di GRPO ai modelli linguistici per video (Video LLMs) è stata meno studiata. In questo articolo, esploriamo GRPO per i Video LLMs e identifichiamo due problemi principali che ne ostacolano l'apprendimento efficace: (1) la dipendenza da meccanismi di sicurezza, e (2) il problema dello svantaggio che svanisce. Per mitigare queste sfide, proponiamo DeepVideo-R1, un modello linguistico per video addestrato con la nostra versione regressiva di GRPO (Reg-GRPO) e una strategia di aumento dei dati basata sulla difficoltà. Reg-GRPO riformula l'obiettivo di GRPO come un task di regressione, prevedendo direttamente lo svantaggio in GRPO. Questo design elimina la necessità di meccanismi di sicurezza come il clipping e le funzioni min, facilitando così una guida più diretta della politica allineando il modello ai valori di svantaggio. Progettiamo inoltre una strategia di aumento dei dati basata sulla difficoltà che amplifica dinamicamente i campioni di addestramento a livelli di difficoltà risolvibili, promuovendo segnali di ricompensa diversificati e informativi. I nostri esperimenti completi dimostrano che DeepVideo-R1 migliora significativamente le prestazioni di ragionamento video su molteplici benchmark di ragionamento video.
Le moderne architetture ricorrenti, come xLSTM e Mamba, hanno recentemente sfidato il Transformer nel campo del language modeling. Tuttavia, la loro struttura limita la loro applicabilità a sequenze o richiede l'elaborazione di strutture dati multidimensionali, come immagini o grafi molecolari, in un ordine sequenziale predefinito. Al contrario, le RNN multidimensionali (MDRNN) sono particolarmente adatte per dati con una struttura più complessa, come griglie 2D, alberi e grafi aciclici diretti (DAG). In questo lavoro, estendiamo il concetto di multidimensionalità alle RNN lineari. Introduciamo le reti Linear Source Transition Mark parallelizzabili (pLSTM) utilizzando porte Source, Transition e Mark che agiscono sul grafo lineare di un DAG generico. Ciò consente la parallelizzazione in analogia agli scan associativi paralleli e alla forma chunkwise-recurrent delle RNN lineari sequenziali, ma per i DAG. Per griglie regolari (1D e 2D), come le immagini, questo schema può essere implementato in modo efficiente utilizzando operazioni einsum, concatenazioni e padding in tempo logaritmico. Le pLSTM affrontano il problema della scomparsa/esplosione delle attivazioni/gradienti per distanze lunghe nei DAG attraverso due modalità distinte: una modalità di propagazione diretta (P-mode) e una modalità di distribuzione diffusa (D-mode). Per dimostrare le capacità a lungo raggio delle pLSTM, introduciamo l'estrapolazione della direzione delle frecce come un compito sintetico di computer vision che contiene informazioni direzionali a lunga distanza. Dimostriamo che le pLSTM si generalizzano bene a dimensioni di immagine più grandi, mentre i Transformer faticano a estrapolare. Su benchmark consolidati di grafi molecolari e computer vision, le pLSTM mostrano anche prestazioni solide. Codice e dataset sono disponibili su: https://github.com/ml-jku/plstm_experiments.
Il Transformer è diventato lo standard de facto per i modelli linguistici di grandi dimensioni e per una vasta gamma di task downstream in vari domini. Nonostante i suoi numerosi vantaggi, come il parallelismo intrinseco durante l'addestramento, il Transformer deve ancora affrontare sfide significative a causa della sua incapacità di elaborare efficacemente sequenze che superano una finestra di contesto fissa e della complessità quadratica del suo meccanismo di attenzione. Queste sfide hanno rinnovato l'interesse per architetture simili alle RNN, che offrono una scalabilità lineare con la lunghezza della sequenza e una migliore gestione delle dipendenze a lungo termine, sebbene con un parallelismo limitato a causa della loro natura intrinsecamente ricorrente. In questo articolo, proponiamo Avey, una nuova architettura neurale di base che si discosta sia dall'attenzione che dalla ricorrenza. Avey è composto da un ranker e da un processore neurale autoregressivo, che collaborano per identificare e contestualizzare solo i token più rilevanti per un dato token, indipendentemente dalla loro posizione nella sequenza. In particolare, Avey disaccoppia la lunghezza della sequenza dalla larghezza del contesto, consentendo così un'elaborazione efficace di sequenze arbitrariamente lunghe. I risultati sperimentali dimostrano che Avey si confronta favorevolmente con il Transformer in una varietà di benchmark NLP a breve raggio, mentre eccelle particolarmente nella cattura delle dipendenze a lungo raggio.
L'editing video utilizzando modelli di diffusione ha ottenuto risultati notevoli nella generazione di modifiche di alta qualità per i video. Tuttavia, i metodi attuali spesso si basano su pre-addestramento su larga scala, limitando la flessibilità per modifiche specifiche. L'editing guidato dal primo fotogramma offre controllo sul fotogramma iniziale, ma manca di flessibilità sui fotogrammi successivi. Per affrontare questo problema, proponiamo un metodo di adattamento LoRA (Low-Rank Adaptation) basato su maschere che adatta modelli pre-addestrati da immagine a video (I2V) per un editing video flessibile. Il nostro approccio preserva le regioni di sfondo consentendo al contempo la propagazione controllata delle modifiche. Questa soluzione offre un editing video efficiente e adattabile senza alterare l'architettura del modello. Per guidare meglio questo processo, incorporiamo riferimenti aggiuntivi, come punti di vista alternativi o stati rappresentativi della scena, che fungono da ancore visive per come il contenuto dovrebbe svilupparsi. Affrontiamo la sfida del controllo utilizzando una strategia di adattamento LoRA guidata da maschere che adatta un modello pre-addestrato da immagine a video al contesto di editing. Il modello deve apprendere da due fonti distinte: il video di input fornisce struttura spaziale e indicazioni di movimento, mentre le immagini di riferimento offrono una guida per l'aspetto. Una maschera spaziale consente un apprendimento specifico per regione modulando dinamicamente ciò a cui il modello presta attenzione, assicurando che ogni area tragga dalla fonte appropriata. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni di editing video superiori rispetto ai metodi all'avanguardia.
I recenti progressi nei Modelli Multimodali di Grande Scala (LMMs) hanno migliorato significativamente la comprensione e la generazione multimodale. Tuttavia, questi modelli continuano a incontrare difficoltà nella generazione di output immagine-testo strettamente interconnessi, principalmente a causa della scala limitata, della qualità e della ricchezza istruzionale degli attuali dataset di addestramento. Per affrontare questo problema, introduciamo InterSyn, un dataset multimodale su larga scala costruito utilizzando il nostro metodo di Auto-Valutazione con Affinamento Iterativo (SEIR). InterSyn presenta dialoghi multi-turn guidati da istruzioni con risposte immagine-testo strettamente interconnesse, offrendo una vasta diversità di oggetti e un rigoroso affinamento automatico della qualità, rendendolo particolarmente adatto per l'addestramento di LMMs di nuova generazione che seguono istruzioni. Inoltre, per affrontare la mancanza di strumenti di valutazione affidabili in grado di valutare output multimodali interconnessi, introduciamo SynJudge, un modello di valutazione automatica progettato per valutare quantitativamente gli output multimodali lungo quattro dimensioni: contenuto testuale, contenuto dell'immagine, qualità dell'immagine e sinergia immagine-testo. Studi sperimentali dimostrano che il metodo SEIR porta a una qualità del dataset sostanzialmente superiore rispetto a un processo altrimenti identico senza affinamento. Inoltre, i LMMs addestrati su InterSyn ottengono miglioramenti uniformi in tutte le metriche di valutazione, confermando l'utilità di InterSyn per il progresso dei sistemi multimodali.
I robot umanoidi possiedono un potenziale significativo nel portare a termine compiti quotidiani in ambienti diversi grazie alla loro flessibilità e morfologia simile a quella umana. Recenti lavori hanno fatto progressi significativi nel controllo globale del corpo umanoide e nella loco-manipolazione sfruttando il controllo ottimale o l'apprendimento per rinforzo. Tuttavia, questi metodi richiedono una laboriosa regolazione specifica per ogni compito per ottenere comportamenti soddisfacenti, limitando la loro versatilità e scalabilità a una varietà di compiti negli scenari quotidiani. A tal fine, introduciamo SkillBlender, un nuovo framework gerarchico di apprendimento per rinforzo per la loco-manipolazione versatile dei robot umanoidi. SkillBlender pre-allena prima abilità primitive agnostiche rispetto al compito e condizionate all'obiettivo, e poi combina dinamicamente queste abilità per portare a termine complessi compiti di loco-manipolazione con un minimo ingegnerizzazione specifica delle ricompense. Introduciamo anche SkillBench, un benchmark simulato parallelo, cross-embodiment e diversificato che contiene tre embodiment, quattro abilità primitive e otto impegnativi compiti di loco-manipolazione, accompagnato da una serie di metriche di valutazione scientifica che bilanciano accuratezza e fattibilità. Estesi esperimenti simulati mostrano che il nostro metodo supera significativamente tutti i baseline, regolando naturalmente i comportamenti per evitare il reward hacking, risultando in movimenti più accurati e fattibili per una varietà di compiti di loco-manipolazione nei nostri scenari quotidiani. Il nostro codice e benchmark saranno open-source per la comunità per facilitare la ricerca futura. Pagina del progetto: https://usc-gvl.github.io/SkillBlender-web/.
Affinché i Large Language Models (LLM) possano essere implementati in modo affidabile sia in contesti quotidiani che in ambiti ad alto rischio, sapere quando non rispondere è altrettanto cruciale quanto rispondere correttamente. Le query degli utenti nel mondo reale, che possono essere sottospecificate, mal poste o fondamentalmente irrisolvibili, richiedono che i LLM ragionino sull'incertezza e si astengano selettivamente, ovvero rifiutino di rispondere in modo definitivo. Tuttavia, l'astensione rimane poco studiata, senza un quadro di valutazione sistematico per i moderni LLM. In questo lavoro, introduciamo AbstentionBench, un benchmark su larga scala per valutare in modo olistico l'astensione su 20 dataset diversi, inclusi domande con risposte sconosciute, sottospecificazione, premesse false, interpretazioni soggettive e informazioni obsolete. La valutazione di 20 LLM all'avanguardia rivela che l'astensione è un problema irrisolto e uno in cui il ridimensionamento dei modelli è di scarsa utilità. Sebbene i recenti LLM di ragionamento abbiano mostrato risultati impressionanti nella risoluzione di problemi complessi, sorprendentemente, scopriamo che il fine-tuning sul ragionamento peggiora l'astensione (del 24% in media), persino nei domini di matematica e scienze su cui i modelli di ragionamento sono esplicitamente addestrati. Troviamo che, sebbene un prompt di sistema accuratamente progettato possa migliorare l'astensione nella pratica, non risolve l'incapacità fondamentale dei modelli di ragionare sull'incertezza. Rilasciamo AbstentionBench per promuovere la ricerca verso il miglioramento dell'affidabilità dei LLM.
Il ridimensionamento al momento del test è emerso come un approccio efficace per migliorare le prestazioni dei modelli linguistici sfruttando risorse computazionali aggiuntive durante l'inferenza. Studi recenti hanno dimostrato che sovrascrivere i token di fine ragionamento (ad esempio, sostituendo "</think>" con "Wait") può estendere i passaggi di ragionamento e migliorare l'accuratezza. In questo lavoro, esploriamo se sia possibile apprendere un token dedicato per continuare a pensare, in grado di innescare un ragionamento esteso. Abbiamo arricchito una versione distillata di DeepSeek-R1 con un singolo token appreso "<|continue-thinking|>", addestrando solo il suo embedding tramite apprendimento per rinforzo mentre manteniamo congelati i pesi del modello. I nostri esperimenti mostrano che questo token appreso raggiunge un'accuratezza migliore su benchmark matematici standard rispetto sia al modello di base sia a un approccio di ridimensionamento al momento del test che utilizza un token fisso (ad esempio, "Wait") per forzare il budget. In particolare, osserviamo che nei casi in cui l'approccio con token fisso migliora l'accuratezza del modello di base, il nostro metodo ottiene un miglioramento significativamente maggiore. Ad esempio, sul benchmark GSM8K, l'approccio con token fisso produce un miglioramento assoluto dell'1,3% in accuratezza, mentre il nostro metodo con token appreso raggiunge un miglioramento del 4,2% rispetto al modello di base che non utilizza il forzamento del budget.
Proponiamo un framework di auto-affinamento che migliora le prestazioni del riconoscimento automatico del parlato (ASR) utilizzando esclusivamente dataset non etichettati. Il processo inizia con un modello ASR esistente che genera pseudo-etichette su parlato non annotato, che vengono poi utilizzate per addestrare un sistema di sintesi vocale (TTS) ad alta fedeltà. Successivamente, le coppie di testo e parlato sintetizzato vengono integrate nel sistema ASR originale, completando così il ciclo chiuso di auto-miglioramento. Abbiamo dimostrato l'efficacia del framework sul parlato in mandarino taiwanese. Sfruttando 6.000 ore di parlato non etichettato, una quantità moderata di dati testuali e contenuti sintetici generati dai modelli di intelligenza artificiale, abbiamo adattato Whisper-large-v2 in un modello specializzato, Twister. Twister riduce i tassi di errore fino al 20% sul mandarino e al 50% sui benchmark di code-switching mandarino-inglese rispetto a Whisper. I risultati evidenziano il framework come un'alternativa convincente agli approcci di auto-distillazione con pseudo-etichette e forniscono un percorso pratico per migliorare le prestazioni dell'ASR in contesti con risorse limitate o specifici per un dominio.
Questo lavoro si concentra su una limitazione osservata nei codificatori di testo: gli embedding potrebbero non essere in grado di riconoscere entità o eventi di dettaglio all'interno della semantica, portando a fallimenti nel recupero denso anche in casi semplici. Per esaminare tali comportamenti, introduciamo innanzitutto un nuovo dataset di valutazione in cinese, denominato CapRetrieval, i cui passaggi sono didascalie di immagini e le query sono frasi che richiedono entità o eventi in varie forme. La valutazione zero-shot suggerisce che i codificatori potrebbero fallire in questi abbinamenti di dettaglio, indipendentemente dalle fonti di addestramento o dalle dimensioni del modello. Con l'obiettivo di migliorare, procediamo a ottimizzare i codificatori con le nostre strategie proposte di generazione dei dati, ottenendo le migliori prestazioni su CapRetrieval. All'interno di questo processo, identifichiamo ulteriormente un problema di dilemma di granularità, una sfida per gli embedding di esprimere la rilevanza di dettaglio mantenendo l'allineamento con la semantica complessiva. Il nostro dataset, codice e modelli in questo lavoro sono pubblicamente disponibili all'indirizzo https://github.com/lxucs/CapRetrieval.
I recenti sforzi per sfruttare il Modello Linguistico Multimodale di Grande Scala (MLLM) come agenti GUI hanno prodotto risultati promettenti. Tuttavia, questi agenti continuano a lottare con compiti a lungo termine in ambienti online, principalmente a causa di conoscenze insufficienti e del divario intrinseco tra i domini offline e online. In questo articolo, ispirati da come gli esseri umani generalizzano la conoscenza in ambienti aperti, proponiamo un modulo di Abilità Multimodali Gerarchiche (HMS) per affrontare il problema della conoscenza insufficiente. Esso astrae progressivamente le traiettorie in abilità esecutive, abilità fondamentali e, infine, meta-abilità, fornendo una struttura gerarchica della conoscenza per la pianificazione di compiti a lungo termine. Per colmare il divario di dominio, proponiamo l'algoritmo di Ricerca Monte Carlo ad Albero con Abilità Aumentate (SA-MCTS), che sfrutta in modo efficiente le abilità acquisite in ambienti offline per ridurre lo spazio di ricerca delle azioni durante l'esplorazione ad albero online. Basandoci su HMS, proponiamo Mirage-1, un agente GUI multimodale, cross-platform e plug-and-play. Per validare le prestazioni di Mirage-1 in scenari reali a lungo termine, abbiamo costruito un nuovo benchmark, AndroidLH. I risultati sperimentali mostrano che Mirage-1 supera i precedenti agenti rispettivamente del 32%, 19%, 15% e 79% su AndroidWorld, MobileMiniWob++, Mind2Web-Live e AndroidLH. Pagina del progetto: https://cybertronagent.github.io/Mirage-1.github.io/
Rilevare meme dannosi è essenziale per mantenere l'integrità degli ambienti online. Tuttavia, gli approcci attuali spesso incontrano difficoltà in termini di efficienza delle risorse, flessibilità o spiegabilità, limitando il loro impiego pratico nei sistemi di moderazione dei contenuti. Per affrontare queste sfide, introduciamo U-CoT+, un nuovo framework per il rilevamento di meme dannosi. Invece di affidarsi esclusivamente al prompting o al fine-tuning di modelli multimodali, sviluppiamo prima una pipeline ad alta fedeltà che converte i meme visivi in descrizioni testuali che preservano i dettagli. Questo design separa l'interpretazione del meme dalla sua classificazione, evitando così un ragionamento immediato su contenuti visivi grezzi complessi e consentendo un rilevamento efficiente delle risorse di meme dannosi utilizzando modelli linguistici di grandi dimensioni (LLM) generali. Basandoci su queste descrizioni testuali, incorporiamo ulteriormente linee guida interpretabili e mirate, create dall'uomo, per guidare il ragionamento dei modelli sotto il prompting zero-shot CoT. In questo modo, il framework consente un facile adattamento a diversi criteri di rilevamento della dannosità tra piattaforme, regioni e nel tempo, offrendo un'elevata flessibilità e spiegabilità. Esperimenti estesi su sette dataset di benchmark convalidano l'efficacia del nostro framework, evidenziandone il potenziale per un rilevamento spiegabile e a basso consumo di risorse di meme dannosi utilizzando LLM su piccola scala. Codici e dati sono disponibili al seguente link: https://anonymous.4open.science/r/HMC-AF2B/README.md.
I Large Language Model (LLM) dimostrano prestazioni solide in applicazioni del mondo reale, tuttavia i dataset di istruzioni open-source esistenti si concentrano spesso su domini ristretti, come la matematica o la programmazione, limitando la generalizzazione e ampliando il divario con i modelli proprietari. Per colmare questa lacuna, introduciamo Infinity-Instruct, un dataset di istruzioni di alta qualità progettato per migliorare sia le capacità fondamentali che quelle di chat dei LLM attraverso una pipeline in due fasi. Nella Fase 1, curiamo 7,4 milioni di istruzioni fondamentali di alta qualità (InfInstruct-F-7.4M) da oltre 100 milioni di campioni utilizzando tecniche ibride di selezione dei dati. Nella Fase 2, sintetizziamo 1,5 milioni di istruzioni di chat di alta qualità (InfInstruct-G-1.5M) attraverso un processo in due fasi che include selezione, evoluzione e filtraggio diagnostico delle istruzioni. Valutiamo empiricamente Infinity-Instruct ottimizzando diversi modelli open-source, tra cui Mistral, LLaMA, Qwen e Yi, e osserviamo miglioramenti significativi nelle prestazioni sia nei benchmark fondamentali che nel seguire le istruzioni, superando costantemente le controparti ottimizzate ufficialmente. In particolare, InfInstruct-LLaMA3.1-70B supera GPT-4-0314 dell'8,6% nei compiti di seguire le istruzioni, raggiungendo al contempo prestazioni fondamentali comparabili. Questi risultati sottolineano la sinergia tra l'addestramento fondamentale e quello di chat e offrono nuove intuizioni per lo sviluppo olistico dei LLM. Il nostro dataset https://huggingface.co/datasets/BAAI/Infinity-Instruct e i codici https://gitee.com/li-touch/infinity-instruct sono stati rilasciati pubblicamente.
Introduciamo un metodo basato sull'attenzione che utilizza maschere di attenzione binarie apprese per garantire che solo le regioni dell'immagine selezionate influenzino la previsione. Il contesto può influenzare fortemente la percezione degli oggetti, portando talvolta a rappresentazioni distorte, specialmente quando gli oggetti compaiono in contesti fuori distribuzione. Allo stesso tempo, molti task a livello di immagine incentrati sugli oggetti richiedono l'identificazione di regioni rilevanti, spesso necessitando del contesto. Per affrontare questo dilemma, proponiamo un framework a due stadi: il primo stadio elabora l'intera immagine per scoprire le parti degli oggetti e identificare le regioni rilevanti per il task, mentre il secondo stadio sfrutta il mascheramento dell'attenzione in ingresso per limitare il proprio campo recettivo a queste regioni, consentendo un'analisi focalizzata filtrando le informazioni potenzialmente spurie. Entrambi gli stadi sono addestrati congiuntamente, permettendo al secondo stadio di affinare il primo. Esperimenti estesi su diversi benchmark dimostrano che il nostro approccio migliora significativamente la robustezza contro correlazioni spurie e contesti fuori distribuzione.
Il paradigma standard per risolvere compiti di codifica tramite modelli linguistici di grandi dimensioni (LLM) consiste nel generare e poi classificare i programmi, dove quest'ultimo passaggio utilizza un verificatore nel processo di classificazione. Il crescente consenso è che un verificatore completo (ad esempio, una suite di test completa) dovrebbe essere preferito rispetto a un modello di ricompensa basato sui risultati (ORM) ove possibile, con poca considerazione per i compromessi coinvolti. Il nostro obiettivo è mettere in discussione questa ipotesi esplorando sistematicamente il compromesso tra velocità e accuratezza. Scopriamo che gli ORM svolgono un ruolo cruciale nel ridimensionare la verifica scambiando accuratezza per velocità, anche quando è disponibile un verificatore completo. Il loro valore diventa particolarmente evidente quando utilizzati in un approccio di generazione-pulizia-classificazione, in cui un verificatore più veloce ma meno accurato rimuove le soluzioni errate prima della classificazione, portando a un sistema che è 11,65 volte più veloce pur essendo solo l'8,33% meno accurato rispetto alla suite di test completa. Analizziamo l'approccio di generazione-pulizia-classificazione e dimostriamo che funziona filtrando le soluzioni errate ma altamente classificate. Questi risultati consentono la progettazione di sistemi di classificazione dei programmi scalabili e accurati.
Recentemente, i Large Language Models (LLM) hanno dimostrato un potenziale significativo per l'annotazione dei dati, riducendo notevolmente i costi di manodopera associati alle applicazioni downstream. Tuttavia, i metodi esistenti adottano prevalentemente una strategia aggressiva, sollecitando l'LLM a determinare un'unica etichetta "gold" per ciascun campione non etichettato. A causa dell'incertezza intrinseca degli LLM, spesso producono etichette errate per i campioni difficili, compromettendo gravemente la qualità dei dati per le applicazioni downstream. Ispirati dall'avversione all'ambiguità nei comportamenti umani, proponiamo un nuovo paradigma di annotazione candidata in cui i grandi modelli linguistici sono incoraggiati a produrre tutte le possibili etichette in caso di incertezza. Per garantire che vengano fornite etichette univoche per i task downstream, sviluppiamo un framework teacher-student, CanDist, che distilla le annotazioni candidate utilizzando un Small Language Model (SLM). Forniamo inoltre una rigorosa giustificazione che dimostra come la distillazione delle annotazioni candidate dal teacher LLM offra garanzie teoriche superiori rispetto all'uso diretto di annotazioni singole. Esperimenti estesi su sei task di classificazione del testo convalidano l'efficacia del metodo proposto. Il codice sorgente è disponibile all'indirizzo https://github.com/MingxuanXia/CanDist.
I modelli di feedback umano per l'allineamento dell'IA, come quelli alla base dell'Optimizzazione Diretta delle Preferenze (DPO), spesso incorporano un insieme singolo e statico di preferenze, limitando l'adattabilità. Questo articolo mette in discussione l'assunzione di preferenze monolitiche introducendo il Configurable Preference Tuning (CPT), un nuovo framework che consente ai modelli linguistici di adattare dinamicamente il loro comportamento in base a direttive esplicite e interpretabili dall'uomo. CPT sfrutta dati di preferenza generati sinteticamente, condizionati da prompt di sistema derivati da rubriche strutturate e granulari che definiscono attributi desiderati come lo stile di scrittura. Ottimizzando il modello con queste preferenze guidate da rubriche, il LLM impara a modulare i suoi output durante l'inferenza in risposta al prompt di sistema, senza bisogno di riaddestramento. Questo approccio non solo offre un controllo granulare, ma fornisce anche un meccanismo per modellare feedback umano più sfumato e dipendente dal contesto. Diversi artefatti sperimentali, come il codice di addestramento, i dataset generati e i modelli ottimizzati, sono rilasciati su https://github.com/vicgalle/configurable-preference-tuning.