Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno accelerato lo sviluppo nel campo dell'NLP finanziario e delle sue applicazioni, tuttavia i benchmark esistenti rimangono limitati a contesti monolingue e unimodali, spesso basandosi eccessivamente su compiti semplici e non riuscendo a riflettere la complessità della comunicazione finanziaria nel mondo reale. Introduciamo MultiFinBen, il primo benchmark multilingue e multimodale progettato specificamente per il dominio finanziario globale, che valuta i LLM attraverso diverse modalità (testo, visione, audio) e contesti linguistici (monolingue, bilingue, multilingue) su compiti specifici del settore. Presentiamo due nuovi compiti, tra cui PolyFiQA-Easy e PolyFiQA-Expert, i primi benchmark finanziari multilingue che richiedono ai modelli di eseguire ragionamenti complessi su input in lingue miste; e EnglishOCR e SpanishOCR, i primi compiti di QA finanziaria con OCR integrati che sfidano i modelli a estrarre e ragionare su informazioni da documenti finanziari visivo-testuali. Inoltre, proponiamo un meccanismo di selezione dinamico e consapevole della difficoltà e curiamo un benchmark compatto e bilanciato, piuttosto che una semplice aggregazione di dataset esistenti. Una valutazione estensiva di 22 modelli all'avanguardia rivela che anche i modelli più potenti, nonostante le loro capacità generali multimodali e multilingue, incontrano notevoli difficoltà di fronte a compiti complessi cross-linguali e multimodali nel dominio finanziario. MultiFinBen è rilasciato pubblicamente per promuovere progressi trasparenti, riproducibili e inclusivi negli studi e nelle applicazioni finanziarie.
L'aumento del calcolo al momento del test ha dimostrato un notevole successo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs). In questo lavoro, conduciamo la prima esplorazione sistematica dell'applicazione di metodi di scalabilità al momento del test agli agenti linguistici e investigiamo fino a che punto ciò migliora la loro efficacia. Nello specifico, esploriamo diverse strategie di scalabilità al momento del test, tra cui: (1) algoritmi di campionamento parallelo; (2) strategie di revisione sequenziale; (3) verificatori e metodi di fusione; (4) strategie per diversificare i rollout. Analizziamo e abliamo attentamente l'impatto di diverse strategie di progettazione sull'applicazione della scalabilità al momento del test agli agenti linguistici, e abbiamo ottenuto i seguenti risultati: 1. Scalare il calcolo al momento del test può migliorare le prestazioni degli agenti. 2. Sapere quando riflettere è importante per gli agenti. 3. Tra i diversi approcci di verifica e fusione dei risultati, il metodo list-wise si è dimostrato il migliore. 4. Aumentare i rollout diversificati ha un effetto positivo sulle prestazioni dell'agente nei compiti.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) audio-testuali hanno aperto nuove possibilità per la comprensione e la generazione musicale. Tuttavia, i benchmark esistenti sono limitati nella portata, spesso basandosi su compiti semplificati o valutazioni a scelta multipla che non riflettono la complessità dell'analisi musicale nel mondo reale. Rinterpretiamo un'ampia gamma di annotazioni tradizionali di MIR (Music Information Retrieval) in formati di istruzione-seguimento e introduciamo CMI-Bench, un benchmark completo per il seguimento di istruzioni musicali progettato per valutare gli LLM audio-testuali su un insieme diversificato di compiti di MIR. Questi includono la classificazione di genere, la regressione delle emozioni, l'etichettatura delle emozioni, la classificazione degli strumenti, la stima dell'intonazione, la rilevazione della tonalità, la trascrizione del testo, l'estrazione della melodia, il riconoscimento delle tecniche vocali, la rilevazione delle tecniche di esecuzione strumentale, l'etichettatura musicale, la descrizione musicale e il tracciamento di (down)beat: riflettendo le sfide fondamentali nella ricerca MIR. A differenza dei benchmark precedenti, CMI-Bench adotta metriche di valutazione standardizzate coerenti con i precedenti modelli MIR all'avanguardia, garantendo una comparabilità diretta con approcci supervisionati. Forniamo un toolkit di valutazione che supporta tutti gli LLM audio-testuali open-source, inclusi LTU, Qwen-audio, SALMONN, MusiLingo, ecc. I risultati degli esperimenti rivelano significative lacune prestazionali tra gli LLM e i modelli supervisionati, insieme ai loro pregiudizi culturali, cronologici e di genere, evidenziando i potenziali e i limiti dei modelli attuali nell'affrontare i compiti MIR. CMI-Bench stabilisce una base unificata per la valutazione del seguimento di istruzioni musicali, guidando il progresso negli LLM consapevoli della musica.
I Modelli di Diffusione per Linguaggio su Grande Scala, o diffusion LLM, sono emersi come un focus significativo nella ricerca NLP, con uno sforzo sostanziale diretto a comprenderne la scalabilità e le prestazioni nei task downstream. Tuttavia, le loro capacità di gestione di contesti lunghi rimangono inesplorate, mancando di analisi sistematiche o metodi per l'estensione del contesto. In questo lavoro, presentiamo la prima indagine sistematica che confronta le prestazioni su contesti lunghi dei diffusion LLM e dei tradizionali LLM auto-regressivi. Identifichiamo innanzitutto una caratteristica unica dei diffusion LLM: a differenza degli LLM auto-regressivi, mantengono una \textit{perplessità stabile} durante l'estrapolazione diretta del contesto. Inoltre, mentre i modelli auto-regressivi falliscono completamente nel task Needle-In-A-Haystack con contesti che superano la loro lunghezza pre-addestrata, scopriamo che i diffusion LLM mostrano un fenomeno distinto di \textit{percezione locale}, che consente il recupero con successo da segmenti di contesto recenti. Spieghiamo entrambi i fenomeni attraverso la teoria del ridimensionamento degli embedding di posizione rotazionali (RoPE). Basandoci su queste osservazioni, proponiamo LongLLaDA, un metodo senza addestramento che integra LLaDA con l'estrapolazione RoPE basata su NTK. I nostri risultati validano che le leggi di ridimensionamento per l'estrapolazione rimangono efficaci per estendere le finestre di contesto dei diffusion LLM. Inoltre, identifichiamo task su contesti lunghi in cui i diffusion LLM superano gli LLM auto-regressivi e altri in cui sono inferiori. Di conseguenza, questo studio stabilisce il primo metodo di estrapolazione del contesto per i diffusion LLM, fornendo al contempo intuizioni teoriche essenziali e benchmark empirici critici per avanzare la ricerca futura sui diffusion LLM su contesti lunghi.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma promettente per potenziare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, un paradosso critico ne offusca l'efficacia: i modelli ottimizzati con RLVR spesso ottengono prestazioni inferiori rispetto ai modelli base sulla metrica Pass@K per la ricerca di soluzioni, portando all'ipotesi che l'RLVR si limiti a ri-pesare i percorsi di ragionamento esistenti a scapito della diversità del ragionamento. In questo lavoro, risolviamo questa contraddizione identificando la fonte del problema: la metrica Pass@K stessa è una misura imperfetta del ragionamento, poiché attribuisce merito a risposte finali corrette che probabilmente derivano da catene di pensiero (CoTs) inaccurati o incompleti. Per affrontare questo problema, introduciamo una metrica di valutazione più precisa, CoT-Pass@K, che richiede che sia il percorso di ragionamento sia la risposta finale siano corretti. Forniamo una nuova fondazione teorica che formalizza come l'RLVR, a differenza del RL tradizionale, sia strutturato in modo unico per incentivare l'integrità logica. I nostri risultati empirici sono incoraggianti: utilizzando CoT-Pass@K, osserviamo che l'RLVR può incentivare la generalizzazione di un ragionamento corretto per tutti i valori di K. Inoltre, analizzando le dinamiche di addestramento, scopriamo che questa capacità di ragionamento potenziata emerge precocemente nel processo di addestramento e si generalizza in modo fluido. Il nostro lavoro fornisce una prospettiva chiara sul ruolo dell'RLVR, offre un metodo più affidabile per la sua valutazione e conferma il suo potenziale per avanzare genuinamente il ragionamento delle macchine.
Nonostante i notevoli progressi nel ragionamento complesso, gli attuali modelli linguistici di grandi dimensioni (LLM) operano tipicamente in isolamento, trattando ogni problema come un tentativo indipendente, senza accumulare o integrare conoscenze esperienziali. Al contrario, i risolutori di problemi esperti, come le squadre delle Olimpiadi o dei concorsi di programmazione, sfruttano un ricco tessuto di esperienze: assorbono la guida dei coach, sviluppano intuizioni dai problemi passati, utilizzano la conoscenza degli strumenti e delle funzionalità delle librerie, adattano le strategie in base alle competenze e alle esperienze dei colleghi, affinano continuamente il loro ragionamento attraverso tentativi ed errori e imparano da altri problemi correlati anche durante la competizione. Introduciamo Xolver, un framework di ragionamento multi-agente senza addestramento che equipaggia un LLM black-box con una memoria persistente ed evolutiva di esperienze olistiche. Xolver integra diverse modalità esperienziali, tra cui il recupero esterno e autonomo, l'uso di strumenti, le interazioni collaborative, la valutazione guidata dagli agenti e il perfezionamento iterativo. Imparando da strategie rilevanti, frammenti di codice e modelli di ragionamento astratto al momento dell'inferenza, Xolver evita di generare soluzioni da zero, segnando una transizione dall'inferenza isolata verso agenti linguistici consapevoli dell'esperienza. Basato sia su modelli open-weight che proprietari, Xolver supera costantemente gli agenti di ragionamento specializzati. Anche con architetture leggere (ad esempio, QWQ-32B), spesso supera modelli avanzati come Qwen3-235B, Gemini 2.5 Pro, o3 e o4-mini-high. Con o3-mini-high, raggiunge nuovi risultati migliori su GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) e LiveCodeBench-V5 (91,6%), evidenziando l'apprendimento esperienziale olistico come un passo chiave verso agenti generalisti capaci di ragionamenti di livello esperto. Codice e dati sono disponibili all'indirizzo https://kagnlp.github.io/xolver.github.io/.
L'estrazione di informazioni visive (VIE) converte immagini di documenti non strutturati in formati strutturati come JSON, cruciali per applicazioni mediche quali l'analisi di referti e le consultazioni online. I metodi tradizionali si basano su OCR e modelli linguistici, mentre i modelli multimodali end-to-end offrono una generazione diretta di JSON. Tuttavia, schemi specifici per dominio e gli elevati costi di annotazione limitano la loro efficacia nella VIE medica. Basiamo il nostro approccio sul framework di Reinforcement Learning con Ricompense Verificabili (RLVR) per affrontare queste sfide utilizzando solo 100 campioni annotati. Il nostro approccio garantisce diversità del dataset, un meccanismo di ricompensa bilanciato tra precisione e richiamo per ridurre le allucinazioni e migliorare la copertura dei campi, e strategie di campionamento innovative per potenziare le capacità di ragionamento. Ottimizzando Qwen2.5-VL-7B con il nostro metodo RLVR, otteniamo prestazioni all'avanguardia nei compiti di VIE medica, migliorando significativamente F1, precisione e richiamo. Sebbene i nostri modelli eccellano in compiti simili ai dataset medici, le prestazioni calano in compiti dissimili, evidenziando la necessità di ottimizzazione specifica per dominio. Studi di caso dimostrano ulteriormente il valore del ragionamento durante l'addestramento e l'inferenza per la VIE.
Una delle principali sfide per l'IA moderna è imparare a comprendere il mondo e ad agire principalmente attraverso l'osservazione. Questo articolo esplora un approccio auto-supervisionato che combina dati video su scala internet con una piccola quantità di dati di interazione (traiettorie di robot), per sviluppare modelli capaci di comprendere, prevedere e pianificare nel mondo fisico. Inizialmente pre-addestriamo un'architettura di previsione congiunta senza azioni, V-JEPA 2, su un dataset di video e immagini che comprende oltre 1 milione di ore di video internet. V-JEPA 2 raggiunge prestazioni elevate nella comprensione del movimento (77,3% di accuratezza top-1 su Something-Something v2) e prestazioni all'avanguardia nell'anticipazione delle azioni umane (39,7% di richiamo-a-5 su Epic-Kitchens-100), superando i precedenti modelli specifici per task. Inoltre, dopo aver allineato V-JEPA 2 con un grande modello linguistico, dimostriamo prestazioni all'avanguardia su molteplici task di risposta a domande basate su video alla scala di 8 miliardi di parametri (ad esempio, 84,0 su PerceptionTest, 76,9 su TempCompass). Infine, mostriamo come l'apprendimento auto-supervisionato possa essere applicato a task di pianificazione robotica post-addestrando un modello del mondo condizionato da azioni latenti, V-JEPA 2-AC, utilizzando meno di 62 ore di video robotici non etichettati dal dataset Droid. Distribuiamo V-JEPA 2-AC in modalità zero-shot su bracci Franka in due laboratori diversi e abilitiamo la presa e il posizionamento di oggetti utilizzando la pianificazione con obiettivi basati su immagini. È importante sottolineare che ciò è stato ottenuto senza raccogliere alcun dato dai robot in questi ambienti, e senza alcun addestramento o ricompensa specifica per il task. Questo lavoro dimostra come l'apprendimento auto-supervisionato da dati su scala web e una piccola quantità di dati di interazione robotica possa produrre un modello del mondo capace di pianificare nel mondo fisico.
Bilanciare esplorazione e sfruttamento è un obiettivo centrale nell'apprendimento per rinforzo (RL). Nonostante i recenti progressi nel migliorare il ragionamento dei modelli linguistici (LM), la maggior parte dei metodi tende verso lo sfruttamento, incontrando sempre più spesso plateau di prestazioni. In questo lavoro, torniamo a considerare l'entropia — un segnale di esplorazione nel RL — e ne esaminiamo la relazione con il ragionamento esplorativo nei LM. Attraverso analisi empiriche, scopriamo forti correlazioni positive tra regioni ad alta entropia e tre tipi di azioni di ragionamento esplorativo: (1) token cruciali che determinano o collegano passaggi logici, (2) azioni riflessive come l'autoverifica e la correzione, e (3) comportamenti rari poco esplorati dai LM di base. Motivati da ciò, introduciamo una modifica minima al RL standard con una sola riga di codice: arricchiamo la funzione di vantaggio con un termine basato sull'entropia. A differenza dei tradizionali metodi a massima entropia che incoraggiano l'esplorazione promuovendo l'incertezza, noi incoraggiamo l'esplorazione promuovendo catene di ragionamento più lunghe e profonde. In particolare, il nostro metodo ottiene guadagni significativi sulla metrica Pass@K — un stimatore del limite superiore delle capacità di ragionamento dei LM — anche quando valutato con valori di K estremamente grandi, spingendo i confini del ragionamento dei LM.
L'emergenza di modelli multimodali di grandi dimensioni (LMMs) simili a GPT-4o ha stimolato l'esplorazione dell'integrazione delle modalità di testo, visione e linguaggio per supportare interazioni multimodali più flessibili. Gli LMM esistenti tipicamente concatenano le rappresentazioni delle modalità lungo la dimensione sequenziale e le alimentano in un modello linguistico di grandi dimensioni (LLM) come backbone. Sebbene la concatenazione lungo la dimensione sequenziale sia semplice per l'integrazione delle modalità, spesso si basa pesantemente su dati su larga scala per apprendere gli allineamenti tra le modalità. In questo articolo, miriamo a modellare le relazioni tra le modalità in modo più intenzionale, ottenendo così allineamenti tra le modalità più efficienti e flessibili. A tal fine, proponiamo Stream-Omni, un modello linguistico-visivo-verbale di grandi dimensioni con allineamenti efficienti tra le modalità, che può supportare simultaneamente interazioni sotto varie combinazioni di modalità. Stream-Omni utilizza un LLM come backbone e allinea la visione e il linguaggio al testo in base alle loro relazioni. Per la visione che è semanticamente complementare al testo, Stream-Omni utilizza la concatenazione lungo la dimensione sequenziale per ottenere l'allineamento visione-testo. Per il linguaggio che è semanticamente coerente con il testo, Stream-Omni introduce una mappatura a livello di strato basata su CTC per ottenere l'allineamento linguaggio-testo. In questo modo, Stream-Omni può ottenere allineamenti tra le modalità con meno dati (specialmente per il linguaggio), consentendo il trasferimento delle capacità del testo ad altre modalità. Esperimenti su vari benchmark dimostrano che Stream-Omni ottiene prestazioni solide in compiti di comprensione visiva, interazione verbale e interazione verbale basata sulla visione. Grazie alla mappatura a livello di strato, Stream-Omni può fornire simultaneamente output testuali intermedi (come trascrizioni ASR e risposte del modello) durante l'interazione verbale, offrendo agli utenti un'esperienza multimodale completa.
I modelli basati su diffusione e flusso sono emersi come approcci all'avanguardia per la modellazione generativa, ma richiedono molti passaggi di campionamento. I modelli di consistenza possono distillare questi modelli in generatori efficienti a un solo passaggio; tuttavia, a differenza dei metodi basati su flusso e diffusione, le loro prestazioni si degradano inevitabilmente quando si aumenta il numero di passaggi, come dimostriamo sia analiticamente che empiricamente. Le mappe di flusso generalizzano questi approcci collegando due livelli di rumore in un unico passaggio e rimangono efficaci per qualsiasi numero di passaggi. In questo articolo, introduciamo due nuovi obiettivi in tempo continuo per l'addestramento delle mappe di flusso, insieme a tecniche di addestramento innovative, generalizzando gli obiettivi esistenti di consistenza e corrispondenza del flusso. Dimostriamo inoltre che l'autoguidanza può migliorare le prestazioni, utilizzando un modello di bassa qualità per la guida durante la distillazione, e che un ulteriore miglioramento può essere ottenuto con un fine-tuning avversariale, con una minima perdita nella diversità dei campioni. Convalidiamo ampiamente i nostri modelli di mappe di flusso, chiamati Align Your Flow, su benchmark impegnativi per la generazione di immagini e raggiungiamo prestazioni all'avanguardia nella generazione con pochi passaggi sia su ImageNet 64x64 che 512x512, utilizzando reti neurali piccole ed efficienti. Infine, mostriamo modelli di mappe di flusso per la generazione di immagini da testo che superano tutti i campionatori esistenti non avversariali addestrati per pochi passaggi nella sintesi condizionata al testo.
I recenti progressi nei modelli di ragionamento a Lunga Catena di Pensiero (CoT) hanno migliorato le prestazioni su compiti complessi, ma soffrono di un eccesso di ragionamento, che genera passaggi ridondanti, specialmente per domande semplici. Questo articolo esamina nuovamente i modelli di ragionamento delle Catene di Pensiero Lunghe e Corte, osservando che i modelli a Catena Corta offrono un ragionamento conciso in modo efficiente, mentre i modelli a Catena Lunga eccellono in scenari complessi dove i modelli a Catena Corta faticano. Per consentire ai modelli di sfruttare entrambi i modelli di ragionamento, proponiamo il Fine-Tuning Senza Domanda (QFFT), un approccio di fine-tuning che rimuove la domanda di input durante l'addestramento e apprende esclusivamente dalle risposte delle Catene di Pensiero Lunghe. Questo approccio consente al modello di impiegare in modo adattivo entrambi i modelli di ragionamento: privilegia le Catene di Pensiero Corte e attiva le Catene di Pensiero Lunghe solo quando necessario. Esperimenti su vari dataset matematici dimostrano che QFFT riduce la lunghezza media delle risposte di oltre il 50\%, pur raggiungendo prestazioni comparabili al Fine-Tuning Supervisionato (SFT). Inoltre, QFFT mostra prestazioni superiori rispetto a SFT in scenari rumorosi, fuori dominio e a basso contenuto di risorse.
Presentiamo TestCase-Eval, un nuovo benchmark per la valutazione sistematica dei modelli linguistici di grandi dimensioni (LLM) nella generazione di casi di test. TestCase-Eval include 500 problemi algoritmici e 100.000 soluzioni create da esseri umani provenienti dalla piattaforma Codeforces. Si concentra su due compiti fondamentali: (1) Copertura degli Errori, che misura quanto bene i set di test generati dagli LLM esplorino scenari di input diversi e coprano un'ampia gamma di potenziali modalità di fallimento. (2) Rilevamento degli Errori, che valuta se gli LLM siano in grado di creare un input di test su misura che riveli una specifica implementazione di codice errata. Forniamo una valutazione completa di 19 LLM open-source e proprietari all'avanguardia su TestCase-Eval, offrendo approfondimenti sui loro punti di forza e limitazioni nella generazione di casi di test efficaci per problemi algoritmici.
La tokenizzazione impone una granularità fissa sul testo di input, congelando il modo in cui un modello linguistico opera sui dati e quanto lontano nel futuro predice. Il Byte Pair Encoding (BPE) e schemi simili suddividono il testo una volta, costruiscono un vocabolario statico e lasciano il modello bloccato con quella scelta. Noi rilassiamo questa rigidità introducendo una U-Net autoregressiva che impara a incorporare i propri token durante l'addestramento. La rete legge byte grezzi, li raggruppa in parole, poi in coppie di parole, e fino a 4 parole, fornendole una visione multi-scala della sequenza. A livelli più profondi, il modello deve predire più avanti nel futuro — anticipando le prossime parole piuttosto che il prossimo byte — quindi i livelli più profondi si concentrano su schemi semantici più ampi, mentre i livelli iniziali gestiscono i dettagli fini. Quando si sintonizza e controlla attentamente il calcolo di pre-addestramento, le gerarchie superficiali eguagliano i solidi baseline del BPE, e le gerarchie più profonde mostrano una tendenza promettente. Poiché la tokenizzazione ora risiede all'interno del modello, lo stesso sistema può gestire task a livello di carattere e trasferire conoscenza tra lingue a bassa risorsa.
I Large Reasoning Models (LRM) hanno ottenuto un successo notevole, ma spesso soffrono della produzione di catene di ragionamento non necessarie e prolisse. Identifichiamo un aspetto centrale di questo problema come "pensiero invalido" — i modelli tendono a ricontrollare ripetutamente il loro lavoro dopo aver derivato la risposta corretta. Per affrontare questa specifica inefficienza, andiamo oltre i principi generali di Efficacia ed Efficienza per proporre due nuovi principi più granulari: Brevità, che promuove l'eliminazione della ridondanza, e Sufficienza, che garantisce la preservazione dei passaggi critici del ragionamento. Guidati da questi principi, introduciamo LC-R1, un metodo post-addestramento basato su Group Relative Policy Optimization (GRPO). LC-R1 impiega una combinazione innovativa di un Length Reward per la concisione complessiva e un Compress Reward specificamente progettato per rimuovere la porzione invalida del processo di pensiero. Esperimenti estesi su molteplici benchmark di ragionamento dimostrano che LC-R1 ottiene una riduzione significativa della lunghezza della sequenza (~50%) con solo un calo marginale (~2%) nell'accuratezza, raggiungendo un punto di compromesso favorevole sulla frontiera di Pareto che privilegia un'elevata compressione. La nostra analisi valida ulteriormente la robustezza di LC-R1 e fornisce spunti preziosi per lo sviluppo di LRM più potenti ma computazionalmente efficienti. Il nostro codice è rilasciato su https://github.com/zxiangx/LC-R1.
L'ecosistema hardware sta evolvendo rapidamente, con un crescente interesse nel tradurre programmi a basso livello tra diverse architetture di set di istruzioni (ISA) in modo rapido, flessibile e corretto, per migliorare la portabilità e la longevità del codice esistente. Una classe particolarmente impegnativa di questo problema di transpilazione è la traduzione tra architetture hardware complesse (CISC) e ridotte (RISC), a causa delle differenze fondamentali nella complessità delle istruzioni, nei modelli di memoria e nei paradigmi di esecuzione. In questo lavoro, introduciamo GG (Guaranteed Guess), una pipeline di transpilazione centrata sull'ISA che combina la potenza di traduzione dei modelli linguistici pre-addestrati su larga scala (LLM) con il rigore dei costrutti consolidati di testing software. Il nostro metodo genera traduzioni candidate utilizzando un LLM da un'ISA a un'altra e incorpora tali traduzioni all'interno di un framework di testing software per costruire una fiducia quantificabile nella traduzione. Valutiamo il nostro approccio GG su due dataset diversi, imponendo un'elevata copertura del codice (>98%) nei test unitari e raggiungendo una correttezza funzionale/semantica del 99% sui programmi HumanEval e del 49% sui programmi BringupBench, rispettivamente. Inoltre, confrontiamo il nostro approccio con il framework all'avanguardia Rosetta 2 su Apple Silicon, dimostrando una performance di runtime 1,73 volte più veloce, un'efficienza energetica 1,47 volte migliore e un utilizzo della memoria 2,41 volte migliore per il nostro codice transpilato, evidenziando l'efficacia di GG per compiti di traduzione CISC-to-RISC nel mondo reale. Renderemo open-source i nostri codici, dati, modelli e benchmark per stabilire una base comune per la ricerca sulla traduzione di codice a livello di ISA.
I modelli Vision-Language-Action (VLA), in particolare le architetture basate su diffusione, dimostrano un potenziale trasformativo per l'intelligenza incarnata, ma sono fortemente limitati dagli elevati requisiti computazionali e di memoria derivanti da estese ridondanze intrinseche e durante l'inferenza. Mentre gli sforzi esistenti di accelerazione spesso si concentrano su inefficienze isolate, tali soluzioni frammentarie generalmente non affrontano in modo olistico i vari colli di bottiglia computazionali e di memoria lungo l'intera pipeline VLA, limitando così la praticità di implementazione. Introduciamo EfficientVLA, un framework strutturato e privo di addestramento per l'accelerazione dell'inferenza che elimina sistematicamente queste barriere sfruttando in modo coerente le ridondanze multifaccettate. EfficientVLA integra sinergicamente tre strategie mirate: (1) la potatura di strati funzionalmente irrilevanti dal modulo linguistico, guidata da un'analisi delle ridondanze inter-strato; (2) l'ottimizzazione del percorso di elaborazione visiva attraverso una strategia consapevole del compito che seleziona un insieme compatto e diversificato di token visivi, bilanciando la criticità del compito con la copertura informativa; e (3) l'attenuazione della ridondanza computazionale temporale all'interno della testa d'azione basata su diffusione iterativa mediante la memorizzazione strategica e il riutilizzo di caratteristiche intermedie chiave. Applichiamo il nostro metodo a un modello VLA standard, CogACT, ottenendo un'accelerazione dell'inferenza di 1,93X e una riduzione dei FLOP al 28,9%, con un calo del tasso di successo di solo lo 0,6% nel benchmark SIMPLER.
La capacità dei grandi modelli linguistici (LLM) di utilizzare strumenti esterni ha permesso loro di affrontare un numero sempre più diversificato di compiti. Tuttavia, man mano che i compiti diventano più complessi e a lungo termine, il processo intricato di utilizzo degli strumenti può scatenare vari errori imprevisti. Pertanto, come gestire efficacemente tali errori, inclusi l'identificazione, la diagnosi e il recupero da essi, è emerso come una direzione di ricerca chiave per avanzare nell'apprendimento degli strumenti. In questo lavoro, analizziamo prima in modo estensivo i tipi di errori riscontrati durante il processo di chiamata di funzione su diversi benchmark competitivi di valutazione degli strumenti. Sulla base di ciò, introduciamo CRITICTOOL, un benchmark di valutazione critica completo specializzato per l'apprendimento degli strumenti. Costruito su una nuova strategia evolutiva per la costruzione del dataset, CRITICTOOL include errori di utilizzo degli strumenti di varia complessità, che riflettono meglio scenari del mondo reale. Condividiamo esperimenti estesi su CRITICTOOL e convalidiamo la generalizzazione e l'efficacia della nostra strategia di benchmark costruita. Forniamo anche un'analisi approfondita della capacità di riflessione sugli strumenti su vari LLM, offrendo una nuova prospettiva nel campo dell'apprendimento degli strumenti nei LLM. Il codice è disponibile all'indirizzo https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
La localizzazione spazio-temporale è fondamentale per interazioni precise in vari domini, dalla ricerca biologica alla navigazione autonoma e alle interfacce interattive. Gli approcci attuali basati su video, pur essendo abili nel tracciamento, mancano delle sofisticate capacità di ragionamento dei grandi modelli linguistici, limitando la loro comprensione contestuale e generalizzazione. Introduciamo VideoMolmo, un grande modello multimodale progettato per il puntamento spazio-temporale fine-granularità condizionato da descrizioni testuali. Basandosi sull'architettura Molmo, VideoMolmo incorpora un modulo temporale che utilizza un meccanismo di attenzione per condizionare ogni fotogramma sui fotogrammi precedenti, garantendo coerenza temporale. Inoltre, la nostra innovativa pipeline di fusione delle maschere temporali impiega SAM2 per la propagazione bidirezionale dei punti, migliorando significativamente la coerenza attraverso le sequenze video. Questa scomposizione in due fasi, ovvero prima utilizzare il modello linguistico per generare coordinate di puntamento precise, poi affidarsi a un modulo sequenziale di fusione delle maschere per produrre segmentazioni coerenti, non solo semplifica il compito per il modello linguistico ma migliora anche l'interpretabilità. A causa della mancanza di dataset adeguati, abbiamo curato un dataset completo comprendente 72k coppie video-didascalia annotate con 100k punti oggetto. Per valutare la generalizzazione di VideoMolmo, introduciamo VPoS-Bench, un benchmark impegnativo fuori distribuzione che copre cinque scenari del mondo reale: Cell Tracking, Visione Egocentrica, Guida Autonoma, Interazione Video-GUI e Robotica. Valutiamo inoltre il nostro modello sui task di Segmentazione di Oggetti Video con Riferimento (Refer-VOS) e di Ragionamento VOS. Rispetto ai modelli esistenti, VideoMolmo migliora sostanzialmente l'accuratezza del puntamento spazio-temporale e la capacità di ragionamento. Il nostro codice e i modelli sono disponibili pubblicamente su https://github.com/mbzuai-oryx/VideoMolmo.
Presentiamo Ring-lite, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE) ottimizzato tramite apprendimento per rinforzo (RL) per ottenere capacità di ragionamento efficienti e robuste. Costruito sul modello Ling-lite disponibile pubblicamente, un modello da 16,8 miliardi di parametri con 2,75 miliardi di parametri attivati, il nostro approccio eguaglia le prestazioni dei modelli di ragionamento su piccola scala all'avanguardia (SOTA) su benchmark impegnativi (ad esempio, AIME, LiveCodeBench, GPQA-Diamond) attivando solo un terzo dei parametri richiesti da modelli comparabili. Per raggiungere questo obiettivo, introduciamo una pipeline di addestramento congiunto che integra la distillazione con l'RL, rivelando sfide non documentate nell'addestramento RL per MoE. In primo luogo, identifichiamo un'instabilità di ottimizzazione durante l'addestramento RL e proponiamo Constrained Contextual Computation Policy Optimization (C3PO), un approccio innovativo che migliora la stabilità dell'addestramento e aumenta il throughput computazionale attraverso una metodologia di co-progettazione algoritmo-sistema. In secondo luogo, dimostriamo empiricamente che la selezione dei checkpoint di distillazione basata sulla perdita di entropia per l'addestramento RL, piuttosto che sulle metriche di validazione, produce migliori compromessi tra prestazioni ed efficienza nel successivo addestramento RL. Infine, sviluppiamo un paradigma di addestramento in due fasi per armonizzare l'integrazione di dati multi-dominio, affrontando i conflitti di dominio che emergono durante l'addestramento con dataset misti. Rilasceremo il modello, il dataset e il codice.
Introduciamo xbench, una suite di valutazione dinamica e allineata alle professioni, progettata per colmare il divario tra le capacità degli agenti AI e la produttività nel mondo reale. Mentre i benchmark esistenti si concentrano spesso su competenze tecniche isolate, potrebbero non riflettere accuratamente il valore economico che gli agenti offrono in contesti professionali. Per affrontare questa problematica, xbench si rivolge a domini di rilevanza commerciale con task di valutazione definiti da professionisti del settore. Il nostro framework crea metriche che si correlano fortemente con il valore della produttività, consente la previsione del Technology-Market Fit (TMF) e facilita il monitoraggio delle capacità del prodotto nel tempo. Come implementazioni iniziali, presentiamo due benchmark: Recruitment e Marketing. Per Recruitment, raccogliamo 50 task derivati da scenari reali di headhunting per valutare le capacità degli agenti nel mappare aziende, recuperare informazioni e individuare talenti. Per Marketing, valutiamo la capacità degli agenti di abbinare influencer alle esigenze degli inserzionisti, misurando le loro prestazioni su 50 requisiti degli inserzionisti utilizzando un pool selezionato di 836 influencer candidati. Presentiamo i risultati iniziali di valutazione per i principali agenti contemporanei, stabilendo una baseline per questi domini professionali. I nostri evalset e valutazioni, costantemente aggiornati, sono disponibili su https://xbench.org.
Dimostriamo come utilizzare immagini di bassa qualità, sintetiche e fuori distribuzione per migliorare la qualità di un modello di diffusione. Tipicamente, i modelli di diffusione vengono addestrati su dataset curati che derivano da pool di dati altamente filtrati provenienti dal Web e da altre fonti. Mostriamo che esiste un valore immenso nelle immagini di qualità inferiore che spesso vengono scartate. Presentiamo Ambient Diffusion Omni, un framework semplice e principiato per addestrare modelli di diffusione in grado di estrarre segnali da tutte le immagini disponibili durante l'addestramento. Il nostro framework sfrutta due proprietà delle immagini naturali: il decadimento spettrale secondo la legge di potenza e la località. Validiamo inizialmente il nostro framework addestrando con successo modelli di diffusione utilizzando immagini sinteticamente corrotte da sfocatura gaussiana, compressione JPEG e sfocatura da movimento. Utilizziamo poi il nostro framework per raggiungere uno stato dell'arte in termini di FID su ImageNet, mostrando miglioramenti significativi sia nella qualità che nella diversità delle immagini per la modellazione generativa testo-immagine. L'intuizione centrale è che il rumore attenua lo skew iniziale tra la distribuzione di alta qualità desiderata e la distribuzione mista che osserviamo effettivamente. Forniamo una giustificazione teorica rigorosa del nostro approccio analizzando il trade-off tra l'apprendimento da dati distorti e dati non distorti limitati attraverso i tempi di diffusione.
Introduciamo AgentSynth, una pipeline scalabile e conveniente per la sintesi automatica di task di alta qualità e dataset di traiettorie per agenti generalisti nell'uso del computer. Sfruttando l'asimmetria informativa, AgentSynth costruisce sottotask che sono semplici durante la generazione ma significativamente più complessi quando composti in task a lungo termine, consentendo la creazione di oltre 6.000 task diversificati e realistici. La nostra pipeline inizia con un propositore di task basato su LLM guidato da una persona, seguito da un agente esecutivo che completa il task e registra la traiettoria. Questo processo viene ripetuto iterativamente per formare una sequenza di sottotask, che vengono poi riassunti da un agente separato in un task composito con difficoltà controllabile. Un punto di forza chiave di AgentSynth è la sua capacità di modulare con precisione la complessità del task variando il numero di sottotask. Valutazioni empiriche mostrano che gli agenti LLM all'avanguardia subiscono un drastico calo delle prestazioni, passando dal 18% di successo al livello di difficoltà 1 a solo il 4% al livello 6, evidenziando la difficoltà e il potere discriminante del benchmark. Inoltre, la nostra pipeline raggiunge un costo medio di \$0,60 per traiettoria, ordini di grandezza più economico rispetto alle annotazioni umane. Il nostro codice e i dati sono disponibili pubblicamente su https://github.com/sunblaze-ucb/AgentSynth.
Studiamo la sfida di ottenere un recupero delle feature teoricamente fondato utilizzando Autoencoder Sparse (SAE) per l'interpretazione di Modelli Linguistici di Grande Scala (LLM). Gli algoritmi esistenti per l'addestramento di SAE spesso mancano di garanzie matematiche rigorose e soffrono di limitazioni pratiche come la sensibilità agli iperparametri e l'instabilità. Per affrontare questi problemi, proponiamo innanzitutto un nuovo framework statistico per il problema del recupero delle feature, che include una nuova nozione di identificabilità delle feature modellando le feature polisemantiche come miscele sparse di concetti monosemantici sottostanti. Basandoci su questo framework, introduciamo un nuovo algoritmo di addestramento SAE basato su "adattamento del bias", una tecnica che regola in modo adattivo i parametri di bias delle reti neurali per garantire una sparsità di attivazione appropriata. Dimostriamo teoricamente che questo algoritmo recupera correttamente tutte le feature monosemantiche quando i dati di input sono campionati dal nostro modello statistico proposto. Inoltre, sviluppiamo una variante empirica migliorata, l'Adattamento del Bias di Gruppo (GBA), e ne dimostriamo le prestazioni superiori rispetto ai metodi di riferimento quando applicato a LLM con fino a 1,5 miliardi di parametri. Questo lavoro rappresenta un passo fondamentale nel demistificare l'addestramento SAE fornendo il primo algoritmo SAE con garanzie teoriche di recupero, contribuendo così allo sviluppo di sistemi di IA più trasparenti e affidabili attraverso una migliore interpretabilità meccanicistica.
La rapida comparsa di modelli linguistici di grandi dimensioni (LLM) diversificati ha stimolato lo sviluppo di router LLM che assegnano le query degli utenti al modello più adatto. Tuttavia, i router LLM esistenti eseguono tipicamente una mappatura univoca e monodirezionale (cioè assegnano ogni query a un singolo modello in isolamento), il che limita la loro capacità di affrontare compiti complessi che richiedono i punti di forza complementari di più LLM. In questo articolo, presentiamo Router-R1, un framework basato sull'apprendimento per rinforzo (RL) che formula il routing e l'aggregazione multi-LLM come un processo decisionale sequenziale. Router-R1 istanzia il router stesso come un LLM capace, sfruttando la sua capacità di ragionamento per intervallare azioni di "pensiero" (deliberazione interna) con azioni di "routing" (invocazione dinamica del modello), e integra ogni risposta nel suo contesto in evoluzione. Per guidare l'apprendimento, utilizziamo una ricompensa basata su regole leggera che comprende ricompense di formato, ricompense di risultato finale e una nuova ricompensa di costo per l'ottimizzazione del compromesso tra prestazioni e costo, aprendo una via verso l'ottimizzazione di tali compromessi tramite RL. Router-R1 si basa inoltre solo su descrittori di modello semplici come prezzo, latenza e prestazioni di esempio, consentendo una forte generalizzazione alla selezione di modelli non visti. Esperimenti su sette benchmark di QA generali e multi-hop dimostrano che Router-R1 supera diversi baseline forti, ottenendo prestazioni superiori mantenendo una robusta generalizzazione e gestione dei costi. Il codice è disponibile all'indirizzo https://github.com/ulab-uiuc/Router-R1.
Studiamo i jailbreak basati su suffissi – una potente famiglia di attacchi contro i grandi modelli linguistici (LLM) che ottimizzano suffissi avversari per eludere l'allineamento di sicurezza. Concentrandoci sull'ampia-mente utilizzato attacco fondamentale GCG (Zou et al., 2023), osserviamo che i suffissi variano in efficacia: alcuni sono notevolmente più universali – generalizzando a molte istruzioni dannose non viste – rispetto ad altri. In primo luogo, dimostriamo che l'efficacia di GCG è guidata da un meccanismo critico e superficiale, basato sul flusso di informazioni dal suffisso avversario ai token finali del template di chat prima della generazione. Quantificando il dominio di questo meccanismo durante la generazione, troviamo che GCG dirotta in modo irregolare e aggressivo il processo di contestualizzazione. Fondamentalmente, colleghiamo il dirottamento al fenomeno dell'universalità, con suffissi più universali che si rivelano dirottatori più forti. Successivamente, mostriamo che queste intuizioni hanno implicazioni pratiche: l'universalità di GCG può essere efficientemente migliorata (fino a 5 volte in alcuni casi) senza costi computazionali aggiuntivi, e può anche essere mitigata in modo chirurgico, riducendo almeno della metà il successo dell'attacco con una minima perdita di utilità. Rilasciamo il nostro codice e i dati su http://github.com/matanbt/interp-jailbreak.
L'apprendimento per rinforzo in contesto (In-context Reinforcement Learning, ICRL) è emerso come un paradigma promettente per adattare gli agenti di RL a compiti downstream attraverso il condizionamento dei prompt. Tuttavia, due sfide significative rimangono per sfruttare appieno l'apprendimento in contesto nei domini RL: l'intrinseca multimodalità dei dati stato-azione-ricompensa e la natura eterogenea e diversificata dei compiti decisionali. Per affrontare queste sfide, proponiamo T2MIR (Token- and Task-wise MoE for In-context RL), un framework innovativo che introduce avanzamenti architetturali basati su mixture-of-experts (MoE) nei modelli decisionali basati su transformer. T2MIR sostituisce il livello feedforward con due livelli paralleli: un MoE token-wise che cattura le distinte semantiche dei token di input attraverso più modalità, e un MoE task-wise che indirizza compiti diversi a esperti specializzati per gestire un'ampia distribuzione di compiti con conflitti di gradiente attenuati. Per migliorare il routing task-wise, introduciamo un metodo di apprendimento contrastivo che massimizza l'informazione mutua tra il compito e la sua rappresentazione di routing, consentendo una cattura più precisa delle informazioni rilevanti per il compito. Le uscite dei due componenti MoE vengono concatenate e passate al livello successivo. Esperimenti completi dimostrano che T2MIR facilita significativamente la capacità di apprendimento in contesto e supera vari tipi di baseline. Portiamo il potenziale e la promessa di MoE all'ICRL, offrendo un miglioramento architetturale semplice e scalabile per avvicinare l'ICRL ai risultati ottenuti nelle comunità di linguaggio e visione. Il nostro codice è disponibile su https://github.com/NJU-RL/T2MIR.
La simulazione della mobilità umana svolge un ruolo cruciale in varie applicazioni del mondo reale. Recentemente, per affrontare i limiti degli approcci tradizionali basati sui dati, i ricercatori hanno esplorato l'utilizzo della conoscenza di senso comune e delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) per accelerare la simulazione della mobilità umana. Tuttavia, questi metodi presentano diverse carenze critiche, tra cui una modellazione inadeguata degli spazi urbani e una scarsa integrazione sia con i modelli di mobilità individuale che con le distribuzioni di mobilità collettiva. Per affrontare queste sfide, proponiamo il framework agentico CityGPT-Powered Agentic framework for Mobility Simulation (CAMS), che sfrutta il modello linguistico di base urbano per simulare la mobilità umana nello spazio urbano. CAMS comprende tre moduli principali, tra cui MobExtractor per estrarre modelli di mobilità predefiniti e sintetizzarne di nuovi basati sui profili utente, GeoGenerator per generare punti di ancoraggio considerando la conoscenza collettiva e produrre conoscenza geospaziale urbana candidata utilizzando una versione potenziata di CityGPT, e TrajEnhancer per recuperare la conoscenza spaziale basata sui modelli di mobilità e generare traiettorie con un allineamento preferenziale alle traiettorie reali tramite DPO. Gli esperimenti su dataset del mondo reale dimostrano che CAMS raggiunge prestazioni superiori senza fare affidamento su informazioni geospaziali fornite esternamente. Inoltre, modellando in modo olistico sia i modelli di mobilità individuale che i vincoli di mobilità collettiva, CAMS genera traiettorie più realistiche e plausibili. In generale, CAMS stabilisce un nuovo paradigma che integra il framework agentico con LLM dotati di conoscenza urbana per la simulazione della mobilità umana.
I modelli foundation open-source hanno visto una rapida adozione e sviluppo, abilitando potenti capacità generali in diversi domini. Tuttavia, il fine-tuning di grandi modelli foundation per task specifici di dominio o personalizzati rimane proibitivamente costoso per la maggior parte degli utenti a causa del significativo sovraccarico di memoria oltre quello richiesto per l'inferenza. Introduciamo EMLoC, un framework di fine-tuning efficiente in termini di memoria basato su emulatore con correzione LoRA, che consente il fine-tuning del modello all'interno dello stesso budget di memoria richiesto per l'inferenza. EMLoC costruisce un emulatore leggero specifico per il task utilizzando la decomposizione a valori singolari (SVD) attivazione-consapevole su un piccolo set di calibrazione downstream. Il fine-tuning viene quindi eseguito su questo emulatore leggero tramite LoRA. Per affrontare il disallineamento tra il modello originale e l'emulatore compresso, proponiamo un nuovo algoritmo di compensazione per correggere il modulo LoRA fine-tuned, che può quindi essere integrato nel modello originale per l'inferenza. EMLoC supporta rapporti di compressione flessibili e pipeline di addestramento standard, rendendolo adattabile a un'ampia gamma di applicazioni. Esperimenti estensivi dimostrano che EMLoC supera altri baseline su più dataset e modalità. Inoltre, senza quantizzazione, EMLoC consente il fine-tuning di un modello da 38B su una singola GPU consumer da 24GB, portando un'adattamento efficiente e pratico del modello agli utenti individuali.
Una delle sfide più profonde del moderno machine learning è ottenere buone prestazioni sulla coda lunga di caratteristiche rare e sottorappresentate. I modelli generalisti di grandi dimensioni vengono addestrati per molteplici compiti, ma funzionano al meglio sui casi d'uso ad alta frequenza. Dopo l'addestramento, è difficile adattare un modello per ottenere buone prestazioni su casi d'uso specifici sottorappresentati nel corpus di training. Fare affidamento sull'ingegneria dei prompt o su esempi few-shot per massimizzare la qualità dell'output su un caso di test specifico può essere frustrante, poiché i modelli possono essere altamente sensibili a piccoli cambiamenti, reagire in modi imprevisti o dipendere da un prompt di sistema fisso per mantenere le prestazioni. In questo lavoro ci chiediamo: "Possiamo ottimizzare i nostri protocolli di addestramento per migliorare sia la controllabilità che le prestazioni sui casi d'uso sottorappresentati al momento dell'inferenza?" Rivediamo la divisione tra tecniche di addestramento e inferenza per migliorare le prestazioni sulla coda lunga, fornendo agli utenti una serie di leve di controllo a cui il modello è addestrato a rispondere. Creiamo una tassonomia dettagliata delle caratteristiche dei dati e della provenienza dei task per controllare esplicitamente gli attributi di generazione e condizionare implicitamente le generazioni al momento dell'inferenza. Ottimizziamo un modello di base per inferire automaticamente questi marcatori, rendendoli opzionali al momento dell'inferenza. Questo approccio principiato e flessibile produce miglioramenti significativi nelle prestazioni, specialmente sugli esempi della coda lunga della distribuzione di addestramento. Mentre osserviamo un aumento medio del 5,7% nei tassi di vittoria nella qualità della generazione aperta con i nostri marcatori, vediamo guadagni superiori al 9,1% nei domini sottorappresentati. Osserviamo anche aumenti relativi fino al 14,1% su task sottorappresentati come CodeRepair e miglioramenti assoluti del 35,3% nelle valutazioni di seguito delle istruzioni sulla lunghezza.
L'allineamento non è più un lusso, ma una necessità. Man mano che i grandi modelli linguistici (LLM) entrano in domini ad alto rischio come l'istruzione, la sanità, la governance e il diritto, il loro comportamento deve riflettere in modo affidabile valori allineati con l'uomo e vincoli di sicurezza. Tuttavia, le valutazioni attuali si basano fortemente su proxy comportamentali come i tassi di rifiuto, i punteggi G-Eval e i classificatori di tossicità, tutti con punti ciechi critici. I modelli allineati sono spesso vulnerabili a jailbreaking, alla stocasticità della generazione e alla simulazione di allineamento. Per affrontare questo problema, introduciamo l'Indice di Qualità di Allineamento (AQI). Questa nuova metrica geometrica e invariante rispetto ai prompt valuta empiricamente l'allineamento dei LLM analizzando la separazione delle attivazioni sicure e non sicure nello spazio latente. Combinando misure come il Davies-Bouldin Score (DBS), l'Indice di Dunn (DI), l'Indice di Xie-Beni (XBI) e l'Indice di Calinski-Harabasz (CHI) in varie formulazioni, l'AQI cattura la qualità del clustering per rilevare disallineamenti nascosti e rischi di jailbreak, anche quando gli output appaiono conformi. L'AQI funge anche da segnale di allarme precoce per la simulazione di allineamento, offrendo uno strumento robusto e invariante rispetto al decoding per audit di sicurezza agnostici al comportamento. Inoltre, proponiamo il dataset LITMUS per facilitare una valutazione robusta in queste condizioni impegnative. Test empirici su LITMUS su diversi modelli addestrati con DPO, GRPO e RLHF dimostrano la correlazione dell'AQI con giudici esterni e la sua capacità di rivelare vulnerabilità trascurate dalle metriche di rifiuto. Rendiamo pubblicamente disponibile la nostra implementazione per favorire future ricerche in questo ambito.
Questo lavoro presenta un framework generalizzabile per trasferire la profondità relativa in profondità metrica. I metodi attuali di stima della profondità monoculare sono principalmente divisi in stima della profondità metrica (MMDE) e stima della profondità relativa (MRDE). Gli MMDE stimano la profondità in scala metrica ma sono spesso limitati a un dominio specifico. Gli MRDE generalizzano bene tra diversi domini, ma con scale incerte che ostacolano le applicazioni a valle. A tal fine, miriamo a costruire un framework per risolvere l'incertezza della scala e trasferire la profondità relativa in profondità metrica. I metodi precedenti utilizzavano il linguaggio come input e stimavano due fattori per eseguire il ridimensionamento. Il nostro approccio, TR2M, utilizza sia la descrizione testuale che l'immagine come input e stima due mappe di ridimensionamento per trasferire la profondità relativa in profondità metrica a livello di pixel. Le caratteristiche delle due modalità vengono fuse con un modulo di attenzione cross-modale per catturare meglio le informazioni sulla scala. Una strategia è stata progettata per costruire e filtrare pseudo profondità metriche affidabili per una supervisione più completa. Abbiamo anche sviluppato un apprendimento contrastivo orientato alla scala per utilizzare la distribuzione della profondità come guida per rafforzare l'apprendimento del modello riguardo alla conoscenza intrinseca allineata con la distribuzione della scala. TR2M sfrutta solo un piccolo numero di parametri addestrabili per addestrarsi su dataset in vari domini e gli esperimenti non solo dimostrano le eccellenti prestazioni di TR2M sui dataset visti, ma rivelano anche capacità superiori di zero-shot su cinque dataset non visti. Mostriamo il grande potenziale nel trasferimento pixel-wise della profondità relativa in profondità metrica con l'assistenza del linguaggio. (Il codice è disponibile all'indirizzo: https://github.com/BeileiCui/TR2M)
Il Graph Retrieval Augmented Generation (GraphRAG) migliora efficacemente le capacità di integrazione della conoscenza esterna modellando esplicitamente le relazioni tra le conoscenze, aumentando così l'accuratezza fattuale e la qualità della generazione dei Large Language Models (LLMs) in domini specializzati. Tuttavia, i metodi esistenti presentano due limitazioni intrinseche: 1) Aggregazione inefficiente delle informazioni: si basano su un singolo agente e su schemi iterativi fissi, rendendo difficile catturare in modo adattivo informazioni testuali, strutturali e di grado multilivello all'interno dei dati grafici. 2) Meccanismo di ragionamento rigido: utilizzano schemi di ragionamento predefiniti, che non possono adattare dinamicamente la profondità del ragionamento né ottenere una correzione semantica precisa. Per superare queste limitazioni, proponiamo Graph Counselor, un metodo GraphRAG basato sulla collaborazione multi-agente. Questo metodo utilizza il modulo Adaptive Graph Information Extraction Module (AGIEM), in cui gli agenti di Pianificazione, Pensiero ed Esecuzione lavorano insieme per modellare con precisione strutture grafiche complesse e adattare dinamicamente le strategie di estrazione delle informazioni, affrontando le sfide della modellazione delle dipendenze multilivello e della profondità di ragionamento adattiva. Inoltre, il modulo Self-Reflection with Multiple Perspectives (SR) migliora l'accuratezza e la coerenza semantica dei risultati del ragionamento attraverso meccanismi di auto-riflessione e ragionamento a ritroso. Gli esperimenti dimostrano che Graph Counselor supera i metodi esistenti in molteplici task di ragionamento su grafi, mostrando una maggiore accuratezza nel ragionamento e capacità di generalizzazione. Il nostro codice è disponibile all'indirizzo https://github.com/gjq100/Graph-Counselor.git.
Le malattie trasmesse dalle zanzare rappresentano un grave rischio per la salute globale, richiedendo il rilevamento precoce e il controllo proattivo dei siti di riproduzione per prevenire focolai. In questo articolo, presentiamo VisText-Mosquito, un dataset multimodale che integra dati visivi e testuali per supportare il rilevamento automatico, la segmentazione e il ragionamento nell'analisi dei siti di riproduzione delle zanzare. Il dataset include 1.828 immagini annotate per il rilevamento di oggetti, 142 immagini per la segmentazione della superficie dell'acqua e testi di ragionamento in linguaggio naturale associati a ciascuna immagine. Il modello YOLOv9s raggiunge la massima precisione di 0,92926 e una mAP@50 di 0,92891 per il rilevamento di oggetti, mentre YOLOv11n-Seg ottiene una precisione di segmentazione di 0,91587 e una mAP@50 di 0,79795. Per la generazione del ragionamento, il nostro modello BLIP fine-tuned raggiunge una perdita finale di 0,0028, con un punteggio BLEU di 54,7, un BERTScore di 0,91 e un ROUGE-L di 0,87. Questo dataset e il framework del modello enfatizzano il tema "Prevenire è meglio che curare", dimostrando come il rilevamento basato sull'IA possa affrontare proattivamente i rischi delle malattie trasmesse dalle zanzare. Il dataset e il codice di implementazione sono disponibili pubblicamente su GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito
L'implementazione di politiche complesse e su larga scala nel mondo reale richiede la capacità di orientarle per adattarle alle esigenze di una situazione. Gli approcci di orientamento più comuni, come il condizionamento agli obiettivi, richiedono l'addestramento della politica del robot considerando una distribuzione di obiettivi da testare. Per superare questa limitazione, presentiamo DynaGuide, un metodo di orientamento per politiche di diffusione che utilizza una guida da un modello dinamico esterno durante il processo di denoising della diffusione. DynaGuide separa il modello dinamico dalla politica di base, conferendogli diversi vantaggi, tra cui la capacità di orientarsi verso più obiettivi, migliorare comportamenti sottorappresentati della politica di base e mantenere la robustezza su obiettivi di bassa qualità. Il segnale di guida separato consente inoltre a DynaGuide di funzionare con politiche di diffusione pre-addestrate disponibili sul mercato. Dimostriamo le prestazioni e le caratteristiche di DynaGuide rispetto ad altri approcci di orientamento in una serie di esperimenti simulati e reali, mostrando un successo medio di orientamento del 70% su un insieme di task articolati di CALVIN e superando il condizionamento agli obiettivi di 5,4 volte quando orientato con obiettivi di bassa qualità. Orientiamo con successo anche una politica pre-addestrata per un robot reale, esprimendo preferenza per oggetti specifici e persino creando comportamenti nuovi. Video e altro materiale sono disponibili sul sito del progetto: https://dynaguide.github.io