Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il fine-tuning con rinforzo (RFT), un framework a due stadi composto da fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), ha mostrato risultati promettenti nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, estendere l'RFT ai grandi modelli linguistici video (LVLM) rimane una sfida. Proponiamo VideoP2R, un innovativo framework RFT video consapevole del processo che migliora il ragionamento video modellando la percezione e il ragionamento come processi distinti. Nella fase SFT, sviluppiamo una pipeline in tre fasi per generare VideoP2R-CoT-162K, un dataset di catena del pensiero (CoT) di alta qualità e consapevole del processo, per la percezione e il ragionamento. Nella fase RL, introduciamo un nuovo algoritmo di ottimizzazione della politica relativa di gruppo consapevole del processo (PA-GRPO) che fornisce ricompense separate per la percezione e il ragionamento. Esperimenti estensivi mostrano che VideoP2R raggiunge prestazioni all'avanguardia (SotA) in sei su sette benchmark di ragionamento e comprensione video. Studi di ablazione confermano ulteriormente l'efficacia della nostra modellazione consapevole del processo e del PA-GRPO e dimostrano che l'output percettivo del modello è sufficientemente informativo per il ragionamento a valle.
Migliorare le capacità di ragionamento dei Large Language Model (LLM), specialmente in contesti con vincoli parametrici, è cruciale per le applicazioni nel mondo reale. I lavori precedenti propongono transformer ricorrenti, che allocano un numero fisso di iterazioni aggiuntive per token per migliorare la qualità della generazione. Dopo il primo passaggio in avanti standard, invece di procedere alla verbalizzazione, gli stati nascosti dell'ultimo layer vengono reimmessi come input per iterazioni aggiuntive per affinare le previsioni dei token. Tuttavia, identifichiamo un fenomeno di *overthinking* latente: previsioni di token semplici, già corrette dopo il primo passaggio, vengono talvolta modificate in errori durante le iterazioni aggiuntive. Per affrontare questo problema, proponiamo Think-at-Hard (TaH), un metodo di pensiero latente dinamico che itera più a fondo solo sui token difficili. Esso impiega un decisore neurale leggero per attivare iterazioni latenti solo sui token che sono probabilmente errati dopo il passaggio in avanti standard. Durante le iterazioni latenti, i moduli Low-Rank Adaptation (LoRA) spostano l'obiettivo dell'LLM dalla generica previsione del token successivo al raffinamento mirato dei token difficili. Introduciamo inoltre un meccanismo di attenzione *duo-causale* che estende l'attenzione dalla dimensione della sequenza di token a una dimensione aggiuntiva di profondità iterativa. Ciò consente un flusso di informazioni cross-iterazione mantenendo il pieno parallelismo sequenziale. Gli esperimenti mostrano che TaH aumenta le prestazioni di ragionamento degli LLM su cinque benchmark complessi mantenendo lo stesso numero di parametri. Rispetto ai baseline che iterano due volte per tutti i token di output, TaH fornisce un miglioramento in accuratezza dall'8.1% all'11.3%, esentando contemporaneamente il 94% dei token dalla seconda iterazione. Rispetto a forti modelli Qwen3 a singola iterazione addestrati con gli stessi dati, fornisce anche miglioramenti in accuratezza dal 4.0% al 5.0%. Quando si consentono meno del 3% di parametri aggiuntivi da LoRA e dal decisore di iterazione, i miglioramenti aumentano rispettivamente all'8.5-12.6% e al 5.3-5.4%. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/TaH.
La stilizzazione visiva innovativa è un pilastro della creazione artistica, ma generare stili visivi nuovi e coerenti rimane una sfida significativa. Gli approcci generativi esistenti si basano tipicamente su prompt testuali lunghi, immagini di riferimento o fine-tuning efficiente dei parametri per guidare la generazione di immagini sensibile allo stile, ma spesso incontrano difficoltà con la coerenza stilistica, la creatività limitata e le rappresentazioni complesse dello stile. In questo articolo, affermiamo che uno stile vale un codice numerico introducendo il nuovo compito della generazione di immagini da codice a stile, che produce immagini con stili visivi nuovi e coerenti condizionati esclusivamente da un codice stilistico numerico. Ad oggi, questo campo è stato esplorato principalmente dall'industria (ad esempio, Midjourney), senza ricerche open-source dalla comunità accademica. Per colmare questa lacuna, proponiamo CoTyle, il primo metodo open-source per questo compito. Nello specifico, addestriamo prima un codebook stilistico discreto da una raccolta di immagini per estrarre embedding stilistici. Questi embedding servono come condizioni per un modello di diffusione da testo a immagine (T2I-DM) per generare immagini stilistiche. Successivamente, addestriamo un generatore stilistico autoregressivo sugli embedding stilistici discreti per modellarne la distribuzione, consentendo la sintesi di nuovi embedding stilistici. Durante l'inferenza, un codice stilistico numerico viene mappato a un embedding stilistico unico dal generatore di stile, e questo embedding guida il T2I-DM a generare immagini nello stile corrispondente. A differenza dei metodi esistenti, il nostro metodo offre una semplicità e diversità senza pari, sbloccando un vasto spazio di stili riproducibili da input minimi. Esperimenti estensivi convalidano che CoTyle trasforma efficacemente un codice numerico in un controllore di stile, dimostrando che uno stile vale un codice.
Presentiamo AraLingBench: un benchmark completamente annotato da esseri umani per valutare la competenza linguistica araba dei modelli linguistici di grandi dimensioni (LLM). Il benchmark copre cinque categorie principali: grammatica, morfologia, ortografia, comprensione del testo e sintassi, attraverso 150 domande a scelta multipla progettate da esperti che valutano direttamente la comprensione strutturale della lingua. La valutazione di 35 LLM arabi e bilingui rivela che i modelli attuali dimostrano una forte competenza superficiale ma faticano con ragionamenti grammaticali e sintattici più profondi. AraLingBench evidenzia un divario persistente tra i punteggi elevati nei benchmark basati sulla conoscenza e la vera padronanza linguistica, mostrando che molti modelli riescono attraverso la memorizzazione o il riconoscimento di schemi piuttosto che una comprensione autentica. Isolando e misurando le abilità linguistiche fondamentali, AraLingBench fornisce un quadro diagnostico per lo sviluppo di LLM arabi. Il codice completo di valutazione è disponibile pubblicamente su GitHub.
I modelli foundation hanno rivoluzionato l'intelligenza artificiale in numerosi domini, ma il loro potenziale trasformativo rimane in gran parte inespresso nella Classificazione Multi-Etichetta Estrema (XMC). In XMC, le query sono associate a etichette rilevanti provenienti da spazi di etichette estremamente ampi, dove è fondamentale bilanciare efficienza e prestazioni. Pertanto, molti approcci recenti formulano efficientemente l'XMC come un problema di ricerca del prodotto interno massimo tra embedding appresi da piccole architetture transformer di tipo encoder-only. In questo articolo, affrontiamo due aspetti importanti nell'XMC: come sfruttare efficacemente modelli più grandi di tipo decoder-only e come utilizzare le informazioni visive mantenendo l'efficienza computazionale. Dimostriamo che entrambi svolgono un ruolo critico separatamente e possono essere combinati per migliorare le prestazioni. Mostriamo che un decoder di dimensioni di pochi miliardi di parametri può fornire miglioramenti sostanziali mantenendo gestibile il sovraccarico computazionale. Inoltre, la nostra framework Vision-enhanced eXtreme Multi-label Learning (ViXML) integra efficientemente modelli foundation visivi aggregando un singolo embedding per immagine. Ciò limita la crescita computazionale sbloccando al contempo capacità multimodali. Notevolmente, ViXML con encoder piccoli supera i decoder basati solo sul testo nella maggior parte dei casi, dimostrando che un'immagine vale miliardi di parametri. Infine, presentiamo un'estensione di dataset esistenti basati solo su testo per sfruttare i metadati visivi e li rendiamo disponibili per futuri benchmark. Esperimenti completi su quattro dataset pubblici solo testo e le loro corrispondenti versioni potenziate con immagini convalidano l'efficacia delle nostre proposte, superando lo stato dell'arte precedente fino a +8,21% in P@1 sul dataset più grande. Il codice di ViXML è disponibile all'indirizzo https://github.com/DiegoOrtego/vixml.
Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) consenta sofisticati ragionamenti simbolici nei LLM, esso rimane confinato al testo discreto e non può simulare le dinamiche continue, governate dalla fisica, del mondo reale. Recenti modelli di generazione video sono emersi come potenziali simulatori del mondo attraverso il ragionamento a Catena di Fotogrammi (Chain-of-Frames, CoF) – materializzando il pensiero in sequenze visive fotogramma per fotogramma, dove ogni fotogramma rappresenta un passo di ragionamento fisicamente fondato. Nonostante dimostrazioni convincenti, una sfida persiste: i benchmark esistenti, concentrandosi su fedeltà o allineamento, non valutano il ragionamento CoF e quindi non possono misurare le capacità cognitive fondamentali nella pianificazione a più fasi, nella logica algoritmica o nell'estrapolazione di pattern astratti. Questa lacuna valutativa impedisce una comprensione sistematica delle capacità dei modelli e una guida principiata per il miglioramento. Introduciamo Gen-ViRe (Generative Visual Reasoning Benchmark), un framework basato sulle scienze cognitive e sulle applicazioni IA del mondo reale, che scompone il ragionamento CoF in sei dimensioni cognitive – dalla logica percettiva alla pianificazione astratta – e 24 sotto-compiti. Attraverso una curatela di dati multi-sorgente, protocolli di prompting minimi e una valutazione ibrida assistita da VLM con criteri dettagliati, Gen-ViRe fornisce la prima valutazione quantitativa dei modelli video in quanto sistemi di ragionamento. I nostri esperimenti su sistemi all'avanguardia rivelano discrepanze sostanziali tra l'impressionante qualità visiva e l'effettiva profondità di ragionamento, stabilendo baseline e strumenti diagnostici per far progredire i veri simulatori del mondo.
I meccanismi di autoriflessione che si basano su processi di ripensamento puramente testuali ottengono buone prestazioni nella maggior parte dei compiti multimodali. Tuttavia, quando applicati direttamente a scenari di comprensione di video di lunga durata, mostrano chiare limitazioni. Le ragioni fondamentali risiedono in due punti: (1) la comprensione di video di lunga durata coinvolge un input visivo più ricco e dinamico, il che significa che ripensare solo alle informazioni testuali è insufficiente e rende necessario un ulteriore processo di riflessione specificamente mirato alle informazioni visive; (2) i meccanismi di riflessione puramente testuali mancano di capacità di interazione cross-modale, impedendo loro di integrare pienamente le informazioni visive durante la riflessione. Sulla base di queste intuizioni, proponiamo REVISOR (REflective VIsual Segment Oriented Reasoning), un nuovo framework per la riflessione multimodale aumentata da strumenti. REVISOR consente agli MLLM di costruire in modo collaborativo processi di riflessione introspettiva attraverso le modalità testuale e visiva, migliorando significativamente la loro capacità di ragionamento per la comprensione di video di lunga durata. Per garantire che REVISOR possa imparare a rivedere accuratamente i segmenti video altamente rilevanti per la domanda durante l'apprendimento per rinforzo, abbiamo progettato il meccanismo di Ricompensa Disaccoppiata a Doppia Attribuzione (DADR). Integrato nella strategia di addestramento GRPO, questo meccanismo impone un allineamento causale tra il ragionamento del modello e le prove video selezionate. È importante notare che il framework REVISOR migliora significativamente la capacità di comprensione di video di lunga durata degli MLLM senza richiedere ulteriore fine-tuning supervisionato o modelli esterni, ottenendo risultati impressionanti su quattro benchmark, tra cui VideoMME, LongVideoBench, MLVU e LVBench.
Valutare la robustezza dei Modelli Linguistici di Grande Dimensione con Componente Visiva (LVLM) è fondamentale per il loro sviluppo continuo e per un impiego responsabile in applicazioni del mondo reale. Tuttavia, i benchmark di robustezza esistenti si concentrano tipicamente su allucinazioni o input testuali fuorvianti, trascurando in larga misura la sfida altrettanto critica posta dagli input visivi fuorvianti nella valutazione della comprensione visiva. Per colmare questa importante lacuna, introduciamo MVI-Bench, il primo benchmark completo specificamente progettato per valutare come gli Input Visivi Fuorvianti minaccino la robustezza degli LVLM. Basandosi su primitive visive fondamentali, la progettazione di MVI-Bench si articola su tre livelli gerarchici di input visivi fuorvianti: Concetto Visivo, Attributo Visivo e Relazione Visiva. Utilizzando questa tassonomia, abbiamo curato sei categorie rappresentative e compilato 1.248 istanze VQA annotate da esperti. Per facilitare una valutazione granulare della robustezza, introduciamo inoltre MVI-Sensitivity, una nuova metrica che caratterizza la robustezza degli LVLM a un livello di dettaglio fine. I risultati empirici ottenuti testando 18 LVLM all'avanguardia rivelano vulnerabilità pronunciate agli input visivi fuorvianti, e le nostre analisi approfondite su MVI-Bench forniscono spunti pratici in grado di guidare lo sviluppo di LVLM più affidabili e robusti. Il benchmark e il codice sono accessibili all'indirizzo https://github.com/chenyil6/MVI-Bench.
Presentiamo Orion, un framework per agenti visivi in grado di accettare qualsiasi modalità in input e generare qualsiasi modalità in output. Basandosi su un'architettura agentiva con capacità multimodali di tool-calling, Orion è progettato specificamente per task di intelligenza artificiale visiva e raggiunge risultati allo stato dell'arte. A differenza dei tradizionali modelli visione-linguaggio che producono output descrittivi, Orion orchestra una suite di strumenti specializzati di computer vision - inclusi object detection, localizzazione di keypoint, segmentazione panottica, riconoscimento ottico dei caratteri e analisi geometrica - per eseguire workflow visivi complessi e multi-step. Il sistema raggiunge performance competitive su MMMU, MMBench, DocVQA e MMLongBench, estendendo i modelli monolitici visione-linguaggio verso un'intelligenza visiva di livello production-grade. Combinando percezione neurale con esecuzione simbolica, Orion abilita ragionamento visivo autonomo, segnando una transizione dalla comprensione visiva passiva a un'intelligenza visiva attiva e guidata da strumenti.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più oggetto di studio per la creazione di Agenti in grado di interagire attivamente con l'ambiente (ad esempio, tramite l'uso di strumenti) per risolvere problemi complessi. L'Apprendimento per Rinforzo (RL) è considerato una tecnologia chiave con un potenziale significativo per l'addestramento di tali Agenti; tuttavia, l'applicazione efficace del RL agli Agenti basati su LLM è ancora nelle fasi iniziali e affronta sfide considerevoli. Attualmente, questo campo emergente manca di un'esplorazione approfondita degli approcci RL specificamente studiati per il contesto degli Agenti LLM, unitamente a una scarsità di framework di addestramento flessibili e facilmente estensibili progettati a questo scopo. Per contribuire a far progredire quest'area, questo articolo in primo luogo rivisita e chiarisce le metodologie di Apprendimento per Rinforzo per Agenti LLM, estendendo sistematicamente il framework del Processo Decisionale di Markov (MDP) per definire in modo completo i componenti chiave di un Agente LLM. In secondo luogo, introduciamo Agent-R1, un framework di addestramento modulare, flessibile e user-friendly per Agenti LLM basati su RL, progettato per un adattamento semplice a diversi scenari di compito e ambienti interattivi. Abbiamo condotto esperimenti su task di benchmark di QA Multihop, fornendo una prima validazione dell'efficacia dei nostri metodi e framework proposti.
I modelli linguistici di grandi dimensioni onnimodali (OmniLLM) stanno attirando un'attenzione di ricerca crescente per la comprensione unificata audio-video, sebbene l'elaborazione delle sequenze di token audiovisivi crei un significativo collo di bottiglia computazionale. I metodi esistenti di compressione dei token non hanno ancora soddisfatto questa emergente necessità di comprimere congiuntamente i token multimodali. Per colmare questa lacuna, presentiamo OmniZip, un framework di compressione token audiovisiva guidata dall'audio, senza necessità di addestramento, che ottimizza la rappresentazione dei token multimodali e accelera l'inferenza. Nello specifico, OmniZip identifica prima i token audio salienti, quindi calcola un punteggio di ritenzione audio per ogni gruppo temporale per catturare la densità informativa, guidando dinamicamente la potatura dei token video e preservando gli indizi dagli anchor audio potenziati dalla similarità cross-modale. Per ogni finestra temporale, OmniZip comprime i token video utilizzando uno schema spazio-temporale interlacciato. Risultati empirici estensivi dimostrano i meriti di OmniZip: raggiunge un'accelerazione dell'inferenza di 3,42X e una riduzione della memoria di 1,4X rispetto ad altre controparti di alto livello, mantenendo le prestazioni senza alcun addestramento.
Il rapido avanzamento dei Large Language Model (LLM) ha portato a una saturazione delle prestazioni su molti benchmark consolidati, mettendo in discussione la loro capacità di distinguere i modelli all'avanguardia. Contemporaneamente, gli attuali benchmark ad alta difficoltà soffrono spesso di una focalizzazione disciplinare ristretta, di formati di risposta eccessivamente semplificati e di vulnerabilità alla contaminazione dei dati, creando un divario di fedeltà rispetto all'indagine scientifica reale. Per affrontare queste sfide, introduciamo ATLAS (AGI-Oriented Testbed for Logical Application in Science), una suite di valutazione su larga scala, ad alta difficoltà e interdisciplinare, composta da circa 800 problemi originali. Sviluppato da esperti di dominio (con titolo di dottorato di ricerca o superiore), ATLAS copre sette campi scientifici fondamentali: matematica, fisica, chimica, biologia, informatica, scienze della Terra e scienza dei materiali. Le sue caratteristiche principali includono: (1) Alta Originalità e Resistenza alla Contaminazione, con tutte le domande create ex-novo o sostanzialmente adattate per prevenire la fuoriuscita dei dati di test; (2) Focalizzazione Interdisciplinare, progettata per valutare la capacità dei modelli di integrare conoscenze e ragionare attraverso diversi domini scientifici; (3) Risposte ad Alta Fedeltà, che privilegiano risposte complesse e aperte, coinvolgenti ragionamenti multi-step ed espressioni formattate in LaTeX, rispetto a semplici domande a scelta multipla; e (4) Rigoroso Controllo di Qualità, che impiega un processo multi-stadio di revisione paritaria tra esperti e test avversariali per garantire la difficoltà delle domande, il loro valore scientifico e la correttezza. Proponiamo inoltre un paradigma di valutazione robusto che utilizza un panel di giudici LLM per una valutazione automatica e sfumata di risposte complesse. I risultati preliminari sui modelli leader dimostrano l'efficacia di ATLAS nel differenziare le loro capacità avanzate di ragionamento scientifico. Pianifichiamo di sviluppare ATLAS in una piattaforma a lungo termine, aperta e guidata dalla comunità, per fornire un "metro" affidabile per i progressi verso l'Intelligenza Artificiale Generale.
I modelli fondazionali sono emersi come architetture di base efficaci per molte attività di visione artificiale. Tuttavia, le caratteristiche auto-supervisionate attuali intrecciano la semantica di alto livello con fattori fisici di basso livello, come la geometria e l'illuminazione, ostacolandone l'uso in compiti che richiedono un ragionamento fisico esplicito. In questo articolo, introduciamo Φeat, una nuova backbone visiva basata sulla fisica che incoraggia una rappresentazione sensibile all'identità del materiale, inclusi gli indizi di riflettanza e la mesostruttura geometrica. La nostra idea chiave è impiegare una strategia di pre-addestramento che metta a confronto ritagli spaziali e aumentazioni fisiche dello stesso materiale sotto forme e condizioni di illuminazione variabili. Sebbene dati simili siano stati utilizzati in compiti supervisionati avanzati come la scomposizione intrinseca o la stima del materiale, dimostriamo che una strategia di addestramento puramente auto-supervisionata, senza etichette esplicite, fornisce già un forte precedente per compiti che richiedono caratteristiche robuste invarianti ai fattori fisici esterni. Valutiamo le rappresentazioni apprese attraverso l'analisi della similarità delle caratteristiche e la selezione dei materiali, mostrando che Φeat cattura una struttura fondata sulla fisica che va oltre il raggruppamento semantico. Questi risultati evidenziano la promessa dell'apprendimento non supervisionato di caratteristiche fisiche come base per una percezione consapevole della fisica nella visione artificiale e nella grafica.
I modelli linguistici di grandi dimensioni (LLM) sono potenti apprendisti in contesti zero-shot e few-shot. Tuttavia, quando effettuano previsioni su un insieme di opzioni candidate, gli LLM soffrono di bias delle etichette, e i metodi di calibrazione esistenti trascurano i bias derivanti da etichette di classe composte da token multipli. Affrontiamo un problema che chiamiamo bias della lunghezza dell'etichetta, dove etichette di lunghezze diverse vengono trattate in modo incoerente, anche dopo la normale normalizzazione della lunghezza. Per mitigarlo, proponiamo la calibrazione contestuale normalizzata (NCC), un metodo efficace che normalizza e calibra le previsioni a livello di etichetta completa. NCC raggiunge miglioramenti statisticamente significativi rispetto agli approcci precedenti su più dataset e modelli, con guadagni fino al 10% di F1. Inoltre, NCC estende la mitigazione del bias a compiti più ampi come la risposta a domande a scelta multipla. La nostra analisi mostra che, se combinata con l'apprendimento in contesto, NCC è meno sensibile alla selezione degli esempi few-shot, richiede meno esempi per prestazioni competitive e produce stime di confidenza più affidabili. Questi risultati evidenziano l'importanza di mitigare i bias a livello di etichetta completa per migliorare le prestazioni e la robustezza dei metodi basati su LLM, specialmente in applicazioni del mondo reale dove le etichette di classe sono naturalmente composte da più token.
Introduciamo assistenti acustici proattivi che identificano e separano automaticamente gli interlocutori dell'utente, senza richiedere comandi espliciti. Il nostro sistema opera su audio binaurale egocentrico e utilizza l'auto-segnalazione vocale dell'utente come ancoraggio, sfruttando il comportamento di alternanza dei turni e le dinamiche dialogiche per inferire gli interlocutori e sopprimere gli altri. Per abilitare un funzionamento in tempo reale e su dispositivo, proponiamo un'architettura a doppio modello: un modello leggero in streaming opera ogni 12,5 ms per l'estrazione a bassa latenza degli interlocutori, mentre un modello più lento viene eseguito con minore frequenza per catturare le dinamiche conversazionali a lungo raggio. I risultati su set di test di conversazioni reali con 2 e 3 parlanti, raccolti con hardware egocentrico binaurale da 11 partecipanti per un totale di 6,8 ore, dimostrano una generalizzazione nell'identificazione e isolamento degli interlocutori in ambienti con conversazioni multiple. Il nostro lavoro rappresenta un passo verso assistenti acustici che si adattano proattivamente alle dinamiche conversazionali e all'impegno comunicativo. Ulteriori informazioni sono disponibili sul nostro sito web: https://proactivehearing.cs.washington.edu/
Gli strumenti di codifica agentica ricevono obiettivi scritti in linguaggio naturale come input, li scompongono in compiti specifici e scrivono o eseguono il codice effettivo con un intervento umano minimo. Centrali in questo processo sono i file di contesto dell'agente ("README per agenti") che forniscono istruzioni persistenti a livello di progetto. In questo articolo, conduciamo il primo studio empirico su larga scala di 2.303 file di contesto provenienti da 1.925 repository per caratterizzarne la struttura, la manutenzione e il contenuto. Scopriamo che questi file non sono documentazione statica, ma artefatti complessi e di difficile lettura che si evolvono come codice di configurazione, mantenuti attraverso aggiunte frequenti e piccole. La nostra analisi del contenuto su 16 tipi di istruzioni mostra che gli sviluppatori danno priorità al contesto funzionale, come i comandi di build e run (62,3%), i dettagli implementativi (69,9%) e l'architettura (67,7%). Identifichiamo anche un divario significativo: i requisiti non funzionali come la sicurezza (14,5%) e le prestazioni (14,5%) sono raramente specificati. Questi risultati indicano che, sebbene gli sviluppatori utilizzino i file di contesto per rendere gli agenti funzionali, forniscono poche protezioni per garantire che il codice scritto dagli agenti sia sicuro o performante, evidenziando la necessità di strumenti e pratiche migliorati.
Nonostante i recenti progressi nei modelli linguistici per il 3D (3D-LLMs), essi rimangono limitati nel fondare accuratamente il linguaggio agli elementi visivi e spaziali negli ambienti 3D. Questa limitazione deriva in parte da dati di addestramento che si concentrano sul ragionamento linguistico piuttosto che sulla comprensione spaziale, a causa della scarsità di risorse 3D, lasciando irrisolti pregiudizi intrinseci di grounding. Per affrontare questo problema, proponiamo la modifica delle scene 3D come meccanismo chiave per generare controfattuali visivi precisi che mitigano questi pregiudizi attraverso una manipolazione spaziale granulare, senza richiedere costose ricostruzioni di scene o la raccolta su larga scala di dati 3D. Inoltre, per rendere queste modifiche mirate e affrontare direttamente le specifiche debolezze del modello, introduciamo DEER-3D, un framework guidato dall'errore che segue un flusso di lavoro strutturato "Scomponi, Valutazione Diagnostica, Modifica e Ri-addestra", invece di aumentare i dati in modo ampio o casuale come negli approcci convenzionali. Nello specifico, dopo aver identificato un fallimento del grounding del 3D-LLM, il nostro framework diagnostica prima l'esatto errore a livello predicativo (ad esempio, un attributo o una relazione spaziale). Successivamente, esegue modifiche minime e allineate al predicato nella scena 3D, come cambiare il colore o riposizionare oggetti, per produrre una supervisione controfattuale mirata per l'addestramento fine iterativo del modello, migliorando significativamente l'accuratezza del grounding. Valutiamo la nostra pipeline di modifica su diversi benchmark per compiti di grounding 3D e comprensione delle scene, dimostrando costantemente miglioramenti su tutti i dataset valutati attraverso un perfezionamento iterativo. DEER-3D sottolinea l'efficacia della modifica mirata delle scene, guidata dall'errore, nel colmare le capacità di ragionamento linguistico con il grounding spaziale nei modelli linguistici per il 3D.
Le emozioni umane sono difficili da esprimere a parole e spesso si astraggono nel processo; tuttavia, i segnali elettroencefalografici (EEG) possono offrire una lente più diretta sull'attività cerebrale emotiva. Studi recenti dimostrano che i modelli di deep learning possono elaborare questi segnali per effettuare il riconoscimento delle emozioni con elevata accuratezza. Tuttavia, molti approcci esistenti trascurano l'interazione dinamica tra distinte regioni cerebrali, che può essere cruciale per comprendere come le emozioni si manifestano e si evolvono nel tempo, potenzialmente contribuendo a un riconoscimento emotivo più preciso. Per affrontare questo problema, proponiamo RBTransformer, un'architettura di rete neurale basata su Transformer che modella le dinamiche neurali inter-corticali del cervello nello spazio latente per catturare meglio le interazioni neurali strutturate ai fini di un efficace riconoscimento delle emozioni basato su EEG. In primo luogo, i segnali EEG vengono convertiti in token di Entropia Differenziale di Banda (BDE), che vengono poi elaborati tramite incorporamenti di Identità dell'Elettrodo per preservare la provenienza spaziale. Questi token vengono processati attraverso successivi blocchi di attenzione multi-testa inter-corticale che costruiscono una matrice di attenzione elettrodo x elettrodo, consentendo al modello di apprendere le dipendenze neurali inter-corticali. Le caratteristiche risultanti vengono quindi passate attraverso un modulo di classificazione per ottenere la previsione finale. Abbiamo condotto esperimenti estesi, specificamente in contesti dipendenti dal soggetto, sui dataset SEED, DEAP e DREAMER, lungo tutte e tre le dimensioni (Valenza, Attivazione e Dominanza per DEAP e DREAMER), sia in configurazioni di classificazione binaria che multi-classe. I risultati dimostrano che il RBTransformer proposto supera tutti i precedenti metodi allo stato dell'arte su tutti e tre i dataset, lungo tutte e tre le dimensioni in entrambe le configurazioni di classificazione. Il codice sorgente è disponibile all'indirizzo: https://github.com/nnilayy/RBTransformer.
Il Chaos Engineering (CE) è una tecnica ingegneristica finalizzata a migliorare la resilienza dei sistemi distribuiti. Consiste nell'iniettare intenzionalmente dei guasti in un sistema per verificarne la resilienza, individuare le debolezze e risolverle prima che causino malfunzionamenti in produzione. I moderni strumenti di CE automatizzano l'esecuzione di esperimenti di CE predefiniti. Tuttavia, la pianificazione di tali esperimenti e il miglioramento del sistema basato sui risultati sperimentali rimangono attività manuali. Questi processi richiedono un notevole impiego di manodopera e competenze multidisciplinari. Per affrontare queste sfide e consentire a chiunque di costruire sistemi resilienti a basso costo, questo articolo propone ChaosEater, un sistema che automatizza l'intero ciclo di CE utilizzando Large Language Models (LLM). Il sistema predefinisce un flusso di lavoro agente secondo un ciclo di CE sistematico e assegna i processi suddivisi all'interno del flusso di lavoro agli LLM. ChaosEater è orientato al CE per sistemi software basati su Kubernetes. Pertanto, gli LLM in ChaosEater completano i cicli di CE attraverso attività di ingegneria del software, inclusa la definizione dei requisiti, la generazione di codice, i test e il debugging. Valutiamo ChaosEater attraverso case study su sistemi Kubernetes di piccole e grandi dimensioni. I risultati dimostrano che esso completa costantemente cicli di CE ragionevoli con costi temporali e monetivi significativamente bassi. I suoi cicli sono inoltre convalidati qualitativamente da ingegneri umani e da LLM.
I Large Vision-Language Model (LVLM) allineano tipicamente le caratteristiche visive provenienti da un encoder con un Large Language Model (LLM) pre-addestrato. Tuttavia, questo rende il modulo di percezione visiva un collo di bottiglia, che limita le capacità complessive degli LVLM. I benchmark di valutazione convenzionali, sebbene ricchi di semantica visiva, contengono spesso scorciatoie locali inevitabili che possono portare a una sovrastima delle abilità percettive dei modelli. Qui presentiamo TopoPerception, un benchmark che sfrutta le proprietà topologiche per valutare rigorosamente le capacità di percezione visiva globale degli LVLM su varie granularità. Poiché la topologia dipende dalla struttura globale di un'immagine ed è invariante rispetto alle caratteristiche locali, TopoPerception consente una valutazione priva di scorciatoie della percezione globale, distinguendosi fondamentalmente dai compiti semanticamente ricchi. Valutiamo i modelli allo stato dell'arte su TopoPerception e scopriamo che anche alla granularità percettiva più grossolana, tutti i modelli non performano meglio del caso, indicando una profonda incapacità di percepire le caratteristiche visive globali. Significativamente, emerge una tendenza coerente all'interno delle famiglie di modelli: i modelli più potenti con capacità di ragionamento più forti mostrano un'accuratezza inferiore. Ciò suggerisce che il semplice aumento di scala dei modelli è insufficiente per affrontare questa carenza e potrebbe persino aggravarla. Il progresso potrebbe richiedere nuovi paradigmi di addestramento o architetture. TopoPerception non solo espone un collo di bottiglia critico negli LVLM attuali, ma offre anche una lente e una direzione per migliorare la loro percezione visiva globale. I dati e il codice sono pubblicamente disponibili all'indirizzo: https://github.com/Wenhao-Zhou/TopoPerception.