Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) spesso producono allucinazioni nei compiti di risposta a domande (QA). Un fattore chiave ma ancora poco esplorato che contribuisce a questo fenomeno è la temporalità delle domande -- se sono evergreen (le risposte rimangono stabili nel tempo) o mutabili (le risposte cambiano). In questo lavoro, introduciamo EverGreenQA, il primo dataset QA multilingue con etichette evergreen, che supporta sia la valutazione che l'addestramento. Utilizzando EverGreenQA, valutiamo 12 moderni LLM per determinare se codificano la temporalità delle domande in modo esplicito (tramite giudizi verbalizzati) o implicito (tramite segnali di incertezza). Addestriamo inoltre EG-E5, un classificatore multilingue leggero che raggiunge prestazioni all'avanguardia in questo compito. Infine, dimostriamo l'utilità pratica della classificazione evergreen in tre applicazioni: migliorare la stima dell'autoconoscenza, filtrare dataset QA e spiegare il comportamento di recupero di GPT-4o.
Presentiamo PartCrafter, il primo modello generativo strutturato 3D che sintetizza congiuntamente più mesh 3D semanticamente significative e geometricamente distinte a partire da una singola immagine RGB. A differenza dei metodi esistenti che producono forme 3D monolitiche o seguono pipeline in due fasi, ovvero segmentando prima un'immagine e poi ricostruendo ciascun segmento, PartCrafter adotta un'architettura generativa compositiva e unificata che non si basa su input pre-segmentati. Condizionato da una singola immagine, esso denoizza simultaneamente più parti 3D, consentendo una generazione end-to-end consapevole delle parti sia per oggetti singoli che per scene complesse multi-oggetto. PartCrafter si basa su un trasformatore di diffusione di mesh 3D (DiT) pre-addestrato su oggetti interi, ereditando i pesi pre-addestrati, l'encoder e il decoder, e introduce due innovazioni chiave: (1) Uno spazio latente compositivo, in cui ciascuna parte 3D è rappresentata da un insieme di token latenti disaccoppiati; (2) Un meccanismo di attenzione gerarchica che consente un flusso strutturato di informazioni sia all'interno delle singole parti che tra tutte le parti, garantendo coerenza globale preservando al contempo i dettagli a livello di parte durante la generazione. Per supportare la supervisione a livello di parte, abbiamo curato un nuovo dataset estraendo annotazioni a livello di parte da dataset di oggetti 3D su larga scala. Gli esperimenti dimostrano che PartCrafter supera gli approcci esistenti nella generazione di mesh 3D scomponibili, incluse parti non direttamente visibili nelle immagini di input, evidenziando la forza dei priori generativi consapevoli delle parti per la comprensione e la sintesi 3D. Codice e dati di addestramento saranno rilasciati.
Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLMs) abbiano compiuto progressi significativi nei compiti di ragionamento complesso attraverso l'apprendimento per rinforzo, è comunemente ritenuto che siano necessari ampi set di dati di addestramento per migliorare la capacità di ragionamento multimodale, portando inevitabilmente a ridondanza dei dati e costi computazionali sostanziali. Tuttavia, è possibile che set di dati più piccoli ma di alto valore possano eguagliare o superare i corpora completi per il ragionamento multimodale negli MLLMs? In questo lavoro, mettiamo in discussione questa ipotesi attraverso un'osservazione chiave: il ragionamento multimodale significativo è attivato solo da un sottoinsieme sparso di campioni di addestramento, denominati campioni cognitivi, mentre la maggior parte contribuisce in modo marginale. Basandoci su questa intuizione, proponiamo un nuovo paradigma di selezione dei dati denominato Potenziale di Attivazione del Ragionamento (RAP), che identifica i campioni cognitivi stimando il potenziale di ciascun campione di stimolare un autentico ragionamento multimodale attraverso due stimatori complementari: 1) lo Stimatore di Discrepanza Causale (CDE), basato sul principio del modello di outcome potenziale, elimina i campioni che si affidano eccessivamente a prior linguistiche confrontando gli output tra input multimodali e solo testuali; 2) lo Stimatore di Fiducia dell'Attenzione (ACE), che sfrutta l'auto-attenzione a livello di token per scartare i campioni dominati da token irrilevanti ma eccessivamente enfatizzati nelle fasi intermedie del ragionamento. Inoltre, introduciamo un Modulo di Sostituzione Consapevole della Difficoltà (DRM) per sostituire le istanze banali con altre cognitivamente impegnative, garantendo così la complessità necessaria per un ragionamento multimodale robusto. Gli esperimenti su sei set di dati dimostrano che il nostro metodo RAP raggiunge costantemente prestazioni superiori utilizzando solo il 9,3% dei dati di addestramento, riducendo i costi computazionali di oltre il 43%. Il nostro codice è disponibile all'indirizzo https://github.com/Leo-ssl/RAP.
Le prestazioni dei grandi modelli linguistici in compiti specifici di dominio richiedono un fine-tuning, che è computazionalmente costoso e tecnicamente impegnativo. Questo articolo si concentra sul fine-tuning efficiente in termini di parametri utilizzando il soft prompting, un approccio promettente che adatta modelli pre-addestrati a compiti downstream apprendendo un piccolo insieme di parametri. Proponiamo una nuova tecnica di Soft Prompting Dipendente dall'Input con un Meccanismo di Self-Attention (ID-SPAM) che genera soft prompt basati sui token di input e assegna importanza variabile a diversi token. Il nostro metodo è semplice ed efficiente, mantenendo basso il numero di parametri addestrabili. Dimostriamo i vantaggi dell'approccio proposto rispetto alle tecniche state-of-the-art su vari compiti e mostriamo una capacità migliorata di trasferimento di dominio zero-shot.
Nonostante i rapidi progressi nei modelli visione-linguaggio (VLMs), gli attuali benchmark per il ragionamento multimodale presentano tre principali limitazioni. In primo luogo, si basano prevalentemente su immagini statiche, non riuscendo a catturare la complessità temporale degli ambienti del mondo reale. In secondo luogo, si concentrano in modo ristretto sulla risoluzione di problemi matematici, trascurando l'ampio spettro di abilità di ragionamento — tra cui capacità astratte, fisiche, di pianificazione, spaziali e temporali — necessarie per un'intelligenza multimodale robusta. In terzo luogo, molti benchmark raggiungono rapidamente la saturazione, offrendo uno spazio limitato per diagnosticare modalità di fallimento o misurare progressi continui. Introduciamo MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark video composto da 500 clip completamente scriptate con domande integrate che coprono sei categorie complementari di ragionamento. Ogni istanza è generata in modo programmatico utilizzando script Python deterministici (tramite Manim, Matplotlib, MoviePy), modelli generativi di video e filmati reali curati. Questo design basato su script consente un controllo fine sulla complessità visiva, la densità di distrattori e le dinamiche temporali — permettendo di scalare sistematicamente la difficoltà man mano che i modelli migliorano. A differenza dei benchmark statici che diventano obsoleti una volta saturati, MORSE-500 è progettato per evolversi: la sua pipeline di generazione controllabile supporta la creazione di nuove istanze arbitrariamente complesse, rendendolo ideale per stressare i modelli di prossima generazione. Esperimenti iniziali con sistemi all'avanguardia — inclusi vari Gemini 2.5 Pro e OpenAI o3, che rappresentano i più potenti disponibili al momento, insieme a forti modelli open-source — rivelano significativi gap di prestazioni in tutte le categorie, con deficit particolarmente ampi nei compiti astratti e di pianificazione. Rilasciamo l'intero dataset, gli script di generazione e il sistema di valutazione per supportare una ricerca sul ragionamento multimodale trasparente, riproducibile e orientata al futuro.
La creazione di descrizioni audio di alta qualità e su larga scala è fondamentale per progredire nella comprensione dell'audio, tuttavia i metodi automatizzati attuali spesso generano descrizioni che mancano di dettagli fini e precisione contestuale, principalmente a causa della loro dipendenza da informazioni unimodali limitate o multimodali superficiali. Traendo ispirazione dalla percezione uditiva umana, che integra abilmente segnali cross-modali e svolge un'analisi sofisticata della scena uditiva, introduciamo una nuova pipeline automatizzata in due fasi. Questa pipeline utilizza inizialmente modelli pre-addestrati specializzati per estrarre indizi contestuali diversificati (ad esempio, discorso, musica, suoni generali e informazioni visive da video associati). Successivamente, un modello linguistico di grandi dimensioni (LLM) sintetizza questi input multimodali ricchi per generare descrizioni audio dettagliate e consapevoli del contesto. I contributi chiave di questo lavoro includono: (1) il metodo scalabile proposto per la generazione di descrizioni audio finemente dettagliate; (2) FusionAudio, un nuovo dataset su larga scala che comprende 1,2 milioni di tali descrizioni dettagliate, combinate con 6 milioni di coppie domanda-risposta; e (3) modelli audio potenziati sviluppati utilizzando FusionAudio, in particolare un codificatore audio basato su CLAP con un allineamento audio-testo superiore e una migliore capacità di seguire istruzioni. Questo articolo apre la strada a una comprensione automatizzata più sfumata e accurata di ambienti audio complessi. Codice e dati sono disponibili su https://github.com/satsuki2486441738/FusionAudio.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più potenti ma rimangono vulnerabili agli attacchi di iniezione di prompt, in cui input malevoli inducono il modello a deviare dalle istruzioni previste. Questo articolo introduce Sentinel, un nuovo modello di rilevamento, qualifire/prompt-injection-sentinel, basato sull'architettura \answerdotai/ModernBERT-large. Sfruttando le funzionalità avanzate di ModernBERT e un fine-tuning su un ampio e diversificato dataset che comprende alcune raccolte open-source e private, Sentinel raggiunge prestazioni all'avanguardia. Questo dataset combina vari tipi di attacchi, dal role-playing e il dirottamento delle istruzioni ai tentativi di generare contenuti distorti, insieme a un'ampia gamma di istruzioni benigne, con dataset privati specificamente mirati alla correzione di errori sfumati e a classificazioni errate del mondo reale. Su un set di test interno completo e non visto, Sentinel dimostra un'accuratezza media di 0,987 e un punteggio F1 di 0,980. Inoltre, quando valutato su benchmark pubblici, supera costantemente baseline robuste come protectai/deberta-v3-base-prompt-injection-v2. Questo lavoro descrive in dettaglio l'architettura di Sentinel, la sua accurata cura del dataset, la metodologia di addestramento e una valutazione approfondita, evidenziando le sue superiori capacità di rilevamento.
Presentiamo STARFlow, un modello generativo scalabile basato su flussi normalizzanti che raggiunge prestazioni elevate nella sintesi di immagini ad alta risoluzione. Il cuore di STARFlow è il Transformer Autoregressive Flow (TARFlow), che combina il potere espressivo dei flussi normalizzanti con le capacità di modellazione strutturata dei Transformer Autoregressivi. Iniziamo stabilendo l'universalità teorica di TARFlow per la modellazione di distribuzioni continue. Su questa base, introduciamo diverse innovazioni architetturali e algoritmiche chiave per migliorare significativamente la scalabilità: (1) un design deep-shallow, in cui un blocco Transformer profondo cattura la maggior parte della capacità rappresentativa del modello, affiancato da pochi blocchi Transformer superficiali che sono computazionalmente efficienti ma sostanzialmente vantaggiosi; (2) la modellazione nello spazio latente di autoencoder pre-addestrati, che si dimostra più efficace rispetto alla modellazione diretta a livello di pixel; e (3) un nuovo algoritmo di guida che migliora significativamente la qualità dei campioni. Fondamentalmente, il nostro modello rimane un flusso normalizzante end-to-end, consentendo un addestramento esatto a massima verosimiglianza in spazi continui senza discretizzazione. STARFlow raggiunge prestazioni competitive sia nei compiti di generazione di immagini condizionate alla classe che a testo, avvicinandosi ai modelli di diffusione all'avanguardia nella qualità dei campioni. A nostra conoscenza, questo lavoro rappresenta la prima dimostrazione riuscita di flussi normalizzanti che operano efficacemente a questa scala e risoluzione.
I modelli linguistici omni-modali (OLM) mirano a integrare e ragionare su diverse modalità di input—come testo, immagini, video e audio—mantenendo al contempo solide capacità linguistiche. Nonostante i recenti progressi, i modelli esistenti, in particolare quelli open-source, rimangono lontani da una vera omni-modalità, faticando a generalizzare oltre le coppie di modalità specifiche su cui sono addestrati o a ottenere prestazioni solide quando elaborano input multi-modali. Studiamo l'effetto dell'estensione della modalità, la tecnica dominante per l'addestramento di modelli multimodali, in cui un modello linguistico preesistente viene perfezionato su dati di dominio e linguaggio target. Nello specifico, indaghiamo tre questioni chiave: (1) L'estensione della modalità compromette le capacità linguistiche di base? (2) La fusione di modelli può integrare efficacemente modelli specifici per modalità addestrati in modo indipendente per raggiungere l'omni-modalità? (3) L'estensione omni-modale porta a una migliore condivisione e generalizzazione della conoscenza rispetto all'estensione sequenziale? Attraverso esperimenti estesi, analizziamo questi compromessi e forniamo approfondimenti sulla fattibilità di raggiungere una vera omni-modalità utilizzando approcci attuali.
Fornire trattamenti efficaci e prendere decisioni cliniche informate sono obiettivi fondamentali della medicina moderna e dell'assistenza clinica. Siamo interessati a simulare le dinamiche delle malattie per supportare il processo decisionale clinico, sfruttando i recenti progressi nei modelli generativi su larga scala. A tal fine, introduciamo il Medical World Model (MeWM), il primo modello di mondo in ambito medico che prevede visivamente gli stati futuri delle malattie in base alle decisioni cliniche. MeWM comprende (i) modelli visione-linguaggio che fungono da modelli di policy, e (ii) modelli generativi di tumori come modelli dinamici. Il modello di policy genera piani d'azione, come i trattamenti clinici, mentre il modello dinamico simula la progressione o la regressione del tumore in condizioni di trattamento specifiche. Sulla base di ciò, proponiamo il modello di dinamica inversa che applica l'analisi di sopravvivenza al tumore simulato post-trattamento, consentendo la valutazione dell'efficacia del trattamento e la selezione del piano d'azione clinico ottimale. Di conseguenza, il MeWM proposto simula le dinamiche delle malattie sintetizzando tumori post-trattamento, con una specificità all'avanguardia nei test di Turing valutati dai radiologi. Allo stesso tempo, il suo modello di dinamica inversa supera i GPT specializzati in medicina nell'ottimizzazione di protocolli di trattamento individualizzati in tutte le metriche. In particolare, MeWM migliora il processo decisionale clinico per i medici interventisti, aumentando l'F1-score nella selezione del protocollo TACE ottimale del 13%, aprendo la strada alla futura integrazione dei modelli di mondo medico come secondi lettori.
I modelli linguistici di grandi dimensioni con consapevolezza audio (ALLM) sono in grado di comprendere le informazioni testuali e non testuali presenti negli input audio. In questo articolo, esploriamo l'utilizzo degli ALLM come giudici automatici per valutare gli stili di eloquio nei discorsi. Utilizziamo giudici ALLM per valutare i discorsi generati da modelli linguistici parlati (SLM) in due compiti: il seguire istruzioni sullo stile vocale e il role-playing. Lo stile di eloquio che consideriamo include emozione, volume, ritmo del parlato, enfasi sulle parole, controllo del tono e elementi non verbali. Utilizziamo quattro modelli linguistici parlati (SLM) per completare i due compiti e impieghiamo sia valutatori umani che ALLM per giudicare le risposte degli SLM. Confrontiamo due giudici ALLM, GPT-4o-audio e Gemini-2.5-pro, con i risultati delle valutazioni umane e dimostriamo che l'accordo tra Gemini e i giudici umani è paragonabile all'accordo tra valutatori umani. Questi risultati promettenti mostrano che gli ALLM possono essere utilizzati come giudici per valutare gli SLM. I nostri risultati rivelano inoltre che gli SLM attuali, persino GPT-4o-audio, hanno ancora margine di miglioramento nel controllo dello stile di eloquio e nella generazione di dialoghi naturali.
L'IA per la gestione del ciclo di vita degli asset industriali mira ad automatizzare flussi di lavoro operativi complessi, come il monitoraggio delle condizioni, la pianificazione della manutenzione e la programmazione degli interventi, per ridurre il carico di lavoro umano e minimizzare i tempi di inattività del sistema. Gli approcci tradizionali di IA/ML hanno affrontato principalmente questi problemi in modo isolato, risolvendo compiti specifici all'interno del più ampio processo operativo. Al contrario, l'emergere di agenti IA e di modelli linguistici di grandi dimensioni (LLM) introduce un'opportunità di nuova generazione: abilitare l'automazione end-to-end lungo l'intero ciclo di vita degli asset. Questo articolo immagina un futuro in cui gli agenti IA gestiscono autonomamente compiti che in precedenza richiedevano competenze distinte e coordinamento manuale. A tal fine, introduciamo AssetOpsBench, un framework e un ambiente unificati progettati per guidare lo sviluppo, l'orchestrazione e la valutazione di agenti specifici per il dominio, adattati per applicazioni dell'Industria 4.0. Delineiamo i requisiti chiave per tali sistemi olistici e forniamo indicazioni pratiche per la costruzione di agenti che integrano percezione, ragionamento e controllo per operazioni industriali nel mondo reale. Il software è disponibile all'indirizzo https://github.com/IBM/AssetOpsBench.
Lo sviluppo dei moderni modelli di Intelligenza Artificiale (AI), in particolare i modelli basati su diffusione utilizzati nelle attività di visione artificiale e generazione di immagini, sta attraversando un cambiamento paradigmatico nelle metodologie di sviluppo. Tradizionalmente dominato da un approccio "Model Centric", in cui i miglioramenti delle prestazioni erano perseguiti principalmente attraverso architetture di modelli sempre più complesse e l'ottimizzazione degli iperparametri, il campo sta ora riconoscendo un approccio più sfumato e "Data-Centric". Questo quadro emergente mette in primo piano la qualità, la struttura e la rilevanza dei dati di addestramento come principali fattori trainanti delle prestazioni del modello. Per operazionalizzare questo cambio di paradigma, introduciamo il dataset campione DataSeeds.AI (il "DSD"), inizialmente composto da circa 10.610 immagini fotografiche di alta qualità classificate da pari umani e accompagnate da estese annotazioni multi-livello. Il DSD è un dataset fondamentale per la visione artificiale, progettato per introdurre un nuovo standard per i dataset di immagini commerciali. Rappresentando una piccola frazione del catalogo di oltre 100 milioni di immagini di DataSeed.AI, il DSD fornisce una base scalabile necessaria per uno sviluppo robusto dell'AI commerciale e multimodale. Attraverso questa analisi esplorativa approfondita, documentiamo i miglioramenti quantitativi generati dal DSD su modelli specifici rispetto a benchmark noti e rendiamo pubblicamente disponibili il codice e i modelli addestrati utilizzati nella nostra valutazione.
Percepire il mondo sia da una prospettiva egocentrica (in prima persona) che esocentrica (in terza persona) è fondamentale per la cognizione umana, consentendo una comprensione ricca e complementare degli ambienti dinamici. Negli ultimi anni, permettere alle macchine di sfruttare il potenziale sinergico di queste due prospettive è emerso come una direzione di ricerca convincente nel campo della comprensione video. In questa rassegna, forniamo una revisione completa della comprensione video sia dal punto di vista esocentrico che egocentrico. Iniziamo evidenziando le applicazioni pratiche dell'integrazione di tecniche egocentriche ed esocentriche, immaginando la loro potenziale collaborazione tra diversi domini. Identifichiamo poi le principali attività di ricerca necessarie per realizzare queste applicazioni. Successivamente, organizziamo e revisioniamo sistematicamente i recenti progressi in tre principali direzioni di ricerca: (1) sfruttare i dati egocentrici per migliorare la comprensione esocentrica, (2) utilizzare i dati esocentrici per migliorare l'analisi egocentrica, e (3) framework di apprendimento congiunto che uniscono entrambe le prospettive. Per ciascuna direzione, analizziamo una serie diversificata di compiti e lavori rilevanti. Inoltre, discutiamo i dataset di riferimento che supportano la ricerca in entrambe le prospettive, valutandone l'ambito, la diversità e l'applicabilità. Infine, discutiamo i limiti dei lavori attuali e proponiamo promettenti direzioni di ricerca future. Sintetizzando le intuizioni da entrambe le prospettive, il nostro obiettivo è ispirare progressi nella comprensione video e nell'intelligenza artificiale, avvicinando le macchine a una percezione del mondo simile a quella umana. Un repository GitHub di lavori correlati è disponibile all'indirizzo https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
I LLM sono destinati a trasformare l'assistenza sanitaria con supporti decisionali avanzati e assistenti chat flessibili. Tuttavia, i LLM tendono a generare contenuti medici inaccurati. Per ancorare i LLM a conoscenze mediche di alta qualità, sono stati dotati di conoscenze esterne tramite RAG, dove il sapere medico non strutturato viene suddiviso in piccoli frammenti di testo che possono essere selettivamente recuperati e integrati nel contesto dei LLM. Tuttavia, le pipeline RAG esistenti si basano su testi medici grezzi e non strutturati, che possono essere rumorosi, non curati e difficili da sfruttare efficacemente per i LLM. Manca generalmente un approccio sistematico per organizzare le conoscenze mediche in modo da renderle più accessibili ai LLM. Per affrontare queste sfide, introduciamo MIRIAD, un corpus su larga scala e curato di 5.821.948 coppie di domande e risposte mediche, ciascuna riformulata e basata su un passaggio tratto dalla letteratura medica peer-reviewed utilizzando una pipeline semi-automatizzata che combina generazione LLM, filtraggio, ancoraggio e annotazione umana. A differenza dei precedenti corpora medici, che si basano su testo non strutturato, MIRIAD incapsula conoscenze mediche su scala web in un formato operativo di query-risposta, che consente un recupero più mirato. Esperimenti su benchmark impegnativi di QA medica mostrano che l'arricchimento dei LLM con MIRIAD migliora l'accuratezza fino al 6,7% rispetto ai baseline RAG non strutturati con lo stesso corpus sorgente e con la stessa quantità di testo recuperato. Inoltre, MIRIAD ha migliorato la capacità dei LLM di rilevare allucinazioni mediche del 22,5-37% (aumento del punteggio F1). Introduciamo inoltre MIRIAD-Atlas, una mappa interattiva di MIRIAD che copre 56 discipline mediche, consentendo agli utenti clinici di esplorare, cercare e affinare visivamente le conoscenze mediche. MIRIAD promette di sbloccare una ricchezza di applicazioni downstream, inclusi sistemi di recupero di informazioni mediche, applicazioni RAG potenziate e interfacce chat basate sulla conoscenza, che alla fine consentono applicazioni LLM più affidabili nel settore sanitario.
La programmazione competitiva, grazie alla sua elevata difficoltà di ragionamento e al feedback preciso sulla correttezza, è diventata un compito chiave sia per l'addestramento che per la valutazione delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, sebbene sia disponibile una grande quantità di dati pubblici sui problemi, come descrizioni e soluzioni, i casi di test di questi problemi sono spesso difficili da ottenere. Pertanto, la generazione di casi di test è un compito necessario per la costruzione di dataset su larga scala, e la qualità dei casi di test determina direttamente l'accuratezza della valutazione. In questo articolo, introduciamo un sistema basato su agenti LLM che crea casi di test di alta qualità per problemi di programmazione competitiva. Applichiamo questo sistema al dataset CodeContests e proponiamo una nuova versione con casi di test migliorati, denominata CodeContests+. Abbiamo valutato la qualità dei casi di test in CodeContestsPlus. In primo luogo, abbiamo utilizzato 1,72 milioni di invii con etichette di passaggio/fallimento per esaminare l'accuratezza di questi casi di test nella valutazione. I risultati hanno indicato che CodeContests+ raggiunge un'accuratezza significativamente più elevata rispetto a CodeContests, in particolare con un tasso di veri positivi (TPR) notevolmente più alto. Successivamente, i nostri esperimenti nel Reinforcement Learning (RL) con LLM hanno ulteriormente confermato che i miglioramenti nella qualità dei casi di test apportano vantaggi considerevoli per l'RL.
La creazione di simulazioni fisiche accurate direttamente dal movimento di robot nel mondo reale riveste un grande valore per l'apprendimento robotico sicuro, scalabile ed economico, ma rimane estremamente impegnativa. I dati provenienti da robot reali sono affetti da occlusioni, pose della camera rumorose ed elementi dinamici della scena, che ostacolano la creazione di gemelli digitali geometricamente accurati e fotorealistici di oggetti non visti. Introduciamo un nuovo framework real-to-sim che affronta tutte queste sfide contemporaneamente. La nostra intuizione chiave è una rappresentazione ibrida della scena che unisce il rendering fotorealistico del 3D Gaussian Splatting con mesh esplicite di oggetti adatte per la simulazione fisica all'interno di una singola rappresentazione. Proponiamo una pipeline di ottimizzazione end-to-end che sfrutta il rendering differenziabile e la fisica differenziabile all'interno di MuJoCo per affinare congiuntamente tutti i componenti della scena - dalla geometria e dall'aspetto degli oggetti alle pose del robot e ai parametri fisici - direttamente da traiettorie robot grezze e imprecise. Questa ottimizzazione unificata ci permette di ottenere simultaneamente una ricostruzione ad alta fedeltà della mesh degli oggetti, generare nuove viste fotorealistiche e eseguire una calibrazione delle pose del robot senza annotazioni. Dimostriamo l'efficacia del nostro approccio sia in simulazione che su sequenze reali complesse utilizzando un manipolatore bi-manuale ALOHA 2, abilitando pipeline real-to-simulation più pratiche e robuste.
La manipolazione è da tempo un compito impegnativo per i robot, mentre gli esseri umani possono eseguire con facilità interazioni complesse con gli oggetti, come appendere una tazza sulla rastrelliera. Una ragione fondamentale è la mancanza di un dataset ampio e uniforme per insegnare ai robot le abilità di manipolazione. Gli attuali dataset robotici spesso registrano le azioni del robot in diversi spazi d'azione all'interno di una scena semplice. Ciò impedisce al robot di apprendere una rappresentazione d'azione unificata e robusta per diversi robot in scenari vari. Osservando come gli esseri umani comprendono un compito di manipolazione, notiamo che comprendere come gli oggetti dovrebbero muoversi nello spazio 3D è un indizio cruciale per guidare le azioni. Questo indizio è indipendente dall'incarnazione e adatto sia agli esseri umani che a diversi robot. Motivati da ciò, miriamo a imparare un modello di mondo del flusso 3D sia dai dati di manipolazione umana che robotica. Questo modello prevede il movimento futuro degli oggetti interagenti nello spazio 3D, guidando la pianificazione delle azioni per la manipolazione. Nello specifico, sintetizziamo un dataset su larga scala di flusso ottico 3D, denominato ManiFlow-110k, attraverso una pipeline di rilevamento automatico di oggetti in movimento. Un modello di mondo basato sulla diffusione video apprende quindi la fisica della manipolazione da questi dati, generando traiettorie di flusso ottico 3D condizionate da istruzioni linguistiche. Con il flusso ottico 3D generato, proponiamo un meccanismo di rendering guidato dal flusso, che rende lo stato finale previsto e utilizza GPT-4o per valutare se il flusso previsto è allineato con la descrizione del compito. Ciò fornisce al robot un'abilità di pianificazione a ciclo chiuso. Infine, consideriamo il flusso ottico 3D previsto come vincoli per una politica di ottimizzazione per determinare una serie di azioni del robot per la manipolazione. Esperimenti estensivi dimostrano una forte generalizzazione attraverso diversi compiti di manipolazione robotica e un adattamento affidabile tra diverse incarnazioni senza addestramento specifico per l'hardware.
I Large Multimodal Models (LMM) hanno ottenuto progressi impressionanti nella percezione visiva e nel ragionamento. Tuttavia, quando si confrontano con testo di scena visivamente ambiguo o non semantico, spesso faticano a individuare e comprendere accuratamente il contenuto, generando frequentemente risposte semanticamente plausibili ma visivamente errate, un fenomeno che definiamo come allucinazione semantica. In questo lavoro, indaghiamo le cause sottostanti dell'allucinazione semantica e identifichiamo un risultato chiave: i livelli Transformer nei LLM con un'attenzione più forte sulle regioni di testo di scena sono meno inclini a produrre allucinazioni semantiche. Pertanto, proponiamo un framework di mitigazione dell'allucinazione semantica senza necessità di addestramento, composto da due componenti principali: (1) ZoomText, una strategia da grossolana a fine che identifica potenziali regioni di testo senza l'uso di rilevatori esterni; e (2) Grounded Layer Correction, che sfrutta in modo adattivo le rappresentazioni interne provenienti da livelli meno inclini all'allucinazione per guidare la decodifica, correggendo gli output allucinati per campioni non semantici preservando al contempo la semantica di quelli significativi. Per consentire una valutazione rigorosa, introduciamo TextHalu-Bench, un benchmark di oltre 1.730 campioni che coprono sia casi semantici che non semantici, con coppie domanda-risposta curate manualmente progettate per sondare le allucinazioni del modello. Esperimenti estensivi dimostrano che il nostro metodo non solo mitiga efficacemente l'allucinazione semantica, ma raggiunge anche prestazioni solide su benchmark pubblici per l'individuazione e la comprensione del testo di scena.
I rapidi progressi nei Large Language Model (LLM) stanno alimentando lo sviluppo di sistemi multi-agente (MAS) autonomi. Tuttavia, gli attuali framework spesso mancano di flessibilità, consapevolezza delle risorse, diversità dei modelli e creazione autonoma di strumenti. Questo articolo introduce HASHIRU (Hierarchical Agent System for Hybrid Intelligent Resource Utilization), un nuovo framework MAS che migliora flessibilità, efficienza delle risorse e adattabilità. HASHIRU include un agente "CEO" che gestisce dinamicamente agenti specializzati "dipendenti", istanziati in base alle esigenze del task e ai vincoli di risorse (costo, memoria). La sua intelligenza ibrida privilegia LLM più piccoli e locali (tramite Ollama) utilizzando in modo flessibile API esterne e modelli più grandi quando necessario. Un modello economico con costi di assunzione/licenziamento promuove la stabilità del team e un'allocazione efficiente delle risorse. Il sistema include anche la creazione autonoma di strumenti API e una funzione di memoria. Le valutazioni su task come la revisione di articoli accademici (58% di successo), valutazioni di sicurezza (100% su un sottoinsieme di JailbreakBench) e ragionamento complesso (superando Gemini 2.0 Flash su GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68.3%; SVAMP: 92% vs. 84%) dimostrano le capacità di HASHIRU. Studi di caso illustrano il suo miglioramento autonomo tramite generazione di modelli di costo, integrazione di strumenti e gestione del budget. HASHIRU offre un approccio promettente per MAS più robusti, efficienti e adattabili attraverso controllo gerarchico dinamico, intelligenza ibrida consapevole delle risorse ed estensione funzionale autonoma. Il codice sorgente e i benchmark sono disponibili rispettivamente su https://github.com/HASHIRU-AI/HASHIRU e https://github.com/HASHIRU-AI/HASHIRUBench, e una demo live è disponibile su https://hashiruagentx-hashiruai.hf.space su richiesta.
I recenti progressi nel ragionamento AI hanno portato a sostanziali miglioramenti in una vasta gamma di compiti. Una questione aperta cruciale è se questi miglioramenti comportino anche un migliore trasferimento di conoscenza: la capacità dei modelli di comunicare il ragionamento in modi che gli esseri umani possano comprendere, applicare e apprendere. Per indagare ciò, introduciamo Knowledge Integration and Transfer Evaluation (KITE), un framework concettuale e sperimentale per le capacità di trasferimento di conoscenza tra Umani e AI, e conduciamo il primo studio su larga scala (N=118) esplicitamente progettato per misurarlo. Nel nostro setup a due fasi, gli esseri umani prima collaborano con un'AI per ideare strategie di risoluzione dei problemi, poi implementano soluzioni in modo indipendente, isolando l'influenza delle spiegazioni del modello sulla comprensione umana. I nostri risultati rivelano che, sebbene le prestazioni dei modelli nei benchmark siano correlate con gli esiti collaborativi, questa relazione è notevolmente incoerente, presentando significativi outlier, indicando che il trasferimento di conoscenza richiede un'ottimizzazione dedicata. La nostra analisi identifica fattori comportamentali e strategici che mediano il successo del trasferimento di conoscenza. Rilasciamo il nostro codice, dataset e framework di valutazione per supportare futuri lavori su modelli allineati comunicativamente.
Group Relative Policy Optimization (GRPO) migliora l'apprendimento delle politiche calcolando i gradienti da confronti relativi tra output candidati che condividono un prefisso di input comune. Nonostante la sua efficacia, GRPO introduce un sovraccarico computazionale significativo quando elabora prefissi condivisi lunghi, che devono essere codificati in modo ridondante per ogni membro del gruppo. Questa inefficienza diventa un collo di bottiglia importante per la scalabilità negli scenari di apprendimento con contesti lunghi. Proponiamo Prefix Grouper, un algoritmo di addestramento GRPO efficiente che elimina il calcolo ridondante del prefisso attraverso una strategia di Shared-Prefix Forward. In particolare, ristrutturando l'auto-attenzione in due parti, il nostro metodo consente di codificare il prefisso condiviso una sola volta, preservando al contempo la completa differenziabilità e la compatibilità con l'addestramento end-to-end. Forniamo sia prove teoriche che empiriche che Prefix Grouper è equivalente in addestramento al GRPO standard: produce output in avanti e gradienti all'indietro identici, garantendo che le dinamiche di ottimizzazione e le prestazioni finali della politica rimangano invariate. Empiricamente, i nostri esperimenti confermano che Prefix Grouper ottiene risultati consistenti riducendo significativamente il costo computazionale dell'addestramento, specialmente negli scenari con prefissi lunghi. Il metodo proposto è completamente plug-and-play: è compatibile con le architetture basate su GRPO esistenti e può essere integrato senza soluzione di continuità nelle pipeline di addestramento attuali come sostituzione diretta, senza richiedere modifiche strutturali e solo minimi cambiamenti alla costruzione dell'input e al calcolo dell'attenzione. Prefix Grouper consente l'uso di dimensioni di gruppo maggiori a parità di budget computazionale, migliorando così la scalabilità di GRPO per compiti più complessi e modelli più grandi. Il codice è ora disponibile all'indirizzo https://github.com/johncaged/PrefixGrouper.
I sistemi di Information Extraction (IE) sono tradizionalmente specifici per dominio, richiedendo un adattamento costoso che include la progettazione di schemi da parte di esperti, l'annotazione dei dati e l'addestramento del modello. Sebbene i Large Language Models abbiano mostrato potenziale nell'IE zero-shot, le prestazioni si degradano significativamente in domini non visti dove le definizioni delle etichette differiscono. Questo articolo introduce GUIDEX, un metodo innovativo che definisce automaticamente schemi specifici per dominio, inferisce linee guida e genera istanze etichettate sinteticamente, consentendo una migliore generalizzazione fuori dal dominio. Il fine-tuning di Llama 3.1 con GUIDEX stabilisce un nuovo stato dell'arte su sette benchmark zero-shot di Named Entity Recognition. I modelli addestrati con GUIDEX guadagnano fino a 7 punti F1 rispetto ai metodi precedenti senza dati etichettati manualmente, e quasi 2 punti F1 in più quando combinati con essi. I modelli addestrati su GUIDEX dimostrano una migliore comprensione di schemi di annotazione complessi e specifici per dominio. Codice, modelli e dataset sintetici sono disponibili su neilus03.github.io/guidex.com.
I modelli spazio-stato (SSM) offrono un'architettura promettente per la modellazione di sequenze, fornendo un'alternativa ai Transformer sostituendo il costoso self-attention con ricorrenze lineari. In questo articolo, proponiamo un semplice ma efficace stratagemma per migliorare gli SSM entro determinati budget computazionali attraverso la loro sparsificazione. La nostra intuizione è che i token negli SSM siano altamente ridondanti a causa degli aggiornamenti ricorrenti graduali, e che le operazioni di ricorrenza dense ostacolino il passaggio delle informazioni passate. In particolare, osserviamo che gli strati superiori degli SSM tendono a essere più ridondanti poiché codificano informazioni globali, mentre gli strati inferiori codificano informazioni locali. Motivati da ciò, introduciamo Simba, un metodo di sparsificazione gerarchica per gli SSM basato sulla potatura dei token. Simba sparsifica maggiormente gli strati superiori rispetto a quelli inferiori, incoraggiando gli strati superiori a comportarsi come autostrade. Per raggiungere questo obiettivo, proponiamo un nuovo criterio di potatura dei token per gli SSM, che misura l'impatto globale dei token sull'output finale accumulando le ricorrenze locali. Dimostriamo che Simba supera il modello di riferimento, Mamba, con lo stesso numero di FLOPS in vari compiti di elaborazione del linguaggio naturale. Inoltre, illustriamo l'effetto delle autostrade, mostrando che Simba non solo migliora l'efficienza, ma anche il flusso di informazioni attraverso sequenze lunghe. Il codice è disponibile all'indirizzo https://github.com/woominsong/Simba.