Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli di ragionamento (LRM) possiedono già una capacità latente per ragionamenti a catena lunga. Ricerche precedenti hanno dimostrato che il reinforcement learning (RL) basato sui risultati può incidentalmente elicitare comportamenti di ragionamento avanzati come l'autocorrezione, il backtracking e fenomeni di verifica spesso definiti come il "momento eureka" del modello. Tuttavia, il tempismo e la consistenza di questi comportamenti emergenti rimangono imprevedibili e incontrollabili, limitando la scalabilità e l'affidabilità delle capacità di ragionamento dei LRM. Per affrontare queste limitazioni, andiamo oltre la dipendenza da prompt e "momenti eureka" casuali. Invece, allineiamo esplicitamente i modelli con tre meta-abilità: deduzione, induzione e abduzione, utilizzando task generati automaticamente e auto-verificabili. La nostra pipeline a tre fasi—allineamento individuale, fusione nello spazio dei parametri e reinforcement learning specifico per dominio—migliora le prestazioni di oltre il 10% rispetto ai baseline ottimizzati con istruzioni. Inoltre, il RL specifico per dominio a partire dal checkpoint allineato produce un ulteriore guadagno medio del 2% nel tetto delle prestazioni su benchmark di matematica, programmazione e scienze, dimostrando che l'allineamento esplicito delle meta-abilità offre una base scalabile e affidabile per il ragionamento. Il codice è disponibile all'indirizzo: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
È comunemente ritenuto che il ridimensionamento dei modelli linguistici comporti un significativo costo in termini di spazio o tempo, aumentando i parametri (ridimensionamento dei parametri) o i token di output (ridimensionamento al momento dell'inferenza). Introduciamo il terzo e più efficiente paradigma di ridimensionamento: l'aumento del calcolo parallelo del modello sia durante l'addestramento che al momento dell'inferenza. Applichiamo P trasformazioni diverse e apprendibili all'input, eseguiamo passaggi in avanti del modello in parallelo e aggregiamo dinamicamente gli P output. Questo metodo, denominato ridimensionamento parallelo (ParScale), scala il calcolo parallelo riutilizzando i parametri esistenti e può essere applicato a qualsiasi struttura del modello, procedura di ottimizzazione, dati o task. Teoricamente, proponiamo una nuova legge di ridimensionamento e la validiamo attraverso un pre-addestramento su larga scala, che dimostra che un modello con P flussi paralleli è simile al ridimensionamento dei parametri di O(log P) mostrando al contempo una superiore efficienza di inferenza. Ad esempio, ParScale può utilizzare fino a 22 volte meno aumento di memoria e 6 volte meno aumento della latenza rispetto al ridimensionamento dei parametri che raggiunge lo stesso miglioramento delle prestazioni. Può anche riciclare un modello pre-addestrato disponibile in commercio in uno ridimensionato parallelmente mediante post-addestramento su una piccola quantità di token, riducendo ulteriormente il budget di addestramento. La nuova legge di ridimensionamento che abbiamo scoperto facilita potenzialmente la distribuzione di modelli più potenti in scenari a basso contenuto di risorse e fornisce una prospettiva alternativa sul ruolo del calcolo nell'apprendimento automatico.
I Large Language Models (LLM) hanno dimostrato capacità straordinarie, con l'ottimizzazione dei prompt di input che svolge un ruolo cruciale nel massimizzarne le prestazioni. Tuttavia, sebbene i prompt degli LLM siano composti sia da prompt di sistema indipendenti dal compito che da prompt utente specifici per il compito, il lavoro esistente sull'ottimizzazione dei prompt si è concentrato sui prompt utente relativi a singole query o compiti, trascurando in larga misura il prompt di sistema che, una volta ottimizzato, è applicabile a diversi compiti e domini. Motivati da ciò, introduciamo il nuovo problema dell'ottimizzazione bilivello del prompt di sistema, il cui obiettivo è progettare prompt di sistema robusti rispetto a diversi prompt utente e trasferibili a compiti non visti. Per affrontare questo problema, proponiamo quindi un framework di meta-apprendimento, che meta-apprende il prompt di sistema ottimizzandolo su vari prompt utente attraverso più dataset, aggiornando contemporaneamente i prompt utente in modo iterativo per garantire sinergia tra di essi. Condividiamo esperimenti su 14 dataset non visti che coprono 5 domini diversi, dimostrando che il nostro approccio produce prompt di sistema che si generalizzano efficacemente a diversi prompt utente. Inoltre, i nostri risultati rivelano che il prompt di sistema ottimizzato consente un rapido adattamento anche a compiti non visti, richiedendo meno passaggi di ottimizzazione per i prompt utente al momento del test e ottenendo prestazioni migliorate.
Mentre gli esseri umani possono sfruttare in modo flessibile la cognizione visiva interattiva per risolvere problemi complessi, abilitare i Modelli Linguistico-Visuali di Grande Scala (LVLM) a imparare comportamenti adattivi simili con strumenti visivi rimane una sfida. Un ostacolo significativo è l'attuale mancanza di infrastrutture standardizzate, che ostacola l'integrazione di strumenti diversificati, la generazione di dati di interazione ricchi e l'addestramento efficace di agenti robusti. Per colmare queste lacune, introduciamo OpenThinkIMG, il primo framework open-source, completo e end-to-end per LVLM potenziati da strumenti. Esso presenta interfacce standardizzate per strumenti visivi, generazione scalabile di traiettorie per l'inizializzazione delle politiche e un ambiente di addestramento flessibile. Inoltre, considerando che l'ottimizzazione supervisionata (SFT) su dimostrazioni statiche offre una generalizzazione limitata delle politiche per l'invocazione dinamica di strumenti, proponiamo un nuovo framework di apprendimento per rinforzo (RL) chiamato V-ToolRL per addestrare gli LVLM a imparare politiche adattive per l'invocazione di strumenti visivi esterni. V-ToolRL consente agli LVLM di scoprire autonomamente strategie ottimali di utilizzo degli strumenti ottimizzando direttamente per il successo del compito utilizzando il feedback dalle interazioni con gli strumenti. Validiamo empiricamente V-ToolRL su compiti impegnativi di ragionamento su grafici. Il nostro agente addestrato con RL, basato su un Qwen2-VL-2B, supera significativamente la sua controparte inizializzata con SFT (+28,83 punti) e supera i benchmark stabiliti per l'apprendimento supervisionato con strumenti come Taco e CogCom di una media di +12,7 punti. Inoltre, supera anche modelli closed-source di rilievo come GPT-4.1 di +8,68 punti di accuratezza. Speriamo che OpenThinkIMG possa servire come framework di base per avanzare il ragionamento visivo dinamico potenziato da strumenti, aiutando la comunità a sviluppare agenti di IA che possano veramente "pensare con le immagini".
Motivati dalle leggi di scala nel modeling linguistico che dimostrano come la perdita in fase di test si riduca seguendo una legge di potenza con l'aumento delle dimensioni del modello e del dataset, scopriamo che leggi simili esistono nel modeling delle preferenze. Proponiamo il World Preference Modeling (WorldPM) per enfatizzare questo potenziale di scala, dove World Preference rappresenta una rappresentazione unificata delle preferenze umane. In questo articolo, raccogliamo dati sulle preferenze da forum pubblici che coprono diverse comunità di utenti e conduciamo un ampio addestramento utilizzando dati su scala 15M su modelli che vanno da 1,5B a 72B parametri. Osserviamo modelli distinti attraverso diverse metriche di valutazione: (1) Le metriche avversarie (capacità di identificare caratteristiche ingannevoli) aumentano costantemente con l'aumento dei dati di addestramento e delle dimensioni del modello di base; (2) Le metriche oggettive (conoscenza oggettiva con risposte ben definite) mostrano comportamenti emergenti nei modelli linguistici più grandi, evidenziando il potenziale di scalabilità del WorldPM; (3) Le metriche soggettive (preferenze soggettive da un numero limitato di umani o AI) non dimostrano tendenze di scala. Ulteriori esperimenti convalidano l'efficacia del WorldPM come base per il fine-tuning delle preferenze. Attraverso valutazioni su 7 benchmark con 20 sottotask, scopriamo che il WorldPM migliora ampiamente le prestazioni di generalizzazione su dataset di preferenze umane di dimensioni variabili (7K, 100K e 800K campioni), con guadagni di prestazioni superiori al 5% su molti sottotask chiave. Integrando il WorldPM nella nostra pipeline interna RLHF, osserviamo miglioramenti significativi sia sui set di valutazione interni che su quelli pubblici, con guadagni notevoli dal 4% all'8% nelle nostre valutazioni interne.
La catena di ragionamento (CoT) è un elemento essenziale per un utilizzo efficace dei moderni modelli linguistici di grandi dimensioni, ma la nostra comprensione delle strategie di ragionamento alla base di queste capacità rimane limitata. Sebbene alcuni lavori precedenti abbiano tentato di categorizzare le CoT utilizzando tipi di strategie predefiniti, tali approcci sono vincolati dall'intuizione umana e non riescono a cogliere la piena diversità dei comportamenti del modello. In questo lavoro, introduciamo l'Enciclopedia delle CoT, un framework bottom-up per analizzare e orientare il ragionamento del modello. Il nostro metodo estrae automaticamente criteri di ragionamento diversificati dalle CoT generate dal modello, li incorpora in uno spazio semantico, li raggruppa in categorie rappresentative e deriva rubriche contrastive per interpretare il comportamento di ragionamento. Le valutazioni umane dimostrano che questo framework produce analisi più interpretabili e complete rispetto ai metodi esistenti. Inoltre, dimostriamo che questa comprensione consente miglioramenti delle prestazioni: possiamo prevedere quale strategia è probabile che un modello utilizzi e guidarlo verso alternative più efficaci. Infine, forniamo intuizioni pratiche, come il fatto che il formato dei dati di addestramento (ad esempio, libero rispetto a scelta multipla) ha un impatto molto maggiore sul comportamento di ragionamento rispetto al dominio dei dati, sottolineando l'importanza di un design del modello consapevole del formato.
Il progresso dell'IA è limitato dalla qualità della valutazione, e i potenti modelli LLM-as-a-Judge si sono dimostrati una soluzione fondamentale. Una migliore capacità di giudizio è abilitata da un ragionamento a catena di pensiero più robusto, motivando la necessità di trovare le migliori strategie per addestrare tali modelli a pensare. In questo lavoro introduciamo J1, un approccio di apprendimento per rinforzo per l'addestramento di tali modelli. Il nostro metodo converte sia prompt verificabili che non verificabili in compiti di giudizio con ricompense verificabili che incentivano il pensiero e mitigano i pregiudizi di giudizio. In particolare, il nostro approccio supera tutti gli altri modelli esistenti da 8B o 70B quando addestrato a queste dimensioni, inclusi i modelli distillati da DeepSeek-R1. J1 supera anche o1-mini e persino R1 su alcuni benchmark, nonostante addestri un modello più piccolo. Forniamo analisi e ablazioni confrontando i modelli Pairwise-J1 vs Pointwise-J1, le ricette di addestramento offline vs online, le strategie di ricompensa, i prompt iniziali e le variazioni nella lunghezza e nel contenuto del pensiero. Scopriamo che i nostri modelli formulano giudizi migliori imparando a delineare i criteri di valutazione, confrontandosi con risposte di riferimento auto-generate e rivalutando la correttezza delle risposte del modello.
L'apprendimento per imitazione robotica è progredito dalla risoluzione di compiti statici alla gestione di scenari di interazione dinamica, ma i test e la valutazione rimangono costosi e impegnativi a causa della necessità di interazione in tempo reale con ambienti dinamici. Proponiamo EnerVerse-AC (EVAC), un modello di mondo condizionato all'azione che genera osservazioni visive future basandosi sulle azioni previste di un agente, consentendo un'inferenza robotica realistica e controllabile. Basandosi su architetture precedenti, EVAC introduce un meccanismo di condizionamento all'azione multi-livello e una codifica della mappa a raggi per la generazione dinamica di immagini multi-vista, ampliando contemporaneamente i dati di allenamento con traiettorie di fallimento diverse per migliorare la generalizzazione. Sia come motore di dati che come valutatore, EVAC amplia le traiettorie raccolte dagli esseri umani in dataset diversificati e genera osservazioni video realistiche e condizionate all'azione per il test delle politiche, eliminando la necessità di robot fisici o simulazioni complesse. Questo approccio riduce significativamente i costi mantenendo un'elevata fedeltà nella valutazione della manipolazione robotica. Esperimenti estesi validano l'efficacia del nostro metodo. Codice, checkpoint e dataset sono disponibili su <https://annaj2178.github.io/EnerverseAC.github.io>.
L'attuale tokenizzazione visiva isola l'ottimizzazione dei tokenizzatori visivi dall'addestramento a valle, assumendo implicitamente che i token visivi possano generalizzarsi bene attraverso vari compiti, come la generazione di immagini e il question answering visivo. Il tokenizzatore visivo ottimizzato per la ricostruzione di basso livello è agnostico rispetto ai compiti a valle che richiedono rappresentazioni e semantiche variate. Questo paradigma disaccoppiato introduce un disallineamento critico: la perdita nella tokenizzazione visiva può rappresentare un collo di bottiglia per i compiti target. Ad esempio, errori nella tokenizzazione del testo in una determinata immagine portano a risultati scarsi quando si cerca di riconoscerlo o generarlo. Per affrontare questo problema, proponiamo ETT, un approccio di ottimizzazione end-to-end del tokenizzatore visivo che consente l'ottimizzazione congiunta tra la tokenizzazione visiva e i compiti autoregressivi target. A differenza dei precedenti modelli autoregressivi che utilizzano solo indici discreti da un tokenizzatore visivo congelato, ETT sfrutta gli embedding visivi del codebook del tokenizzatore e ottimizza i tokenizzatori visivi end-to-end con obiettivi sia di ricostruzione che di generazione di didascalie. ETT può essere integrato senza soluzione di continuità nelle pipeline di addestramento esistenti con modifiche minime all'architettura. Il nostro ETT è semplice da implementare e integrare, senza la necessità di modificare i codebook originali o le architetture dei grandi modelli linguistici impiegati. Esperimenti estensivi dimostrano che la nostra proposta di ottimizzazione end-to-end del tokenizzatore visivo sblocca significativi miglioramenti delle prestazioni, ad esempio, del 2-6% per i compiti di comprensione multimodale e generazione visiva rispetto ai baseline con tokenizzatore congelato, preservando al contempo la capacità di ricostruzione originale. Speriamo che questo metodo molto semplice ed efficace possa potenziare i modelli fondazionali multimodali oltre alla generazione e comprensione di immagini.
I recenti progressi nell'IA creativa hanno reso possibile la sintesi di immagini e video ad alta fedeltà condizionati da istruzioni linguistiche. Sulla base di questi sviluppi, i modelli di diffusione testo-video si sono evoluti in modelli di mondo incarnati (EWM, Embodied World Models) in grado di generare scene fisicamente plausibili da comandi linguistici, colmando efficacemente il divario tra visione e azione nelle applicazioni di IA incarnata. Questo lavoro affronta la sfida cruciale di valutare gli EWM oltre le metriche percettive generali, per garantire la generazione di comportamenti fisicamente fondati e coerenti con l'azione. Proponiamo l'Embodied World Model Benchmark (EWMBench), un framework dedicato progettato per valutare gli EWM in base a tre aspetti chiave: coerenza della scena visiva, correttezza del movimento e allineamento semantico. Il nostro approccio si avvale di un dataset accuratamente curato che comprende scene e pattern di movimento diversificati, insieme a un toolkit di valutazione multidimensionale completo, per valutare e confrontare i modelli candidati. Il benchmark proposto non solo identifica i limiti dei modelli esistenti di generazione video nel soddisfare i requisiti unici dei task incarnati, ma fornisce anche preziose indicazioni per guidare i futuri progressi nel campo. Il dataset e gli strumenti di valutazione sono disponibili pubblicamente all'indirizzo https://github.com/AgibotTech/EWMBench.
Presentiamo MLE-Dojo, un framework in stile Gym per l'apprendimento per rinforzo sistematico, la valutazione e il miglioramento di agenti autonomi basati su grandi modelli linguistici (LLM) all'interno di flussi di lavoro iterativi di ingegneria del machine learning (MLE). A differenza dei benchmark esistenti che si basano principalmente su dataset statici o valutazioni a singolo tentativo, MLE-Dojo fornisce un ambiente interattivo che consente agli agenti di sperimentare, debuggare e affinare le soluzioni in modo iterativo attraverso cicli di feedback strutturati. Basato su oltre 200 sfide real-world di Kaggle, MLE-Dojo copre una vasta gamma di task MLE aperti e diversificati, accuratamente selezionati per riflettere scenari ingegneristici realistici come l'elaborazione dei dati, la ricerca di architetture, l'ottimizzazione degli iperparametri e il debugging del codice. Il suo ambiente completamente eseguibile supporta un addestramento completo degli agenti sia tramite fine-tuning supervisionato che apprendimento per rinforzo, facilitando la sperimentazione iterativa, il campionamento realistico dei dati e la verifica in tempo reale dei risultati. Valutazioni estensive su otto LLM all'avanguardia rivelano che, sebbene i modelli attuali raggiungano miglioramenti iterativi significativi, presentano ancora limitazioni rilevanti nella generazione autonoma di soluzioni a lungo termine e nella risoluzione efficiente di errori complessi. Inoltre, l'architettura flessibile ed estensibile di MLE-Dojo integra senza soluzione di continuità diverse fonti di dati, strumenti e protocolli di valutazione, abilitando in modo unico il tuning degli agenti basati su modelli e promuovendo interoperabilità, scalabilità e riproducibilità. Rendiamo open-source il nostro framework e i benchmark per favorire l'innovazione guidata dalla comunità verso la prossima generazione di agenti MLE.
Questo articolo introduce Unilogit, un nuovo metodo di auto-distillazione per il machine unlearning nei Large Language Models. Unilogit affronta la sfida di dimenticare selettivamente informazioni specifiche mantenendo l'utilità complessiva del modello, un compito cruciale per conformarsi a normative sulla privacy dei dati come il GDPR. A differenza dei metodi precedenti che si basano su iperparametri statici o sugli output iniziali del modello, Unilogit regola dinamicamente i logit target per ottenere una probabilità uniforme per il token target, sfruttando gli output correnti del modello per ottenere target di auto-distillazione più accurati. Questo approccio non solo elimina la necessità di iperparametri aggiuntivi, ma migliora anche la capacità del modello di approssimare i target ideali. Esperimenti estesi su benchmark pubblici e su un dataset interno di e-commerce dimostrano la performance superiore di Unilogit nel bilanciare gli obiettivi di dimenticare e mantenere, superando metodi all'avanguardia come NPO e UnDIAL. La nostra analisi rivela inoltre la robustezza di Unilogit in vari scenari, evidenziandone l'applicabilità pratica e l'efficacia nel raggiungere un machine unlearning efficace.
Le Scalable Vector Graphics (SVG) sono molto apprezzate dai designer grazie alla loro indipendenza dalla risoluzione e alla struttura dei livelli ben organizzata. Sebbene i metodi esistenti di generazione da testo a vettoriale (T2V) possano creare SVG a partire da prompt testuali, spesso trascurano un'esigenza importante nelle applicazioni pratiche: la personalizzazione dello stile, che è fondamentale per produrre una raccolta di grafiche vettoriali con un aspetto visivo coerente e un'estetica armoniosa. Estendere i metodi T2V esistenti per la personalizzazione dello stile presenta alcune sfide. I modelli T2V basati sull'ottimizzazione possono sfruttare i priori dei modelli da testo a immagine (T2I) per la personalizzazione, ma faticano a mantenere la regolarità strutturale. D'altra parte, i modelli T2V feed-forward possono garantire la regolarità strutturale, ma incontrano difficoltà nel separare contenuto e stile a causa dei dati di addestramento SVG limitati. Per affrontare queste sfide, proponiamo una nuova pipeline di personalizzazione dello stile in due fasi per la generazione di SVG, sfruttando i vantaggi sia dei modelli T2V feed-forward che dei priori delle immagini T2I. Nella prima fase, addestriamo un modello di diffusione T2V con una rappresentazione a livello di percorso per garantire la regolarità strutturale delle SVG preservando al contempo capacità espressive diversificate. Nella seconda fase, personalizziamo il modello di diffusione T2V per diversi stili distillando modelli T2I personalizzati. Integrando queste tecniche, la nostra pipeline può generare SVG di alta qualità e diversificate in stili personalizzati basati su prompt testuali in modo efficiente e feed-forward. L'efficacia del nostro metodo è stata validata attraverso esperimenti estensivi. La pagina del progetto è https://customsvg.github.io.
Il pointing rappresenta un meccanismo fondamentale e intuitivo per ancorare il linguaggio ai contesti visivi, con applicazioni che spaziano dalla robotica alle tecnologie assistive e ai sistemi di IA interattivi. Sebbene i recenti modelli multimodali abbiano iniziato a supportare capacità di pointing, i benchmark esistenti si concentrano tipicamente solo su compiti di localizzazione referenziale di oggetti. Introduciamo PointArena, una piattaforma completa per valutare il pointing multimodale in diversi scenari di ragionamento. PointArena comprende tre componenti: (1) Point-Bench, un dataset curato contenente circa 1.000 task di pointing suddivisi in cinque categorie di ragionamento; (2) Point-Battle, un'arena interattiva basata sul web che facilita confronti ciechi e a coppie tra modelli, che ha già raccolto oltre 4.500 voti anonimi; e (3) Point-Act, un sistema di manipolazione robotica nel mondo reale che consente agli utenti di valutare direttamente le capacità di pointing dei modelli multimodali in contesti pratici. Abbiamo condotto valutazioni estese sia sui modelli multimodali open-source all'avanguardia che su quelli proprietari. I risultati indicano che Molmo-72B supera costantemente gli altri modelli, sebbene i modelli proprietari dimostrino prestazioni sempre più comparabili. Inoltre, abbiamo riscontrato che l'addestramento supervisionato specificamente mirato ai task di pointing migliora significativamente le prestazioni del modello. Attraverso la nostra pipeline di valutazione multi-stadio, abbiamo anche osservato forti correlazioni, sottolineando il ruolo cruciale delle capacità di pointing precise nel consentire ai modelli multimodali di collegare efficacemente il ragionamento astratto con azioni concrete nel mondo reale. Pagina del progetto: https://pointarena.github.io/
Questo lavoro presenta Prior Depth Anything, un framework che combina informazioni metriche incomplete ma precise nella misurazione della profondità con strutture geometriche relative ma complete nella predizione della profondità, generando mappe metriche della profondità accurate, dense e dettagliate per qualsiasi scena. A tal fine, progettiamo una pipeline a granularità crescente per integrare progressivamente le due fonti complementari di profondità. In primo luogo, introduciamo un allineamento metrico a livello di pixel e una ponderazione basata sulla distanza per pre-riempire diversi prior metrici utilizzando esplicitamente la predizione della profondità. Ciò riduce efficacemente il divario di dominio tra i pattern precedenti, migliorando la generalizzazione in vari scenari. In secondo luogo, sviluppiamo un modello di stima della profondità monoculare (MDE) condizionato per affinare il rumore intrinseco dei prior di profondità. Condizionando sul prior pre-riempito normalizzato e sulla predizione, il modello unisce ulteriormente in modo implicito le due fonti complementari di profondità. Il nostro modello dimostra un'impressionante generalizzazione zero-shot attraverso il completamento della profondità, la super-risoluzione e l'inpainting su 7 dataset del mondo reale, eguagliando o addirittura superando i precedenti metodi specifici per ogni task. Ancora più importante, si comporta bene su prior misti e non visti, e consente miglioramenti al momento del test cambiando i modelli di predizione, offrendo un compromesso flessibile tra accuratezza ed efficienza mentre evolve con i progressi nei modelli MDE.
Questo studio distingue in modo critico tra Agenti AI e AI Agente, offrendo una tassonomia concettuale strutturata, una mappatura delle applicazioni e un'analisi delle sfide per chiarire le loro filosofie progettuali e capacità divergenti. Iniziamo delineando la strategia di ricerca e le definizioni fondamentali, caratterizzando gli Agenti AI come sistemi modulari guidati da Modelli Linguistici di Grande Scala (LLM) e Modelli di Immagine di Grande Scala (LIM) per l'automazione specifica di compiti. L'AI Generativa è posizionata come precursore, con gli Agenti AI che avanzano attraverso l'integrazione di strumenti, l'ingegneria dei prompt e il miglioramento del ragionamento. Al contrario, i sistemi di AI Agente rappresentano un cambiamento paradigmatico caratterizzato dalla collaborazione multi-agente, dalla scomposizione dinamica dei compiti, dalla memoria persistente e dall'autonomia orchestrata. Attraverso una valutazione sequenziale dell'evoluzione architettonica, dei meccanismi operativi, degli stili di interazione e dei livelli di autonomia, presentiamo un'analisi comparativa tra entrambi i paradigmi. I domini di applicazione come il supporto clienti, la pianificazione e la sintesi dei dati sono messi a confronto con le implementazioni di AI Agente nell'automazione della ricerca, nella coordinazione robotica e nel supporto alle decisioni mediche. Esaminiamo ulteriormente le sfide uniche in ciascun paradigma, tra cui allucinazioni, fragilità, comportamento emergente e fallimenti di coordinamento, e proponiamo soluzioni mirate come loop ReAct, RAG, strati di orchestrazione e modellazione causale. Questo lavoro mira a fornire una roadmap definitiva per lo sviluppo di sistemi robusti, scalabili e spiegabili guidati da Agenti AI e AI Agente. >Agenti AI, Agente-driven, Modelli Visione-Linguaggio, Sistema di Supporto alle Decisioni AI Agente, Applicazioni AI Agente.
Questo articolo non descrive un nuovo metodo; piuttosto, offre un'esplorazione approfondita di uno spazio di progettazione importante ma poco studiato, legato ai recenti progressi nella sintesi di immagini da testo, in particolare la fusione profonda di modelli linguistici di grandi dimensioni (LLM) e trasformatori di diffusione (DiT) per la generazione multimodale. Gli studi precedenti si sono concentrati principalmente sulle prestazioni complessive del sistema piuttosto che su confronti dettagliati con metodi alternativi, e i dettagli chiave di progettazione e le ricette di addestramento sono spesso rimasti non divulgati. Queste lacune creano incertezza riguardo al reale potenziale di questo approccio. Per colmare queste lacune, conduciamo uno studio empirico sulla generazione di immagini da testo, eseguendo confronti controllati con baseline consolidate, analizzando scelte progettuali importanti e fornendo una ricetta chiara e riproducibile per l'addestramento su larga scala. Speriamo che questo lavoro offra dati significativi e linee guida pratiche per la ricerca futura nella generazione multimodale.
I modelli linguistici preaddestrati (LLM) sono spesso limitati dai loro schemi di tokenizzazione fissi, portando a inefficienze e limitazioni nelle prestazioni, specialmente per applicazioni multilingue o specializzate. Questo blocco del tokenizer presenta sfide significative. I metodi standard per superarlo spesso richiedono risorse computazionali proibitive. Sebbene la sostituzione del tokenizer con inizializzazione euristica miri a ridurre questo onere, i metodi esistenti spesso richiedono una fine-tuning residua esaustiva e potrebbero non preservare completamente le sfumature semantiche o affrontare adeguatamente le inefficienze di compressione sottostanti. Il nostro framework introduce due innovazioni: primo, Tokenadapt, un metodo di trapianto del tokenizer agnostico rispetto al modello, e secondo, un nuovo apprendimento di pre-tokenizzazione per Supertoken multi-parola per migliorare la compressione e ridurre la frammentazione. Tokenadapt inizializza nuovi token unici tramite un'euristica ibrida che combina due metodi: una stima locale basata sulla decomposizione di sottoparole utilizzando il vecchio tokenizer, e una stima globale che utilizza i top-k token semanticamente simili dal vocabolario originale. Questa metodologia mira a preservare la semantica riducendo significativamente i requisiti di riaddestramento. Le indagini empiriche convalidano entrambi i contributi: l'euristica di trapianto inizializza con successo token unici, superando nettamente i baselines convenzionali e metodi sofisticati come Transtokenizer e ReTok, mentre i nostri Supertoken ottengono guadagni di compressione notevoli. I nostri risultati di perplessità zero-shot dimostrano che l'inizializzazione ibrida di TokenAdapt produce costantemente rapporti di perplessità più bassi rispetto ai baselines ReTok e TransTokenizer su diversi modelli di base e nuovi tokenizer target. TokenAdapt ha tipicamente ridotto il rapporto complessivo di perplessità in modo significativo rispetto a ReTok, ottenendo almeno un miglioramento di 2 volte in questi punteggi aggregati.
La segmentazione della scena chirurgica è fondamentale nella chirurgia assistita da computer ed è cruciale per migliorare la qualità chirurgica e gli esiti dei pazienti. Recentemente, sta emergendo la segmentazione chirurgica referenziale, grazie al suo vantaggio di fornire ai chirurghi un'esperienza interattiva per segmentare l'oggetto target. Tuttavia, i metodi esistenti sono limitati da una bassa efficienza e da un tracciamento a breve termine, ostacolando la loro applicabilità in scenari chirurgici complessi del mondo reale. In questo articolo, presentiamo ReSurgSAM2, un framework di segmentazione referenziale chirurgica a due stadi che sfrutta il Segment Anything Model 2 per eseguire la rilevazione del target basata su testo, seguita dal tracciamento con identificazione affidabile del frame iniziale e memoria a lungo termine guidata dalla diversità. Per la fase di rilevazione, proponiamo una Mamba spazio-temporale cross-modale per generare risultati di rilevazione e segmentazione precisi. Sulla base di questi risultati, la nostra strategia di selezione del frame iniziale credibile identifica il frame affidabile per il successivo tracciamento. Una volta selezionato il frame iniziale, il nostro metodo passa alla fase di tracciamento, incorporando un meccanismo di memoria guidato dalla diversità che mantiene una banca di memoria credibile e diversificata, garantendo un tracciamento a lungo termine coerente. Esperimenti estesi dimostrano che ReSurgSAM2 raggiunge miglioramenti sostanziali in termini di accuratezza ed efficienza rispetto ai metodi esistenti, operando in tempo reale a 61.2 FPS. Il nostro codice e i dataset saranno disponibili su https://github.com/jinlab-imvr/ReSurgSAM2.
Nonostante i significativi progressi nella modellazione dei priori di immagine attraverso i modelli di diffusione, la modifica di immagini con consapevolezza 3D rimane una sfida, in parte perché l'oggetto è specificato solo tramite una singola immagine. Per affrontare questa sfida, proponiamo 3D-Fixup, un nuovo framework per la modifica di immagini 2D guidato da priori 3D appresi. Il framework supporta situazioni di modifica complesse come la traslazione dell'oggetto e la rotazione 3D. Per raggiungere questo obiettivo, sfruttiamo un approccio basato sull'addestramento che utilizza la potenza generativa dei modelli di diffusione. Poiché i dati video codificano naturalmente le dinamiche fisiche del mondo reale, ci rivolgiamo ai dati video per generare coppie di dati di addestramento, ovvero un frame sorgente e un frame target. Piuttosto che affidarci esclusivamente a un singolo modello addestrato per inferire le trasformazioni tra i frame sorgente e target, incorporiamo una guida 3D da un modello Image-to-3D, che colma questa sfida proiettando esplicitamente le informazioni 2D nello spazio 3D. Progettiamo una pipeline di generazione dati per garantire una guida 3D di alta qualità durante l'addestramento. I risultati mostrano che, integrando questi priori 3D, 3D-Fixup supporta efficacemente modifiche complesse e coerenti con l'identità, ottenendo risultati di alta qualità e avanzando l'applicazione dei modelli di diffusione nella manipolazione realistica delle immagini. Il codice è disponibile all'indirizzo https://3dfixup.github.io/
L'emergenza di modelli ibridi di apprendimento automatico quantistico-classico (HQML) apre nuovi orizzonti nell'intelligenza computazionale, ma la loro complessità fondamentale spesso porta a comportamenti di tipo "scatola nera" che minano la trasparenza e l'affidabilità nella loro applicazione. Sebbene l'XAI (Explainable AI) per i sistemi quantistici sia ancora nella sua fase iniziale, è evidente un'importante lacuna di ricerca negli approcci robusti di spiegabilità globale e locale progettati per architetture HQML che impiegano la codifica quantizzata delle feature seguita da apprendimento classico. Questa lacuna è il fulcro di questo lavoro, che introduce QuXAI, un framework basato su Q-MEDLEY, un sistema di spiegazione per l'importanza delle feature in questi sistemi ibridi. Il nostro modello prevede la creazione di modelli HQML che incorporano mappe di feature quantistiche, l'uso di Q-MEDLEY, che combina inferenze basate sulle feature, preservando la fase di trasformazione quantistica e visualizzando le attribuzioni risultanti. I nostri risultati dimostrano che Q-MEDLEY delinea gli aspetti classici influenti nei modelli HQML, separa il loro rumore e compete efficacemente con le tecniche XAI consolidate in contesti di validazione classica. Gli studi di ablazione evidenziano in modo significativo i vantaggi della struttura composita utilizzata in Q-MEDLEY. Le implicazioni di questo lavoro sono di fondamentale importanza, poiché fornisce una strada per migliorare l'interpretabilità e l'affidabilità dei modelli HQML, promuovendo così una maggiore fiducia e consentendo un uso più sicuro e responsabile della tecnologia AI potenziata dalla quantistica.
Il rilevamento universale di anomalie visive mira a identificare anomalie da domini visivi nuovi o non visti senza ulteriori aggiustamenti, un aspetto cruciale in scenari aperti. Studi recenti hanno dimostrato che modelli pre-addestrati di visione e linguaggio come CLIP mostrano una forte generalizzazione con solo zero o poche immagini normali. Tuttavia, i metodi esistenti faticano nella progettazione di modelli di prompt, nelle complesse interazioni tra token o richiedono ulteriori aggiustamenti, risultando in una flessibilità limitata. In questo lavoro, presentiamo un metodo semplice ma efficace chiamato AdaptCLIP basato su due intuizioni chiave. In primo luogo, le rappresentazioni visive e testuali adattive dovrebbero essere apprese alternativamente piuttosto che congiuntamente. In secondo luogo, l'apprendimento comparativo tra il prompt della query e l'immagine normale dovrebbe incorporare sia le caratteristiche contestuali che quelle residue allineate, piuttosto che affidarsi esclusivamente alle caratteristiche residue. AdaptCLIP tratta i modelli CLIP come un servizio di base, aggiungendo solo tre semplici adattatori: un adattatore visivo, un adattatore testuale e un adattatore prompt-query, ai suoi ingressi o uscite. AdaptCLIP supporta la generalizzazione zero-/few-shot tra domini e possiede una modalità senza addestramento su domini target una volta addestrato su un dataset di base. AdaptCLIP raggiunge prestazioni all'avanguardia su 12 benchmark di rilevamento di anomalie provenienti da domini industriali e medici, superando significativamente i metodi competitivi esistenti. Renderemo disponibili il codice e il modello di AdaptCLIP all'indirizzo https://github.com/gaobb/AdaptCLIP.
Il ridimensionamento dell'apprendimento robotico richiede dataset vasti e diversificati. Tuttavia, il paradigma prevalente di raccolta dati - la teleoperazione umana - rimane costoso e limitato dallo sforzo manuale e dall'accesso fisico ai robot. Introduciamo Real2Render2Real (R2R2R), un approccio innovativo per generare dati di addestramento robotico senza fare affidamento sulla simulazione della dinamica degli oggetti o sulla teleoperazione dell'hardware robotico. L'input è una scansione catturata con uno smartphone di uno o più oggetti e un singolo video di una dimostrazione umana. R2R2R genera migliaia di dimostrazioni ad alta fedeltà visiva indipendenti dal robot, ricostruendo la geometria e l'aspetto dettagliati degli oggetti in 3D e tracciando il movimento degli oggetti a 6 gradi di libertà (6-DoF). R2R2R utilizza il 3D Gaussian Splatting (3DGS) per consentire la generazione flessibile di asset e la sintesi di traiettorie sia per oggetti rigidi che articolati, convertendo queste rappresentazioni in mesh per mantenere la compatibilità con motori di rendering scalabili come IsaacLab, ma con la modellazione delle collisioni disattivata. I dati di dimostrazione robotica generati da R2R2R si integrano direttamente con modelli che operano sugli stati propriocettivi del robot e sulle osservazioni delle immagini, come i modelli visione-linguaggio-azione (VLA) e le politiche di apprendimento per imitazione. Esperimenti fisici suggeriscono che i modelli addestrati su dati R2R2R derivanti da una singola dimostrazione umana possono eguagliare le prestazioni di modelli addestrati su 150 dimostrazioni di teleoperazione umana. Pagina del progetto: https://real2render2real.com
Le reti di ricostruzione non supervisionate che utilizzano trasformatori con self-attention hanno raggiunto prestazioni all'avanguardia per il rilevamento di anomalie multi-classe (unificato) con un singolo modello. Tuttavia, questi modelli di ricostruzione basati su self-attention operano principalmente su caratteristiche target, il che può portare a una ricostruzione perfetta sia per le caratteristiche normali che per quelle anomale a causa dell'elevata coerenza con il contesto, risultando in un fallimento nel rilevamento delle anomalie. Inoltre, questi modelli spesso producono una segmentazione imprecisa delle anomalie poiché eseguono la ricostruzione in uno spazio latente a bassa risoluzione spaziale. Per consentire ai modelli di ricostruzione di godere di un'elevata efficienza migliorando al contempo la loro generalizzazione per il rilevamento unificato di anomalie, proponiamo un metodo semplice ma efficace che ricostruisce le caratteristiche normali e ripristina le caratteristiche anomale con un solo prompt di immagine normale (OneNIP). A differenza dei lavori precedenti, OneNIP consente per la prima volta di ricostruire o ripristinare anomalie con un solo prompt di immagine normale, migliorando significativamente le prestazioni del rilevamento unificato di anomalie. Inoltre, proponiamo un affinatore supervisionato che regressa gli errori di ricostruzione utilizzando sia immagini normali reali che immagini anomale sintetizzate, il che migliora notevolmente la segmentazione delle anomalie a livello di pixel. OneNIP supera i metodi precedenti su tre benchmark industriali per il rilevamento di anomalie: MVTec, BTAD e VisA. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/gaobb/OneNIP.
La segmentazione visiva delle anomalie in contesti zero-shot e few-shot si basa su potenti modelli visione-linguaggio che rilevano anomalie non viste utilizzando prompt testuali progettati manualmente. Tuttavia, le rappresentazioni visive sono intrinsecamente indipendenti dal linguaggio. In questo articolo, esploriamo il potenziale di un modello di fondazione puramente visivo come alternativa ai modelli visione-linguaggio ampiamente utilizzati per la segmentazione visiva universale delle anomalie. Presentiamo un nuovo paradigma che unifica la segmentazione delle anomalie nella segmentazione dei cambiamenti. Questo paradigma ci consente di sfruttare coppie di immagini sintetiche su larga scala, caratterizzate da cambiamenti a livello di oggetto e di regioni locali, derivate da dataset di immagini esistenti, che sono indipendenti dai dataset di anomalie target. Proponiamo un framework di meta-apprendimento one-prompt per la Segmentazione Universale delle Anomalie (MetaUAS) che viene addestrato su questo dataset sintetico e poi generalizza bene per segmentare qualsiasi anomalia visiva nuova o non vista nel mondo reale. Per gestire le variazioni geometriche tra le immagini prompt e query, proponiamo un modulo di allineamento soft delle feature che collega la percezione dei cambiamenti tra immagini accoppiate e la segmentazione semantica di immagini singole. Questo è il primo lavoro che raggiunge la segmentazione universale delle anomalie utilizzando un modello puramente visivo senza fare affidamento su dataset speciali per la rilevazione delle anomalie e modelli pre-addestrati visione-linguaggio. Il nostro metodo segmenta efficacemente ed efficientemente qualsiasi anomalia con un solo prompt di immagine normale e gode di un addestramento senza la guida del linguaggio. Il nostro MetaUAS supera significativamente i precedenti metodi di segmentazione delle anomalie zero-shot, few-shot e persino full-shot. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/gaobb/MetaUAS.
Il rilevamento delle anomalie è un compito pratico e impegnativo a causa della scarsità di campioni anomali nell'ispezione industriale. Alcuni metodi esistenti di rilevamento delle anomalie affrontano questo problema sintetizzando anomalie con rumore o dati esterni. Tuttavia, esiste sempre un ampio divario semantico tra le anomalie sintetiche e quelle del mondo reale, con conseguenti prestazioni deboli nel rilevamento delle anomalie. Per risolvere il problema, proponiamo un metodo di generazione guidata da anomalie (AnoGen) con pochi esempi, che guida il modello di diffusione a generare anomalie realistiche e diversificate con solo poche anomalie reali, beneficiando così l'addestramento dei modelli di rilevamento delle anomalie. Nello specifico, il nostro lavoro è suddiviso in tre fasi. Nella prima fase, apprendiamo la distribuzione delle anomalie basandoci su poche anomalie reali fornite e iniettiamo la conoscenza acquisita in un embedding. Nella seconda fase, utilizziamo l'embedding e le bounding box fornite per guidare il modello di diffusione a generare anomalie realistiche e diversificate su oggetti (o texture) specifici. Nella fase finale, proponiamo un metodo di rilevamento delle anomalie debolmente supervisionato per addestrare un modello più potente con le anomalie generate. Il nostro metodo si basa su DRAEM e DesTSeg come modello di base e conduce esperimenti sul dataset comunemente utilizzato per il rilevamento delle anomalie industriali, MVTec. Gli esperimenti dimostrano che le nostre anomalie generate migliorano efficacemente le prestazioni del modello sia nei compiti di classificazione che di segmentazione delle anomalie, ad esempio, DRAEM e DesTSeg hanno ottenuto un miglioramento rispettivamente del 5,8% e dell'1,5% nella metrica AU-PR nel compito di segmentazione. Il codice e i dati anomali generati sono disponibili all'indirizzo https://github.com/gaobb/AnoGen.
I video umani offrono un modo scalabile per addestrare politiche di manipolazione robotica, ma mancano delle etichette di azione necessarie per gli algoritmi standard di apprendimento per imitazione. Gli approcci esistenti cross-embodiment cercano di mappare il movimento umano alle azioni del robot, ma spesso falliscono quando le embodiment differiscono significativamente. Proponiamo X-Sim, un framework real-to-sim-to-real che utilizza il movimento degli oggetti come segnale denso e trasferibile per l'apprendimento di politiche robotiche. X-Sim inizia ricostruendo una simulazione fotorealistica da un video umano RGBD e tracciando le traiettorie degli oggetti per definire ricompense centrate sugli oggetti. Queste ricompense vengono utilizzate per addestrare una politica di apprendimento per rinforzo (RL) in simulazione. La politica appresa viene poi distillata in una politica di diffusione condizionata alle immagini utilizzando rollout sintetici resi con punti di vista e illuminazione variati. Per trasferire il tutto nel mondo reale, X-Sim introduce una tecnica di adattamento di dominio online che allinea le osservazioni reali e simulate durante la distribuzione. È importante notare che X-Sim non richiede alcun dato di teleoperazione robotica. Lo valutiamo su 5 compiti di manipolazione in 2 ambienti e dimostriamo che: (1) migliora il progresso del compito del 30% in media rispetto ai baseline di hand-tracking e sim-to-real, (2) eguaglia il comportamento clonato con un tempo di raccolta dati 10 volte inferiore, e (3) generalizza a nuovi punti di vista della telecamera e a cambiamenti durante il test. Codice e video sono disponibili su https://portal-cornell.github.io/X-Sim/.