Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale (NLP), tuttavia gli LLM multilingue open-source rimangono scarsi, con i modelli esistenti spesso limitati nella copertura linguistica. Tali modelli tendono a privilegiare le lingue ben supportate, mentre le lingue ampiamente parlate ma con risorse limitate vengono spesso trascurate. Per affrontare questa disparità, presentiamo Babel, un LLM multilingue open-source che copre le prime 25 lingue per numero di parlanti, supporta oltre il 90% della popolazione globale e include molte lingue trascurate da altri LLM multilingue open-source. A differenza degli approcci tradizionali di pre-addestramento continuo, Babel espande il numero di parametri attraverso una tecnica di estensione degli strati che eleva il limite prestazionale del modello. Introduciamo due varianti: Babel-9B, progettato per un'inferenza e un fine-tuning efficienti, e Babel-83B, che stabilisce un nuovo standard per gli LLM multilingue open-source. Valutazioni estensive su compiti multilingue dimostrano la sua superiorità rispetto a LLM open-source di dimensioni comparabili. Inoltre, utilizzando dataset open-source per il fine-tuning supervisionato, Babel raggiunge prestazioni notevoli, con Babel-9B-Chat che si distingue tra gli LLM di dimensioni pari a 10B e Babel-83B-Chat che stabilisce un nuovo standard per i compiti multilingue, raggiungendo lo stesso livello dei modelli commerciali.
Un punto debole dei Large Language Models (LLM) è la loro tendenza a generare affermazioni non veritiere, note come "allucinazioni". Una risposta che mescola affermazioni veritiere e non veritiere rappresenta una sfida per gli esseri umani, che faticano a verificarle e a basare le proprie decisioni in modo accurato. Per affrontare questo problema, proponiamo il metodo Highlighted Chain-of-Thought Prompting (HoT), una tecnica che guida i LLM a generare risposte con tag XML che ancorano i fatti a quelli forniti nella query. In pratica, data una domanda in input, i LLM prima riformattano la domanda aggiungendo tag XML che evidenziano i fatti chiave, e poi generano una risposta con evidenziazioni sui fatti riferiti all'input. Curiosamente, in contesti few-shot, HoT supera il classico chain of thought prompting (CoT) in un'ampia gamma di 17 task, che vanno dall'aritmetica alla comprensione del testo fino al ragionamento logico. Quando si chiede agli esseri umani di verificare le risposte dei LLM, le evidenziazioni aiutano i partecipanti con tempo limitato a riconoscere in modo più accurato ed efficiente quando i LLM hanno ragione. Tuttavia, sorprendentemente, quando i LLM sbagliano, HoT tende a far credere agli utenti che la risposta sia corretta.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni eccezionali in vari task downstream e sono stati ampiamente applicati in molteplici scenari. I dati di preferenza annotati manualmente vengono utilizzati per l'addestramento al fine di migliorare ulteriormente le prestazioni degli LLM, che sono però limitate dal livello massimo delle capacità umane. Pertanto, è stato proposto il metodo di Self-Rewarding, in cui gli LLM generano dati di addestramento premiando i propri output. Tuttavia, l'attuale paradigma di self-rewarding non è efficace negli scenari di ragionamento matematico e può persino portare a un calo delle prestazioni. In questo lavoro, proponiamo la pipeline di Process-based Self-Rewarding per i modelli linguistici, che introduce il ragionamento a lungo termine, il giudizio passo-passo degli LLM (LLM-as-a-Judge) e l'ottimizzazione delle preferenze passo-passo all'interno del paradigma di self-rewarding. Il nostro nuovo paradigma migliora con successo le prestazioni degli LLM su più benchmark di ragionamento matematico attraverso un processo iterativo di Process-based Self-Rewarding, dimostrando l'enorme potenziale del self-rewarding per raggiungere un ragionamento degli LLM che potrebbe superare le capacità umane.
Presentiamo KodCode, un dataset sintetico che affronta la persistente sfida di acquisire dati di addestramento di alta qualità e verificabili su diverse difficoltà e domini per l'addestramento di Large Language Models per la programmazione. Le risorse esistenti focalizzate sul codice tipicamente non garantiscono né l'ampiezza della copertura (ad esempio, spaziando da semplici compiti di codifica a problemi algoritmici avanzati) né la correttezza verificabile (ad esempio, test unitari). Al contrario, KodCode comprende triplette domanda-soluzione-test che vengono sistematicamente validate attraverso una procedura di auto-verifica. La nostra pipeline inizia sintetizzando un'ampia gamma di domande di programmazione, quindi genera soluzioni e casi di test con ulteriori tentativi dedicati ai problemi più complessi. Infine, la sintesi dei dati post-addestramento viene effettuata riscrivendo le domande in formati diversi e generando risposte attraverso una procedura di campionamento basata su test e rifiuto da un modello di ragionamento (DeepSeek R1). Questa pipeline produce un dataset di programmazione su larga scala, robusto e diversificato. KodCode è adatto per il fine-tuning supervisionato e i test unitari accoppiati offrono anche un grande potenziale per il tuning RL. Esperimenti di fine-tuning su benchmark di programmazione (HumanEval(+), MBPP(+), BigCodeBench e LiveCodeBench) dimostrano che i modelli ottimizzati con KodCode raggiungono prestazioni all'avanguardia, superando modelli come Qwen2.5-Coder-32B-Instruct e DeepSeek-R1-Distill-Llama-70B.
Presentiamo GEN3C, un modello generativo di video con un controllo preciso della telecamera e una consistenza temporale 3D. I precedenti modelli video sono già in grado di generare video realistici, ma tendono a sfruttare poche informazioni 3D, portando a incoerenze, come oggetti che compaiono e scompaiono improvvisamente. Il controllo della telecamera, se implementato, è impreciso, poiché i parametri della telecamera sono semplici input per la rete neurale, che deve quindi dedurre come il video dipenda dalla telecamera. Al contrario, GEN3C è guidato da una cache 3D: nuvole di punti ottenute prevedendo la profondità pixel per pixel delle immagini di partenza o dei fotogrammi precedentemente generati. Durante la generazione dei fotogrammi successivi, GEN3C è condizionato dalle rappresentazioni 2D della cache 3D con la nuova traiettoria della telecamera fornita dall'utente. Questo significa che GEN3C non deve ricordare ciò che ha generato in precedenza né dedurre la struttura dell'immagine dalla posa della telecamera. Il modello può invece concentrare tutta la sua potenza generativa sulle regioni non precedentemente osservate, oltre a far avanzare lo stato della scena al fotogramma successivo. I nostri risultati dimostrano un controllo della telecamera più preciso rispetto ai lavori precedenti, nonché risultati all'avanguardia nella sintesi di nuove viste da viste sparse, anche in contesti impegnativi come scene di guida e video dinamici monoculari. I risultati sono meglio apprezzabili nei video. Visita la nostra pagina web! https://research.nvidia.com/labs/toronto-ai/GEN3C/
I modelli di embedding visivi eccellono in task zero-shot come il recupero visivo e la classificazione. Tuttavia, questi modelli non possono essere utilizzati per attività che contengono ambiguità o richiedono istruzioni dell'utente. Queste attività necessitano di un modello di embedding multimodale, che produce embedding che combinano input visivi e linguaggio naturale. Gli approcci esistenti basati su CLIP incorporano immagini e testo in modo indipendente, per poi fondere i risultati. Abbiamo osservato che ciò porta a interazioni deboli tra le modalità e a un controllo limitato dell'utente sulla rappresentazione. Introduciamo ABC, un modello di embedding multimodale open-source che utilizza un backbone di modello visione-linguaggio per integrare profondamente le caratteristiche delle immagini con le istruzioni in linguaggio naturale. ABC raggiunge le migliori prestazioni per dimensione nel recupero testo-immagine su MSCOCO ed è il modello con le migliori performance in task di classificazione e VQA nel Massive Multimodal Embedding Benchmark. Grazie a una rappresentazione fortemente unificata tra visione e linguaggio, ABC può utilizzare il linguaggio naturale per risolvere problemi di recupero visivo sottili e potenzialmente ambigui. Per valutare questa capacità, abbiamo progettato CtrlBench, un benchmark che richiede l'intercalazione di istruzioni testuali con il contenuto delle immagini per un recupero corretto. ABC avanza lo stato dell'arte degli embedding multimodali offrendo rappresentazioni di alta qualità e un controllo flessibile tramite linguaggio naturale. Il nostro modello e i dataset sono disponibili sulla pagina del progetto.
Distillare le capacità di seguire istruzioni dei modelli linguistici avanzati in modelli più piccoli utilizzando un sottoinsieme selezionato è diventato un approccio mainstream nell'addestramento dei modelli. Mentre le strategie esistenti per la selezione dei dati sintetici di istruzione si basano principalmente su segnali unidimensionali (ad esempio, punteggi di ricompensa, perplessità del modello), non riescono a catturare la complessità del seguire istruzioni in campi diversi. Pertanto, investigiamo segnali più diversificati per catturare le caratteristiche complete delle coppie istruzione-risposta e proponiamo tre metriche fondamentali che sfruttano la saggezza di Multi-LLM, informate da (1) risposte diverse di LLM e (2) valutazione del modello di ricompensa. Basandoci su queste metriche di base, proponiamo CrowdSelect, una metrica integrata che incorpora un approccio basato sul clustering per mantenere la diversità delle risposte. I nostri esperimenti completi dimostrano che le nostre metriche fondamentali migliorano costantemente le prestazioni su 4 modelli di base su MT-bench e Arena-Hard. CrowdSelect, incorporando in modo efficiente tutte le metriche, raggiunge prestazioni all'avanguardia sia nel fine-tuning completo che in LoRA, mostrando miglioramenti del 4.81% su Arena-Hard e dell'11.1% su MT-bench con Llama-3.2-3b-instruct. Speriamo che i nostri risultati portino intuizioni preziose per future ricerche in questa direzione. Il codice è disponibile all'indirizzo https://github.com/listentm/crowdselect.
I Modelli di Linguaggio Visivo (VLMs) hanno dimostrato capacità impressionanti nei compiti di ancoraggio visivo. Tuttavia, la loro efficacia nel dominio medico, in particolare per il rilevamento e la localizzazione di anomalie all'interno di immagini mediche, rimane poco esplorata. Una delle principali sfide è la natura complessa e astratta della terminologia medica, che rende difficile associare direttamente i termini di anomalie patologiche con le corrispondenti caratteristiche visive. In questo lavoro, introduciamo un approccio innovativo per migliorare le prestazioni dei VLMs nel rilevamento e nella localizzazione di anomalie mediche sfruttando conoscenze mediche scomposte. Invece di richiedere direttamente ai modelli di riconoscere specifiche anomalie, ci concentriamo sulla scomposizione dei concetti medici in attributi fondamentali e pattern visivi comuni. Questa strategia promuove un allineamento più forte tra le descrizioni testuali e le caratteristiche visive, migliorando sia il riconoscimento che la localizzazione delle anomalie nelle immagini mediche. Valutiamo il nostro metodo sul modello base Florence-2 da 0.23B e dimostriamo che raggiunge prestazioni comparabili nell'ancoraggio delle anomalie rispetto a VLMs medici basati su LLaVA da 7B significativamente più grandi, nonostante sia stato addestrato su solo l'1,5% dei dati utilizzati per tali modelli. I risultati sperimentali dimostrano inoltre l'efficacia del nostro approccio sia per anomalie note che per quelle precedentemente non viste, suggerendo una forte capacità di generalizzazione.
Il dispiegamento di modelli linguistici su larga scala su dispositivi edge affronta sfide intrinseche come elevate richieste computazionali, consumo energetico e potenziali rischi per la privacy dei dati. Questo articolo introduce i modelli linguistici compatti Shakti (Shakti Small Language Models, SLMs) Shakti-100M, Shakti-250M e Shakti-500M, che affrontano direttamente questi vincoli. Combinando architetture efficienti, tecniche di quantizzazione e principi di intelligenza artificiale responsabile, la serie Shakti abilita l'intelligenza on-device per smartphone, elettrodomestici intelligenti, sistemi IoT e oltre. Forniamo approfondimenti completi sulla loro filosofia di progettazione, pipeline di addestramento e prestazioni benchmark sia su compiti generali (ad esempio, MMLU, Hellaswag) che su domini specializzati (sanità, finanza e giuridico). I nostri risultati dimostrano che modelli compatti, se progettati e ottimizzati con cura, possono soddisfare e spesso superare le aspettative negli scenari reali di edge-AI.
Parte del successo dei modelli di diffusione deriva dalla loro capacità di eseguire un raffinamento iterativo, ovvero correggere ripetutamente gli output durante la generazione. Tuttavia, la moderna diffusione discreta mascherata manca di questa capacità: quando un token viene generato, non può essere aggiornato nuovamente, anche quando introduce un errore. Qui, affrontiamo questa limitazione introducendo il campionatore ReMDM (Remasking Diffusion Model), un metodo che può essere applicato a modelli di diffusione mascherati pre-addestrati in modo principe e che deriva da un modello di diffusione discreta con un processo inverso di rimascheramento personalizzato. Particolarmente interessante è il fatto che ReMDM conferisce alla diffusione discreta una forma di scalabilità computazionale al momento dell'inferenza. Aumentando il numero di passaggi di campionamento, ReMDM genera output in linguaggio naturale che si avvicinano alla qualità dei modelli autoregressivi, mentre quando il budget computazionale è limitato, ReMDM mantiene meglio la qualità. ReMDM migliora anche la qualità dei campioni dei modelli di diffusione mascherata per immagini discretizzate e, in ambiti scientifici come la progettazione di molecole, ReMDM facilita la guida della diffusione e sposta la frontiera di Pareto della controllabilità rispetto alla mascheratura classica e alla diffusione con rumore uniforme. Forniamo il codice insieme a un post sul blog nella pagina del progetto: https://remdm.github.io.
Le basi di conoscenza grafiche ricche di testo (TG-KBs) sono diventate sempre più cruciali per rispondere alle query fornendo conoscenza testuale e strutturale. Tuttavia, i metodi di recupero attuali spesso recuperano questi due tipi di conoscenza in modo isolato, senza considerare il loro rafforzamento reciproco, e alcuni metodi ibridi bypassano completamente il recupero strutturale dopo l'aggregazione dei vicini. Per colmare questa lacuna, proponiamo una Miscela di Recupero Strutturale e Testuale (MoR) per recuperare questi due tipi di conoscenza attraverso un framework di Pianificazione-Ragionamento-Organizzazione. Nella fase di Pianificazione, MoR genera grafici di pianificazione testuale che delineano la logica per rispondere alle query. Seguendo i grafici di pianificazione, nella fase di Ragionamento, MoR intreccia l'attraversamento strutturale e la corrispondenza testuale per ottenere candidati dalle TG-KBs. Nella fase di Organizzazione, MoR riordina ulteriormente i candidati recuperati in base alla loro traiettoria strutturale. Esperimenti estensivi dimostrano la superiorità di MoR nell'armonizzare il recupero strutturale e testuale con approfondimenti, tra cui la performance di recupero disomogenea tra diverse logiche di query e i benefici dell'integrazione delle traiettorie strutturali per il riordinamento dei candidati. Il nostro codice è disponibile all'indirizzo https://github.com/Yoega/MoR.
La stima della qualità a livello di parola (Quality Estimation, QE) rileva gli errori nelle traduzioni automatiche, il che può guidare e facilitare la post-edizione umana. Sebbene l'accuratezza dei sistemi di QE a livello di parola sia stata ampiamente valutata, la loro usabilità e l'influenza sulla velocità, qualità e scelte di modifica durante la post-edizione umana rimangono poco studiate. Il nostro studio QE4PE indaga l'impatto della QE a livello di parola sulla post-edizione delle traduzioni automatiche (MT) in un contesto realistico che coinvolge 42 post-editori professionisti in due direzioni di traduzione. Confrontiamo quattro modalità di evidenziazione degli errori, inclusi metodi di QE a livello di parola supervisionati e basati sull'incertezza, per identificare potenziali errori negli output di un modello di traduzione automatica neurale all'avanguardia. Lo sforzo e la produttività della post-edizione sono stimati tramite log comportamentali, mentre i miglioramenti della qualità sono valutati tramite annotazioni umane a livello di parola e di segmento. Scopriamo che il dominio, la lingua e la velocità degli editori sono fattori critici nel determinare l'efficacia delle evidenziazioni, con differenze modeste tra le evidenziazioni di QE create dall'uomo e quelle automatizzate, sottolineando un divario tra accuratezza e usabilità nei flussi di lavoro professionali.
Gli assistenti conversazionali spesso richiedono un algoritmo di riscrittura delle domande che sfrutti un sottoinsieme delle interazioni passate per fornire una risposta più significativa (accurata) alla domanda o alla richiesta dell'utente. Tuttavia, l'approccio esatto alla riscrittura può spesso dipendere dal caso d'uso e dalle attività specifiche dell'applicazione supportate dall'assistente conversazionale, tra altri vincoli. In questo articolo, investigiamo sistematicamente due approcci diversi, denominati riscrittura e fusione, su due compiti di generazione fondamentalmente diversi, inclusi un compito di generazione testo-to-testo e un compito generativo multimodale che prende come input del testo e genera una visualizzazione o una tabella di dati che risponde alla domanda dell'utente. I nostri risultati indicano che l'approccio specifico di riscrittura o fusione dipende fortemente dal caso d'uso sottostante e dal compito generativo. In particolare, scopriamo che per un assistente di risposta alle domande conversazionale, l'approccio di riscrittura della query funziona meglio, mentre per un assistente di analisi dati che genera visualizzazioni e tabelle di dati basate sulla conversazione dell'utente con l'assistente, l'approccio di fusione funziona meglio. In particolare, esploriamo due dataset per il caso d'uso dell'assistente di analisi dati, per conversazioni brevi e lunghe, e scopriamo che la fusione delle query funziona sempre meglio, mentre per la risposta alle domande conversazionale basata su testo, l'approccio di riscrittura della query funziona meglio.
I recenti progressi nella manipolazione robotica sono stati alimentati da grandi dataset raccolti in ambienti diversi. Tradizionalmente, l'addestramento delle politiche di manipolazione robotica su questi dataset viene eseguito in modo centralizzato, sollevando preoccupazioni riguardo alla scalabilità, all'adattabilità e alla privacy dei dati. Sebbene l'apprendimento federato consenta un addestramento decentralizzato e rispettoso della privacy, la sua applicazione alla manipolazione robotica rimane in gran parte inesplorata. Introduciamo FLAME (Federated Learning Across Manipulation Environments), il primo benchmark progettato per l'apprendimento federato nella manipolazione robotica. FLAME consiste in: (i) un insieme di grandi dataset contenenti oltre 160.000 dimostrazioni esperte di molteplici compiti di manipolazione, raccolti in una vasta gamma di ambienti simulati; (ii) un framework di addestramento e valutazione per l'apprendimento di politiche robotiche in un contesto federato. Valutiamo gli algoritmi standard di apprendimento federato in FLAME, dimostrando il loro potenziale per l'apprendimento distribuito delle politiche e evidenziando le principali sfide. Il nostro benchmark getta le basi per un apprendimento robotico scalabile, adattivo e attento alla privacy.
L'apprendimento di strumenti mira a potenziare i grandi modelli linguistici (LLM) con una varietà di strumenti, consentendo loro di agire come agenti per risolvere compiti pratici. A causa della lunghezza limitata del contesto degli LLM che utilizzano strumenti, l'adozione di modelli di recupero delle informazioni (IR) per selezionare strumenti utili da grandi insiemi di strumenti è un passo iniziale cruciale. Tuttavia, le prestazioni dei modelli IR nei compiti di recupero degli strumenti rimangono poco esplorate e poco chiare. La maggior parte dei benchmark sull'uso degli strumenti semplifica questo passo pre-annotando manualmente un piccolo insieme di strumenti rilevanti per ciascun compito, il che è lontano dagli scenari del mondo reale. In questo articolo, proponiamo ToolRet, un benchmark eterogeneo per il recupero degli strumenti che comprende 7.6k compiti di recupero diversi e un corpus di 43k strumenti, raccolti da dataset esistenti. Valutiamo sei tipi di modelli su ToolRet. Sorprendentemente, anche i modelli con prestazioni solide nei benchmark IR convenzionali mostrano scarse prestazioni su ToolRet. Questa bassa qualità di recupero riduce il tasso di successo dei compiti degli LLM che utilizzano strumenti. Come ulteriore passo, contribuiamo con un dataset di addestramento su larga scala con oltre 200k istanze, che ottimizza sostanzialmente la capacità di recupero degli strumenti dei modelli IR.
I recenti progressi nell'IA generativa hanno portato all'adozione diffusa di grandi modelli linguistici (LLM) nell'ingegneria del software, affrontando numerose sfide di lunga data. Tuttavia, manca uno studio completo che esamini le capacità degli LLM nel rilevamento delle vulnerabilità del software (SVD), un aspetto cruciale della sicurezza informatica. Le ricerche esistenti si concentrano principalmente sulla valutazione degli LLM utilizzando dataset in C/C++ e tipicamente esplorano solo una o due strategie tra prompt engineering, instruction tuning e fine-tuning della classificazione sequenziale per LLM open-source. Di conseguenza, esiste un significativo divario di conoscenza riguardo all'efficacia di diversi LLM nel rilevare vulnerabilità in vari linguaggi di programmazione. Per colmare questa lacuna, presentiamo uno studio empirico completo che valuta le prestazioni degli LLM nel compito di SVD. Abbiamo compilato un dataset completo comprendente 8.260 funzioni vulnerabili in Python, 7.505 in Java e 28.983 in JavaScript. Valutiamo cinque LLM open-source utilizzando approcci multipli, tra cui prompt engineering, instruction tuning e fine-tuning della classificazione sequenziale. Questi LLM sono confrontati con cinque piccoli modelli linguistici fine-tuned e due strumenti open-source di test di sicurezza delle applicazioni statiche. Inoltre, esploriamo due vie per migliorare le prestazioni degli LLM in SVD: a) Prospettiva dei dati: Riallenamento dei modelli utilizzando dataset bilanciati sottocampionati. b) Prospettiva del modello: Investigazione di metodi di ensemble learning che combinano previsioni da più LLM. I nostri esperimenti completi dimostrano che il SVD rimane un compito impegnativo per gli LLM. Questo studio fornisce una comprensione approfondita del ruolo degli LLM nel SVD e offre spunti pratici per futuri progressi nell'utilizzo dell'IA generativa per migliorare le pratiche di sicurezza del software.
Questo articolo presenta CognitiveDrone, un innovativo modello Vision-Language-Action (VLA) progettato per compiti complessi di Veicoli Aerei Senza Pilota (UAV) che richiedono avanzate capacità cognitive. Addestrato su un dataset comprendente oltre 8.000 traiettorie di volo simulate in tre categorie chiave—Riconoscimento Umano, Comprensione di Simboli e Ragionamento—il modello genera comandi d'azione 4D in tempo reale basati su input visivi in prima persona e istruzioni testuali. Per migliorare ulteriormente le prestazioni in scenari intricati, proponiamo CognitiveDrone-R1, che integra un modulo aggiuntivo di ragionamento Vision-Language Model (VLM) per semplificare le direttive dei compiti prima del controllo ad alta frequenza. Le valutazioni sperimentali utilizzando il nostro benchmark open-source, CognitiveDroneBench, rivelano che mentre un modello orientato alle gare (RaceVLA) raggiunge un tasso di successo complessivo del 31,3%, il modello base CognitiveDrone raggiunge il 59,6%, e CognitiveDrone-R1 ottiene un tasso di successo del 77,2%. Questi risultati dimostrano miglioramenti fino al 30% in compiti cognitivi critici, evidenziando l'efficacia dell'incorporazione di capacità di ragionamento avanzate nei sistemi di controllo degli UAV. I nostri contributi includono lo sviluppo di un modello VLA all'avanguardia per il controllo degli UAV e l'introduzione del primo benchmark dedicato alla valutazione di compiti cognitivi nelle operazioni dei droni. Il repository completo è disponibile su cognitivedrone.github.io.
La coordinazione multi-agente è cruciale per una navigazione affidabile di robot multipli in spazi condivisi come i magazzini automatizzati. Nelle regioni con traffico intenso di robot, i metodi di coordinazione locale potrebbero non riuscire a trovare una soluzione priva di deadlock. In questi scenari, è appropriato far generare a un'unità centrale un programma globale che determini l'ordine di passaggio dei robot. Tuttavia, il tempo di esecuzione di tali metodi di coordinazione centralizzati aumenta significativamente con la scala del problema. In questo articolo, proponiamo di sfruttare le Reti Neurali Grafiche con Autoencoder Variazionale (GNN-VAE) per risolvere il problema della coordinazione multi-agente su larga scala più velocemente rispetto all'ottimizzazione centralizzata. Formuliamo il problema di coordinazione come un problema su grafo e raccogliamo dati di verità utilizzando un risolutore di Programmazione Lineare Intera Mista (MILP). Durante l'addestramento, il nostro framework di apprendimento codifica soluzioni di alta qualità del problema su grafo in uno spazio latente. Al momento dell'inferenza, i campioni di soluzione vengono decodificati dalle variabili latenti campionate, e il campione con il costo più basso viene selezionato per la coordinazione. Infine, la proposta fattibile con l'indice di prestazione più alto viene selezionata per il dispiegamento. Per costruzione, il nostro framework GNN-VAE restituisce soluzioni che rispettano sempre i vincoli del problema di coordinazione considerato. I risultati numerici mostrano che il nostro approccio, addestrato su problemi di piccola scala, può ottenere soluzioni di alta qualità anche per problemi su larga scala con 250 robot, essendo molto più veloce rispetto ad altri metodi di riferimento. Pagina del progetto: https://mengyuest.github.io/gnn-vae-coord
Generare simulazioni realistiche è fondamentale per applicazioni di sistemi autonomi come la guida autonoma e le interazioni uomo-robot. Tuttavia, i simulatori di guida attuali hanno ancora difficoltà nel generare comportamenti controllabili, diversificati e conformi alle regole per i partecipanti alla strada: i modelli basati su regole non riescono a produrre comportamenti diversificati e richiedono un'attenta regolazione, mentre i metodi basati sull'apprendimento imitano la politica dai dati ma non sono progettati per seguire esplicitamente le regole. Inoltre, i dataset del mondo reale sono per natura "a singolo esito", rendendo difficile per i metodi di apprendimento generare comportamenti diversificati. In questo articolo, sfruttiamo la Signal Temporal Logic (STL) e i Diffusion Models per apprendere una politica controllabile, diversificata e consapevole delle regole. Prima calibriamo la STL sui dati del mondo reale, poi generiamo dati sintetici diversificati utilizzando l'ottimizzazione delle traiettorie, e infine apprendiamo la politica di diffusione rettificata sul dataset aumentato. Testiamo sul dataset NuScenes e il nostro approccio può ottenere le traiettorie più diversificate e conformi alle regole rispetto ad altri metodi di riferimento, con un tempo di esecuzione 1/17X rispetto al secondo miglior approccio. Nei test in ciclo chiuso, il nostro approccio raggiunge la massima diversità, il tasso di soddisfazione delle regole e il minor tasso di collisioni. Il nostro metodo può generare caratteristiche variabili condizionate su diversi parametri STL nei test. Uno studio di caso sugli scenari di incontro uomo-robot mostra che il nostro approccio può generare traiettorie diversificate e vicine a quelle ideali. Lo strumento di annotazione, il dataset aumentato e il codice sono disponibili su https://github.com/mengyuest/pSTL-diffusion-policy.
In Svizzera, la traduzione giuridica riveste un'importanza unica a causa delle quattro lingue ufficiali del paese e dei requisiti per la documentazione legale multilingue. Tuttavia, questo processo si basa tradizionalmente su professionisti che devono essere sia esperti legali che traduttori qualificati, creando colli di bottiglia e influenzando l'accesso effettivo alla giustizia. Per affrontare questa sfida, introduciamo SwiLTra-Bench, un benchmark multilingue completo di oltre 180.000 coppie di traduzioni legali svizzere allineate, comprendenti leggi, note introduttive e comunicati stampa in tutte le lingue svizzere insieme all'inglese, progettato per valutare i sistemi di traduzione basati su LLM. La nostra valutazione sistematica rivela che i modelli di frontiera raggiungono prestazioni di traduzione superiori in tutti i tipi di documenti, mentre i sistemi di traduzione specializzati eccellono specificamente nelle leggi ma hanno prestazioni inferiori nelle note introduttive. Attraverso test rigorosi e validazione da parte di esperti umani, dimostriamo che, sebbene il fine-tuning di SLM open migliori significativamente la qualità della loro traduzione, essi rimangono ancora indietro rispetto ai migliori modelli di frontiera con prompt zero-shot come Claude-3.5-Sonnet. Inoltre, presentiamo SwiLTra-Judge, un sistema di valutazione LLM specializzato che si allinea meglio con le valutazioni degli esperti umani.
I veicoli autonomi (AV) hanno raggiunto la fase di commercializzazione, ma la loro capacità limitata di interagire ed esprimere intenzioni continua a rappresentare una sfida nelle interazioni con i veicoli guidati da esseri umani (HV). I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) consentono una comunicazione bidirezionale uomo-macchina, ma il conflitto tra la lentezza dell'inferenza e la necessità di decisioni in tempo reale ostacola l'implementazione pratica. Per affrontare questi problemi, questo articolo introduce un framework parallelo Attore-Ragionatore progettato per abilitare interazioni bidirezionali esplicite AV-HV in molteplici scenari. In primo luogo, facilitando le interazioni tra il Ragionatore guidato da LLM e HV eterogenei simulati durante l'addestramento, viene stabilito un database di memoria delle interazioni, denominato Attore. Successivamente, introducendo il modulo di partizionamento della memoria e il modulo di recupero della memoria a due livelli, la capacità dell'Attore di gestire HV eterogenei viene significativamente migliorata. Studi di ablazione e confronti con altri metodi decisionali dimostrano che il framework Attore-Ragionatore proposto migliora notevolmente la sicurezza e l'efficienza. Infine, combinando le informazioni dell'interfaccia uomo-macchina esterna (eHMI) derivate dal ragionamento del Ragionatore e le soluzioni di azione fattibili recuperate dall'Attore, l'efficacia del framework Attore-Ragioneratore proposto viene confermata nelle interazioni sul campo in scenari multipli. Il nostro codice è disponibile all'indirizzo https://github.com/FanGShiYuu/Actor-Reasoner.