Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i Large Language Model (LLM) si evolvono rapidamente, fornire feedback accurati e supervisione scalabile sui loro output diventa un problema urgente e critico. Sfruttare gli LLM come modelli di critica per ottenere supervisione automatizzata è una soluzione promettente. In questo lavoro, ci concentriamo sullo studio e sul potenziamento della capacità di critica matematica degli LLM. Gli attuali critici basati su LLM forniscono critiche troppo superficiali su ciascun passaggio, portando a una bassa accuratezza di giudizio e difficoltà nell'offrire feedback sufficienti affinché il generatore LLM corregga gli errori. Per affrontare questo problema, proponiamo un framework innovativo ed efficace in due fasi per sviluppare critici LLM in grado di esaminare deliberatamente ogni passaggio del ragionamento nelle soluzioni matematiche. Nella prima fase, utilizziamo Qwen2.5-72B-Instruct per generare 4.5K critiche in formato esteso come dati di partenza per il fine-tuning supervisionato. Ogni critica iniziale è composta da valutazioni dettagliate passo-passo che includono verifiche multi-prospettiche e critiche approfondite delle valutazioni iniziali per ogni passaggio del ragionamento. Successivamente, applichiamo l'apprendimento per rinforzo sul modello fine-tuned, utilizzando sia dati etichettati manualmente da PRM800K sia i nostri dati annotati automaticamente ottenuti tramite stime di correttezza basate sul campionamento Monte Carlo, per incentivare ulteriormente la sua capacità di critica. Il nostro modello di critica sviluppato su Qwen2.5-7B-Instruct non solo supera significativamente gli attuali critici LLM (inclusi i modelli DeepSeek-R1-distill di dimensioni simili e GPT-4o) su vari benchmark di identificazione degli errori, ma aiuta anche in modo più efficace il generatore LLM a perfezionare i passaggi errati attraverso feedback più dettagliati.
Il Video Generativo Interattivo (IGV) è emerso come una tecnologia cruciale in risposta alla crescente domanda di contenuti video interattivi di alta qualità in vari ambiti. In questo articolo, definiamo l'IGV come una tecnologia che combina capacità generative per produrre contenuti video diversificati e di alta qualità con funzionalità interattive che consentono l'engagement degli utenti attraverso segnali di controllo e feedback reattivi. Esaminiamo il panorama attuale delle applicazioni dell'IGV, concentrandoci su tre domini principali: 1) il gaming, dove l'IGV abilita un'esplorazione infinita in mondi virtuali; 2) l'AI incarnata, dove l'IGV funge da sintetizzatore di ambienti fisicamente consapevoli per addestrare agenti in interazioni multimodali con scene in evoluzione dinamica; e 3) la guida autonoma, dove l'IGV fornisce capacità di simulazione a ciclo chiuso per test e validazione in contesti critici per la sicurezza. Per guidare lo sviluppo futuro, proponiamo un framework completo che scompone un sistema IGV ideale in cinque moduli essenziali: Generazione, Controllo, Memoria, Dinamica e Intelligenza. Inoltre, analizziamo sistematicamente le sfide tecniche e le direzioni future per realizzare ciascun componente di un sistema IGV ideale, come il raggiungimento della generazione in tempo reale, l'abilitazione del controllo in domini aperti, il mantenimento della coerenza a lungo termine, la simulazione di fisiche accurate e l'integrazione del ragionamento causale. Crediamo che questa analisi sistematica faciliterà la ricerca e lo sviluppo futuri nel campo dell'IGV, portando la tecnologia verso applicazioni più sofisticate e pratiche.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno dimostrato come il ragionamento a catena (CoT) e l'apprendimento per rinforzo (RL) possano migliorare le prestazioni. Tuttavia, l'applicazione di tali strategie di ragionamento al dominio della generazione visiva rimane in gran parte inesplorata. In questo articolo, presentiamo T2I-R1, un innovativo modello di generazione testo-immagine potenziato dal ragionamento, alimentato da RL con un processo di ragionamento CoT a due livelli. Nello specifico, identifichiamo due livelli di CoT che possono essere utilizzati per migliorare diverse fasi della generazione: (1) il CoT a livello semantico per la pianificazione di alto livello del prompt e (2) il CoT a livello di token per l'elaborazione di basso livello dei pixel durante la generazione patch-by-patch. Per coordinare meglio questi due livelli di CoT, introduciamo BiCoT-GRPO con un insieme di ricompense di generazione, che ottimizza senza soluzione di continuità entrambi i CoT di generazione all'interno dello stesso passo di addestramento. Applicando le nostre strategie di ragionamento al modello di base, Janus-Pro, otteniamo prestazioni superiori con un miglioramento del 13% su T2I-CompBench e del 19% sul benchmark WISE, superando persino il modello all'avanguardia FLUX.1. Il codice è disponibile all'indirizzo: https://github.com/CaraJ7/T2I-R1
Molti metodi per migliorare gli agenti basati su Large Language Model (LLM) per compiti di decisione sequenziale dipendono dall'ingegneria della conoscenza specifica per il compito, come la sintonizzazione dei prompt, esempi curati in contesto o spazi di osservazione e azione personalizzati. Utilizzando questi approcci, le prestazioni dell'agente migliorano con la qualità o la quantità di ingegneria della conoscenza investita. Invece, noi indaghiamo come gli agenti LLM possano migliorare automaticamente le loro prestazioni apprendendo in contesto dalle proprie esperienze di successo su compiti simili. Piuttosto che affidarsi all'ingegneria della conoscenza specifica per il compito, ci concentriamo sulla costruzione e sul perfezionamento di un database di esempi auto-generati. Dimostriamo che anche un accumulo ingenuo di traiettorie di successo attraverso compiti di addestramento migliora le prestazioni nei test su tre benchmark: ALFWorld (dal 73% all'89%), Wordcraft (dal 55% al 64%) e InterCode-SQL (dal 75% al 79%)—eguagliando le prestazioni che l'agente iniziale raggiunge se gli sono concessi due o tre tentativi per compito. Introduciamo poi due estensioni: (1) selezione a livello di database attraverso l'addestramento basato sulla popolazione per identificare collezioni di esempi ad alte prestazioni, e (2) selezione a livello di esemplare che conserva le singole traiettorie in base alla loro utilità empirica come esempi in contesto. Queste estensioni migliorano ulteriormente le prestazioni, raggiungendo il 91% su ALFWorld—eguagliando approcci più complessi che impiegano componenti e prompt specifici per il compito. I nostri risultati dimostrano che la costruzione automatica di un database di traiettorie offre un'alternativa convincente all'ingegneria della conoscenza laboriosa.
La sincronizzazione labiale, nota come il compito di allineare i movimenti delle labbra in un video esistente con un nuovo audio in input, è tipicamente inquadrata come una variante più semplice dell'animazione facciale guidata dall'audio. Tuttavia, oltre a soffrire dei soliti problemi nella generazione di teste parlanti (ad esempio, la coerenza temporale), la sincronizzazione labiale presenta nuove sfide significative come la fuoriuscita di espressioni dal video di input e le occlusioni facciali, che possono influire gravemente sulle applicazioni nel mondo reale come il doppiaggio automatizzato, ma sono spesso trascurate nei lavori esistenti. Per affrontare queste carenze, presentiamo KeySync, un framework a due stadi che riesce a risolvere il problema della coerenza temporale, incorporando anche soluzioni per la fuoriuscita e le occlusioni utilizzando una strategia di mascheramento accuratamente progettata. Mostriamo che KeySync raggiunge risultati all'avanguardia nella ricostruzione labiale e nella sincronizzazione incrociata, migliorando la qualità visiva e riducendo la fuoriuscita di espressioni secondo LipLeak, la nostra nuova metrica di fuoriuscita. Inoltre, dimostriamo l'efficacia del nostro nuovo approccio di mascheramento nella gestione delle occlusioni e convalidiamo le nostre scelte architetturali attraverso diversi studi di ablazione. Il codice e i pesi del modello sono disponibili all'indirizzo https://antonibigata.github.io/KeySync.
Le storie morali sono un mezzo collaudato nel tempo per trasmettere valori, ma il moderno NLP manca di un ampio corpus strutturato che accoppi narrazioni coerenti con lezioni etiche esplicite. Colmiamo questa lacuna con TF1-EN-3M, il primo dataset aperto di tre milioni di favole in lingua inglese generate esclusivamente da modelli instruction-tuned con non più di 8 miliardi di parametri. Ogni storia segue uno schema a sei slot (personaggio -> tratto -> ambientazione -> conflitto -> risoluzione -> morale), prodotto attraverso un motore combinatorio di prompt che garantisce fedeltà al genere coprendo un ampio spazio tematico. Una pipeline di valutazione ibrida combina (i) un critico basato su GPT che valuta grammatica, creatività, chiarezza morale e aderenza al template con (ii) metriche reference-free di diversità e leggibilità. Tra dieci candidati open-weight, una variante di Llama-3 da 8 miliardi di parametri offre il miglior compromesso qualità-velocità, producendo favole di alto punteggio su una singola GPU consumer (<24 GB VRAM) a circa 13,5 centesimi per 1.000 favole. Rilasciamo il dataset, il codice di generazione, gli script di valutazione e i metadati completi con una licenza permissiva, consentendo una riproducibilità esatta e un benchmarking dei costi. TF1-EN-3M apre nuove strade per la ricerca nel seguire istruzioni, nell'intelligenza narrativa, nell'allineamento di valori e nell'IA educativa a misura di bambino, dimostrando che la narrazione morale su larga scala non richiede più modelli giganti proprietari.
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'ingegneria del software, ma la loro applicazione ai domini dell'ingegneria fisica rimane ancora poco esplorata. Questo articolo valuta le capacità degli LLM nella progettazione di razzi ad alta potenza attraverso RocketBench, un benchmark che collega gli LLM a simulazioni di razzi ad alta fedeltà. Testiamo i modelli su due compiti di progettazione di crescente complessità: l'ottimizzazione dell'altitudine target e le sfide di atterraggio di precisione. I nostri risultati rivelano che, sebbene gli LLM all'avanguardia dimostrino una solida conoscenza ingegneristica di base, faticano a iterare i loro progetti quando vengono forniti i risultati delle simulazioni e alla fine si stabilizzano al di sotto dei livelli di prestazione umana. Tuttavia, quando potenziati con l'apprendimento per rinforzo (RL), dimostriamo che un modello con 7 miliardi di parametri supera sia i modelli di base all'avanguardia che gli esperti umani. Questa ricerca dimostra che gli LLM addestrati con RL possono servire come strumenti efficaci per l'ottimizzazione ingegneristica complessa, potenzialmente trasformando i domini dell'ingegneria oltre lo sviluppo software.
Recentemente, i modelli di ragionamento a lungo termine hanno ottenuto prestazioni elevate su compiti di ragionamento complessi, ma spesso comportano un sovraccarico computazionale significativo, rendendo l'efficienza una preoccupazione critica. La nostra analisi empirica rivela che il vantaggio dell'utilizzo di Long-CoT varia a seconda del problema: mentre alcuni problemi richiedono un ragionamento elaborato, altri non mostrano miglioramenti o addirittura una riduzione dell'accuratezza. Ciò motiva l'adozione di strategie di ragionamento adattivo che adattano la profondità del ragionamento all'input. Tuttavia, il lavoro precedente si è principalmente concentrato sulla riduzione della ridondanza all'interno dei percorsi di ragionamento lunghi, limitando l'esplorazione di strategie più efficienti al di fuori del paradigma Long-CoT. Per affrontare questo problema, proponiamo un nuovo framework a due stadi per un ragionamento adattivo ed efficiente. In primo luogo, costruiamo un modello di ragionamento ibrido unendo modelli CoT lunghi e corti per abilitare stili di ragionamento diversi. In secondo luogo, applichiamo un addestramento a preferenza bi-livello per guidare il modello a selezionare stili di ragionamento adeguati (a livello di gruppo) e preferire un ragionamento conciso e corretto all'interno di ciascun gruppo di stile (a livello di istanza). Gli esperimenti dimostrano che il nostro metodo riduce significativamente i costi di inferenza rispetto ad altri approcci di base, mantenendo al contempo le prestazioni. In particolare, su cinque dataset matematici, la lunghezza media del ragionamento è ridotta di oltre il 50%, evidenziando il potenziale delle strategie adattive per ottimizzare l'efficienza del ragionamento nei grandi modelli linguistici. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/AdaR1.
Le interfacce di scripting consentono agli utenti di automatizzare attività e personalizzare i flussi di lavoro del software, ma la creazione di script richiede tradizionalmente competenze di programmazione e familiarità con API specifiche, rappresentando un ostacolo per molti utenti. Sebbene i Large Language Model (LLM) possano generare codice da query in linguaggio naturale, la generazione di codice in runtime è fortemente limitata a causa di codice non verificato, rischi per la sicurezza, tempi di risposta più lunghi e costi computazionali più elevati. Per colmare questa lacuna, proponiamo un framework di simulazione offline per curare un insieme di competenze specifiche per il software, una raccolta di script verificati, sfruttando i LLM e guide di scripting disponibili pubblicamente. Il nostro framework comprende due componenti: (1) creazione di attività, utilizzando una guida funzionale top-down e un'esplorazione sinergica delle API bottom-up per generare attività utili; e (2) generazione di competenze con prove, affinando e validando gli script in base al feedback di esecuzione. Per navigare in modo efficiente nel vasto panorama delle API, introduciamo un modello di previsione dei collegamenti basato su Graph Neural Network (GNN) per catturare la sinergia tra le API, consentendo la generazione di competenze che coinvolgono API sottoutilizzate e ampliando la diversità dell'insieme di competenze. Esperimenti condotti con Adobe Illustrator dimostrano che il nostro framework migliora significativamente i tassi di successo dell'automazione, riduce i tempi di risposta e risparmia i costi dei token in runtime rispetto alla tradizionale generazione di codice in runtime. Questo è il primo tentativo di utilizzare le interfacce di scripting del software come banco di prova per sistemi basati su LLM, evidenziando i vantaggi di sfruttare il feedback di esecuzione in un ambiente controllato e offrendo preziose intuizioni sull'allineamento delle capacità dell'AI con le esigenze degli utenti in domini software specializzati.
L'aumento dei dati è essenziale nell'imaging medico per migliorare l'accuratezza della classificazione, il rilevamento delle lesioni e la segmentazione degli organi in condizioni di dati limitati. Tuttavia, rimangono due sfide significative. In primo luogo, un marcato divario di dominio tra le fotografie naturali e le immagini mediche può distorcere le caratteristiche critiche delle malattie. In secondo luogo, gli studi sull'aumento dei dati nell'imaging medico sono frammentati e limitati a singoli compiti o architetture, lasciando incerti i benefici delle strategie avanzate basate su mix. Per affrontare queste sfide, proponiamo un framework di valutazione unificato con sei metodi di aumento basati su mix integrati con backbone sia convoluzionali che transformer su dataset di risonanza magnetica per tumori cerebrali e di fondo oculare per malattie degli occhi. I nostri contributi sono tre. (1) Introduciamo MediAug, un benchmark completo e riproducibile per l'aumento avanzato dei dati nell'imaging medico. (2) Valutiamo sistematicamente MixUp, YOCO, CropMix, CutMix, AugMix e SnapMix con backbone ResNet-50 e ViT-B. (3) Dimostriamo attraverso esperimenti estesi che MixUp produce il miglioramento maggiore nel compito di classificazione dei tumori cerebrali per ResNet-50 con un'accuratezza del 79,19% e SnapMix produce il miglioramento maggiore per ViT-B con un'accuratezza del 99,44%, e che YOCO produce il miglioramento maggiore nel compito di classificazione delle malattie degli occhi per ResNet-50 con un'accuratezza del 91,60% e CutMix produce il miglioramento maggiore per ViT-B con un'accuratezza del 97,94%. Il codice sarà disponibile su https://github.com/AIGeeksGroup/MediAug.
Immaginate di trovarvi in uno spazio affollato dove le persone parlano una lingua diversa e di avere dispositivi auricolari che trasformano lo spazio acustico nella vostra lingua madre, preservando al contempo gli indizi spaziali per tutti i parlanti. Introduciamo la traduzione vocale spaziale, un concetto innovativo per dispositivi auricolari che traducono i parlanti nell'ambiente dell'utente, mantenendo la direzione e le caratteristiche vocali uniche di ciascun parlante nell'output binaurale. Per raggiungere questo obiettivo, affrontiamo diverse sfide tecniche che spaziano dalla separazione cieca delle sorgenti, alla localizzazione, alla traduzione espressiva in tempo reale e al rendering binaurale per preservare le direzioni dei parlanti nell'audio tradotto, ottenendo al contempo un'inferenza in tempo reale sul silicio Apple M2. La nostra valutazione proof-of-concept con un prototipo di cuffia binaurale dimostra che, a differenza dei modelli esistenti che falliscono in presenza di interferenze, raggiungiamo un punteggio BLEU fino a 22.01 quando traduciamo tra lingue, nonostante forti interferenze da parte di altri parlanti nell'ambiente. Gli studi sugli utenti confermano ulteriormente l'efficacia del sistema nel rendere spazialmente il parlato tradotto in ambienti reali riverberanti mai visti prima. Facendo un passo indietro, questo lavoro segna il primo passo verso l'integrazione della percezione spaziale nella traduzione vocale.
I sensori visivi stanno diventando sempre più importanti nei Sistemi di Trasporto Intelligenti (ITS) per il monitoraggio, la gestione e l'ottimizzazione del traffico, poiché il numero di telecamere di rete continua ad aumentare. Tuttavia, il tracciamento e l'abbinamento manuale degli oggetti attraverso più telecamere non sovrapposte presentano sfide significative negli scenari di traffico urbano su scala cittadina. Queste sfide includono la gestione di attributi veicolari diversi, occlusioni, variazioni di illuminazione, ombre e risoluzioni video variabili. Per affrontare questi problemi, proponiamo un framework efficiente e conveniente basato sul deep learning per il Multi-Object Multi-Camera Tracking (MO-MCT). Il framework proposto utilizza Mask R-CNN per il rilevamento degli oggetti e impiega la Non-Maximum Suppression (NMS) per selezionare gli oggetti target dai rilevamenti sovrapposti. Viene utilizzato il transfer learning per la ri-identificazione, consentendo l'associazione e la generazione di tracce veicolari attraverso più telecamere. Inoltre, sfruttiamo funzioni di perdita e misure di distanza appropriate per gestire le sfide legate a occlusioni, illuminazione e ombre. Il modulo finale di identificazione della soluzione esegue l'estrazione delle caratteristiche utilizzando ResNet-152 abbinato al tracciamento veicolare basato su Deep SORT. Il framework proposto è valutato sul dataset della 5a AI City Challenge (Track 3), che comprende 46 feed di telecamere. Tra questi 46 flussi di telecamere, 40 sono utilizzati per l'addestramento e la validazione del modello, mentre i restanti sei sono utilizzati per il test del modello. Il framework proposto raggiunge prestazioni competitive con un punteggio IDF1 di 0,8289, e punteggi di precisione e richiamo rispettivamente di 0,9026 e 0,8527, dimostrando la sua efficacia nel tracciamento veicolare robusto e accurato.