Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'automazione della trasformazione dei progetti di interfaccia utente (UI) in codice front-end promette di accelerare significativamente lo sviluppo del software e di democratizzare i flussi di lavoro di progettazione. Sebbene i recenti modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato progressi nella generazione di codice a partire da testo, molti approcci esistenti si basano esclusivamente su prompt in linguaggio naturale, limitando la loro efficacia nel catturare il layout spaziale e l'intento di progettazione visiva. Al contrario, lo sviluppo di UI nella pratica è intrinsecamente multimodale, spesso partendo da schizzi visivi o mockup. Per colmare questa lacuna, introduciamo un framework modulare multi-agente che esegue la generazione da UI a codice in tre fasi interpretabili: grounding, pianificazione e generazione. L'agente di grounding utilizza un modello visione-linguaggio per rilevare ed etichettare i componenti dell'interfaccia, l'agente di pianificazione costruisce un layout gerarchico utilizzando conoscenze pregresse di ingegneria front-end, e l'agente di generazione produce codice HTML/CSS tramite sintesi adattiva basata su prompt. Questo design migliora robustezza, interpretabilità e fedeltà rispetto ai metodi end-to-end a scatola chiusa. Inoltre, estendiamo il framework in un motore di dati scalabile che produce automaticamente coppie immagine-codice su larga scala. Utilizzando questi esempi sintetici, ottimizziamo e rafforziamo un modello visione-linguaggio open-source, ottenendo miglioramenti significativi nella comprensione dell'interfaccia e nella qualità del codice. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia in termini di accuratezza del layout, coerenza strutturale e correttezza del codice. Il nostro codice è reso disponibile pubblicamente all'indirizzo https://github.com/leigest519/ScreenCoder.
In questo rapporto, presentiamo Falcon-H1, una nuova serie di modelli linguistici di grandi dimensioni (LLM) caratterizzati da architetture ibride ottimizzate per alte prestazioni ed efficienza in un'ampia gamma di casi d'uso. A differenza dei precedenti modelli Falcon basati esclusivamente su architetture Transformer o Mamba, Falcon-H1 adotta un approccio ibrido parallelo che combina l'attenzione basata su Transformer con i Modelli a Spazio di Stato (SSM), noti per la loro superiore memoria a lungo contesto e l'efficienza computazionale. Abbiamo rivisitato in modo sistematico il design del modello, la strategia dei dati e le dinamiche di addestramento, mettendo in discussione le pratiche convenzionali del settore. Falcon-H1 viene rilasciato in multiple configurazioni, inclusi varianti di base e ottimizzate per istruzioni con 0,5B, 1,5B, 1,5B-deep, 3B, 7B e 34B di parametri. Sono disponibili anche modelli ottimizzati per istruzioni quantizzati, per un totale di oltre 30 checkpoint su Hugging Face Hub. I modelli Falcon-H1 dimostrano prestazioni all'avanguardia e un'eccellente efficienza in termini di parametri e addestramento. Il modello di punta Falcon-H1-34B eguaglia o supera modelli fino a 70B di scala, come Qwen3-32B, Qwen2.5-72B e Llama3.3-70B, utilizzando meno parametri e meno dati. I modelli più piccoli mostrano tendenze simili: Falcon-H1-1.5B-Deep rivaleggia con i migliori modelli attuali da 7B-10B, e Falcon-H1-0.5B si comporta in modo paragonabile ai tipici modelli da 7B del 2024. Questi modelli eccellono in ragionamento, matematica, compiti multilingue, seguimento di istruzioni e conoscenza scientifica. Con il supporto per fino a 256K token di contesto e 18 lingue, Falcon-H1 è adatto a un'ampia gamma di applicazioni. Tutti i modelli sono rilasciati con una licenza open-source permissiva, sottolineando il nostro impegno per una ricerca AI accessibile e di impatto.
La creazione 3D è sempre stata una capacità unica dell'essere umano, guidata dalla nostra abilità di scomporre e riassemblare oggetti utilizzando occhi, mente e mani. Tuttavia, gli attuali strumenti di progettazione 3D faticano a replicare questo processo naturale, richiedendo una notevole competenza artistica e lavoro manuale. Questo articolo introduce BANG, un approccio generativo innovativo che collega la generazione 3D e il ragionamento, consentendo una scomposizione intuitiva e flessibile degli oggetti 3D a livello di parti. Al centro di BANG c'è la "Dinamica Generativa Esplosa", che crea una sequenza fluida di stati esplosi per una geometria di input, separando progressivamente le parti preservandone la coerenza geometrica e semantica. BANG utilizza un modello di diffusione latente su larga scala pre-addestrato, ottimizzato per la dinamica esplosa con un adattatore leggero per le viste esplose, consentendo un controllo preciso sul processo di scomposizione. Incorpora inoltre un modulo di attenzione temporale per garantire transizioni fluide e coerenza nel tempo. BANG migliora il controllo con prompt spaziali, come bounding box e regioni superficiali, permettendo agli utenti di specificare quali parti scomporre e come. Questa interazione può essere estesa con modelli multimodali come GPT-4, abilitando manipolazioni da 2D a 3D per flussi di lavoro più intuitivi e creativi. Le capacità di BANG si estendono alla generazione di geometrie dettagliate a livello di parti, all'associazione di parti con descrizioni funzionali e alla facilitazione di flussi di lavoro di creazione e produzione 3D consapevoli dei componenti. Inoltre, BANG offre applicazioni nella stampa 3D, dove parti separabili vengono generate per una facile stampa e riassemblaggio. In sostanza, BANG consente una trasformazione senza soluzione di continuità da concetti immaginativi a risorse 3D dettagliate, offrendo una nuova prospettiva sulla creazione che risuona con l'intuizione umana.
L'apprendimento per rinforzo ha dimostrato la sua efficacia nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Recenti sforzi di ricerca hanno progressivamente esteso questo paradigma a compiti di ragionamento multimodale. A causa della complessità intrinseca e della diversità dei compiti multimodali, specialmente nel contenuto semantico e nelle formulazioni dei problemi, i modelli esistenti spesso mostrano prestazioni instabili in vari domini e livelli di difficoltà. Per affrontare queste limitazioni, proponiamo VL-Cogito, un modello avanzato di ragionamento multimodale addestrato tramite un nuovo framework di apprendimento per rinforzo a curriculum progressivo multi-stadio (PCuRL). PCuRL guida sistematicamente il modello attraverso compiti di difficoltà gradualmente crescente, migliorando sostanzialmente le sue capacità di ragionamento in contesti multimodali diversi. Il framework introduce due innovazioni chiave: (1) un meccanismo di ponderazione soft della difficoltà online, che regola dinamicamente la difficoltà di addestramento attraverso le successive fasi di training RL; e (2) un meccanismo di ricompensa dinamica della lunghezza, che incoraggia il modello a regolare adattivamente la lunghezza del suo percorso di ragionamento in base alla complessità del compito, bilanciando così l'efficienza del ragionamento con la correttezza. Le valutazioni sperimentali dimostrano che VL-Cogito eguaglia o supera costantemente i modelli orientati al ragionamento esistenti su benchmark multimodali principali che spaziano dalla matematica, alla scienza, alla logica e alla comprensione generale, validando l'efficacia del nostro approccio.
Il Contrastive Language-Image Pretraining (CLIP) è un modello di base molto diffuso, che supporta attività che vanno dalla classificazione zero-shot e il retrieval fino all'uso come encoder per modelli linguistici multimodali di grandi dimensioni (MLLMs). Sebbene CLIP sia stato addestrato con successo su miliardi di coppie immagine-testo provenienti dal mondo anglofono, scalare ulteriormente l'addestramento di CLIP per apprendere da dati provenienti dal web globale rimane una sfida: (1) non è disponibile un metodo di curatela per gestire i dati provenienti da contesti non anglofoni; (2) le prestazioni in inglese delle versioni multilingue esistenti di CLIP sono inferiori rispetto alla controparte esclusivamente in inglese, un fenomeno noto come "maledizione della multilinguità", comune anche nei modelli linguistici di grandi dimensioni (LLMs). Qui presentiamo MetaCLIP 2, la prima metodologia per addestrare CLIP da zero su coppie immagine-testo di scala web globale. Per generalizzare i nostri risultati, conduciamo rigorose ablazioni con modifiche minime necessarie per affrontare le suddette sfide e presentiamo una ricetta che consente benefici reciproci dai dati provenienti sia dal mondo anglofono che da quello non anglofono. Nella classificazione zero-shot su ImageNet, MetaCLIP 2 ViT-H/14 supera la sua controparte esclusivamente in inglese dello 0,8% e mSigLIP dello 0,7%, e sorprendentemente stabilisce nuovi record di stato dell'arte senza fattori confondenti a livello di sistema (ad esempio, traduzione, modifiche architetturali personalizzate) su benchmark multilingue, come CVQA con il 57,4%, Babel-ImageNet con il 50,2% e XM3600 con il 64,3% nel retrieval immagine-testo.
I grandi modelli linguistici (LLM) affrontano una bassa efficienza hardware durante la decodifica, specialmente per compiti di ragionamento a contesto lungo. Questo articolo introduce Step-3, un modello VLM da 321 miliardi di parametri con una co-progettazione hardware-aware ottimizzata per minimizzare i costi di decodifica. Step-3 innova in due dimensioni chiave: (1) Un nuovo meccanismo di attenzione a fattorizzazione multi-matrice (MFA) che riduce significativamente sia la dimensione della cache KV che il calcolo, mantenendo un'elevata espressività dell'attenzione, e (2) la Disaggregazione Attenzione-FFN (AFD), un sistema di inferenza distribuito che separa i livelli di attenzione e la rete Feed-Forward (FFN) in sottosistemi specializzati. Questa co-progettazione raggiunge un'efficienza di costo senza precedenti: Step-3 riduce significativamente i costi teorici di decodifica rispetto a modelli come DeepSeek-V3 e Qwen3 MoE 235B, con guadagni che aumentano con contesti più lunghi. Step-3 ottiene bassi costi attivando 38 miliardi di parametri per token (più di DeepSeek-V3 e Qwen3 MoE 235B), dimostrando che l'intensità aritmetica dell'attenzione allineata all'hardware, la sparsità MoE e l'AFD sono critici per la convenienza. Eseguiamo un confronto diretto con DeepSeek-V3 nei suoi scenari favorevoli. La nostra implementazione su GPU Hopper raggiunge una velocità di decodifica fino a 4.039 token al secondo per GPU sotto un SLA TPOT di 50ms (contesto 4K, FP8, no MTP). È superiore ai 2.324 di DeepSeek-V3 nella stessa configurazione e stabilisce una nuova frontiera di Pareto per la decodifica LLM.
Il rilevamento di veicoli nelle immagini aeree è un compito cruciale con applicazioni nel monitoraggio del traffico, nella pianificazione urbana e nell'intelligence difensiva. I metodi di deep learning hanno fornito risultati all'avanguardia (SOTA) per questa applicazione. Tuttavia, una sfida significativa si presenta quando i modelli addestrati su dati provenienti da una regione geografica non riescono a generalizzare efficacemente ad altre aree. La variabilità di fattori come le condizioni ambientali, la disposizione urbana, le reti stradali, i tipi di veicoli e i parametri di acquisizione delle immagini (ad esempio, risoluzione, illuminazione e angolazione) porta a cambiamenti di dominio che degradano le prestazioni del modello. Questo articolo propone un metodo innovativo che utilizza l'IA generativa per sintetizzare immagini aeree di alta qualità e le relative etichette, migliorando l'addestramento dei rilevatori attraverso l'aumento dei dati. Il nostro contributo chiave è lo sviluppo di un framework di trasferimento di conoscenza multi-stadio e multi-modale che utilizza modelli di diffusione latente (LDMs) ottimizzati per mitigare il divario di distribuzione tra l'ambiente di origine e quello di destinazione. Esperimenti estesi su diversi domini di immagini aeree mostrano miglioramenti consistenti nelle prestazioni in AP50 rispetto all'apprendimento supervisionato sui dati del dominio di origine, ai metodi di adattamento debolmente supervisionati, ai metodi di adattamento di dominio non supervisionati e ai rilevatori di oggetti a insieme aperto, rispettivamente del 4-23%, 6-10%, 7-40% e oltre il 50%. Inoltre, introduciamo due nuovi dataset aerei annotati provenienti dalla Nuova Zelanda e dallo Utah per supportare ulteriori ricerche in questo campo. La pagina del progetto è disponibile all'indirizzo: https://humansensinglab.github.io/AGenDA
Sebbene GRPO migliori sostanzialmente i modelli di flow matching nell'allineamento delle preferenze umane per la generazione di immagini, metodi come FlowGRPO mostrano ancora inefficienze a causa della necessità di campionare e ottimizzare su tutti i passi di denoising specificati dal Processo Decisionale di Markov (MDP). In questo articolo, proponiamo MixGRPO, un nuovo framework che sfrutta la flessibilità delle strategie di campionamento misto attraverso l'integrazione di equazioni differenziali stocastiche (SDE) e equazioni differenziali ordinarie (ODE). Ciò semplifica il processo di ottimizzazione all'interno dell'MDP per migliorare l'efficienza e aumentare le prestazioni. Nello specifico, MixGRPO introduce un meccanismo a finestra scorrevole, utilizzando il campionamento SDE e l'ottimizzazione guidata da GRPO solo all'interno della finestra, mentre applica il campionamento ODE all'esterno. Questo design confina la casualità del campionamento ai passi temporali all'interno della finestra, riducendo così il sovraccarico di ottimizzazione e consentendo aggiornamenti del gradiente più mirati per accelerare la convergenza. Inoltre, poiché i passi temporali oltre la finestra scorrevole non sono coinvolti nell'ottimizzazione, sono supportati risolutori di ordine superiore per il campionamento. Presentiamo quindi una variante più veloce, denominata MixGRPO-Flash, che migliora ulteriormente l'efficienza dell'addestramento mantenendo prestazioni comparabili. MixGRPO mostra guadagni sostanziali in molteplici dimensioni dell'allineamento delle preferenze umane, superando DanceGRPO sia in efficacia che in efficienza, con un tempo di addestramento ridotto di quasi il 50%. In particolare, MixGRPO-Flash riduce ulteriormente il tempo di addestramento del 71%. Codici e modelli sono disponibili su https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
La segmentazione audio-visiva riferita (RAVS) ha recentemente registrato progressi significativi, ma permangono sfide nell'integrazione di informazioni multimodali e nella comprensione e ragionamento approfonditi sui contenuti audiovisivi. Per estendere i confini della RAVS e facilitare la ricerca futura in questo campo, proponiamo Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nuovo dataset contenente 2.098 video e 59.458 espressioni riferite multimodali. OmniAVS si distingue per tre innovazioni chiave: (1) 8 tipi di espressioni multimodali che combinano in modo flessibile testo, parlato, suono e segnali visivi; (2) un'enfasi sulla comprensione del contenuto audio oltre alla semplice rilevazione della sua presenza; e (3) l'inclusione di ragionamenti complessi e conoscenze del mondo nelle espressioni. Inoltre, introduciamo Omnimodal Instructed Segmentation Assistant (OISA), per affrontare le sfide del ragionamento multimodale e della comprensione fine dei contenuti audiovisivi in OmniAVS. OISA utilizza MLLM per comprendere segnali complessi ed eseguire segmentazioni basate sul ragionamento. Esperimenti estensivi dimostrano che OISA supera i metodi esistenti su OmniAVS e ottiene risultati competitivi su altre attività correlate.
APR (Automated Program Repair) mira a individuare automaticamente i difetti nei programmi, generare patch e convalidare le riparazioni. Le tecniche esistenti per l'APR sono spesso combinate con LLM (Large Language Models), sfruttando la conoscenza relativa al codice degli LLM per migliorare l'efficacia della riparazione. I metodi attuali di APR basati su LLM utilizzano tipicamente i casi di test solo durante la fase di inferenza, adottando un approccio iterativo che esegue prima la riparazione e la convalida successivamente attraverso l'esecuzione dei test. Questo paradigma convenzionale trascura due aspetti importanti: il potenziale contributo dei casi di test nella fase di addestramento e la possibilità di sfruttare i test prima della riparazione. Per affrontare questo problema, proponiamo Repair-R1, che introduce i casi di test nella fase di addestramento del modello e sposta la generazione dei test prima della riparazione. Il modello è tenuto a generare prima casi di test discriminativi in grado di distinguere i comportamenti difettosi, e poi eseguire la riparazione basandosi su questi test. Ciò consente al modello di individuare meglio i difetti e comprendere le cause sottostanti, migliorando così l'efficacia della riparazione. Implementiamo Repair-R1 con tre diversi modelli di base, utilizzando RL (reinforcement learning) per co-ottimizzare la generazione dei test e la riparazione dei bug. I risultati sperimentali su quattro benchmark ampiamente adottati dimostrano la superiorità di Repair-R1. In particolare, rispetto ai modelli standard, Repair-R1 migliora il tasso di successo della riparazione dal 2,68% al 48,29%, il tasso di successo nella generazione dei test dal 16,38% al 53,28% e la copertura dei test dallo 0,78% al 53,96%. Pubblichiamo il codice e i pesi su https://github.com/Tomsawyerhu/APR-RL e https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
La tensione tra privacy dei dati e utilità del modello è diventata il collo di bottiglia determinante per l'implementazione pratica di grandi modelli linguistici (LLM) addestrati su corpora sensibili, inclusi quelli sanitari. La discesa del gradiente stocastica con privacy differenziale (DP-SGD) garantisce una privacy formale, ma lo fa a un costo significativo: i gradienti vengono forzatamente troncati e perturbati con rumore, degradando l'efficienza campionaria e l'accuratezza finale. Sono state proposte numerose varianti per mitigare questo compromesso, ma tutte condividono un limite: i loro parametri di controllo sono predefiniti, globali e indifferenti al panorama di ottimizzazione in evoluzione. Di conseguenza, i professionisti sono costretti a spendere eccessivamente il budget di privacy in cerca di utilità, oppure ad accettare modelli mediocri per rimanere entro i vincoli di privacy. Presentiamo RLDP, il primo framework che trasforma l'ottimizzazione DP stessa in un problema di controllo a ciclo chiuso adatto al moderno apprendimento per rinforzo profondo (RL). RLDP percepisce continuamente statistiche dettagliate delle dinamiche di apprendimento e agisce selezionando soglie di troncamento del gradiente granulari per parametro, nonché l'entità del rumore gaussiano iniettato. Una politica iper-parametrizzata soft actor-critic (SAC) viene addestrata online durante il fine-tuning del modello linguistico; essa impara, da zero, come allocare il budget di privacy dove e quando è necessario. Attraverso più di 1.600 esperimenti di ablazione su GPT2-small, Llama-1B, Llama-3B e Mistral-7B, RLDP ottiene riduzioni della perplessità comprese tra 1,3% e 30,5% (media 5,4%) e un guadagno medio di utilità a valle del 5,6%. RLDP raggiunge l'utilità finale di ciascun baseline dopo solo il 13-43% del budget di aggiornamento del gradiente (accelerazione media del 71%), rispettando lo stesso contratto (epsilon, delta)-DP e mostrando una suscettibilità uguale o inferiore agli attacchi di inferenza di appartenenza e di estrazione di canarini.
La generazione di scene 3D a partire da linguaggio naturale rappresenta una promessa significativa per applicazioni nel gaming, nel cinema e nel design. Tuttavia, i metodi esistenti incontrano difficoltà in termini di automazione, coerenza 3D e controllo fine. Presentiamo DreamScene, un framework end-to-end per la generazione di scene 3D di alta qualità e modificabili a partire da testo o dialogo. DreamScene inizia con un modulo di pianificazione della scena, in cui un agente GPT-4 deduce la semantica degli oggetti e i vincoli spaziali per costruire un grafo ibrido. Un algoritmo di posizionamento basato su grafo produce quindi un layout strutturato e privo di collisioni. Basandosi su questo layout, il Campionamento del Modello di Formazione (FPS) genera la geometria degli oggetti utilizzando un campionamento multi-timestep e un'ottimizzazione ricostruttiva, consentendo una sintesi rapida e realistica. Per garantire una coerenza globale, DreamScene impiega una strategia di campionamento progressivo della fotocamera, adattata sia per ambienti interni che esterni. Infine, il sistema supporta modifiche fini della scena, inclusi lo spostamento degli oggetti, i cambiamenti di aspetto e il movimento dinamico 4D. Gli esperimenti dimostrano che DreamScene supera i metodi precedenti in termini di qualità, coerenza e flessibilità, offrendo una soluzione pratica per la creazione di contenuti 3D in domini aperti. Codice e demo sono disponibili all'indirizzo https://jahnsonblack.github.io/DreamScene-Full/.