Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'image inpainting è un'area di ricerca fondamentale che si colloca tra l'editing e la generazione di immagini. I metodi più recenti all'avanguardia (SOTA) hanno esplorato meccanismi di attenzione innovativi, architetture leggere e modellazione contestuale, dimostrando prestazioni impressionanti. Tuttavia, spesso faticano a gestire strutture complesse (ad esempio, texture, forma, relazioni spaziali) e aspetti semantici (ad esempio, coerenza cromatica, ripristino di oggetti e correttezza logica), portando alla comparsa di artefatti e generazioni inappropriate. Per affrontare questa sfida, abbiamo progettato un paradigma di inpainting semplice ma efficace chiamato "latent categories guidance" e proposto un modello basato su diffusione denominato PixelHacker. Nello specifico, abbiamo prima costruito un ampio dataset contenente 14 milioni di coppie immagine-maschera, annotando i primi piani e gli sfondi (con 116 e 21 categorie potenziali, rispettivamente). Successivamente, abbiamo codificato separatamente le rappresentazioni potenziali dei primi piani e degli sfondi attraverso due embedding di dimensione fissa, iniettando in modo intermittente queste caratteristiche nel processo di denoising tramite attenzione lineare. Infine, pre-addestrando il modello sul nostro dataset e perfezionandolo su benchmark open-source, abbiamo ottenuto PixelHacker. Esperimenti estensivi dimostrano che PixelHacker supera in modo completo i metodi SOTA su un'ampia gamma di dataset (Places2, CelebA-HQ e FFHQ) e mostra una notevole coerenza sia nella struttura che nella semantica. Pagina del progetto: https://hustvl.github.io/PixelHacker.
Presentiamo la serie di modelli Llama-Nemotron, una famiglia aperta di modelli eterogenei di ragionamento che offrono capacità di ragionamento eccezionali, efficienza nell'inferenza e una licenza aperta per l'uso aziendale. La famiglia è disponibile in tre dimensioni -- Nano (8B), Super (49B) e Ultra (253B) -- e si comporta in modo competitivo rispetto ai modelli di ragionamento all'avanguardia come DeepSeek-R1, offrendo al contempo una superiore velocità di inferenza ed efficienza nella memoria. In questo rapporto, discutiamo la procedura di addestramento di questi modelli, che prevede l'uso della ricerca di architetture neurali dai modelli Llama 3 per un'inferenza accelerata, la distillazione della conoscenza e il pre-addestramento continuo, seguito da una fase di post-addestramento focalizzata sul ragionamento composta da due parti principali: fine-tuning supervisionato e apprendimento per rinforzo su larga scala. I modelli Llama-Nemotron sono i primi modelli open-source a supportare un interruttore dinamico per il ragionamento, consentendo agli utenti di passare tra modalità di chat standard e modalità di ragionamento durante l'inferenza. Per ulteriormente supportare la ricerca aperta e facilitare lo sviluppo dei modelli, forniamo le seguenti risorse: 1. Rilasciamo i modelli di ragionamento Llama-Nemotron -- LN-Nano, LN-Super e LN-Ultra -- sotto la licenza commercialmente permissiva NVIDIA Open Model License Agreement. 2. Rilasciamo il dataset completo di post-addestramento: Llama-Nemotron-Post-Training-Dataset. 3. Rilasciamo anche i nostri codici di addestramento: NeMo, NeMo-Aligner e Megatron-LM.
La maggior parte delle attività di modifica delle immagini nel mondo reale richiede più modifiche sequenziali per ottenere i risultati desiderati. Gli approcci di modifica attuali, progettati principalmente per modifiche a singoli oggetti, faticano con le modifiche sequenziali: in particolare nel mantenere le modifiche precedenti e nell'adattare naturalmente nuovi oggetti al contenuto esistente. Queste limitazioni ostacolano significativamente scenari di modifica complessi in cui più oggetti devono essere modificati preservando le loro relazioni contestuali. Affrontiamo questa sfida fondamentale attraverso due proposte chiave: abilitare input di maschere approssimative che preservano il contenuto esistente integrando naturalmente nuovi elementi e supportare modifiche consistenti attraverso più modifiche. Il nostro framework raggiunge questo obiettivo attraverso una memoria a strati, che memorizza rappresentazioni latenti e incorporamenti di prompt dalle modifiche precedenti. Proponiamo una Guida alla Coerenza dello Sfondo che sfrutta i latenti memorizzati per mantenere la coerenza della scena e uno Sgancio Multi-Query nell'attenzione incrociata che assicura un adattamento naturale al contenuto esistente. Per valutare il nostro metodo, presentiamo un nuovo dataset di benchmark che incorpora metriche di allineamento semantico e scenari di modifica interattivi. Attraverso esperimenti completi, dimostriamo prestazioni superiori in compiti di modifica iterativa delle immagini con uno sforzo minimo da parte dell'utente, richiedendo solo maschere approssimative mentre si mantengono risultati di alta qualità attraverso più passaggi di modifica.
Valutare i sistemi di generazione del linguaggio naturale (NLG) è complesso a causa della diversità degli output validi. Sebbene la valutazione umana rappresenti lo standard di riferimento, essa soffre di incoerenze, mancanza di standardizzazione e bias demografici, limitando la riproducibilità. La valutazione basata su LLM offre un'alternativa scalabile, ma è altamente sensibile al design dei prompt, dove piccole variazioni possono portare a discrepanze significative. In questo lavoro, proponiamo un metodo di apprendimento inverso che apprende mappature efficaci dagli output del modello alle istruzioni di input corrispondenti, consentendo la generazione automatica di prompt di valutazione altamente efficaci e specifici per il modello. Il nostro metodo richiede un solo campione di valutazione ed elimina la necessità di un'ingegnerizzazione manuale dei prompt, migliorando così sia l'efficienza che la robustezza. Il nostro lavoro contribuisce a una nuova direzione per una valutazione basata su LLM più robusta ed efficiente.
Basandoci su 1.178 articoli riguardanti sicurezza e affidabilità tratti da 9.439 pubblicazioni sull'IA generativa (gennaio 2020 - marzo 2025), confrontiamo i risultati della ricerca delle principali aziende di IA (Anthropic, Google DeepMind, Meta, Microsoft e OpenAI) e delle università specializzate in IA (CMU, MIT, NYU, Stanford, UC Berkeley e University of Washington). Rileviamo che la ricerca aziendale sull'IA si concentra sempre più su aree pre-distribuzione, come l'allineamento dei modelli e i test & valutazione, mentre l'attenzione verso problematiche legate alla fase di distribuzione, come il bias dei modelli, è diminuita. Esistono significative lacune di ricerca in domini di distribuzione ad alto rischio, tra cui sanità, finanza, disinformazione, funzionalità persuasive e addictive, allucinazioni e copyright. Senza un miglioramento dell'osservabilità delle IA distribuite, la crescente concentrazione aziendale potrebbe approfondire i deficit di conoscenza. Raccomandiamo di ampliare l'accesso dei ricercatori esterni ai dati di distribuzione e di implementare un'osservabilità sistematica dei comportamenti delle IA sul mercato.
In un corpus reale, la conoscenza ricorre frequentemente tra i documenti ma spesso presenta incongruenze dovute a denominazioni ambigue, informazioni obsolete o errori, portando a relazioni complesse tra i contesti. Ricerche precedenti hanno dimostrato che i modelli linguistici faticano a gestire queste complessità, concentrandosi tipicamente su singoli fattori in isolamento. Classifichiamo queste relazioni in quattro tipi: distraenti, ambigue, controfattuali e duplicate. La nostra analisi rivela che nessun approccio singolo affronta efficacemente tutte queste interrelazioni simultaneamente. Pertanto, introduciamo Context Organizer (CORG), un framework che organizza più contesti in gruppi elaborati in modo indipendente. Questo design consente al modello di trovare in modo efficiente tutte le risposte rilevanti garantendo al contempo la disambiguazione. CORG è composto da tre componenti chiave: un costruttore di grafi, un riordinatore e un aggregatore. I nostri risultati dimostrano che CORG bilancia efficacemente prestazioni ed efficienza, superando i metodi di raggruppamento esistenti e ottenendo risultati comparabili a approcci più intensivi dal punto di vista computazionale basati su contesti singoli.
Imparare a risolvere compiti complessi con specifiche di logica temporale a segnale (STL) è cruciale per molte applicazioni del mondo reale. Tuttavia, la maggior parte dei lavori precedenti considera solo specifiche STL fisse o parametrizzate a causa della mancanza di un dataset STL diversificato e di encoder in grado di estrarre efficacemente le informazioni di logica temporale per compiti successivi. In questo articolo, proponiamo TeLoGraF, Temporal Logic Graph-encoded Flow, che utilizza un encoder basato su reti neurali a grafo (GNN) e il flow-matching per apprendere soluzioni per specifiche STL generali. Identifichiamo quattro modelli STL comunemente utilizzati e raccogliamo un totale di 200K specifiche con dimostrazioni accoppiate. Condividiamo esperimenti estensivi in cinque ambienti simulati, che vanno da semplici modelli dinamici nello spazio 2D ad ambienti ad alta dimensionalità come il braccio robotico Franka Panda a 7 gradi di libertà e la navigazione del quadrupede Ant. I risultati mostrano che il nostro metodo supera altre baseline nel tasso di soddisfazione STL. Rispetto agli algoritmi classici di pianificazione STL, il nostro approccio è 10-100 volte più veloce nell'inferenza e può funzionare con qualsiasi dinamica di sistema. Inoltre, dimostriamo la capacità del nostro metodo di codifica a grafo di risolvere STL complesse e la sua robustezza rispetto a specifiche STL fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/mengyuest/TeLoGraF.
Con l'emergere quotidiano di nuovi prodotti, i sistemi di raccomandazione devono adattarsi rapidamente a possibili nuovi domini senza richiedere un esteso riaddestramento. Questo lavoro presenta "X-Cross" — un innovativo modello di raccomandazione sequenziale cross-domain che suggerisce prodotti in nuovi domini integrando diversi modelli linguistici specifici per dominio; ciascun modello viene ottimizzato utilizzando adattatori a basso rango (LoRA). Dato un prompt di raccomandazione, operando strato per strato, X-Cross affina dinamicamente la rappresentazione di ciascun modello linguistico sorgente integrando conoscenze da tutti gli altri modelli. Queste rappresentazioni raffinate vengono propagate da uno strato al successivo, sfruttando le attivazioni di ciascun adattatore di dominio per garantire che le sfumature specifiche del dominio siano preservate, pur consentendo l'adattabilità tra domini. Utilizzando dataset Amazon per la raccomandazione sequenziale, X-Cross raggiunge prestazioni paragonabili a un modello ottimizzato con LoRA, utilizzando solo il 25% dei parametri aggiuntivi. In compiti cross-domain, come l'adattamento dal dominio dei Giocattoli a quello degli Strumenti, Elettronica o Sport, X-Cross dimostra prestazioni robuste, richiedendo circa il 50%-75% in meno di dati di fine-tuning rispetto a LoRA per rendere efficace il fine-tuning. Inoltre, X-Cross ottiene un significativo miglioramento in termini di accuratezza rispetto alle baseline cross-domain alternative. Nel complesso, X-Cross abilita raccomandazioni cross-domain scalabili e adattabili, riducendo l'overhead computazionale e fornendo una soluzione efficiente per ambienti con vincoli di dati.