Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

PixelHacker: Ricostruzione di Immagini con Coerenza Strutturale e Semantica
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29, 2025

Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

444

L'image inpainting è un'area di ricerca fondamentale che si colloca tra l'editing e la generazione di immagini. I metodi più recenti all'avanguardia (SOTA) hanno esplorato meccanismi di attenzione innovativi, architetture leggere e modellazione contestuale, dimostrando prestazioni impressionanti. Tuttavia, spesso faticano a gestire strutture complesse (ad esempio, texture, forma, relazioni spaziali) e aspetti semantici (ad esempio, coerenza cromatica, ripristino di oggetti e correttezza logica), portando alla comparsa di artefatti e generazioni inappropriate. Per affrontare questa sfida, abbiamo progettato un paradigma di inpainting semplice ma efficace chiamato "latent categories guidance" e proposto un modello basato su diffusione denominato PixelHacker. Nello specifico, abbiamo prima costruito un ampio dataset contenente 14 milioni di coppie immagine-maschera, annotando i primi piani e gli sfondi (con 116 e 21 categorie potenziali, rispettivamente). Successivamente, abbiamo codificato separatamente le rappresentazioni potenziali dei primi piani e degli sfondi attraverso due embedding di dimensione fissa, iniettando in modo intermittente queste caratteristiche nel processo di denoising tramite attenzione lineare. Infine, pre-addestrando il modello sul nostro dataset e perfezionandolo su benchmark open-source, abbiamo ottenuto PixelHacker. Esperimenti estensivi dimostrano che PixelHacker supera in modo completo i metodi SOTA su un'ampia gamma di dataset (Places2, CelebA-HQ e FFHQ) e mostra una notevole coerenza sia nella struttura che nella semantica. Pagina del progetto: https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Modelli di Ragionamento Efficienti
Llama-Nemotron: Efficient Reasoning Models

May 2, 2025

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

425

Presentiamo la serie di modelli Llama-Nemotron, una famiglia aperta di modelli eterogenei di ragionamento che offrono capacità di ragionamento eccezionali, efficienza nell'inferenza e una licenza aperta per l'uso aziendale. La famiglia è disponibile in tre dimensioni -- Nano (8B), Super (49B) e Ultra (253B) -- e si comporta in modo competitivo rispetto ai modelli di ragionamento all'avanguardia come DeepSeek-R1, offrendo al contempo una superiore velocità di inferenza ed efficienza nella memoria. In questo rapporto, discutiamo la procedura di addestramento di questi modelli, che prevede l'uso della ricerca di architetture neurali dai modelli Llama 3 per un'inferenza accelerata, la distillazione della conoscenza e il pre-addestramento continuo, seguito da una fase di post-addestramento focalizzata sul ragionamento composta da due parti principali: fine-tuning supervisionato e apprendimento per rinforzo su larga scala. I modelli Llama-Nemotron sono i primi modelli open-source a supportare un interruttore dinamico per il ragionamento, consentendo agli utenti di passare tra modalità di chat standard e modalità di ragionamento durante l'inferenza. Per ulteriormente supportare la ricerca aperta e facilitare lo sviluppo dei modelli, forniamo le seguenti risorse: 1. Rilasciamo i modelli di ragionamento Llama-Nemotron -- LN-Nano, LN-Super e LN-Ultra -- sotto la licenza commercialmente permissiva NVIDIA Open Model License Agreement. 2. Rilasciamo il dataset completo di post-addestramento: Llama-Nemotron-Post-Training-Dataset. 3. Rilasciamo anche i nostri codici di addestramento: NeMo, NeMo-Aligner e Megatron-LM.

Migliorare l'editabilità nella generazione di immagini con memoria a livelli
Improving Editability in Image Generation with Layer-wise Memory

May 2, 2025

Daneul Kim, Jaeah Lee, Jaesik Park

291

La maggior parte delle attività di modifica delle immagini nel mondo reale richiede più modifiche sequenziali per ottenere i risultati desiderati. Gli approcci di modifica attuali, progettati principalmente per modifiche a singoli oggetti, faticano con le modifiche sequenziali: in particolare nel mantenere le modifiche precedenti e nell'adattare naturalmente nuovi oggetti al contenuto esistente. Queste limitazioni ostacolano significativamente scenari di modifica complessi in cui più oggetti devono essere modificati preservando le loro relazioni contestuali. Affrontiamo questa sfida fondamentale attraverso due proposte chiave: abilitare input di maschere approssimative che preservano il contenuto esistente integrando naturalmente nuovi elementi e supportare modifiche consistenti attraverso più modifiche. Il nostro framework raggiunge questo obiettivo attraverso una memoria a strati, che memorizza rappresentazioni latenti e incorporamenti di prompt dalle modifiche precedenti. Proponiamo una Guida alla Coerenza dello Sfondo che sfrutta i latenti memorizzati per mantenere la coerenza della scena e uno Sgancio Multi-Query nell'attenzione incrociata che assicura un adattamento naturale al contenuto esistente. Per valutare il nostro metodo, presentiamo un nuovo dataset di benchmark che incorpora metriche di allineamento semantico e scenari di modifica interattivi. Attraverso esperimenti completi, dimostriamo prestazioni superiori in compiti di modifica iterativa delle immagini con uno sforzo minimo da parte dell'utente, richiedendo solo maschere approssimative mentre si mantengono risultati di alta qualità attraverso più passaggi di modifica.

Oltre l'approccio universale: l'apprendimento per inversione per prompt di valutazione altamente efficaci nella generazione del linguaggio naturale
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29, 2025

Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

262

Valutare i sistemi di generazione del linguaggio naturale (NLG) è complesso a causa della diversità degli output validi. Sebbene la valutazione umana rappresenti lo standard di riferimento, essa soffre di incoerenze, mancanza di standardizzazione e bias demografici, limitando la riproducibilità. La valutazione basata su LLM offre un'alternativa scalabile, ma è altamente sensibile al design dei prompt, dove piccole variazioni possono portare a discrepanze significative. In questo lavoro, proponiamo un metodo di apprendimento inverso che apprende mappature efficaci dagli output del modello alle istruzioni di input corrispondenti, consentendo la generazione automatica di prompt di valutazione altamente efficaci e specifici per il modello. Il nostro metodo richiede un solo campione di valutazione ed elimina la necessità di un'ingegnerizzazione manuale dei prompt, migliorando così sia l'efficienza che la robustezza. Il nostro lavoro contribuisce a una nuova direzione per una valutazione basata su LLM più robusta ed efficiente.

Lacune nel mondo reale della ricerca sulla governance dell'IA
Real-World Gaps in AI Governance Research

Apr 30, 2025

Ilan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

121

Basandoci su 1.178 articoli riguardanti sicurezza e affidabilità tratti da 9.439 pubblicazioni sull'IA generativa (gennaio 2020 - marzo 2025), confrontiamo i risultati della ricerca delle principali aziende di IA (Anthropic, Google DeepMind, Meta, Microsoft e OpenAI) e delle università specializzate in IA (CMU, MIT, NYU, Stanford, UC Berkeley e University of Washington). Rileviamo che la ricerca aziendale sull'IA si concentra sempre più su aree pre-distribuzione, come l'allineamento dei modelli e i test & valutazione, mentre l'attenzione verso problematiche legate alla fase di distribuzione, come il bias dei modelli, è diminuita. Esistono significative lacune di ricerca in domini di distribuzione ad alto rischio, tra cui sanità, finanza, disinformazione, funzionalità persuasive e addictive, allucinazioni e copyright. Senza un miglioramento dell'osservabilità delle IA distribuite, la crescente concentrazione aziendale potrebbe approfondire i deficit di conoscenza. Raccomandiamo di ampliare l'accesso dei ricercatori esterni ai dati di distribuzione e di implementare un'osservabilità sistematica dei comportamenti delle IA sul mercato.

CORG: Generazione di risposte da contesti complessi e interconnessi
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25, 2025

Hyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

In un corpus reale, la conoscenza ricorre frequentemente tra i documenti ma spesso presenta incongruenze dovute a denominazioni ambigue, informazioni obsolete o errori, portando a relazioni complesse tra i contesti. Ricerche precedenti hanno dimostrato che i modelli linguistici faticano a gestire queste complessità, concentrandosi tipicamente su singoli fattori in isolamento. Classifichiamo queste relazioni in quattro tipi: distraenti, ambigue, controfattuali e duplicate. La nostra analisi rivela che nessun approccio singolo affronta efficacemente tutte queste interrelazioni simultaneamente. Pertanto, introduciamo Context Organizer (CORG), un framework che organizza più contesti in gruppi elaborati in modo indipendente. Questo design consente al modello di trovare in modo efficiente tutte le risposte rilevanti garantendo al contempo la disambiguazione. CORG è composto da tre componenti chiave: un costruttore di grafi, un riordinatore e un aggregatore. I nostri risultati dimostrano che CORG bilancia efficacemente prestazioni ed efficienza, superando i metodi di raggruppamento esistenti e ottenendo risultati comparabili a approcci più intensivi dal punto di vista computazionale basati su contesti singoli.

TeLoGraF: Pianificazione Logica Temporale tramite Abbinamento di Flussi Codificati in Grafi
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1, 2025

Yue Meng, Chuchu Fan

Imparare a risolvere compiti complessi con specifiche di logica temporale a segnale (STL) è cruciale per molte applicazioni del mondo reale. Tuttavia, la maggior parte dei lavori precedenti considera solo specifiche STL fisse o parametrizzate a causa della mancanza di un dataset STL diversificato e di encoder in grado di estrarre efficacemente le informazioni di logica temporale per compiti successivi. In questo articolo, proponiamo TeLoGraF, Temporal Logic Graph-encoded Flow, che utilizza un encoder basato su reti neurali a grafo (GNN) e il flow-matching per apprendere soluzioni per specifiche STL generali. Identifichiamo quattro modelli STL comunemente utilizzati e raccogliamo un totale di 200K specifiche con dimostrazioni accoppiate. Condividiamo esperimenti estensivi in cinque ambienti simulati, che vanno da semplici modelli dinamici nello spazio 2D ad ambienti ad alta dimensionalità come il braccio robotico Franka Panda a 7 gradi di libertà e la navigazione del quadrupede Ant. I risultati mostrano che il nostro metodo supera altre baseline nel tasso di soddisfazione STL. Rispetto agli algoritmi classici di pianificazione STL, il nostro approccio è 10-100 volte più veloce nell'inferenza e può funzionare con qualsiasi dinamica di sistema. Inoltre, dimostriamo la capacità del nostro metodo di codifica a grafo di risolvere STL complesse e la sua robustezza rispetto a specifiche STL fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/mengyuest/TeLoGraF.

X-Cross: Integrazione Dinamica di Modelli Linguistici per la Raccomandazione Sequenziale Cross-Dominio
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29, 2025

Guy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

Con l'emergere quotidiano di nuovi prodotti, i sistemi di raccomandazione devono adattarsi rapidamente a possibili nuovi domini senza richiedere un esteso riaddestramento. Questo lavoro presenta "X-Cross" — un innovativo modello di raccomandazione sequenziale cross-domain che suggerisce prodotti in nuovi domini integrando diversi modelli linguistici specifici per dominio; ciascun modello viene ottimizzato utilizzando adattatori a basso rango (LoRA). Dato un prompt di raccomandazione, operando strato per strato, X-Cross affina dinamicamente la rappresentazione di ciascun modello linguistico sorgente integrando conoscenze da tutti gli altri modelli. Queste rappresentazioni raffinate vengono propagate da uno strato al successivo, sfruttando le attivazioni di ciascun adattatore di dominio per garantire che le sfumature specifiche del dominio siano preservate, pur consentendo l'adattabilità tra domini. Utilizzando dataset Amazon per la raccomandazione sequenziale, X-Cross raggiunge prestazioni paragonabili a un modello ottimizzato con LoRA, utilizzando solo il 25% dei parametri aggiuntivi. In compiti cross-domain, come l'adattamento dal dominio dei Giocattoli a quello degli Strumenti, Elettronica o Sport, X-Cross dimostra prestazioni robuste, richiedendo circa il 50%-75% in meno di dati di fine-tuning rispetto a LoRA per rendere efficace il fine-tuning. Inoltre, X-Cross ottiene un significativo miglioramento in termini di accuratezza rispetto alle baseline cross-domain alternative. Nel complesso, X-Cross abilita raccomandazioni cross-domain scalabili e adattabili, riducendo l'overhead computazionale e fornendo una soluzione efficiente per ambienti con vincoli di dati.

Llama-Nemotron: Modelli di Ragionamento Efficienti
Llama-Nemotron: Efficient Reasoning Models

May 2, 2025

425

Paper Giornalieri

PixelHacker: Ricostruzione di Immagini con Coerenza Strutturale e Semantica
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Llama-Nemotron: Modelli di Ragionamento Efficienti
Llama-Nemotron: Efficient Reasoning Models

Migliorare l'editabilità nella generazione di immagini con memoria a livelli
Improving Editability in Image Generation with Layer-wise Memory

Oltre l'approccio universale: l'apprendimento per inversione per prompt di valutazione altamente efficaci nella generazione del linguaggio naturale
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Lacune nel mondo reale della ricerca sulla governance dell'IA
Real-World Gaps in AI Governance Research

CORG: Generazione di risposte da contesti complessi e interconnessi
CORG: Generating Answers from Complex, Interrelated Contexts

TeLoGraF: Pianificazione Logica Temporale tramite Abbinamento di Flussi Codificati in Grafi
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

X-Cross: Integrazione Dinamica di Modelli Linguistici per la Raccomandazione Sequenziale Cross-Dominio
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Support

Support

Paper Giornalieri

PixelHacker: Ricostruzione di Immagini con Coerenza Strutturale e Semantica
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Llama-Nemotron: Modelli di Ragionamento Efficienti
Llama-Nemotron: Efficient Reasoning Models

Migliorare l'editabilità nella generazione di immagini con memoria a livelli
Improving Editability in Image Generation with Layer-wise Memory

Oltre l'approccio universale: l'apprendimento per inversione per prompt di valutazione altamente efficaci nella generazione del linguaggio naturale
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Lacune nel mondo reale della ricerca sulla governance dell'IA
Real-World Gaps in AI Governance Research

CORG: Generazione di risposte da contesti complessi e interconnessi
CORG: Generating Answers from Complex, Interrelated Contexts

TeLoGraF: Pianificazione Logica Temporale tramite Abbinamento di Flussi Codificati in Grafi
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

X-Cross: Integrazione Dinamica di Modelli Linguistici per la Raccomandazione Sequenziale Cross-Dominio
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation