Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Fine-Tuning Supervisionato (SFT) è comunemente utilizzato per addestrare modelli linguistici a imitare risposte annotate per istruzioni specifiche. In questo articolo, mettiamo in discussione questo paradigma e proponiamo il Fine-Tuning della Critica (CFT), una strategia in cui i modelli imparano a criticare risposte rumorose anziché semplicemente imitare quelle corrette. Ispirato ai processi di apprendimento umano che enfatizzano il pensiero critico, il CFT incoraggia un'analisi più approfondita e una comprensione sfumata, tratti spesso trascurati dal SFT standard. Per convalidare l'efficacia del CFT, costruiamo un dataset di 50K campioni da WebInstruct, utilizzando GPT-4o come insegnante per generare critiche sotto forma di (input=[query; risposta rumorosa], output=critica). Il CFT su questo dataset produce un miglioramento costante del 4-10% rispetto al SFT su sei benchmark matematici con diversi modelli di base come Qwen2.5, Qwen2.5-Math e DeepSeek-Math. Espandiamo ulteriormente ai dataset MetaMath e NuminaMath e osserviamo guadagni simili rispetto al SFT. In particolare, il nostro modello Qwen2.5-Math-CFT addestrato su soli 50K campioni si allinea o supera modelli competitivi come AceMath e Qwen2.5-Math-Instruct su gran parte dei benchmark, entrambi dei quali utilizzano oltre 2M campioni. Gli studi di ablazione mostrano che il CFT è robusto all'origine della risposta rumorosa e al modello di critica dell'insegnante. Attraverso questi risultati, sosteniamo che l'addestramento basato sulla critica offre un'alternativa più efficace per far progredire il ragionamento dei modelli linguistici.
Presentiamo Atla Selene Mini, un modello linguistico in miniatura all'avanguardia come giudice (SLMJ). Selene Mini è un valutatore generale che supera i migliori SLMJ e GPT-4o-mini sulle prestazioni complessive attraverso 11 benchmark out-of-distribution, che includono punteggi assoluti, classificazione e compiti di preferenza pairwise. È il modello generativo 8B con il punteggio più alto su RewardBench, superando basi solide come GPT-4o e giudici specializzati. Per raggiungere ciò, sviluppiamo una strategia di cura dati basata su principi che amplia i dataset pubblici con critiche generate sinteticamente e garantisce alta qualità attraverso filtraggio e ablation dei dataset. Alleniamo il nostro modello su una combinazione di ottimizzazione diretta delle preferenze (DPO) e sintonizzazione fine supervisionata (SFT), producendo un valutatore altamente promptabile che eccelle in scenari reali. Selene Mini mostra un accordo zero-shot drasticamente migliorato con le valutazioni degli esperti umani su dataset dell'industria finanziaria e medica. È inoltre robusto alle variazioni nel formato del prompt. I risultati preliminari indicano che Selene Mini è il valutatore di punta in un'arena giudiziaria live guidata dalla comunità. Rilasciamo i pesi del modello su HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) e Ollama per incoraggiare un'ampia adozione da parte della comunità.
La rapida crescita dell'intelligenza artificiale (AI), in particolare dei Grandi Modelli Linguistici (LLM), ha sollevato preoccupazioni riguardo al suo impatto ambientale globale che va oltre le emissioni di gas serra per includere la considerazione della fabbricazione dell'hardware e dei processi di fine vita. L'opacità da parte dei principali fornitori ostacola la capacità delle aziende di valutare gli impatti ambientali legati all'AI e di raggiungere gli obiettivi di emissioni nette zero. In questo articolo, proponiamo una metodologia per stimare l'impatto ambientale del portafoglio AI di un'azienda, fornendo approfondimenti utili senza richiedere una vasta esperienza in AI e Valutazione del Ciclo di Vita (LCA). I risultati confermano che i grandi modelli AI generativi consumano fino a 4600 volte più energia rispetto ai modelli tradizionali. Il nostro approccio di modellazione, che tiene conto dell'aumento dell'uso dell'AI, dell'efficienza del calcolo dell'hardware e dei cambiamenti nella composizione dell'elettricità in linea con gli scenari dell'IPCC, prevede l'uso di elettricità dell'AI fino al 2030. In uno scenario di elevata adozione, guidato dalla diffusa adozione dell'AI Generativa e degli agenti associati a modelli e framework sempre più complessi, si prevede che l'uso di elettricità dell'AI aumenterà di un fattore di 24,4. Ridurre l'impatto ambientale dell'AI Generativa entro il 2030 richiede sforzi coordinati lungo la catena del valore dell'AI. Misure isolate sull'efficienza dell'hardware, sull'efficienza del modello o sul miglioramento della rete elettrica da sole non sono sufficienti. Sosteniamo l'adozione di quadri standardizzati di valutazione ambientale, una maggiore trasparenza da parte di tutti gli attori della catena del valore e l'introduzione di una metrica "Ritorno sull'Ambiente" per allineare lo sviluppo dell'AI agli obiettivi di emissioni nette zero.
Il virtual try-on basato sull'immagine (VTON) mira a generare un risultato di prova virtuale trasferendo un capo di abbigliamento di input su un'immagine di una persona target. Tuttavia, la scarsità di dati abbinati capo-modello rende difficile per i metodi esistenti raggiungere un'elevata generalizzazione e qualità in VTON. Inoltre, limita la capacità di generare prove senza maschera. Per affrontare il problema della scarsità di dati, approcci come Stable Garment e MMTryon utilizzano una strategia di dati sintetici, aumentando efficacemente la quantità di dati abbinati sul lato del modello. Tuttavia, i metodi esistenti sono tipicamente limitati nell'esecuzione di specifiche attività di prova e mancano di facilità d'uso. Per migliorare la generalizzazione e la controllabilità della generazione di VTON, proponiamo Any2AnyTryon, che può generare risultati di prova in base a diverse istruzioni testuali e immagini di capi di abbigliamento del modello per soddisfare varie esigenze, eliminando la dipendenza da maschere, pose o altre condizioni. In particolare, costruiamo prima il dataset di prova virtuale LAION-Garment, il più grande dataset di prova di abbigliamento open-source conosciuto. Successivamente, introduciamo l'incorporamento di posizione adattivo, che consente al modello di generare immagini di modelli vestiti o immagini di capi soddisfacenti basate su immagini di input di diverse dimensioni e categorie, migliorando significativamente la generalizzazione e la controllabilità della generazione di VTON. Nei nostri esperimenti, dimostriamo l'efficacia del nostro Any2AnyTryon e lo confrontiamo con i metodi esistenti. I risultati mostrano che Any2AnyTryon consente una generazione flessibile, controllabile e di alta qualità del virtual try-on basato sull'immagine.
In questo articolo, studiamo quanto bene gli esseri umani possano rilevare il testo generato da LLM commerciali (GPT-4o, Claude, o1). Assumiamo annotatori per leggere 300 articoli in lingua inglese di non-fiction, etichettarli come scritti da umani o generati da AI, e fornire spiegazioni di lunghezza paragrafica per le loro decisioni. I nostri esperimenti mostrano che gli annotatori che utilizzano frequentemente LLM per compiti di scrittura eccellono nel rilevare il testo generato da AI, anche senza alcuna formazione specializzata o feedback. Infatti, il voto della maggioranza tra cinque di tali annotatori "esperti" classifica erroneamente solo 1 degli 300 articoli, superando significativamente la maggior parte dei rilevatori commerciali e open-source che abbiamo valutato, anche in presenza di tattiche di evasione come il parafrasare e l'umanizzazione. L'analisi qualitativa delle spiegazioni in forma libera degli esperti mostra che, sebbene si basino pesantemente su indizi lessicali specifici ('vocabolario AI'), colgono anche fenomeni più complessi all'interno del testo (ad esempio, formalità, originalità, chiarezza) che sono sfidanti da valutare per i rilevatori automatici. Rilasciamo il nostro dataset annotato e il codice per incoraggiare la ricerca futura sia sulla rilevazione umana che automatica del testo generato da AI.
I Large Language Models (LLM) sono diventati una parte integrante della nostra vita quotidiana. Tuttavia, comportano certi rischi, tra cui quelli che possono danneggiare la privacy delle persone, perpetuare pregiudizi e diffondere disinformazione. Questi rischi evidenziano la necessità di meccanismi di sicurezza robusti, linee guida etiche e test approfonditi per garantire il loro impiego responsabile. La sicurezza dei LLM è una proprietà chiave che deve essere testata accuratamente prima che il modello venga implementato e reso accessibile agli utenti in generale. Questo articolo riporta l'esperienza di testing esterno sulla sicurezza condotta dai ricercatori dell'Università di Mondragón e dell'Università di Siviglia sul nuovo o3-mini LLM di OpenAI, nell'ambito del programma di accesso anticipato per il testing della sicurezza. In particolare, applichiamo il nostro strumento, ASTRAL, per generare automaticamente e sistematicamente input di test non sicuri aggiornati (ossia, prompt) che ci aiutano a testare e valutare diverse categorie di sicurezza dei LLM. Generiamo ed eseguiamo automaticamente un totale di 10.080 input di test non sicuri su una versione beta anticipata di o3-mini. Dopo aver verificato manualmente i casi di test classificati come non sicuri da ASTRAL, identifichiamo un totale di 87 istanze effettive di comportamento non sicuro dei LLM. Evidenziamo le principali intuizioni e scoperte emerse durante la fase di testing esterno pre-implementazione dell'ultimo LLM di OpenAI.
Ricerche recenti mostrano che i Grandi Modelli Linguistici (GML) sono vulnerabili agli attacchi dannosi di fine-tuning: i modelli perdono la loro capacità di allineamento alla sicurezza dopo il fine-tuning su alcuni campioni dannosi. Per la mitigazione del rischio, di solito viene utilizzato un guardrail per filtrare i campioni dannosi prima del fine-tuning. Progettando un nuovo metodo di red-teaming, in questo articolo mostriamo che affidarsi esclusivamente al guardrail di moderazione per la filtrazione dei dati non è affidabile. Il nostro metodo di attacco proposto, chiamato Virus, supera facilmente la moderazione del guardrail modificando leggermente i dati dannosi. I risultati sperimentali mostrano che i dati dannosi ottimizzati da Virus non sono rilevabili dal guardrail con un tasso di perdita fino al 100%, e possono contemporaneamente ottenere prestazioni di attacco superiori. Infine, il messaggio chiave che vogliamo trasmettere attraverso questo articolo è che è imprudente considerare la moderazione del guardrail come un'ancora di salvezza contro gli attacchi dannosi di fine-tuning, poiché non può risolvere il problema di sicurezza intrinseco dei GML pre-addestrati. Il nostro codice è disponibile su https://github.com/git-disl/Virus