Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le Fine-Tuning Supervisé (SFT) est couramment utilisé pour entraîner des modèles de langage à imiter des réponses annotées pour des instructions données. Dans cet article, nous remettons en question ce paradigme et proposons le Fine-Tuning de Critique (CFT), une stratégie où les modèles apprennent à critiquer des réponses bruyantes plutôt que simplement imiter des réponses correctes. Inspiré par les processus d'apprentissage humain qui mettent l'accent sur la pensée critique, le CFT encourage une analyse plus approfondie et une compréhension nuancée - des caractéristiques souvent négligées par le SFT standard. Pour valider l'efficacité du CFT, nous construisons un ensemble de données de 50 000 échantillons à partir de WebInstruct, en utilisant GPT-4o comme enseignant pour générer des critiques sous la forme (entrée=[requête; réponse bruyante], sortie=critique). Le CFT sur cet ensemble de données produit une amélioration constante de 4 à 10 % par rapport au SFT sur six benchmarks mathématiques avec différents modèles de base tels que Qwen2.5, Qwen2.5-Math et DeepSeek-Math. Nous étendons ensuite aux ensembles de données MetaMath et NuminaMath et observons des gains similaires par rapport au SFT. Notamment, notre modèle Qwen2.5-Math-CFT, entraîné sur seulement 50 000 échantillons, égale ou surpasse des modèles compétitifs tels que AceMath et Qwen2.5-Math-Instruct sur la plupart des benchmarks, qui utilisent tous deux plus de 2 millions d'échantillons. Des études d'ablation montrent que le CFT est robuste à la source de la réponse bruyante et au modèle de critique de l'enseignant. À travers ces résultats, nous soutenons que la formation basée sur la critique offre une alternative plus efficace pour faire progresser le raisonnement des modèles de langage.
Nous présentons Atla Selene Mini, un modèle linguistique de pointe de petite taille en tant que juge (SLMJ). Selene Mini est un évaluateur polyvalent qui surpasse les meilleurs SLMJs et GPT-4o-mini en termes de performances globales sur 11 benchmarks hors distribution, couvrant des tâches de notation absolue, de classification et de préférence par paire. Il s'agit du modèle génératif 8B le mieux noté sur RewardBench, dépassant des références solides telles que GPT-4o et des juges spécialisés. Pour y parvenir, nous développons une stratégie de curation de données fondée sur des principes qui enrichit les ensembles de données publics avec des critiques générées de manière synthétique et garantit une haute qualité grâce à la filtration et aux ablations des ensembles de données. Nous entraînons notre modèle sur une perte combinée d'optimisation de préférence directe (DPO) et de fine-tuning supervisé (SFT), et produisons un évaluateur hautement personnalisable qui excelle dans des scénarios réels. Selene Mini montre une amélioration spectaculaire de l'accord sans entraînement avec les évaluations d'experts humains sur des ensembles de données de l'industrie financière et médicale. Il est également robuste aux variations de format de requête. Les résultats préliminaires indiquent que Selene Mini est l'évaluateur le mieux classé dans une arène de juges en direct pilotée par la communauté. Nous mettons à disposition les poids du modèle sur HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) et Ollama pour encourager une adoption communautaire généralisée.
La croissance rapide de l'intelligence artificielle (IA), en particulier des Grands Modèles de Langage (GML), a soulevé des préoccupations concernant son impact environnemental mondial qui va au-delà des émissions de gaz à effet de serre pour inclure la prise en compte de la fabrication du matériel et des processus de fin de vie. L'opacité des principaux fournisseurs entrave la capacité des entreprises à évaluer leurs impacts environnementaux liés à l'IA et à atteindre des objectifs de neutralité carbone. Dans cet article, nous proposons une méthodologie pour estimer l'impact environnemental du portefeuille d'IA d'une entreprise, fournissant des informations exploitables sans nécessiter une expertise étendue en IA et en Analyse de Cycle de Vie (ACV). Les résultats confirment que les grands modèles d'IA générative consomment jusqu'à 4600 fois plus d'énergie que les modèles traditionnels. Notre approche de modélisation, qui tient compte de l'augmentation de l'utilisation de l'IA, de l'efficacité du calcul matériel et des changements dans le mix énergétique conformément aux scénarios du GIEC, prévoit une utilisation de l'électricité par l'IA jusqu'en 2030. Dans un scénario d'adoption élevée, entraîné par une adoption généralisée de l'IA générative et des agents associée à des modèles et des cadres de plus en plus complexes, l'utilisation de l'électricité par l'IA devrait augmenter d'un facteur de 24,4. Atténuer l'impact environnemental de l'IA générative d'ici 2030 nécessite des efforts coordonnés à travers la chaîne de valeur de l'IA. Des mesures isolées en termes d'efficacité matérielle, d'efficacité des modèles ou d'améliorations du réseau électrique seules sont insuffisantes. Nous plaidons en faveur de cadres d'évaluation environnementale normalisés, d'une plus grande transparence de la part de tous les acteurs de la chaîne de valeur et de l'introduction d'une métrique de "Retour sur l'Environnement" pour aligner le développement de l'IA sur les objectifs de neutralité carbone.
La virtualisation d'essayage virtuel basée sur l'image (VTON) vise à générer un résultat d'essayage virtuel en transférant un vêtement d'entrée sur l'image d'une personne cible. Cependant, la rareté des données de vêtements associées à des modèles rend difficile pour les méthodes existantes d'atteindre une généralisation et une qualité élevées en VTON. Cela limite également la capacité à générer des essayages sans masque. Pour résoudre le problème de rareté des données, des approches telles que Stable Garment et MMTryon utilisent une stratégie de données synthétiques, augmentant efficacement la quantité de données associées du côté du modèle. Cependant, les méthodes existantes sont généralement limitées à des tâches d'essayage spécifiques et manquent de convivialité. Pour améliorer la généralisation et la contrôlabilité de la génération VTON, nous proposons Any2AnyTryon, qui peut générer des résultats d'essayage en fonction de différentes instructions textuelles et d'images de vêtements modèles pour répondre à divers besoins, éliminant ainsi la dépendance aux masques, aux poses ou à d'autres conditions. Plus précisément, nous construisons d'abord l'ensemble de données d'essayage virtuel LAION-Garment, le plus grand ensemble de données d'essayage de vêtements open source connu. Ensuite, nous introduisons un encodage de position adaptatif, qui permet au modèle de générer des images de modèles habillés ou d'images de vêtements satisfaisantes en fonction d'images d'entrée de différentes tailles et catégories, améliorant significativement la généralisation et la contrôlabilité de la génération VTON. Dans nos expériences, nous démontrons l'efficacité de notre Any2AnyTryon et le comparons avec les méthodes existantes. Les résultats montrent qu'Any2AnyTryon permet une génération d'essayage virtuel flexible, contrôlable et de haute qualité basée sur l'image.
Dans cet article, nous étudions la capacité des humains à détecter le texte généré par des LLM commerciaux (GPT-4o, Claude, o1). Nous recrutons des annotateurs pour lire 300 articles en anglais de non-fiction, les étiqueter comme étant écrits par des humains ou générés par une IA, et fournir des explications d'une longueur de paragraphe pour leurs décisions. Nos expériences montrent que les annotateurs qui utilisent fréquemment des LLM pour des tâches d'écriture excellent dans la détection de textes générés par une IA, même sans formation spécialisée ou rétroaction. En fait, le vote majoritaire parmi cinq de ces annotateurs "experts" classe incorrectement seulement 1 des 300 articles, surpassant de manière significative la plupart des détecteurs commerciaux et open-source que nous avons évalués, même en présence de tactiques d'évasion telles que la paraphrase et l'humanisation. L'analyse qualitative des explications libres des experts montre qu'ils s'appuient fortement sur des indices lexicaux spécifiques ('vocabulaire IA'), mais qu'ils identifient également des phénomènes plus complexes dans le texte (par exemple, la formalité, l'originalité, la clarté) qui sont difficiles à évaluer pour les détecteurs automatiques. Nous mettons à disposition notre ensemble de données annoté et notre code pour stimuler la recherche future sur la détection humaine et automatisée de textes générés par une IA.
Les grands modèles de langage (LLM) sont devenus une partie intégrante de notre vie quotidienne. Cependant, ils présentent certains risques, notamment ceux pouvant porter atteinte à la vie privée des individus, perpétuer des biais et propager des informations erronées. Ces risques soulignent la nécessité de mécanismes de sécurité robustes, de lignes directrices éthiques et de tests approfondis pour garantir leur déploiement responsable. La sécurité des LLM est une propriété clé qui doit être soigneusement testée avant que le modèle ne soit déployé et accessible aux utilisateurs généraux. Cet article rend compte de l'expérience de test de sécurité externe menée par des chercheurs de l'Université de Mondragon et de l'Université de Séville sur le nouveau LLM o3-mini d'OpenAI dans le cadre du programme d'accès anticipé pour les tests de sécurité d'OpenAI. En particulier, nous appliquons notre outil, ASTRAL, pour générer automatiquement et systématiquement des entrées de test non sécurisées (c'est-à-dire des invites) à jour qui nous aident à tester et évaluer différentes catégories de sécurité des LLM. Nous générons et exécutons automatiquement un total de 10 080 entrées de test non sécurisées sur une version bêta précoce du o3-mini. Après avoir vérifié manuellement les cas de test classés comme non sécurisés par ASTRAL, nous identifions un total de 87 instances réelles de comportement non sécurisé des LLM. Nous mettons en lumière les principaux enseignements et découvertes révélés lors de la phase de test externe pré-déploiement du dernier LLM d'OpenAI.
Des recherches récentes montrent que les Grands Modèles de Langage (GML) sont vulnérables aux attaques de fine-tuning nuisibles - les modèles perdent leur capacité d'alignement de sécurité après un fine-tuning sur quelques échantillons nuisibles. Pour atténuer les risques, une barrière de sécurité est généralement utilisée pour filtrer les échantillons nuisibles avant le fine-tuning. En concevant une nouvelle méthode de red teaming, nous montrons dans cet article que se fier uniquement à la barrière de sécurité pour la filtration des données n'est pas fiable. Notre méthode d'attaque proposée, baptisée Virus, contourne facilement la barrière de sécurité en modifiant légèrement les données nuisibles. Les résultats expérimentaux montrent que les données nuisibles optimisées par Virus ne sont pas détectables par la barrière de sécurité avec un taux de fuite allant jusqu'à 100 %, et peuvent simultanément obtenir des performances d'attaque supérieures. Enfin, le message clé que nous voulons transmettre à travers cet article est le suivant : il est imprudent de considérer la modération de la barrière de sécurité comme une solution miracle face aux attaques de fine-tuning nuisibles, car elle ne peut pas résoudre le problème de sécurité inhérent aux GML pré-entraînés. Notre code est disponible sur https://github.com/git-disl/Virus