papers.description
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) ont récemment émergé comme une alternative puissante aux LLMs autorégressifs, offrant une inférence plus rapide et une plus grande interactivité grâce au décodage parallèle et à la modélisation bidirectionnelle. Cependant, malgré des performances solides en génération de code et en remplissage de texte, nous identifions une préoccupation fondamentale en matière de sécurité : les mécanismes d'alignement existants ne parviennent pas à protéger les dLLMs contre les invites adverses masquées et contextuellement conscientes, exposant ainsi de nouvelles vulnérabilités. À cette fin, nous présentons DIJA, la première étude systématique et le cadre d'attaque de jailbreak qui exploitent les faiblesses de sécurité uniques des dLLMs. Plus précisément, notre proposition DIJA construit des invites adverses intercalées masque-texte qui exploitent les mécanismes de génération de texte des dLLMs, à savoir la modélisation bidirectionnelle et le décodage parallèle. La modélisation bidirectionnelle pousse le modèle à produire des sorties contextuellement cohérentes pour les segments masqués, même lorsqu'ils sont nuisibles, tandis que le décodage parallèle limite le filtrage dynamique et l'échantillonnage de rejet du contenu dangereux par le modèle. Cela entraîne l'échec des mécanismes d'alignement standard, permettant des complétions nuisibles dans les dLLMs alignés, même lorsque des comportements nuisibles ou des instructions dangereuses sont directement exposés dans l'invite. À travers des expériences approfondies, nous démontrons que DIJA surpasse significativement les méthodes de jailbreak existantes, exposant une surface de menace précédemment négligée dans les architectures de dLLMs. Notamment, notre méthode atteint jusqu'à 100 % de ASR basé sur des mots-clés sur Dream-Instruct, surpassant la base de référence la plus forte, ReNeLLM, jusqu'à 78,5 % en ASR basé sur l'évaluateur sur JailbreakBench et de 37,7 points en score StrongREJECT, tout en ne nécessitant aucune réécriture ou dissimulation de contenu nuisible dans l'invite de jailbreak. Nos résultats soulignent le besoin urgent de repenser l'alignement de la sécurité dans cette classe émergente de modèles de langage. Le code est disponible à l'adresse https://github.com/ZichenWen1/DIJA.
La synthèse vocale en russe présente des défis spécifiques, notamment la réduction des voyelles, la dévoisement des consonnes, les schémas d'accentuation variables, l'ambiguïté des homographes et une intonation peu naturelle. Cet article présente Balalaika, un nouveau jeu de données comprenant plus de 2 000 heures de parole russe de qualité studio, accompagnées d'annotations textuelles complètes, incluant la ponctuation et les marques d'accentuation. Les résultats expérimentaux montrent que les modèles entraînés sur Balalaika surpassent significativement ceux entraînés sur les jeux de données existants, tant pour la synthèse vocale que pour les tâches d'amélioration. Nous détaillons le pipeline de construction du jeu de données, la méthodologie d'annotation et les résultats des évaluations comparatives.
Nous présentons Franca (prononcé Fran-ka) : un modèle libre ; le premier modèle de fondation visuel entièrement open-source (données, code, poids) qui rivalise et, dans de nombreux cas, surpasse les performances des modèles propriétaires de pointe, tels que DINOv2, CLIP, SigLIPv2, etc. Notre approche repose sur un pipeline d’entraînement transparent inspiré de Web-SSL et utilise des données publiquement disponibles : ImageNet-21K et un sous-ensemble de ReLAION-2B. Au-delà de la publication du modèle, nous abordons des limitations critiques des méthodes de clustering en SSL. Alors que les modèles modernes s’appuient sur l’assignation des caractéristiques d’images à de grands codebooks via des algorithmes de clustering comme Sinkhorn-Knopp, ils ne tiennent pas compte de l’ambiguïté inhérente à la sémantique du clustering. Pour résoudre ce problème, nous introduisons un projecteur de clustering multi-têtes efficace en paramètres, basé sur des représentations emboîtées de type Matryoshka. Cette conception affine progressivement les caractéristiques en clusters de plus en plus granulaires sans augmenter la taille du modèle, permettant à la fois des performances et une efficacité mémoire accrues. De plus, nous proposons une nouvelle stratégie de désentrelacement positionnel qui supprime explicitement les biais positionnels des représentations denses, améliorant ainsi l’encodage du contenu sémantique. Cela se traduit par des gains constants sur plusieurs benchmarks en aval, démontrant l’utilité d’espaces de caractéristiques plus propres. Nos contributions établissent une nouvelle norme pour des modèles visuels transparents et performants, ouvrant la voie à des modèles de fondation plus reproductibles et généralisables pour la communauté élargie de l’IA. Le code et les points de contrôle du modèle sont disponibles à l’adresse https://github.com/valeoai/Franca.
À l'ère des modèles de langage à grande échelle (LLMs), l'alignement est apparu comme un problème fondamental mais complexe dans la quête d'une intelligence artificielle plus fiable, contrôlable et performante. Le succès récent des modèles de raisonnement et des systèmes d'IA conversationnelle a souligné le rôle crucial de l'apprentissage par renforcement (RL) dans l'amélioration de ces systèmes, suscitant un intérêt croissant pour la recherche à l'intersection du RL et de l'alignement des LLMs. Cet article propose une revue complète des avancées récentes en matière d'alignement des LLMs à travers le prisme de l'apprentissage par renforcement inverse (IRL), en mettant l'accent sur les distinctions entre les techniques de RL utilisées pour l'alignement des LLMs et celles employées dans les tâches de RL conventionnelles. Nous soulignons notamment la nécessité de construire des modèles de récompense neuronaux à partir de données humaines et discutons des implications formelles et pratiques de ce changement de paradigme. Nous commençons par introduire les concepts fondamentaux du RL pour fournir une base aux lecteurs non familiers avec ce domaine. Nous examinons ensuite les avancées récentes dans cet agenda de recherche, en discutant des défis clés et des opportunités dans la mise en œuvre de l'IRL pour l'alignement des LLMs. Au-delà des considérations méthodologiques, nous explorons des aspects pratiques, notamment les jeux de données, les benchmarks, les métriques d'évaluation, l'infrastructure, ainsi que les techniques d'entraînement et d'inférence efficaces sur le plan computationnel. Enfin, nous tirons des enseignements de la littérature sur le RL à récompense éparse pour identifier des questions ouvertes et des directions de recherche potentielles. En synthétisant les résultats d'études diverses, nous visons à fournir un aperçu structuré et critique du domaine, à mettre en lumière les défis non résolus et à esquisser des orientations prometteuses pour améliorer l'alignement des LLMs grâce aux techniques de RL et d'IRL.
La séparation du contenu et du style à partir d'une seule image, connue sous le nom de décomposition contenu-style (CSD), permet la recontextualisation du contenu extrait et la stylisation des styles extraits, offrant ainsi une plus grande flexibilité créative dans la synthèse visuelle. Bien que les méthodes de personnalisation récentes aient exploré la décomposition explicite du contenu et du style, elles restent adaptées aux modèles de diffusion. Parallèlement, la modélisation visuelle autorégressive (VAR) est apparue comme une alternative prometteuse avec un paradigme de prédiction à l'échelle suivante, atteignant des performances comparables à celles des modèles de diffusion. Dans cet article, nous explorons la VAR en tant que cadre génératif pour la CSD, en tirant parti de son processus de génération par échelle pour améliorer la séparation. À cette fin, nous proposons CSD-VAR, une méthode novatrice qui introduit trois innovations clés : (1) une stratégie d'optimisation alternée sensible à l'échelle qui aligne les représentations du contenu et du style avec leurs échelles respectives pour renforcer la séparation, (2) une méthode de rectification basée sur la décomposition en valeurs singulières (SVD) pour atténuer la fuite de contenu dans les représentations stylistiques, et (3) une mémoire clé-valeur (K-V) augmentée pour améliorer la préservation de l'identité du contenu. Pour évaluer cette tâche, nous introduisons CSD-100, un ensemble de données spécifiquement conçu pour la décomposition contenu-style, présentant des sujets variés rendus dans différents styles artistiques. Les expériences démontrent que CSD-VAR surpasse les approches précédentes, atteignant une préservation du contenu et une fidélité de stylisation supérieures.
Cet article se concentre sur les modèles de langage multimodaux monolithiques (MLLMs), qui intègrent l'encodage visuel et le décodage linguistique dans un seul modèle. Les structures et stratégies de pré-entraînement existantes pour les MLLMs monolithiques souffrent souvent d'une optimisation instable et d'un oubli catastrophique. Pour relever ces défis, notre idée clé est d'intégrer un nouvel espace de paramètres visuels dans un modèle de langage pré-entraîné (LLM), permettant un apprentissage stable des connaissances visuelles à partir de données bruitées via un réglage delta. Sur la base de ce principe, nous introduisons d'abord Mono-InternVL, un MLLM monolithique avancé qui intègre un ensemble d'experts visuels grâce à une architecture multimodale de mélange d'experts. En outre, nous concevons un pré-entraînement visuel endogène innovant (EViP) pour Mono-InternVL afin de maximiser ses capacités visuelles via un apprentissage progressif. Mono-InternVL atteint des performances compétitives par rapport aux MLLMs existants, mais entraîne également un coût de données relativement élevé. Par conséquent, nous présentons également Mono-InternVL-1.5, un MLLM monolithique plus économique et plus puissant, équipé d'un EViP amélioré (EViP++). EViP++ introduit des experts d'attention visuelle supplémentaires dans Mono-InternVL-1.5 et réorganise le processus de pré-entraînement de manière efficace. Pendant l'inférence, il inclut un noyau CUDA fusionné pour accélérer ses opérations MoE. Grâce à ces conceptions, Mono-InternVL-1.5 réduit considérablement les coûts d'entraînement et d'inférence, tout en maintenant des performances compétitives par rapport à Mono-InternVL. Pour évaluer notre approche, nous menons des expériences approfondies sur 15 benchmarks. Les résultats démontrent que Mono-InternVL surpasse les MLLMs monolithiques existants sur 12 des 15 benchmarks, par exemple, une amélioration de 114 points par rapport à Emu3 sur OCRBench. Par rapport à sa contrepartie modulaire, c'est-à-dire InternVL-1.5, Mono-InternVL-1.5 atteint des performances multimodales similaires tout en réduisant la latence du premier jeton jusqu'à 69 %. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/Mono-InternVL.
La prédiction de tokens masqués s'est imposée comme un objectif de pré-entraînement puissant à travers les domaines du langage, de la vision et de la parole, offrant le potentiel d'unifier ces modalités diverses via une seule tâche de pré-entraînement. Cependant, son application pour la compréhension générale de l'audio reste peu explorée, BEATs étant le seul exemple notable. BEATs a subi peu de modifications en raison de l'absence de code de pré-entraînement open source. De plus, BEATs a été entraîné uniquement sur AudioSet, limitant ainsi son applicabilité en aval. Pour combler ces lacunes, nous présentons OpenBEATs, un framework open source qui étend BEATs via un pré-entraînement audio multi-domaines. Nous menons des évaluations exhaustives sur six types de tâches, vingt-cinq jeux de données et trois domaines audio, incluant des tâches de raisonnement audio telles que la réponse à des questions audio, l'implication et la génération de légendes. OpenBEATs atteint des performances de pointe sur six jeux de données en bioacoustique, deux jeux de données de sons environnementaux et cinq jeux de données de raisonnement, surpassant des modèles dépassant un milliard de paramètres avec seulement un quart de leur taille. Ces résultats démontrent l'efficacité des jeux de données multi-domaines et de la tâche de prédiction de tokens masqués pour apprendre des représentations audio à usage général. Pour favoriser la recherche et la reproductibilité, nous publions l'intégralité du code de pré-entraînement et d'évaluation, les points de contrôle pré-entraînés et affinés, ainsi que les journaux d'entraînement sur https://shikhar-s.github.io/OpenBEATs.
Les modèles de langage multimodaux de grande taille (MLLMs) ont révolutionné la compréhension intermodale mais continuent de lutter contre les hallucinations - des contenus fabriqués qui contredisent les entrées visuelles. Les méthodes existantes d'atténuation des hallucinations entraînent soit des coûts de calcul prohibitifs, soit introduisent des décalages de distribution entre les données d'entraînement et les sorties du modèle. Nous identifions une observation cruciale : les hallucinations apparaissent principalement aux premiers stades de la génération de texte et se propagent dans les sorties ultérieures. Pour résoudre ce problème, nous proposons **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un cadre qui élimine la dépendance aux annotations humaines. Plus précisément, nous amorçons d'abord des paires de préférences de haute qualité dans le domaine en échantillonnant itérativement les sorties du modèle, en validant l'existence des objets par vérification croisée avec deux détecteurs à vocabulaire ouvert, et en classant les phrases en catégories hallucinées/non hallucinées. Ensuite, nous utilisons des échantillons positifs cohérents avec le contexte et des échantillons négatifs hallucinés pour construire itérativement des données de préférence sensibles au contexte. Enfin, nous entraînons les modèles en utilisant une fonction de perte de préférence sensible au contexte (C-DPO) qui met l'accent sur l'apprentissage discriminatif au niveau de la phrase où les hallucinations se manifestent initialement. Les résultats expérimentaux montrent que SENTINEL peut réduire les hallucinations de plus de 90\% par rapport au modèle original et surpasse la méthode précédente de pointe à la fois sur les benchmarks d'hallucinations et sur les benchmarks de capacités générales, démontrant ainsi sa supériorité et sa capacité de généralisation. Les modèles, les ensembles de données et le code sont disponibles à l'adresse https://github.com/pspdada/SENTINEL.
En tant que principal vecteur de diffusion de l'information moderne, les services de réseaux sociaux (SNS) ont connu une croissance rapide, ce qui a posé des défis importants en matière de gestion du contenu des plateformes et d'amélioration de la qualité des interactions. Récemment, le développement des grands modèles de langage (LLM) a offert des solutions potentielles, mais les études existantes se concentrent sur des tâches isolées, ce qui non seulement limite les bénéfices de la mise à l'échelle des données dans des scénarios individuels, mais empêche également une adaptation flexible à divers contextes réels. Pour relever ces défis, nous présentons RedOne, un LLM spécifique à un domaine conçu pour surmonter les limites de performance des modèles de base à tâche unique et établir une base complète pour les SNS. RedOne a été développé grâce à une stratégie d'entraînement en trois étapes comprenant un pré-entraînement continu, un ajustement fin supervisé et une optimisation des préférences, en utilisant un ensemble de données à grande échelle issues du monde réel. À travers des expériences approfondies, RedOne maintient de solides capacités générales et obtient une amélioration moyenne allant jusqu'à 14,02 % sur 8 tâches majeures des SNS et de 7,56 % dans un benchmark d'évaluation bilingue des SNS, par rapport aux modèles de base. De plus, lors de tests en ligne, RedOne a réduit le taux d'exposition dans la détection de contenus nuisibles de 11,23 % et amélioré le taux de clics dans la recherche de publications de 14,95 % par rapport aux modèles de base ajustés pour des tâches uniques. Ces résultats établissent RedOne comme un LLM robuste et spécifique aux SNS, démontrant une excellente généralisation à travers diverses tâches et une applicabilité prometteuse dans des scénarios réels.
L'évaluation des grands modèles de langage est une tâche complexe pour laquelle plusieurs approches ont été proposées. La plus courante consiste à utiliser des benchmarks automatisés dans lesquels les LLM doivent répondre à des questions à choix multiples sur différents sujets. Cependant, cette méthode présente certaines limites, la plus préoccupante étant la faible corrélation avec les évaluations humaines. Une approche alternative consiste à faire évaluer les LLM par des humains. Cela pose des problèmes de scalabilité, car le nombre de modèles à évaluer est important et ne cesse de croître, rendant peu pratique (et coûteuse) la réalisation d'études traditionnelles basées sur le recrutement d'un nombre d'évaluateurs et leur classement des réponses des modèles. Une autre approche consiste à utiliser des arènes publiques, comme la populaire LM Arena, sur laquelle tout utilisateur peut librement évaluer des modèles sur n'importe quelle question et classer les réponses de deux modèles. Les résultats sont ensuite élaborés pour établir un classement des modèles. Un aspect de plus en plus important des LLM est leur consommation énergétique, et il est donc intéressant d'évaluer comment la prise en compte de l'énergie influence les décisions des humains dans le choix d'un modèle. Dans cet article, nous présentons GEA, la Generative Energy Arena, une arène qui intègre des informations sur la consommation énergétique des modèles dans le processus d'évaluation. Les résultats préliminaires obtenus avec GEA sont également présentés, montrant que pour la plupart des questions, lorsque les utilisateurs sont informés de la consommation énergétique, ils privilégient des modèles plus petits et plus efficaces sur le plan énergétique. Cela suggère que pour la plupart des interactions utilisateur, le coût supplémentaire et l'énergie consommée par les modèles plus complexes et les plus performants ne fournissent pas une augmentation de la qualité perçue des réponses justifiant leur utilisation.
Cette recherche présente un cadre pour la gestion quantitative des risques dans des marchés volatils, en se concentrant spécifiquement sur les méthodologies basées sur les expectiles appliquées à l'indice FTSE 100. Les mesures de risque traditionnelles telles que la Value-at-Risk (VaR) ont montré des limites significatives lors de périodes de stress marchand, comme en témoignent la crise financière de 2008 et les périodes volatiles qui ont suivi. Cette étude développe un cadre avancé basé sur les expectiles qui pallie les lacunes des approches conventionnelles basées sur les quantiles en offrant une plus grande sensibilité aux pertes extrêmes et une meilleure stabilité dans des conditions de marché extrêmes. La recherche utilise un ensemble de données couvrant deux décennies de rendements du FTSE 100, incluant des périodes de forte volatilité, de krachs boursiers et de phases de reprise. Notre méthodologie introduit de nouvelles formulations mathématiques pour les modèles de régression par expectiles, des techniques améliorées de détermination des seuils basées sur l'analyse des séries temporelles, et des procédures robustes de backtesting. Les résultats empiriques démontrent que la Value-at-Risk basée sur les expectiles (EVaR) surpasse systématiquement les mesures traditionnelles de VaR à différents niveaux de confiance et dans diverses conditions de marché. Le cadre montre une performance supérieure lors des périodes de volatilité, avec un risque de modèle réduit et une précision prédictive accrue. De plus, l'étude établit des lignes directrices pratiques pour la mise en œuvre par les institutions financières et fournit des recommandations fondées sur des preuves pour la conformité réglementaire et la gestion de portefeuille. Les résultats contribuent de manière significative à la littérature sur la gestion des risques financiers et offrent des outils pratiques pour les praticiens confrontés à des environnements de marché volatils.