Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les étapes de raisonnement générées par les LLMs peuvent être incomplètes, car elles imitent des sauts logiques courants dans la communication quotidienne trouvés dans leurs données de pré-entraînement : les justifications sous-jacentes sont fréquemment laissées implicites (non déclarées). Pour relever ce défi, nous présentons RATIONALYST, un modèle de supervision de processus de raisonnement basé sur un pré-entraînement sur une vaste collection d'annotations de justifications extraites de données non étiquetées. Nous extrayons 79k justifications d'un ensemble de données non étiquetées à l'échelle du web (le Pile) et d'une combinaison d'ensembles de données de raisonnement avec une intervention humaine minimale. Ce pré-entraînement à grande échelle pour le raisonnement permet à RATIONALYST de généraliser de manière cohérente à travers diverses tâches de raisonnement, y compris le raisonnement mathématique, de bon sens, scientifique et logique. Affiné à partir de LLaMa-3-8B, RATIONALYST améliore la précision du raisonnement de 3,9 % en moyenne sur 7 bancs d'essai de raisonnement représentatifs. Il démontre également des performances supérieures par rapport à des vérificateurs significativement plus grands comme GPT-4 et des modèles de taille similaire affinés sur des ensembles d'entraînement correspondants.
Divers modèles de base visuelle présentent des forces et des faiblesses distinctes, qui peuvent être améliorées par une distillation de connaissances multi-enseignants hétérogène sans étiquettes, appelée "modèles agglomératifs". Nous nous appuyons sur ce corpus de travaux en étudiant l'effet des statistiques d'activation des enseignants, en particulier l'impact de la fonction de perte sur la qualité du modèle étudiant résultant. Nous explorons une boîte à outils standard de techniques de normalisation statistique pour mieux aligner les différentes distributions et évaluer leurs effets. De plus, nous examinons l'impact sur les mesures de correspondance des enseignants en aval, ce qui motive l'utilisation de matrices de Hadamard. Avec ces matrices, nous démontrons des propriétés utiles, montrant comment elles peuvent être utilisées pour une standardisation isotropique, où chaque dimension d'une distribution multivariée est standardisée en utilisant la même échelle. Nous appelons cette technique "Standardisation PHI" (PHI-S) et démontrons empiriquement qu'elle produit le meilleur modèle étudiant parmi l'ensemble des méthodes étudiées.
Alors que les grands modèles de langage ont réalisé des progrès significatifs dans la génération de code, le taux de réussite du code généré est limité par des erreurs subtiles, nécessitant souvent l'intervention humaine pour réussir les tests, en particulier pour les problèmes complexes. Les systèmes de débogage basés sur les LLM existants traitent les programmes générés comme des unités monolithiques, ne parvenant pas à résoudre les erreurs à plusieurs niveaux de granularité, des erreurs de syntaxe de bas niveau aux défauts algorithmiques de haut niveau. Dans cet article, nous présentons Multi-Granularity Debugger (MGDebugger), un débogueur de code hiérarchique qui isole, identifie et résout les erreurs à différents niveaux de granularité. MGDebugger décompose le code problématique en une structure arborescente hiérarchique de sous-fonctions, chaque niveau représentant une granularité d'erreur particulière. Pendant le débogage, il analyse chaque sous-fonction et résout itérativement les erreurs de bas en haut. Pour tester efficacement chaque sous-fonction, nous proposons un exécuteur Python simulé par LLM, qui trace l'exécution du code et suit les états des variables importants pour localiser précisément les erreurs. Des expériences approfondies démontrent que MGDebugger surpasse les systèmes de débogage existants, atteignant une amélioration de 18,9 % en précision par rapport aux générations de base dans HumanEval et un taux de réussite de réparation de 97,6 % dans HumanEvalFix. De plus, MGDebugger corrige efficacement les erreurs dans différentes catégories et niveaux de difficulté, démontrant sa robustesse et son efficacité.
Les Champs de Radiance Neuraux (NeRF) sont largement utilisés pour la synthèse de nouvelles vues et ont été adaptés à la Détection d'Objets en 3D (3DOD), offrant une approche prometteuse pour la 3DOD à travers une représentation par synthèse de vues. Cependant, NeRF fait face à des limitations inhérentes : (i) une capacité de représentation limitée pour la 3DOD en raison de sa nature implicite, et (ii) des vitesses de rendu lentes. Récemment, le Splatting Gaussien en 3D (3DGS) est apparu comme une représentation 3D explicite qui adresse ces limitations. Inspiré par ces avantages, cet article introduit pour la première fois le 3DGS dans la 3DOD, identifiant deux principaux défis : (i) Distribution spatiale ambiguë des blobs gaussiens : le 3DGS repose principalement sur une supervision au niveau des pixels 2D, entraînant une distribution spatiale 3D floue des blobs gaussiens et une faible différenciation entre les objets et l'arrière-plan, ce qui entrave la 3DOD ; (ii) Excès de blobs d'arrière-plan : les images 2D incluent souvent de nombreux pixels d'arrière-plan, conduisant à une reconstruction dense du 3DGS avec de nombreux blobs gaussiens bruyants représentant l'arrière-plan, affectant négativement la détection. Pour relever le défi (i), nous exploitons le fait que la reconstruction du 3DGS est dérivée des images 2D, et proposons une solution élégante et efficace en incorporant un Guidage de Bordure 2D pour améliorer significativement la distribution spatiale des blobs gaussiens, aboutissant à une différenciation plus claire entre les objets et leur arrière-plan. Pour répondre au défi (ii), nous proposons une stratégie d'Échantillonnage Axé sur les Boîtes en utilisant des boîtes 2D pour générer une distribution de probabilité d'objet dans les espaces 3D, permettant un échantillonnage probabiliste efficace en 3D pour conserver plus de blobs d'objet et réduire les blobs d'arrière-plan bruyants. Bénéficiant de nos conceptions, notre 3DGS-DET surpasse significativement la méthode NeRF-Det de pointe basée sur NeRF, réalisant des améliorations de +6,6 sur mAP@0,25 et +8,1 sur mAP@0,5 pour l'ensemble de données ScanNet, et impressionnant +31,5 sur mAP@0,25 pour l'ensemble de données ARKITScenes.
Nous étudions la profondeur des capacités de résolution de problèmes de mathématiques de niveau primaire (GSM) des LLM. À cette fin, nous évaluons leurs performances sur des paires de problèmes mathématiques existants de manière à ce que la réponse au deuxième problème dépende de la réponse correcte au premier problème. Nos résultats révèlent un écart de raisonnement significatif dans la plupart des LLM, c'est-à-dire une différence de performance entre la résolution des paires compositionnelles et la résolution de chaque question indépendamment. Cet écart est plus prononcé dans les modèles plus petits, plus rentables et spécialisés en mathématiques. De plus, les recettes d'ajustement des instructions et la génération de code ont des effets variés selon les tailles des LLM, tandis que le réglage fin sur le GSM peut entraîner un surajustement de la tâche. Notre analyse indique que les grands écarts de raisonnement ne sont pas dus à des fuites de jeu de tests, mais à des distractions provenant de contextes supplémentaires et à un mauvais raisonnement de deuxième niveau. Dans l'ensemble, les LLM présentent des différences systématiques dans leurs capacités de raisonnement, malgré ce que leurs performances sur les benchmarks standard indiquent.
Les images riches en texte, où le texte sert d'élément visuel central guidant la compréhension globale, sont courantes dans les applications du monde réel, telles que les diapositives de présentation, les documents numérisés et les captures d'écran de pages web. Les tâches impliquant plusieurs images riches en texte sont particulièrement complexes, car elles nécessitent non seulement la compréhension du contenu des images individuelles, mais aussi le raisonnement sur les interrelations et les flux logiques à travers plusieurs entrées visuelles. Malgré l'importance de ces scénarios, les modèles de langage multimodaux à grande échelle (MLLMs) actuels peinent à gérer de telles tâches en raison de deux défis majeurs : (1) la rareté de jeux de données d'accord de haute qualité pour les scénarios multi-images riches en texte, et (2) la difficulté à équilibrer la résolution de l'image avec la longueur de la séquence de caractéristiques visuelles. Pour relever ces défis, nous proposons \NotreMéthode, un MLLM conçu spécifiquement pour traiter les tâches vision-langage impliquant plusieurs images riches en texte. Tout d'abord, nous avons rassemblé environ un million de données d'accord multimodales de haute qualité, adaptées aux scénarios multi-images riches en texte. Ensuite, nous avons développé un module d'encodage multi-images haute résolution adaptatif pour optimiser dynamiquement l'allocation de la longueur de la séquence visuelle en fonction des ratios et des résolutions originaux des images d'entrée. Des expériences menées sur un large éventail de référentiels démontrent les capacités supérieures de notre modèle dans les évaluations multi-images riches en texte et ses performances compétitives dans les évaluations de domaine général.
Les modèles de récompense sont essentiels pour aligner les modèles afin de suivre les instructions et sont généralement entraînés selon l'un des deux paradigmes populaires : le style Bradley-Terry ou le style de régression. Cependant, il n'existe pas suffisamment de preuves indiquant que l'une ou l'autre approche est meilleure que l'autre, lorsqu'elles sont correctement adaptées aux données. Cela est principalement dû au fait que ces approches nécessitent des données collectées dans des formats différents (mais incompatibles), ce qui signifie que des données correctement appariées ne sont pas disponibles dans les ensembles de données publics existants. Pour résoudre ce problème, nous publions des annotations de préférence (conçues pour l'entraînement Bradley-Terry) pour compléter les évaluations existantes (conçues pour l'entraînement de style de régression) dans l'ensemble de données HelpSteer2. Pour améliorer l'interprétabilité des données, les annotations de préférence sont accompagnées de justifications rédigées par des humains. En utilisant ces données, nous effectuons la première comparaison directe des modèles Bradley-Terry et de régression lorsqu'ils sont correctement adaptés aux données. Sur la base des informations tirées d'une telle comparaison, nous proposons une nouvelle approche pour combiner la modélisation de récompense Bradley-Terry et de régression. Un modèle Llama-3.1-70B-Instruct ajusté avec cette approche obtient un score de 94,1 sur RewardBench, se classant en tête parmi plus de 140 modèles de récompense au 1er octobre 2024. Nous démontrons également l'efficacité de ce modèle de récompense pour aligner les modèles afin de suivre les instructions dans RLHF. Nous mettons en open source cet ensemble de données (licence CC-BY-4.0) sur https://huggingface.co/datasets/nvidia/HelpSteer2 et publions ouvertement le modèle de récompense entraîné sur https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.
Nous étudions LoRA dans l'apprentissage fédéré à travers l'analyse de l'asymétrie des matrices A et B apprises. Ce faisant, nous découvrons que les matrices A sont responsables de l'apprentissage des connaissances générales, tandis que les matrices B se concentrent sur la capture des connaissances spécifiques aux clients. Sur la base de cette découverte, nous introduisons l'Adaptation à Faible Rang Partagée Fédérée (FedSA-LoRA), qui utilise deux matrices A et B entraînables à faible rang pour modéliser la mise à jour des poids, mais seules les matrices A sont partagées avec le serveur pour l'agrégation. De plus, nous explorons la relation entre les matrices A et B apprises dans d'autres variantes de LoRA, telles que rsLoRA et VeRA, révélant un schéma cohérent. Par conséquent, nous étendons notre méthode FedSA-LoRA à ces variantes de LoRA, donnant ainsi FedSA-rsLoRA et FedSA-VeRA. De cette manière, nous établissons un paradigme général pour intégrer LoRA avec l'apprentissage fédéré, offrant des orientations pour les travaux futurs sur les variantes de LoRA ultérieures combinées avec l'apprentissage fédéré. Des résultats expérimentaux approfondis sur des tâches de compréhension et de génération de langage naturel démontrent l'efficacité de la méthode proposée.
L'utilisation pratique de la génération de texte vers image a évolué des modèles simples et monolithiques à des flux de travaux complexes combinant plusieurs composants spécialisés. Bien que les approches basées sur les flux de travaux puissent améliorer la qualité des images, la création de flux de travaux efficaces nécessite une expertise significative, en raison du grand nombre de composants disponibles, de leurs interdépendances complexes et de leur dépendance à l'invite de génération. Nous introduisons ici la nouvelle tâche de génération de flux de travaux adaptatifs à l'invite, dont le but est de personnaliser automatiquement un flux de travaux pour chaque invite utilisateur. Nous proposons deux approches basées sur les LLM pour aborder cette tâche : une méthode basée sur l'ajustement qui apprend à partir des données de préférence utilisateur, et une méthode sans entraînement qui utilise les LLM pour sélectionner des flux existants. Les deux approches permettent d'améliorer la qualité des images par rapport aux modèles monolithiques ou aux flux génériques indépendants de l'invite. Notre travail montre que la prédiction de flux dépendant de l'invite offre une nouvelle voie pour améliorer la qualité de la génération de texte vers image, complétant les orientations de recherche existantes dans le domaine.
Les mesures neuronales pour l'évaluation de la traduction automatique (TA) sont devenues de plus en plus importantes en raison de leur corrélation supérieure avec les jugements humains par rapport aux mesures lexicales traditionnelles. Les chercheurs ont donc utilisé des mesures neuronales à travers des stratégies de décodage basées sur la qualité, obtenant de meilleurs résultats que les méthodes basées sur la vraisemblance. Avec l'avènement des Grands Modèles de Langue (GML), les techniques d'alignement basées sur les préférences ont attiré l'attention pour leur potentiel à améliorer la qualité de la traduction en optimisant directement les poids du modèle sur les préférences induites par les estimateurs de qualité. Cette étude se concentre sur l'Optimisation de Préférence Contrastive (OPC) et mène des expériences approfondies pour évaluer l'impact de l'alignement basé sur les préférences sur la qualité de la traduction. Nos résultats indiquent que bien que l'OPC surpasse systématiquement le Fine-Tuning Supervisé (FTS) sur des données de haute qualité en ce qui concerne la métrique d'alignement, cela peut entraîner une instabilité entre les métriques d'évaluation en aval, en particulier entre les métriques neuronales et lexicales. De plus, nous démontrons que le fait de se fier uniquement sur le modèle de base pour générer des traductions candidates atteint des performances comparables à l'utilisation de plusieurs systèmes externes, tout en garantissant une meilleure cohérence à travers les métriques en aval.
L'avènement des modèles de base (FMs), associé aux efforts réglementaires visant à traiter leurs risques et impacts, a suscité un intérêt considérable pour les modèles open source. Cependant, les modèles de base de la parole existants (SFMs) ne respectent pas pleinement les principes open source, même s'ils prétendent le contraire, car aucun SFM existant n'a ses poids de modèle, son code et ses données d'entraînement disponibles publiquement selon des termes open source. Dans ce travail, nous franchissons la première étape pour combler ce fossé en nous concentrant sur les 24 langues officielles de l'Union européenne (UE). Nous collectons des données d'entraînement appropriées en examinant des ensembles de données de reconnaissance automatique de la parole et des corpus de parole non étiquetés sous des licences conformes à l'open source, pour un total de 950 000 heures. De plus, nous publions des transcriptions automatiques pour 441 000 heures de données non étiquetées sous la licence permissive CC-BY, facilitant ainsi la création de SFMs open source pour les langues de l'UE.
Alors que les grands modèles de langage (LLM) ont montré des capacités exceptionnelles dans la compréhension de requêtes complexes et l'exécution de tâches sophistiquées, leurs capacités de généralisation sont souvent profondément liées à la mémorisation, nécessitant une évaluation plus précise. Pour relever ce défi, nous introduisons Scylla, un cadre d'évaluation dynamique qui mesure quantitativement les capacités de généralisation des LLM. Scylla démêle la généralisation de la mémorisation en évaluant les performances du modèle à la fois sur des données en distribution (ID) et hors distribution (OOD) à travers 20 tâches réparties sur 5 niveaux de complexité. À travers des expériences approfondies, nous mettons en lumière une relation non monotone entre la complexité des tâches et l'écart de performance entre les données ID et OOD, que nous nommons la vallée de la généralisation. Plus précisément, ce phénomène révèle un seuil critique - appelé complexité critique - où la dépendance à des comportements non généralisables atteint un pic, indiquant la limite supérieure des capacités de généralisation des LLM. Avec l'augmentation de la taille du modèle, la complexité critique se déplace vers des niveaux plus élevés de complexité des tâches, suggérant que les modèles plus grands peuvent gérer des tâches de raisonnement plus complexes avant de trop s'appuyer sur la mémorisation. En exploitant Scylla et le concept de complexité critique, nous évaluons 28 LLM, y compris à la fois des modèles open source tels que LLaMA et les familles Qwen, et des modèles propriétaires comme Claude et GPT, offrant une évaluation plus robuste et établissant une compréhension plus claire des capacités de généralisation des LLM.
La modélisation des préférences humaines est cruciale pour aligner les modèles de base sur les valeurs humaines. Les méthodes traditionnelles de modélisation de récompenses, telles que le modèle de récompense Bradley-Terry (BT), sont limitées en termes d'expressivité, notamment pour traiter les préférences transitives. Bien que les modèles de préférences par paires supervisées (PairPM) puissent exprimer des préférences générales, leur mise en œuvre est très ad hoc et ne peut garantir une probabilité de préférence cohérente des paires comparées. De plus, ils imposent des coûts de calcul élevés en raison de leur complexité de requête quadratique lors de la comparaison de multiples réponses. Dans cet article, nous introduisons l'apprentissage de représentation de préférences, une approche qui intègre les réponses dans un espace latent pour capturer efficacement des structures de préférences complexes, atteignant une complexité de requête linéaire. De plus, nous proposons l'Optimisation Générale des Préférences basée sur les scores de préférences (GPO), qui généralise l'apprentissage par renforcement basé sur les récompenses à partir des retours humains. Les résultats expérimentaux montrent que notre modèle de représentation de préférences générales (GPM) surpasse le modèle de récompense BT sur le benchmark RewardBench avec une marge allant jusqu'à 5,6% et modélise efficacement des préférences cycliques où tout modèle de récompense BT se comporte comme une supposition aléatoire. De plus, les évaluations sur des tâches ultérieures telles que AlpacaEval2.0 et MT-Bench, suivant le post-entraînement du modèle de langue avec GPO et notre modèle de préférences générales, révèlent des améliorations de performance substantielles avec des marges allant jusqu'à 9,3%. Ces résultats indiquent que notre méthode pourrait améliorer l'alignement des modèles de base sur des valeurs humaines nuancées. Le code est disponible sur https://github.com/general-preference/general-preference-model.
Les grands modèles de langage ont démontré un potentiel significatif en tant que moteurs d'accès à l'information de nouvelle génération. Cependant, leur fiabilité est entravée par des problèmes d'hallucination et de génération de contenu non factuel. Cela est particulièrement problématique dans les réponses de longue forme, où évaluer et garantir l'exactitude factuelle est complexe. Dans cet article, nous comblons cette lacune en proposant FactAlign, un nouveau cadre d'alignement conçu pour améliorer la factualité des réponses de longue forme des LLM tout en maintenant leur utilité. Nous présentons fKTO, un algorithme d'alignement au niveau des phrases, qui étend la méthode d'alignement Kahneman-Tversky Optimization (KTO). En tirant parti des avancées récentes en matière d'évaluation automatique de la factualité, FactAlign utilise des évaluations de factualité fines pour guider le processus d'alignement. Nos expériences sur des requêtes de domaine ouvert et des questions de recherche d'informations démontrent que FactAlign améliore significativement l'exactitude factuelle des réponses des LLM tout en améliorant leur utilité. Des analyses supplémentaires révèlent que FactAlign est capable de former les LLM à fournir plus d'informations sans perdre en précision factuelle, améliorant ainsi le score F1 factuel. Notre code source, nos ensembles de données et nos modèles entraînés sont disponibles publiquement sur https://github.com/MiuLab/FactAlign
Nous présentons le Rendu Ellipsoïdal Volumétrique Exact (EVER), une méthode de rendu volumétrique émissif différentiable en temps réel. Contrairement à l'approche récente basée sur la rasterisation par Éclatement Gaussien 3D (3DGS), notre représentation basée sur des primitives permet un rendu volumétrique exact, plutôt que la composition alpha de panneaux publicitaires gaussiens 3D. Ainsi, contrairement à 3DGS, notre formulation ne souffre pas d'artefacts de saillance et de densité dépendante de la vue, tout en atteignant des taux d'images d'environ 30 FPS en 720p sur un NVIDIA RTX4090. Étant donné que notre approche est basée sur le lancer de rayons, elle permet des effets tels que le flou de mise au point et la distorsion de la caméra (par exemple, à partir de caméras fisheye), difficiles à obtenir par rasterisation. Nous montrons que notre méthode est plus précise avec moins de problèmes de fusion que 3DGS et les travaux ultérieurs sur le rendu cohérent de la vue, en particulier sur les scènes à grande échelle difficiles du jeu de données Zip-NeRF, où elle obtient les résultats les plus nets parmi les techniques en temps réel.
Alors que les récentes avancées dans la technologie de Text-to-Speech (TTS) produisent une parole naturelle et expressive, elles ne proposent pas d'option permettant aux utilisateurs de sélectionner une émotion et de contrôler son intensité. Nous proposons EmoKnob, un cadre qui permet un contrôle émotionnel fin dans la synthèse de la parole avec quelques échantillons de démonstration à tir rapide de toute émotion arbitraire. Notre cadre exploite l'espace de représentation expressive du locuteur rendu possible par les récentes avancées dans les modèles de clonage vocal de base. Sur la base de la capacité à tir rapide de notre cadre de contrôle émotionnel, nous proposons deux méthodes pour appliquer le contrôle émotionnel sur des émotions décrites par un texte ouvert, permettant une interface intuitive pour contrôler une variété diversifiée d'émotions nuancées. Afin de faciliter un domaine de synthèse de parole émotionnelle plus systématique, nous introduisons un ensemble de métriques d'évaluation conçues pour évaluer rigoureusement la fidélité et la reconnaissabilité des cadres de contrôle émotionnel. À travers des évaluations objectives et subjectives, nous montrons que notre cadre de contrôle émotionnel intègre efficacement les émotions dans la parole et dépasse l'expressivité émotionnelle des services commerciaux de TTS.
Les récentes avancées dans les Modèles de Langage à Grande Échelle pour les Vidéos (Video-LLMs) ont démontré leur grand potentiel dans la compréhension vidéo à usage général. Pour vérifier l'importance de ces modèles, plusieurs référentiels ont été proposés pour diagnostiquer leurs capacités dans différents scénarios. Cependant, les référentiels existants évaluent simplement les modèles à travers des questions-réponses au niveau de la vidéo, en manquant d'une évaluation fine au niveau des événements et d'une diversité de tâches. Pour combler cette lacune, nous introduisons E.T. Bench (Référentiel pour la Compréhension Vidéo au Niveau des Événements et Sensible au Temps), un référentiel à grande échelle et de haute qualité pour la compréhension vidéo au niveau des événements ouverte. Catégorisé dans une taxonomie de tâches à 3 niveaux, E.T. Bench englobe 7,3K échantillons répartis en 12 tâches avec 7K vidéos (251,4h au total) dans 8 domaines, offrant des évaluations complètes. Nous avons évalué de manière approfondie 8 Modèles de Langage pour les Images et 12 Modèles de Langage pour les Vidéos sur notre référentiel, et les résultats révèlent que les modèles de pointe pour la compréhension de niveau grossier (au niveau de la vidéo) ont du mal à résoudre nos tâches fines, par exemple, à ancrer des événements d'intérêt au sein des vidéos, principalement en raison de la courte longueur du contexte vidéo, des représentations temporelles inadéquates et du manque de données d'entraînement multi-événements. En mettant l'accent sur ces problèmes, nous proposons en outre un modèle de base solide, E.T. Chat, accompagné d'un ensemble de données d'ajustement d'instructions E.T. Instruct 164K adapté à la compréhension fine des événements. Notre solution simple mais efficace démontre des performances supérieures dans de multiples scénarios.
Les grands modèles de langage excellent dans la génération créative mais continuent de rencontrer des difficultés liées à l'hallucination et aux biais. Alors que la génération augmentée par récupération (RAG) fournit un cadre pour ancrer les réponses des LLMs dans des informations précises et à jour, elle soulève encore la question des biais : quelles sources devraient être sélectionnées pour être incluses dans le contexte ? Et comment devrait-on pondérer leur importance ? Dans cet article, nous étudions le défi de la RAG interlingue et présentons un ensemble de données pour examiner la robustesse des systèmes existants à répondre à des requêtes sur des litiges géopolitiques, qui se situent à l'intersection des frontières linguistiques, culturelles et politiques. Notre ensemble de données est issu de pages Wikipedia contenant des informations pertinentes pour les requêtes données et nous étudions l'impact de l'inclusion de contextes supplémentaires, ainsi que la composition de ce contexte en termes de langue et de source, sur la réponse d'un LLM. Nos résultats montrent que les systèmes RAG existants continuent d'être mis au défi par des cas d'utilisation interlingues et souffrent d'un manque de cohérence lorsqu'ils sont confrontés à des informations concurrentes dans plusieurs langues. Nous présentons des études de cas pour illustrer ces problèmes et décrivons les étapes pour les futures recherches visant à relever ces défis. Nous mettons notre ensemble de données et notre code à disposition du public sur https://github.com/manestay/bordIRlines.
Les modèles vision-langage (VLM), essentiels pour la compréhension contextuelle des informations visuelles et textuelles, sont vulnérables aux entrées manipulées de manière adversaire, ce qui présente des risques importants. Cela peut compromettre les résultats et susciter des inquiétudes quant à la fiabilité des applications intégrant des VLM. La détection de ces prompts malveillants est donc cruciale pour maintenir la confiance dans les générations de VLM. Un défi majeur dans le développement d'un classificateur de prompts de protection est le manque de données étiquetées en grande quantité, qu'elles soient bénignes ou malveillantes. Pour résoudre ce problème, nous introduisons VLMGuard, un nouveau cadre d'apprentissage qui exploite les prompts non étiquetés des utilisateurs dans la nature pour détecter les prompts malveillants. Ces prompts non étiquetés, qui apparaissent naturellement lorsque les VLM sont déployés dans le monde réel, contiennent à la fois des informations bénignes et malveillantes. Pour exploiter ces données non étiquetées, nous présentons un score d'estimation de la malveillance automatisé pour distinguer les échantillons bénins des échantillons malveillants au sein de ce mélange non étiqueté, permettant ainsi l'entraînement d'un classificateur de prompts binaire. Notamment, notre cadre ne nécessite pas de annotations humaines supplémentaires, offrant une grande flexibilité et praticité pour les applications du monde réel. Des expériences approfondies montrent que VLMGuard obtient des résultats de détection supérieurs, surpassant significativement les méthodes de pointe. Avertissement : Cet article peut contenir des exemples offensants ; la discrétion du lecteur est recommandée.
Les Transformateurs de Diffusion (DiTs) ont gagné en importance pour leur extensibilité remarquable et leurs performances extraordinaires dans les tâches génératives. Cependant, leurs coûts d'inférence considérables entravent le déploiement pratique. Le mécanisme de cache de caractéristiques, qui consiste à stocker et récupérer des calculs redondants à travers les pas de temps, offre des perspectives pour réduire le temps d'inférence par étape dans les modèles de diffusion. La plupart des méthodes de mise en cache existantes pour les DiTs sont conçues manuellement. Bien que l'approche basée sur l'apprentissage tente d'optimiser les stratégies de manière adaptative, elle souffre de divergences entre l'entraînement et l'inférence, ce qui nuit à la fois aux performances et au ratio d'accélération. Après une analyse détaillée, nous identifions que ces divergences proviennent principalement de deux aspects : (1) Mépris du Pas de Temps Antérieur, où l'entraînement ignore l'effet de l'utilisation du cache aux pas de temps antérieurs, et (2) Divergence d'Objectif, où la cible d'entraînement (aligner le bruit prédit à chaque pas de temps) s'écarte de l'objectif de l'inférence (générer une image de haute qualité). Pour atténuer ces divergences, nous proposons HarmoniCa, une méthode novatrice qui harmonise l'entraînement et l'inférence avec un nouveau cadre d'apprentissage basé sur la mise en cache construit sur l'Entraînement au Débruitage par Étapes (SDT) et l'Objectif Guidé par un Proxie d'Erreur d'Image (IEPO). Comparé au paradigme d'entraînement traditionnel, le SDT nouvellement proposé maintient la continuité du processus de débruitage, permettant au modèle de tirer parti des informations des pas de temps antérieurs pendant l'entraînement, de manière similaire à son fonctionnement pendant l'inférence. De plus, nous concevons IEPO, qui intègre un mécanisme de proxie efficace pour approximer l'erreur d'image finale causée par la réutilisation de la caractéristique mise en cache. Par conséquent, IEPO aide à équilibrer la qualité finale de l'image et l'utilisation du cache, résolvant le problème de l'entraînement qui ne prend en compte que l'impact de l'utilisation du cache sur la sortie prédite à chaque pas de temps.
Dans l'effort de permettre aux robots autonomes d'agir, la planification de tâches est un défi majeur qui nécessite de traduire des descriptions de tâches de haut niveau en séquences d'actions à longue portée. Malgré les récentes avancées dans les agents de modèles linguistiques, ces derniers restent sujets à des erreurs de planification et limités dans leur capacité à anticiper. Pour pallier ces limitations dans la planification robotique, nous préconisons un schéma d'autoraffinement qui affine de manière itérative un plan préliminaire jusqu'à atteindre un équilibre. Remarquablement, ce processus peut être optimisé de bout en bout d'un point de vue analytique sans nécessiter la création de vérificateurs supplémentaires ou de modèles de récompense, nous permettant de former des planificateurs d'autoraffinement de manière simple en apprentissage supervisé. Parallèlement, une procédure de modélisation de séquence d'équilibre imbriquée est conçue pour une planification en boucle fermée efficace qui intègre des retours utiles de l'environnement (ou d'un modèle interne du monde). Notre méthode est évaluée sur le banc d'essai VirtualHome-Env, démontrant des performances avancées avec une meilleure évolutivité pour le calcul d'inférence. Le code est disponible sur https://github.com/Singularity0104/equilibrium-planner.
Les optimiseurs de deep learning sont souvent motivés par un mélange de théorie convexe et de théorie approximative du second ordre. Nous sélectionnons trois de ces méthodes -- Adam, Shampoo et Prodigy -- et soutenons que chaque méthode peut plutôt être comprise comme une méthode du premier ordre sans hypothèses de convexité. En fait, après avoir désactivé les moyennes mobiles exponentielles, chaque méthode est équivalente à une descente de gradient sous une norme particulière. En généralisant cette observation, nous définissons un nouvel espace de conception pour les algorithmes d'entraînement. Différentes normes d'opérateur devraient être attribuées à différents tenseurs en fonction du rôle que le tenseur joue au sein du réseau. Par exemple, bien que les couches linéaires et d'incorporation puissent avoir le même espace de poids de R^{m fois n}, ces couches jouent des rôles différents et devraient se voir attribuer des normes différentes. Nous espérons que cette idée de métrisation soigneuse de l'architecture neuronale pourrait conduire à un entraînement plus stable, évolutif et en effet plus rapide.
La gestion de longs contextes d'entrée reste un défi majeur pour les Grands Modèles de Langage (GML), en particulier dans des environnements aux ressources limitées tels que les appareils mobiles. Notre travail vise à résoudre cette limitation en introduisant InfiniPot, un nouveau cadre de contrôle de cache KV conçu pour permettre aux GML pré-entraînés de gérer efficacement des séquences étendues dans des contraintes de mémoire fixes, sans nécessiter de formation supplémentaire. InfiniPot exploite la Distillation de Contexte Continue (DCC), un processus itératif qui compresse et conserve les informations essentielles grâce à de nouvelles métriques d'importance, maintenant efficacement les données critiques même sans accès au contexte futur. Nos évaluations approfondies indiquent qu'InfiniPot surpasse significativement les modèles entraînés pour de longs contextes dans diverses tâches de TALN, établissant ainsi son efficacité et sa polyvalence. Ce travail représente une avancée substantielle vers la rendant les GML applicables à un éventail plus large de scénarios du monde réel.
L'évaluation systématique des modèles de séparation et d'amélioration de la parole dans des conditions de source sonore en mouvement nécessite généralement des données étendues comprenant divers scénarios. Cependant, les ensembles de données du monde réel contiennent souvent des données insuffisantes pour répondre aux exigences d'entraînement et d'évaluation des modèles. Bien que les ensembles de données synthétiques offrent un plus grand volume de données, leurs simulations acoustiques manquent de réalisme. Par conséquent, ni les ensembles de données du monde réel ni les ensembles de données synthétiques ne répondent efficacement aux besoins pratiques. Pour résoudre ces problèmes, nous présentons SonicSim, une boîte à outils synthétique conçue pour générer des données hautement personnalisables pour des sources sonores en mouvement. SonicSim est développé sur la plateforme de simulation d'IA incarnée, Habitat-sim, prenant en charge des ajustements multi-niveaux, y compris au niveau de la scène, du microphone et de la source, générant ainsi des données synthétiques plus diverses. En exploitant SonicSim, nous avons construit un ensemble de données de référence pour les sources sonores en mouvement, SonicSet, en utilisant Librispeech, le jeu de données Freesound 50k (FSD50K) et Free Music Archive (FMA), ainsi que 90 scènes de Matterport3D pour évaluer les modèles de séparation et d'amélioration de la parole. De plus, pour valider les différences entre les données synthétiques et les données du monde réel, nous avons sélectionné de manière aléatoire 5 heures de données brutes sans réverbération de l'ensemble de validation SonicSet pour enregistrer un ensemble de données de séparation de parole du monde réel, qui a ensuite été comparé aux ensembles de données synthétiques correspondants. De même, nous avons utilisé l'ensemble de données d'amélioration de la parole du monde réel, RealMAN, pour valider l'écart acoustique entre d'autres ensembles de données synthétiques et l'ensemble de données SonicSet pour l'amélioration de la parole. Les résultats indiquent que les données synthétiques générées par SonicSim peuvent généraliser efficacement aux scénarios du monde réel. Une démo et le code sont disponibles publiquement sur https://cslikai.cn/SonicSim/.