Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous étudions les grands modèles de langage (LLM) à raisonnement auto-récompensé, capables de générer simultanément un raisonnement étape par étape et d'évaluer la justesse de leurs sorties pendant l'inférence, sans retour externe. Cette approche intégrée permet à un seul modèle de guider indépendamment son processus de raisonnement, offrant des avantages computationnels pour le déploiement des modèles. Nous nous concentrons particulièrement sur la tâche représentative de l'auto-correction, où les modèles détectent de manière autonome les erreurs dans leurs réponses, révisent les sorties et décident quand mettre fin aux boucles de raffinement itératif. Pour y parvenir, nous proposons un cadre algorithmique en deux étapes pour construire des modèles de raisonnement auto-récompensé en utilisant uniquement des données auto-générées. Dans la première étape, nous utilisons un échantillonnage séquentiel par rejet pour synthétiser de longues trajectoires de chaînes de pensée qui intègrent à la fois des mécanismes d'auto-récompense et d'auto-correction. Le fine-tuning des modèles sur ces données soigneusement sélectionnées leur permet d'apprendre les schémas d'auto-récompense et d'auto-correction. Dans la deuxième étape, nous renforçons davantage la capacité des modèles à évaluer la précision des réponses et à affiner les sorties grâce à l'apprentissage par renforcement avec des signaux basés sur des règles. Les expériences menées avec Llama-3 et Qwen-2.5 démontrent que notre approche surpasse les capacités intrinsèques d'auto-correction et atteint des performances comparables à celles des systèmes reposant sur des modèles de récompense externes.
Le raisonnement est une frontière critique pour faire progresser l'analyse d'images médicales, où la transparence et la fiabilité jouent un rôle central à la fois dans la confiance des cliniciens et dans l'approbation réglementaire. Bien que les Modèles de Langage Visuel Médical (VLM) montrent des promesses pour les tâches radiologiques, la plupart des VLM existants se contentent de produire des réponses finales sans révéler le raisonnement sous-jacent. Pour combler cette lacune, nous présentons MedVLM-R1, un VLM médical qui génère explicitement un raisonnement en langage naturel pour renforcer la transparence et la fiabilité. Au lieu de se fier au fine-tuning supervisé (SFT), qui souffre souvent du surajustement aux distributions d'entraînement et ne parvient pas à favoriser un raisonnement authentique, MedVLM-R1 utilise un cadre d'apprentissage par renforcement qui incite le modèle à découvrir des chemins de raisonnement interprétables par l'humain sans utiliser de références de raisonnement. Malgré des données d'entraînement limitées (600 échantillons de questions visuelles) et des paramètres de modèle (2B), MedVLM-R1 améliore la précision de 55,11% à 78,22% sur les benchmarks d'IRM, de TDM et de radiographie, surpassant des modèles plus grands entraînés sur plus d'un million d'échantillons. Il démontre également une généralisation de domaine robuste sous des tâches hors distribution. En unifiant l'analyse d'images médicales avec un raisonnement explicite, MedVLM-R1 marque une étape décisive vers une IA fiable et interprétable dans la pratique clinique.
Dans les grands modèles multimodaux (LMM), la perception des modalités non linguistiques (par exemple, les représentations visuelles) n'est généralement pas à la hauteur des puissantes capacités de raisonnement des grands modèles de langage (LLM), ce qui limite les performances des LMM sur des tâches en aval complexes. Cette faiblesse a récemment été atténuée en remplaçant l'encodeur visuel par un mélange d'experts (MoE), qui fournit des représentations riches, multi-granulaires et diversifiées nécessaires pour diverses tâches en aval. La performance du MoE multimodal dépend largement de son routeur, qui réajuste et mélange les représentations des différents experts pour chaque entrée. Cependant, nous constatons que le routeur entraîné de bout en bout ne produit pas toujours les poids de routage optimaux pour chaque échantillon de test. Pour combler cette lacune, nous proposons une méthode novatrice et efficace, "Re-Routing in Test-Time" (R2-T2), qui optimise localement le vecteur des poids de routage au moment du test en le rapprochant des vecteurs des échantillons correctement prédits dans un voisinage de l'échantillon de test. Nous proposons trois stratégies R2-T2 avec différents objectifs d'optimisation et espaces de recherche de voisinage. R2-T2 améliore de manière constante et significative les performances des LMM de pointe sur des benchmarks complexes pour diverses tâches, sans entraîner aucun paramètre du modèle de base.
LongRoPE2 est une approche novatrice qui étend la fenêtre de contexte effective des grands modèles de langage (LLMs) pré-entraînés à la longueur cible, tout en préservant les performances sur la fenêtre de contexte originale plus courte. Cela est réalisé grâce à trois contributions : (1) une hypothèse selon laquelle un entraînement insuffisant dans les dimensions supérieures de RoPE contribue aux problèmes persistants de hors-distribution (OOD) observés dans les méthodes existantes ; (2) un algorithme efficace de redimensionnement de RoPE qui adopte une recherche évolutive guidée par la perplexité "needle-driven" pour résoudre le problème d'entraînement insuffisant ; (3) une approche d'entraînement à fenêtre de contexte mixte qui affine les poids du modèle pour adopter RoPE redimensionné pour les séquences à contexte long tout en préservant les performances à contexte court avec RoPE original. Des expériences approfondies sur LLaMA3-8B et Phi3-mini-3.8B à travers divers benchmarks valident l'hypothèse et démontrent l'efficacité de LongRoPE2. Remarquablement, LongRoPE2 étend LLaMA3-8B pour atteindre une longueur de contexte effective de 128K tout en conservant plus de 98,5 % des performances à contexte court, en utilisant seulement 10B tokens -- 80 fois moins que l'approche de Meta, qui ne parvient pas à atteindre la longueur de contexte effective cible. Le code sera disponible à l'adresse https://github.com/microsoft/LongRoPE.
Les récentes innovations en matière d'architecture, de pré-entraînement et de réglage fin ont conduit à des capacités remarquables d'apprentissage et de raisonnement en contexte pour les grands modèles de langage auto-régressifs tels que LLaMA et DeepSeek. En revanche, les encodeurs comme BERT et RoBERTa n'ont pas connu le même niveau de progrès, bien qu'ils soient fondamentaux pour de nombreuses applications en TAL en aval. Pour combler cet écart, nous introduisons NeoBERT, un encodeur de nouvelle génération qui redéfinit les capacités des modèles bidirectionnels en intégrant les avancées de pointe en architecture, des données modernes et des méthodologies de pré-entraînement optimisées. NeoBERT est conçu pour une adoption fluide : il sert de remplacement plug-and-play pour les modèles de base existants, repose sur un ratio profondeur-largeur optimal et exploite une longueur de contexte étendue de 4 096 tokens. Malgré son empreinte compacte de 250 millions de paramètres, il atteint des résultats de pointe sur le benchmark massif MTEB, surpassant BERT large, RoBERTa large, NomicBERT et ModernBERT dans des conditions de réglage fin identiques. De plus, nous évaluons rigoureusement l'impact de chaque modification sur GLUE et concevons un cadre uniforme de réglage fin et d'évaluation pour MTEB. Nous publions l'intégralité du code, des données, des points de contrôle et des scripts d'entraînement pour accélérer la recherche et l'adoption dans le monde réel.
La disparité de représentation entre la génération visuelle et la compréhension impose un écart critique dans l'intégration de ces capacités au sein d'un cadre unique. Pour combler cet écart, nous introduisons UniTok, un tokeniseur visuel discret qui encode des détails fins pour la génération tout en capturant des sémantiques de haut niveau pour la compréhension. Bien que des études récentes aient montré que ces objectifs pourraient induire des conflits de perte lors de l'entraînement, nous révélons que le goulot d'étranglement sous-jacent provient de la capacité de représentation limitée des tokens discrets. Nous abordons ce problème en introduisant une quantification multi-codebook, qui divise la quantification vectorielle en plusieurs sous-codebooks indépendants pour étendre l'espace des caractéristiques latentes, tout en évitant l'instabilité de l'entraînement causée par des codebooks trop volumineux. Notre méthode augmente significativement la limite supérieure des tokeniseurs discrets unifiés pour égaler ou même surpasser les tokeniseurs continus spécifiques à un domaine. Par exemple, UniTok atteint un rFID remarquable de 0,38 (contre 0,87 pour SD-VAE) et une précision en zero-shot de 78,6 % (contre 76,2 % pour CLIP) sur ImageNet. Notre code est disponible à l'adresse https://github.com/FoundationVision/UniTok.
Le domaine de la génération avancée d'images à partir de texte assiste à l'émergence de cadres unifiés qui intègrent des encodeurs de texte puissants, tels que CLIP et T5, avec des architectures de type Diffusion Transformer. Bien que des efforts aient été déployés pour contrôler les images générées à l'aide de conditions supplémentaires, comme les cartes de contours (canny) et de profondeur, un cadre complet pour un contrôle arbitraire entrelacé texte-image fait encore défaut. Cette lacune est particulièrement évidente lorsqu'il s'agit de fusionner des concepts ou des éléments visuels provenant de plusieurs images dans le processus de génération. Pour combler cette lacune, nous avons mené des expériences préliminaires montrant que les grands modèles multimodaux (LMMs) offrent un espace de représentation partagé efficace, où l'image et le texte peuvent être bien alignés pour servir de condition à des modèles de diffusion externes. Sur la base de cette découverte, nous proposons Dream Engine, un cadre unifié et efficace conçu pour un contrôle arbitraire entrelacé texte-image dans les modèles de génération d'images. En nous appuyant sur des modèles puissants de génération d'images à partir de texte comme SD3.5, nous remplaçons les encodeurs de texte uniquement par des encodeurs d'informations multimodales polyvalents tels que QwenVL. Notre approche utilise un paradigme d'entraînement en deux étapes, comprenant un alignement conjoint texte-image et un réglage d'instructions entrelacées multimodales. Nos expériences démontrent que cette méthode d'entraînement est efficace, atteignant un score global de 0,69 sur le benchmark GenEval, et rivalisant avec les performances des modèles de génération d'images à partir de texte de pointe comme SD3.5 et FLUX.
De nombreuses tâches de raisonnement complexes nécessitent non seulement des réponses rapides et intuitives, mais également une approche plus réfléchie et multi-étapes. Les progrès récents des grands modèles de langage (LLMs) mettent en lumière un changement important, passant du mode "Système 1" de réactions rapides au style "Système 2" de résolution de problèmes par réflexion et correction. Cependant, les benchmarks actuels se concentrent principalement sur la précision des réponses finales, laissant souvent les étapes intermédiaires du raisonnement du modèle inexplorées. Cela ne permet pas d'évaluer la capacité du modèle à réfléchir et à rectifier ses erreurs au cours du processus de raisonnement. Pour combler cette lacune, nous introduisons FINEREASON, un benchmark de casse-têtes logiques pour une évaluation fine des capacités de raisonnement des LLMs. Chaque casse-tête peut être décomposé en étapes atomiques, ce qui le rend idéal pour une validation rigoureuse de la justesse intermédiaire. Sur cette base, nous proposons deux tâches : la vérification d'état et la transition d'état, afin d'évaluer de manière exhaustive comment les modèles évaluent la situation actuelle et planifient la prochaine étape. Pour soutenir des recherches plus larges, nous fournissons également un ensemble d'entraînement de casse-têtes visant à améliorer les performances sur des tâches mathématiques générales. Nous montrons que les modèles entraînés sur nos données de vérification et de transition d'état obtiennent des gains allant jusqu'à 5,1 % en raisonnement mathématique sur GSM8K.
Les grands modèles de langage (LLMs) ont démontré des performances exceptionnelles en génie logiciel, mais rencontrent des difficultés à s'adapter à l'évolution continue des connaissances en matière de code, en particulier concernant les mises à jour fréquentes des API de bibliothèques tierces. Cette limitation, découlant de jeux de données de pré-entraînement statiques, se traduit souvent par du code non exécutable ou des implémentations présentant des lacunes en termes de sécurité et d'efficacité. Pour remédier à cela, cet article présente CODESYNC, un moteur de données conçu pour identifier les motifs de code obsolètes et collecter les mises à jour en temps réel des connaissances sur le code provenant de bibliothèques Python tierces. En s'appuyant sur CODESYNC, nous développons CODESYNCBENCH, un benchmark complet pour évaluer la capacité des LLMs à rester synchronisés avec l'évolution du code, couvrant les mises à jour réelles de 220 API issues de six bibliothèques Python. Notre benchmark propose 3 300 cas de test répartis sur trois tâches d'évaluation ainsi qu'un jeu de données d'ajustement d'instructions prenant en compte les mises à jour, composé de 2 200 échantillons d'entraînement. Des expériences approfondies sur 14 LLMs de pointe révèlent que ces derniers peinent à gérer l'évolution dynamique du code, même avec le soutien de méthodes avancées de mise à jour des connaissances (par exemple, DPO, ORPO et SimPO). Nous pensons que notre benchmark peut offrir une base solide pour le développement de méthodes plus efficaces de mise à jour en temps réel des connaissances sur le code à l'avenir. Le code expérimental et le jeu de données sont disponibles publiquement à l'adresse suivante : https://github.com/Lucky-voyage/Code-Sync.
Malgré leurs performances remarquables, les Transformers de Diffusion modernes sont freinés par des exigences substantielles en ressources lors de l'inférence, découlant de la quantité fixe et importante de calcul nécessaire pour chaque étape de débrui tage. Dans ce travail, nous revisitons le paradigme statique conventionnel qui alloue un budget de calcul fixe par itération de débrui tage et proposons plutôt une stratégie dynamique. Notre cadre simple et efficace en termes d'échantillonnage permet de convertir des modèles DiT pré-entraînés en modèles flexibles -- appelés FlexiDiT -- leur permettant de traiter des entrées avec des budgets de calcul variables. Nous démontrons comment un seul modèle flexible peut générer des images sans aucune perte de qualité, tout en réduisant les FLOPs requis de plus de 40\% par rapport à leurs homologues statiques, que ce soit pour la génération d'images conditionnées par classe ou par texte. Notre méthode est générale et agnostique aux modalités d'entrée et de conditionnement. Nous montrons comment notre approche peut être facilement étendue à la génération de vidéos, où les modèles FlexiDiT génèrent des échantillons avec jusqu'à 75\% de calcul en moins sans compromettre les performances.
Nous présentons Mobius, une méthode novatrice pour générer directement des vidéos en boucle fluide à partir de descriptions textuelles, sans aucune annotation utilisateur, créant ainsi de nouveaux matériaux visuels pour les présentations multimédias. Notre méthode réutilise le modèle de diffusion latente vidéo pré-entraîné pour générer des vidéos en boucle à partir de prompts textuels sans nécessiter d'apprentissage supplémentaire. Lors de l'inférence, nous construisons d'abord un cycle latent en connectant le bruit de départ et de fin des vidéos. Étant donné que la cohérence temporelle peut être maintenue par le contexte du modèle de diffusion vidéo, nous effectuons un débruitage latent multi-images en décalant progressivement la latence de la première image vers la fin à chaque étape. En conséquence, le contexte de débruitage varie à chaque étape tout en maintenant la cohérence tout au long du processus d'inférence. De plus, le cycle latent dans notre méthode peut être de n'importe quelle longueur. Cela étend notre approche de décalage latent pour générer des vidéos en boucle fluide au-delà de la portée du contexte du modèle de diffusion vidéo. Contrairement aux cinémagraphies précédentes, la méthode proposée ne nécessite pas une image comme apparence, ce qui limiterait les mouvements des résultats générés. Au lieu de cela, notre méthode peut produire des mouvements plus dynamiques et une meilleure qualité visuelle. Nous menons plusieurs expériences et comparaisons pour vérifier l'efficacité de la méthode proposée, démontrant son efficacité dans différents scénarios. Tout le code sera rendu disponible.
La modélisation autorégressive (AR), connue pour son paradigme de prédiction du prochain jeton, sous-tend les modèles génératifs de langage et de vision de pointe. Traditionnellement, un "jeton" est traité comme l'unité de prédiction la plus petite, souvent un symbole discret en langage ou un patch quantifié en vision. Cependant, la définition optimale du jeton pour les structures d'image 2D reste une question ouverte. De plus, les modèles AR souffrent d'un biais d'exposition, où l'enseignement forcé pendant l'entraînement entraîne une accumulation d'erreurs lors de l'inférence. Dans cet article, nous proposons xAR, un cadre AR généralisé qui étend la notion d'un jeton à une entité X, pouvant représenter un jeton de patch individuel, une cellule (un regroupement k fois k de patchs voisins), un sous-échantillon (un regroupement non local de patchs distants), une échelle (résolution grossière à fine), voire une image entière. De plus, nous reformulons la classification de jeton discret en une régression d'entité continue, en exploitant des méthodes d'ajustement de flux à chaque étape AR. Cette approche conditionne l'entraînement sur des entités bruyantes au lieu de jetons de vérité terrain, conduisant à un apprentissage de contexte bruyant, qui atténue efficacement le biais d'exposition. En conséquence, xAR offre deux avantages clés : (1) il permet des unités de prédiction flexibles qui capturent différentes granularités contextuelles et structures spatiales, et (2) il atténue le biais d'exposition en évitant de dépendre de l'enseignement forcé. Sur le banc d'essai de génération ImageNet-256, notre modèle de base, xAR-B (172M), surpasse DiT-XL/SiT-XL (675M) tout en réalisant une inférence 20 fois plus rapide. Pendant ce temps, xAR-H établit un nouvel état de l'art avec un FID de 1,24, fonctionnant 2,2 fois plus rapidement que le modèle précédent le plus performant sans dépendre des modules de fondation de vision (par exemple, DINOv2) ou de l'échantillonnage d'intervalle de guidage avancé.
La construction d'objets articulés représente un défi majeur en vision par ordinateur. Les méthodes existantes échouent souvent à intégrer efficacement les informations entre différents états d'un objet, limitant ainsi la précision de la reconstruction des maillages de pièces et de la modélisation de leur dynamique, en particulier pour les objets articulés complexes à multiples pièces. Nous présentons ArtGS, une nouvelle approche qui exploite les Gaussiennes 3D comme représentation flexible et efficace pour résoudre ces problèmes. Notre méthode intègre des Gaussiennes canoniques avec une initialisation et des mises à jour de type grossier-à-fin pour aligner les informations des pièces articulées entre différents états de l'objet, et utilise un module de modélisation de la dynamique des pièces inspiré du skinning pour améliorer à la fois la reconstruction des maillages de pièces et l'apprentissage de l'articulation. Des expériences approfondies sur des ensembles de données synthétiques et réels, incluant un nouveau benchmark pour les objets complexes à multiples pièces, démontrent qu'ArtGS atteint des performances de pointe dans l'estimation conjointe des paramètres et la reconstruction des maillages de pièces. Notre approche améliore significativement la qualité et l'efficacité de la reconstruction, en particulier pour les objets articulés à multiples pièces. De plus, nous fournissons des analyses approfondies de nos choix de conception, validant l'efficacité de chaque composant et mettant en lumière des pistes potentielles pour des améliorations futures.
L'apprentissage par renforcement à partir de retours humains (RLHF) basé sur l'Optimisation Proximale des Politiques (PPO) est essentiel pour aligner les grands modèles de langage (LLMs) avec les préférences humaines. Il nécessite un entraînement conjoint d'un acteur et d'un critique avec un modèle de récompense prétraité et fixe pour guider le processus. Cette approche augmente la complexité computationnelle et l'instabilité en raison de l'interdépendance entre l'acteur et le critique. De plus, PPO n'a pas accès aux véritables récompenses de l'environnement dans les tâches de LLM, limitant ainsi son adaptabilité. Dans de telles conditions, le prétraitement d'un modèle de valeur ou d'un modèle de récompense devient équivalent, car les deux fournissent des signaux de supervision fixes sans nouveaux retours de vérité terrain. Pour résoudre ces problèmes, nous proposons l'Optimisation des Politiques par Valeur Découplée (DVPO), un cadre léger qui remplace la modélisation traditionnelle des récompenses par un modèle de valeur global (GVM) prétraité. Le GVM est conditionné sur les trajectoires de la politique et prédit des estimations de retour à venir au niveau des tokens. En découplant le modèle de valeur de l'entraînement de la politique (via des objectifs de RL pilotés par un GVM figé), DVPO élimine l'interdépendance entre l'acteur et le critique, réduisant l'utilisation de la mémoire GPU de 40 % et le temps d'entraînement de 35 % par rapport au RLHF conventionnel. Les expériences sur divers benchmarks montrent que DVPO surpasse les méthodes de RLHF efficaces (par exemple, DPO) tout en égalant les performances de l'état de l'art en PPO.
Les agents autonomes d'IA utilisant de grands modèles de langage peuvent créer des valeurs indéniables dans tous les domaines de la société, mais ils font face à des menaces de sécurité de la part d'adversaires qui nécessitent des solutions protectrices immédiates car des problèmes de confiance et de sécurité se posent. En considérant le jailbreaking à nombreux coups et l'alignement trompeur comme certaines des principales attaques avancées, qui ne peuvent pas être atténuées par les garde-fous statiques utilisés lors de l'entraînement supervisé, souligne une priorité de recherche cruciale pour la robustesse en conditions réelles. La combinaison de garde-fous statiques dans un système multi-agent dynamique échoue à se défendre contre ces attaques. Nous avons l'intention d'améliorer la sécurité des agents basés sur les LLM grâce au développement de nouveaux cadres d'évaluation qui identifient et contrent les menaces pour un déploiement opérationnel sûr. Notre travail utilise trois méthodes d'examen pour détecter les agents malveillants à travers un Test de Turing inversé, analyser l'alignement trompeur à travers des simulations multi-agents et développer un système anti-jailbreaking en le testant avec les modèles GEMINI 1.5 pro et llama-3.3-70B, deepseek r1 en utilisant des scénarios adverses médiatisés par des outils. Les capacités de détection sont solides, comme une précision de 94\% pour GEMINI 1.5 pro, cependant le système présente des vulnérabilités persistantes lors d'attaques prolongées, car l'augmentation de la longueur de l'instruction augmente les taux de réussite des attaques (ASR) et les mesures de diversité deviennent inefficaces dans la prédiction tout en révélant de multiples défauts complexes du système. Les résultats démontrent la nécessité d'adopter des systèmes de sécurité flexibles basés sur une surveillance active pouvant être effectuée par les agents eux-mêmes, conjointement avec des interventions adaptables par l'administrateur du système, car les modèles actuels peuvent créer des vulnérabilités pouvant conduire à un système peu fiable et vulnérable. Ainsi, dans notre travail, nous essayons de traiter de telles situations et proposons un cadre complet pour contrer les problèmes de sécurité.
Les cadres de résolution de problèmes dominants reposent principalement sur des modèles commerciaux, entraînant des coûts élevés et des préoccupations en matière de confidentialité. Les approches de formation existantes pour la résolution de problèmes peinent à généraliser efficacement et ne parviennent pas à exploiter pleinement les ressources de développement open source. Nous proposons le Réglage Fin Renforcé Orienté Sous-tâches (SoRFT), une nouvelle approche de formation visant à améliorer la capacité des modèles de langage (LLMs) à résoudre des problèmes. Nous décomposons la résolution de problèmes en sous-tâches structurées : localisation de fichiers, localisation de fonctions, localisation de lignes et génération de modifications de code. SoRFT se compose de deux étapes de formation : (1) un réglage fin supervisé par échantillonnage de rejet, où les données de Chaîne de Pensée (CoT) sont filtrées à l'aide de la vérité terrain avant de régler finement le LLM, et (2) un apprentissage par renforcement basé sur des règles, qui exploite PPO avec des récompenses basées sur la vérité terrain. Nous évaluons le modèle formé avec SoRFT sur SWE-Bench Verified et SWE-Bench Lite, obtenant des performances de pointe (SOTA) parmi les modèles open source (par exemple, résolution de 21,4 % des problèmes sur SWE-Bench Verified avec SoRFT-Qwen-7B). Les résultats expérimentaux démontrent que SoRFT améliore significativement les performances de résolution de problèmes, améliore la généralisation du modèle et offre une alternative rentable aux modèles commerciaux.
Malgré les récentes avancées dans les modèles de langage de grande taille améliorés par le raisonnement, tels que DeepSeek-R1, l'incorporation du raisonnement au moment de l'inférence dans la traduction automatique, où les traducteurs humains emploient naturellement un raisonnement structuré et multicouche, reste peu explorée. Les méthodes existantes conçoivent soit une chaîne de pensées fixe adaptée à une tâche spécifique de traduction automatique (par exemple, la traduction de la littérature), soit reposent sur la synthèse de chaînes de pensées non alignées avec celles des humains et sur un ajustement fin supervisé sujet à l'oubli catastrophique, limitant leur adaptabilité à divers scénarios de traduction. Cet article présente R1-Translator (R1-T1), un nouveau cadre pour réaliser le raisonnement au moment de l'inférence pour la traduction automatique générale via l'apprentissage par renforcement (RL) avec des chaînes de pensées alignées sur l'humain comprenant six schémas communs. Notre approche inaugure trois innovations : (1) étendre la traduction basée sur le raisonnement au-delà des sous-tâches de traduction automatique à six langues et diverses tâches (par exemple, l'adaptation au domaine juridique/médical, la résolution des idiomes) ; (2) formaliser six modèles de chaînes de pensées expertes qui reflètent des stratégies humaines hybrides telles que la paraphrase consciente du contexte et la traduction inverse ; et (3) permettre la découverte auto-évolutive de chaînes de pensées et l'adaptation anti-oubli à travers RL avec des récompenses contraintes par KL. Les résultats expérimentaux indiquent une amélioration constante des performances de traduction dans 21 langues et 80 directions de traduction sur l'ensemble de test Flores-101, en particulier pour les 15 langues non vues lors de l'entraînement, avec ses capacités multilingues générales préservées par rapport à un simple ajustement fin supervisé.
Dans les grands modèles de langage (LLM), certains neurones peuvent stocker des morceaux distincts de connaissances apprises lors de la pré-entraînement. Alors que la connaissance apparaît généralement comme une combinaison de relations et d'entités, il reste incertain si certains neurones se concentrent sur une relation en elle-même - indépendamment de toute entité. Nous émettons l'hypothèse que de tels neurones détectent une relation dans le texte d'entrée et guident la génération impliquant une telle relation. Pour étudier cela, nous examinons la famille Llama-2 sur un ensemble choisi de relations avec une méthode basée sur les statistiques. Nos expériences démontrent l'existence de neurones spécifiques à une relation. Nous mesurons l'effet de la désactivation sélective des neurones candidats spécifiques à la relation r sur la capacité du LLM à traiter (1) des faits dont la relation est r et (2) des faits dont la relation est une autre relation r' neq r. En ce qui concerne leur capacité à encoder des informations de relation, nous apportons des preuves des trois propriétés suivantes des neurones spécifiques à une relation. (i) Cumulativité des neurones. Les neurones pour r présentent un effet cumulatif de sorte que la désactivation d'une plus grande partie d'entre eux entraîne la dégradation de plus de faits en r. (ii) Polyvalence des neurones. Les neurones peuvent être partagés entre plusieurs relations étroitement liées ainsi que des relations moins liées. Certains neurones de relation se transfèrent entre les langues. (iii) Interférence des neurones. La désactivation de neurones spécifiques à une relation peut améliorer les performances de génération du LLM pour des faits d'autres relations. Nous rendrons notre code publiquement disponible sur https://github.com/cisnlp/relation-specific-neurons.
Les cadres d'agents récents et les algorithmes d'inférence ont souvent du mal avec les problèmes de planification complexes en raison de limitations dans la vérification des plans générés ou du raisonnement et de la complexité variable des instances au sein d'une tâche unique. De nombreuses méthodes existantes pour ces tâches effectuent soit une vérification au niveau de la tâche sans tenir compte des contraintes, soit appliquent des algorithmes d'inférence sans s'adapter à la complexité au niveau de l'instance. Pour répondre à ces limitations, nous proposons PlanGEN, un cadre d'agent indépendant du modèle et facilement scalable avec trois composants clés : des agents de contrainte, de vérification et de sélection. Plus précisément, notre approche propose une vérification itérative guidée par les contraintes pour améliorer les performances des algorithmes d'inférence - Best of N, Tree-of-Thought et REBASE. Dans le cadre de PlanGEN, l'agent de sélection optimise le choix de l'algorithme en fonction de la complexité de l'instance, garantissant une meilleure adaptabilité aux problèmes de planification complexes. Les résultats expérimentaux démontrent des améliorations significatives par rapport à la meilleure référence sur plusieurs benchmarks, atteignant des résultats de pointe sur NATURAL PLAN (sim8%uparrow), OlympiadBench (sim4%uparrow), DocFinQA (sim7%uparrow) et GPQA (sim1%uparrow). Notre principale découverte met en avant que la vérification itérative guidée par les contraintes améliore les algorithmes d'inférence, et que la sélection adaptative renforce encore les performances sur des problèmes complexes de planification et de raisonnement.
L'entraînement à la cohérence (CT) a récemment émergé comme une alternative prometteuse aux modèles de diffusion, atteignant des performances compétitives dans les tâches de génération d'images. Cependant, l'entraînement à la cohérence sans distillation souffre souvent d'une variance élevée et d'une instabilité, et l'analyse et l'amélioration de sa dynamique d'entraînement constituent un domaine de recherche actif. Dans ce travail, nous proposons une nouvelle approche d'entraînement CT basée sur le cadre de correspondance de flux. Notre principale contribution est un schéma de couplage de bruit entraîné inspiré de l'architecture des autoencodeurs variationnels (VAE). En formant un modèle d'émission de bruit dépendant des données implémenté en tant qu'architecture d'encodeur, notre méthode peut apprendre indirectement la géométrie de la correspondance bruit-données, qui est fixée par le choix du processus direct dans le CT classique. Les résultats empiriques sur divers ensembles de données d'images montrent des améliorations génératives significatives, notre modèle surpassant les références et atteignant l'état de l'art (SoTA) du CT sans distillation FID sur CIFAR-10, et obtenant un FID comparable au SoTA sur ImageNet en résolution 64 fois 64 dans une génération en 2 étapes. Notre code est disponible sur https://github.com/sony/vct.
Rendre des scènes dynamiques à partir de vidéos monoculaires est une tâche cruciale mais difficile. La technique récente de Splatting Gaussien déformable s'est imposée comme une solution robuste pour représenter des scènes dynamiques du monde réel. Cependant, elle conduit souvent à des Gaussiennes fortement redondantes, cherchant à s'adapter à chaque vue d'entraînement à différents moments, ce qui ralentit la vitesse de rendu. De plus, les attributs des Gaussiennes dans les zones statiques sont invariants dans le temps, ce qui rend inutile de modéliser chaque Gaussienne, ce qui peut provoquer des tremblements dans les régions statiques. En pratique, le principal goulot d'étranglement en termes de vitesse de rendu pour les scènes dynamiques est le nombre de Gaussiennes. En réponse, nous introduisons le Splatting Gaussien Dynamique Efficace (EDGS), qui représente les scènes dynamiques via une modélisation d'attributs variant dans le temps et épars. Notre approche formule les scènes dynamiques en utilisant une représentation en grille d'ancrages épars, avec le flux de mouvement des Gaussiennes denses calculé via une représentation de noyau classique. De plus, nous proposons une stratégie non supervisée pour filtrer efficacement les ancres correspondant aux zones statiques. Seules les ancres associées aux objets déformables sont entrées dans des MLP pour interroger les attributs variant dans le temps. Des expériences sur deux ensembles de données du monde réel démontrent que notre EDGS améliore significativement la vitesse de rendu tout en offrant une qualité de rendu supérieure par rapport aux méthodes précédentes de pointe.