Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'unification de la compréhension et de la génération multimodales a démontré des capacités impressionnantes dans les systèmes propriétaires de pointe. Dans ce travail, nous présentons BAGEL, un modèle fondamental open-source qui prend en charge nativement la compréhension et la génération multimodales. BAGEL est un modèle unifié, basé uniquement sur un décodeur, pré-entraîné sur des milliers de milliards de tokens issus de données intercalées à grande échelle, incluant du texte, des images, des vidéos et des données web. Lorsqu'il est mis à l'échelle avec des données multimodales intercalées aussi diversifiées, BAGEL montre des capacités émergentes en raisonnement multimodal complexe. En conséquence, il surpasse significativement les modèles unifiés open-source à la fois en génération et en compréhension multimodales sur des benchmarks standards, tout en démontrant des capacités avancées de raisonnement multimodal telles que la manipulation d'images libres, la prédiction de cadres futurs, la manipulation 3D et la navigation dans des environnements virtuels. Dans l'espoir de faciliter de nouvelles opportunités pour la recherche multimodale, nous partageons les principales découvertes, les détails du pré-entraînement, le protocole de création des données, et mettons à disposition notre code et nos points de contrôle à la communauté. La page du projet est accessible à l'adresse suivante : https://bagel-ai.org/
L'efficacité de l'attention est cruciale en raison de sa complexité temporelle quadratique. Nous améliorons l'efficacité de l'attention grâce à deux contributions majeures : Premièrement, nous exploitons les nouveaux Tensor Cores FP4 des GPU Blackwell pour accélérer le calcul de l'attention. Notre implémentation atteint 1038 TOPS sur le RTX5090, ce qui représente une accélération de 5x par rapport à la version la plus rapide de FlashAttention sur le RTX5090. Les expériences montrent que notre attention FP4 peut accélérer l'inférence de divers modèles de manière plug-and-play. Deuxièmement, nous sommes les premiers à appliquer l'attention à faible précision aux tâches d'entraînement. Les travaux existants sur l'attention à faible précision, comme FlashAttention3 et SageAttention, se concentrent uniquement sur l'inférence. Cependant, l'efficacité de l'entraînement des grands modèles est également importante. Pour explorer si l'attention à faible précision peut être efficacement appliquée aux tâches d'entraînement, nous concevons une attention 8 bits précise et efficace pour la propagation avant et arrière. Les expériences indiquent que l'attention 8 bits atteint des performances sans perte dans les tâches de fine-tuning, mais présente une convergence plus lente dans les tâches de pré-entraînement. Le code sera disponible à l'adresse https://github.com/thu-ml/SageAttention.
Les modèles de récompense jouent un rôle crucial pour orienter les grands modèles de langage vers des sorties alignées avec les attentes humaines. Cependant, un défi persiste dans l'utilisation efficace des ressources de calcul au moment du test pour améliorer les performances des modèles de récompense. Dans ce travail, nous introduisons les Modèles de Raisonnement sur les Récompenses (RRMs), qui sont spécifiquement conçus pour exécuter un processus de raisonnement délibéré avant de générer les récompenses finales. Grâce au raisonnement en chaîne de pensée, les RRMs exploitent des ressources de calcul supplémentaires au moment du test pour les requêtes complexes où les récompenses appropriées ne sont pas immédiatement évidentes. Pour développer les RRMs, nous mettons en œuvre un cadre d'apprentissage par renforcement qui favorise l'évolution autonome des capacités de raisonnement sur les récompenses sans nécessiter de traces de raisonnement explicites comme données d'entraînement. Les résultats expérimentaux démontrent que les RRMs obtiennent des performances supérieures sur des benchmarks de modélisation des récompenses dans divers domaines. De manière notable, nous montrons que les RRMs peuvent exploiter de manière adaptative les ressources de calcul au moment du test pour améliorer encore la précision des récompenses. Les modèles de raisonnement sur les récompenses pré-entraînés sont disponibles à l'adresse suivante : https://huggingface.co/Reward-Reasoning.
L'optimisation du calcul au moment du test est cruciale pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les approches existantes utilisent généralement l'apprentissage par renforcement (RL) pour maximiser une récompense vérifiable obtenue à la fin des traces de raisonnement. Cependant, ces méthodes optimisent uniquement la performance finale sous un budget de jetons fixe et important, ce qui nuit à l'efficacité tant en formation qu'en déploiement. Dans ce travail, nous présentons un nouveau cadre, AnytimeReasoner, pour optimiser la performance de raisonnement à tout moment, visant à améliorer l'efficacité des jetons et la flexibilité du raisonnement sous des contraintes de budget de jetons variables. Pour y parvenir, nous tronquons le processus de réflexion complet pour qu'il s'insère dans des budgets de jetons échantillonnés à partir d'une distribution a priori, obligeant le modèle à résumer la réponse optimale pour chaque réflexion tronquée afin de vérification. Cela introduit des récompenses denses vérifiables dans le processus de raisonnement, facilitant une attribution de crédit plus efficace dans l'optimisation RL. Nous optimisons ensuite les politiques de réflexion et de résumé de manière découplée pour maximiser la récompense cumulative. De plus, nous introduisons une nouvelle technique de réduction de variance, l'Optimisation Relative des Politiques par Budget (BRPO), pour améliorer la robustesse et l'efficacité du processus d'apprentissage lors du renforcement de la politique de réflexion. Les résultats empiriques dans des tâches de raisonnement mathématique démontrent que notre méthode surpasse systématiquement GRPO pour tous les budgets de réflexion sous diverses distributions a priori, améliorant à la fois la formation et l'efficacité des jetons.
Les prédicteurs neurosymboliques (NeSy) combinent la perception neuronale avec le raisonnement symbolique pour résoudre des tâches telles que le raisonnement visuel. Cependant, les prédicteurs NeSy standards supposent une indépendance conditionnelle entre les symboles qu'ils extraient, limitant ainsi leur capacité à modéliser les interactions et l'incertitude - ce qui conduit souvent à des prédictions trop confiantes et à une mauvaise généralisation hors distribution. Pour surmonter les limites de l'hypothèse d'indépendance, nous introduisons les modèles de diffusion neurosymboliques (NeSyDMs), une nouvelle classe de prédicteurs NeSy qui utilisent la diffusion discrète pour modéliser les dépendances entre les symboles. Notre approche réutilise l'hypothèse d'indépendance des prédicteurs NeSy à chaque étape du processus de diffusion, permettant un apprentissage scalable tout en capturant les dépendances symboliques et la quantification de l'incertitude. Sur des benchmarks synthétiques et réels - incluant la planification de trajectoires visuelles en haute dimension et la conduite autonome basée sur des règles - les NeSyDMs atteignent une précision de pointe parmi les prédicteurs NeSy et démontrent une forte calibration.
Une tendance clé dans les modèles de raisonnement à grande échelle (par exemple, o3 d'OpenAI) est leur capacité agentique native à utiliser des outils externes tels que des navigateurs web pour rechercher et écrire/exécuter du code destiné à manipuler des images, permettant ainsi de penser avec des images. Dans la communauté de recherche open source, bien que des progrès significatifs aient été réalisés dans les capacités agentiques basées uniquement sur le langage, comme l'appel de fonctions et l'intégration d'outils, le développement de capacités agentiques multimodales impliquant une véritable pensée avec des images, ainsi que leurs benchmarks correspondants, restent moins explorés. Ce travail met en lumière l'efficacité du Fine-Tuning par Renforcement Agentique Visuel (Visual-ARFT) pour permettre des capacités de raisonnement flexibles et adaptatives aux grands modèles vision-langage (LVLMs). Grâce à Visual-ARFT, les LVLMs open source acquièrent la capacité de naviguer sur des sites web pour obtenir des informations en temps réel et d'écrire du code pour manipuler et analyser des images d'entrée via des techniques de traitement d'images telles que le recadrage, la rotation, etc. Nous présentons également un banc d'essai d'outils agentiques multimodaux (MAT) avec deux configurations (MAT-Search et MAT-Coding) conçues pour évaluer les capacités agentiques de recherche et de codage des LVLMs. Nos résultats expérimentaux montrent que Visual-ARFT surpasse son modèle de référence de +18,6 % F1 / +13,0 % EM sur MAT-Coding et de +10,3 % F1 / +8,7 % EM sur MAT-Search, dépassant finalement GPT-4o. Visual-ARFT obtient également des gains de +29,3 % F1 / +25,9 % EM sur des benchmarks existants de questions-réponses multi-sauts tels que 2Wiki et HotpotQA, démontrant de solides capacités de généralisation. Nos résultats suggèrent que Visual-ARFT offre une voie prometteuse pour construire des agents multimodaux robustes et généralisables.
DeepSeek-R1 a démontré une efficacité remarquable pour stimuler les capacités de raisonnement et de généralisation des grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement. Cependant, le potentiel de la modélisation computationnelle induite par le raisonnement n'a pas été pleinement exploré dans le contexte de l'évaluation de la qualité d'image (IQA), une tâche qui dépend de manière critique du raisonnement visuel. Dans cet article, nous présentons VisualQuality-R1, un modèle de IQA sans référence (NR-IQA) induit par le raisonnement, que nous entraînons avec un apprentissage par renforcement pour le classement, un algorithme d'apprentissage adapté à la nature intrinsèquement relative de la qualité visuelle. Plus précisément, pour une paire d'images, nous utilisons l'optimisation de politique relative par groupe pour générer plusieurs scores de qualité pour chaque image. Ces estimations sont ensuite utilisées pour calculer les probabilités comparatives qu'une image ait une qualité supérieure à l'autre selon le modèle de Thurstone. Les récompenses pour chaque estimation de qualité sont définies à l'aide de mesures de fidélité continues plutôt que d'étiquettes binaires discrètes. Des expériences approfondies montrent que le modèle proposé VisualQuality-R1 surpasse systématiquement les modèles NR-IQA basés sur l'apprentissage profond discriminatif ainsi qu'une méthode récente de régression de qualité induite par le raisonnement. De plus, VisualQuality-R1 est capable de générer des descriptions de qualité riches en contexte et alignées sur les jugements humains, et prend en charge l'entraînement multi-dataset sans nécessiter de réalignement d'échelle perceptuelle. Ces caractéristiques rendent VisualQuality-R1 particulièrement bien adapté pour mesurer de manière fiable les progrès dans un large éventail de tâches de traitement d'image, telles que la super-résolution et la génération d'images.
Les Transformers, l'implémentation standard pour les grands modèles de langage (LLMs), sont généralement composés de dizaines à centaines de couches discrètes. Bien qu'un plus grand nombre de couches puisse améliorer les performances, cette approche a été remise en question comme étant loin d'être efficace, surtout compte tenu de la supériorité des couches continues démontrée par les modèles de diffusion et basés sur les flux pour la génération d'images. Nous proposons le Latent Flow Transformer (LFT), qui remplace un bloc de couches par un unique opérateur de transport appris via le flow matching, offrant une compression significative tout en restant compatible avec l'architecture originale. De plus, nous abordons les limitations des méthodes existantes basées sur les flux en matière de préservation du couplage en introduisant l'algorithme Flow Walking (FW). Sur le modèle Pythia-410M, le LFT entraîné avec le flow matching compresse 6 des 24 couches et surpasse le saut direct de 2 couches (Divergence KL des logits du modèle de langage à 0.407 contre 0.529), démontrant la faisabilité de cette conception. Lorsqu'il est entraîné avec FW, le LFT distille en outre 12 couches en une tout en réduisant la KL à 0.736, surpassant celle obtenue en sautant 3 couches (0.932), réduisant ainsi significativement l'écart entre les paradigmes de génération autoregressive et basée sur les flux.
Objectif : Avec les avancées des modèles de langage à grande échelle (LLMs) dans le domaine de la santé, la nécessité de modèles open-source compétitifs se fait sentir pour protéger l'intérêt public. Ce travail contribue au domaine des LLMs médicaux open-source en optimisant les étapes clés du prétraitement des données et de l'entraînement, tout en montrant comment améliorer la sécurité des modèles (via DPO) et leur efficacité (via RAG). La méthodologie d'évaluation utilisée, qui inclut quatre types de tests différents, définit une nouvelle norme pour le domaine. Les modèles résultants, démontrés comme compétitifs face aux meilleures alternatives privées, sont publiés sous une licence permissive. Méthodes : S'appuyant sur des modèles de base solides comme Llama 3.1 et Qwen 2.5, Aloe Beta utilise un jeu de données personnalisé pour enrichir les données publiques avec des exemples synthétiques de Chaîne de Pensée. Les modèles sont alignés grâce à l'Optimisation Directe des Préférences, en mettant l'accent sur les performances éthiques et alignées avec les politiques face aux attaques de jailbreaking. L'évaluation inclut des tests à choix fermé, à réponse ouverte, de sécurité et des évaluations humaines, afin de maximiser la fiabilité des résultats. Résultats : Des recommandations sont formulées pour l'ensemble du pipeline, soutenues par les performances solides de la famille Aloe. Ces modèles offrent des performances compétitives sur les benchmarks de santé et dans divers domaines médicaux, et sont souvent préférés par les professionnels de santé. En matière de biais et de toxicité, les modèles Aloe Beta améliorent significativement la sécurité, démontrant une résilience face aux attaques de jailbreaking inédites. Pour une publication responsable, une évaluation des risques détaillée spécifique à la santé est jointe aux modèles de la famille Aloe. Conclusion : Les modèles Aloe Beta, ainsi que la recette qui les a produits, représentent une contribution significative au domaine des LLMs médicaux open-source, offrant des performances de pointe tout en respectant des exigences éthiques élevées. Ce travail établit une nouvelle norme pour le développement et la communication de LLMs alignés dans le domaine de la santé.
L'apprentissage par renforcement (RL) a récemment démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). En particulier, le renforcement learning "Zero" introduit par Deepseek-R1-Zero permet un entraînement direct des LLMs de base sans recourir à une étape intermédiaire de fine-tuning supervisé. Malgré ces avancées, les travaux actuels sur le raisonnement des LLMs se concentrent principalement sur les domaines mathématiques et de programmation, en grande partie en raison de l'abondance des données et de la facilité de vérification des réponses. Cela limite l'applicabilité et la généralisation de ces modèles à des domaines plus vastes, où les questions ont souvent des représentations de réponses variées et où les données sont plus rares. Dans cet article, nous proposons General-Reasoner, un nouveau paradigme d'entraînement conçu pour améliorer les capacités de raisonnement des LLMs dans divers domaines. Nos contributions clés incluent : (1) la construction d'un ensemble de données à grande échelle et de haute qualité de questions avec des réponses vérifiables, obtenues par web crawling et couvrant un large éventail de disciplines ; et (2) le développement d'un vérificateur de réponses basé sur un modèle génératif, qui remplace la vérification traditionnelle basée sur des règles par la capacité de chaîne de pensée et de conscience contextuelle. Nous entraînons une série de modèles et les évaluons sur un large éventail de jeux de données couvrant des domaines variés comme la physique, la chimie, la finance, l'électronique, etc. Notre évaluation exhaustive sur ces 12 benchmarks (par exemple, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH et MATH AMC) démontre que General-Reasoner surpasse les méthodes de référence existantes, atteignant une performance de raisonnement robuste et généralisable tout en maintenant une efficacité supérieure dans les tâches de raisonnement mathématique.
Les modèles récents de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités de raisonnement nettement améliorées par rapport aux modèles de langage traditionnels à grande échelle (Large Language Models, LLMs) en intégrant des processus de réflexion étendus avant de produire des réponses finales. Cependant, une réflexion excessivement longue introduit une surcharge importante en termes de consommation de tokens et de latence, ce qui est particulièrement inutile pour des requêtes simples. Dans ce travail, nous introduisons les modèles de raisonnement hybride à grande échelle (Large Hybrid-Reasoning Models, LHRMs), le premier type de modèle capable de déterminer de manière adaptative s'il doit effectuer une réflexion en fonction des informations contextuelles des requêtes utilisateur. Pour y parvenir, nous proposons un pipeline d'entraînement en deux étapes comprenant un réglage fin hybride (Hybrid Fine-Tuning, HFT) comme démarrage à froid, suivi d'un apprentissage par renforcement en ligne avec l'optimisation de politique de groupe hybride proposée (Hybrid Group Policy Optimization, HGPO) pour apprendre implicitement à sélectionner le mode de réflexion approprié. De plus, nous introduisons une métrique appelée précision hybride (Hybrid Accuracy) pour évaluer quantitativement la capacité du modèle à effectuer une réflexion hybride. Les résultats expérimentaux approfondis montrent que les LHRMs peuvent effectuer de manière adaptative une réflexion hybride sur des requêtes de difficulté et de type variés. Ils surpassent les LRMs et LLMs existants en termes de capacités de raisonnement et générales tout en améliorant significativement l'efficacité. Ensemble, notre travail plaide pour une réévaluation de l'utilisation appropriée des processus de réflexion étendus et fournit un point de départ solide pour la construction de systèmes de réflexion hybride.
Malgré leurs forces, les grands modèles de langage (LLMs) échouent souvent à communiquer leur confiance avec précision, rendant difficile l'évaluation de leurs erreurs potentielles et limitant ainsi leur fiabilité. Dans ce travail, nous démontrons que les modèles de raisonnement - des LLMs qui s'engagent dans un raisonnement en chaîne de pensée (CoT) étendu - présentent des performances supérieures non seulement en résolution de problèmes, mais aussi dans l'expression précise de leur confiance. Plus précisément, nous évaluons six modèles de raisonnement sur six ensembles de données et constatons qu'ils obtiennent une calibration de la confiance strictement meilleure que leurs homologues non raisonneurs dans 33 des 36 configurations. Notre analyse détaillée révèle que ces gains en calibration découlent des comportements de "pensée lente" des modèles de raisonnement - tels que l'exploration d'approches alternatives et le retour en arrière - qui leur permettent d'ajuster leur confiance de manière dynamique tout au long de leur CoT, la rendant progressivement plus précise. En particulier, nous observons que les modèles de raisonnement deviennent de mieux en mieux calibrés au fur et à mesure que leur CoT se déroule, une tendance absente chez les modèles non raisonneurs. De plus, la suppression des comportements de pensée lente du CoT entraîne une baisse significative de la calibration. Enfin, nous montrons que ces gains ne sont pas exclusifs aux modèles de raisonnement - les modèles non raisonneurs en bénéficient également lorsqu'ils sont guidés pour adopter une pensée lente via l'apprentissage en contexte.
Les modèles de langage récents axés sur le raisonnement atteignent une grande précision en générant des chemins de raisonnement intermédiaires longs avant de produire des réponses finales. Bien que cette approche soit efficace pour résoudre des problèmes nécessitant une pensée logique, les longs chemins de raisonnement augmentent considérablement l'utilisation de la mémoire et le débit de génération de tokens, limitant ainsi le déploiement pratique de tels modèles. Nous proposons la Compression des Chemins de Raisonnement (RPC), une méthode sans entraînement qui accélère l'inférence en exploitant la parcimonie sémantique des chemins de raisonnement. RPC compresse périodiquement le cache KV en conservant les entrées du cache KV qui reçoivent un score d'importance élevé, calculé à l'aide d'une fenêtre de sélection composée de requêtes récemment générées. Les expériences montrent que RPC améliore le débit de génération de QwQ-32B jusqu'à 1,60 fois par rapport à l'inférence avec un cache KV complet, avec une baisse de précision de 1,2 % sur le benchmark AIME 2024. Nos résultats démontrent que la parcimonie sémantique dans les traces de raisonnement peut être efficacement exploitée pour la compression, offrant une voie pratique vers un déploiement efficace des LLM de raisonnement. Notre code est disponible à l'adresse https://github.com/jiwonsong-dev/ReasoningPathCompression.
L'apprentissage de capacités de raisonnement générales constitue depuis longtemps un défi majeur en intelligence artificielle. Les recherches récentes sur les grands modèles de langage (LLMs), tels que DeepSeek-R1, ont démontré que des techniques d'apprentissage par renforcement comme GRPO permettent à des LLMs pré-entraînés de développer des capacités de raisonnement à partir de simples paires question-réponse. Dans cet article, nous visons à entraîner des modèles de langage visuel (VLMs) à effectuer un raisonnement sur des données d'images grâce à l'apprentissage par renforcement et à des paires question-réponse visuelles, sans aucune supervision explicite de chaîne de pensée (CoT). Nos résultats indiquent que l'application simple de l'apprentissage par renforcement à un VLM -- en incitant le modèle à produire une chaîne de raisonnement avant de fournir une réponse -- peut conduire le modèle à développer des raccourcis à partir de questions faciles, réduisant ainsi sa capacité à généraliser sur des distributions de données inédites. Nous soutenons que la clé pour atténuer l'apprentissage par raccourci consiste à encourager le modèle à interpréter les images avant de raisonner. Par conséquent, nous entraînons le modèle à respecter un format de sortie description-raisonnement-réponse : générer d'abord une description détaillée de l'image, puis construire une chaîne de raisonnement approfondie. Lorsqu'il est entraîné sur 273K paires question-réponse visuelles sans CoT et en utilisant uniquement l'apprentissage par renforcement, notre modèle, nommé Visionary-R1, surpasse des modèles multimodaux puissants, tels que GPT-4o, Claude3.5-Sonnet et Gemini-1.5-Pro, sur plusieurs benchmarks de raisonnement visuel.
La création intelligente de jeux représente une avancée transformative dans le développement de jeux, utilisant l'intelligence artificielle générative pour générer et améliorer dynamiquement le contenu des jeux. Malgré des progrès notables dans les modèles génératifs, la synthèse complète d'actifs de jeu de haute qualité, incluant à la fois des images et des vidéos, reste une frontière difficile à franchir. Pour créer un contenu de jeu à haute fidélité qui s'aligne simultanément sur les préférences des joueurs et augmente significativement l'efficacité des concepteurs, nous présentons Hunyuan-Game, un projet innovant conçu pour révolutionner la production intelligente de jeux. Hunyuan-Game englobe deux branches principales : la génération d'images et la génération de vidéos. Le composant de génération d'images est construit sur un vaste ensemble de données comprenant des milliards d'images de jeux, conduisant au développement d'un groupe de modèles de génération d'images personnalisés pour les scénarios de jeux : (1) Génération générale d'images à partir de texte. (2) Génération d'effets visuels de jeux, impliquant la génération d'effets visuels de jeux à partir de texte et d'images de référence. (3) Génération d'images transparentes pour les personnages, les scènes et les effets visuels de jeux. (4) Génération de personnages de jeux basée sur des esquisses, des images en noir et blanc et des modèles blancs. Le composant de génération de vidéos est construit sur un ensemble de données complet de millions de vidéos de jeux et d'anime, conduisant au développement de cinq modèles algorithmiques centraux, chacun ciblant des points critiques dans le développement de jeux et ayant une adaptation robuste à divers scénarios de vidéos de jeux : (1) Génération de vidéos à partir d'images. (2) Synthèse de vidéos d'avatar en pose 360 A/T. (3) Génération d'illustrations dynamiques. (4) Super-résolution générative de vidéos. (5) Génération interactive de vidéos de jeux. Ces modèles de génération d'images et de vidéos non seulement présentent une expression esthétique de haut niveau, mais intègrent également profondément des connaissances spécifiques au domaine, établissant une compréhension systématique des divers styles artistiques de jeux et d'anime.
Les modèles multimodaux de grande taille (LMMs) ont récemment émergé comme un outil puissant pour la compréhension de vidéos longues (LVU), stimulant le développement de benchmarks standardisés pour évaluer leurs performances. Cependant, notre investigation révèle une leçon plutôt édifiante concernant les benchmarks LVU existants. Premièrement, la plupart des benchmarks actuels reposent fortement sur des questions à choix multiples (MCQs), dont les résultats d'évaluation sont surévalués en raison de la possibilité de deviner la bonne réponse. Deuxièmement, une part significative des questions dans ces benchmarks présente des préjugés forts, permettant aux modèles de répondre directement sans même visionner la vidéo d'entrée. Par exemple, Gemini-1.5-Pro peut atteindre une précision de plus de 50 % avec une image aléatoire d'une vidéo longue sur Video-MME. Nous observons également que l'augmentation du nombre d'images ne conduit pas nécessairement à une amélioration sur les benchmarks existants, ce qui est contre-intuitif. En conséquence, la validité et la robustesse des benchmarks LVU actuels sont compromises, entravant une évaluation fidèle des capacités de compréhension des vidéos longues par les LMMs. Pour résoudre ce problème, nous proposons VideoEval-Pro, un benchmark LVU réaliste contenant des questions à réponse courte ouverte, qui nécessitent véritablement la compréhension de l'intégralité de la vidéo. VideoEval-Pro évalue à la fois la compréhension au niveau des segments et de la vidéo entière à travers des tâches de perception et de raisonnement. En évaluant 21 LMMs vidéo propriétaires et open-source, nous concluons les observations suivantes : (1) les LMMs vidéo montrent une chute drastique de performance (>25 %) sur les questions ouvertes par rapport aux MCQs ; (2) étonnamment, des scores plus élevés aux MCQs ne conduisent pas à des scores plus élevés aux questions ouvertes sur VideoEval-Pro ; (3) comparé à d'autres benchmarks MCQs, VideoEval-Pro bénéficie davantage de l'augmentation du nombre d'images d'entrée. Nos résultats montrent que VideoEval-Pro offre une mesure plus réaliste et fiable de la compréhension des vidéos longues, fournissant une vision plus claire des progrès dans ce domaine.
L'alternance codique (CS) représente un défi majeur pour les modèles de langage de grande taille (LLMs), mais sa compréhensibilité reste peu explorée dans ces modèles. Nous présentons CS-Sum, un outil pour évaluer la compréhensibilité de l'alternance codique par les LLMs à travers la synthèse de dialogues en CS vers l'anglais. CS-Sum est le premier benchmark pour la synthèse de dialogues en CS couvrant les paires mandarin-anglais (EN-ZH), tamoul-anglais (EN-TA) et malais-anglais (EN-MS), avec 900 à 1300 dialogues annotés manuellement par paire de langues. En évaluant dix LLMs, incluant des modèles open source et propriétaires, nous analysons les performances selon les approches few-shot, traduction-synthèse et fine-tuning (LoRA, QLoRA sur des données synthétiques). Nos résultats montrent que, bien que les scores sur les métriques automatisées soient élevés, les LLMs commettent des erreurs subtiles qui altèrent complètement le sens du dialogue. À cet égard, nous identifions les trois types d'erreurs les plus fréquents que les LLMs commettent lors du traitement des entrées en CS. Les taux d'erreur varient selon les paires de CS et les LLMs, certains modèles montrant des erreurs plus fréquentes sur certaines paires de langues, soulignant la nécessité d'un entraînement spécialisé sur des données en alternance codique.
L'élagage des LLM (Large Language Models) est apparu comme une technologie prometteuse pour compresser les LLM, permettant leur déploiement sur des appareils aux ressources limitées. Cependant, les méthodologies actuelles nécessitent généralement l'accès à des échantillons de calibration publics, qui peuvent être difficiles à obtenir dans des domaines sensibles à la confidentialité. Pour résoudre ce problème, nous introduisons FedPrLLM, un cadre complet d'élagage fédéré conçu pour la compression des LLM tout en préservant la confidentialité. Dans FedPrLLM, chaque client n'a besoin que de calculer une matrice de masque d'élagage basée sur ses données de calibration locales et de la partager avec le serveur pour élaguer le modèle global. Cette approche permet un élagage collaboratif du modèle global en utilisant les connaissances de chaque client tout en préservant la confidentialité des données locales. De plus, nous menons des expériences approfondies pour explorer diverses possibilités au sein du cadre FedPrLLM, incluant différents groupes de comparaison, stratégies d'élagage, et la décision de mettre à l'échelle les poids. Notre évaluation approfondie révèle que l'élagage en une seule étape avec comparaison par couche et sans mise à l'échelle des poids est le choix optimal dans le cadre FedPrLLM. Nous espérons que notre travail guidera les futurs efforts d'élagage des LLM dans des domaines sensibles à la confidentialité. Notre code est disponible à l'adresse suivante : https://github.com/Pengxin-Guo/FedPrLLM.
Le tatouage invisible d'images peut protéger la propriété des images et prévenir l'utilisation malveillante des modèles génératifs visuels. Cependant, les méthodes de tatouage génératif existantes sont principalement conçues pour les modèles de diffusion, tandis que le tatouage pour les modèles de génération d'images autoregressifs reste largement inexploré. Nous proposons IndexMark, un cadre de tatouage sans apprentissage pour les modèles de génération d'images autoregressifs. IndexMark s'inspire de la propriété de redondance du codebook : remplacer les indices générés de manière autoregressive par des indices similaires produit des différences visuelles négligeables. Le composant central d'IndexMark est une méthode simple mais efficace de correspondance puis de remplacement, qui sélectionne soigneusement les tokens de tatouage dans le codebook en fonction de la similarité des tokens, et favorise l'utilisation des tokens de tatouage par le remplacement de tokens, intégrant ainsi le tatouage sans affecter la qualité de l'image. La vérification du tatouage est réalisée en calculant la proportion de tokens de tatouage dans les images générées, avec une précision encore améliorée par un Index Encoder. De plus, nous introduisons un schéma de validation auxiliaire pour renforcer la robustesse contre les attaques de recadrage. Les expériences démontrent qu'IndexMark atteint des performances de pointe en termes de qualité d'image et de précision de vérification, et présente une robustesse contre diverses perturbations, y compris le recadrage, le bruit, le flou gaussien, l'effacement aléatoire, la variation de couleur et la compression JPEG.
Malgré leur adoption généralisée, les modèles de langage multimodaux de grande taille (MLLMs) subissent une dégradation de performance lorsqu'ils sont confrontés à des requêtes non familières en cas de décalages de distribution. Les méthodes existantes pour améliorer la généralisation des MLLMs nécessitent généralement soit davantage de données d'instruction, soit des architectures de modèles plus avancées, ce qui entraîne des coûts non négligeables en termes de main-d'œuvre humaine ou de calcul. Dans ce travail, nous adoptons une approche alternative pour renforcer la robustesse des MLLMs face aux décalages de distribution, en nous plaçant du point de vue de l'apprentissage de représentations. Inspirés par le principe du goulot d'étranglement d'information (IB), nous dérivons une borne inférieure variationnelle de l'IB pour les MLLMs et concevons une implémentation pratique, le réglage par goulot d'étranglement d'instruction visuelle (Vittle). Nous justifions ensuite théoriquement Vittle en révélant son lien avec une métrique de robustesse informationnelle des MLLMs. Une validation empirique de trois MLLMs sur des tâches de réponse à des questions ouvertes et fermées ainsi que de détection d'hallucinations d'objets, sur 45 ensembles de données incluant 30 scénarios de décalage, démontre que Vittle améliore systématiquement la robustesse des MLLMs face aux décalages en visant l'apprentissage d'une représentation minimale suffisante.
À mesure que la taille des grands modèles de langage croît de manière exponentielle, la mémoire des GPU est devenue un goulot d'étranglement pour l'adaptation de ces modèles à des tâches en aval. Dans cet article, nous visons à repousser les limites de l'entraînement efficace en mémoire en minimisant l'utilisation de la mémoire pour les poids du modèle, les gradients et les états de l'optimiseur, dans un cadre unifié. Notre idée est d'éliminer à la fois les gradients et les états de l'optimiseur en utilisant l'optimisation d'ordre zéro, qui approxime les gradients en perturbant les poids lors des passes avant pour identifier les directions des gradients. Pour minimiser l'utilisation de la mémoire sur les poids, nous employons la quantification du modèle, par exemple en convertissant de bfloat16 à int4. Cependant, l'application directe de l'optimisation d'ordre zéro à des poids quantifiés est impossible en raison de l'écart de précision entre les poids discrets et les gradients continus, ce qui nécessiterait sinon une dé-quantification et une re-quantification. Pour surmonter ce défi, nous proposons l'Optimisation d'Ordre Zéro Quantifiée (QZO), une approche novatrice qui perturbe l'échelle de quantification continue pour l'estimation des gradients et utilise une méthode de découpage des dérivées directionnelles pour stabiliser l'entraînement. QZO est orthogonale aux méthodes de quantification post-entraînement basées sur des scalaires et des codebooks. Par rapport à l'ajustement fin des paramètres complets en bfloat16, QZO peut réduire le coût total de la mémoire de plus de 18 fois pour les modèles de langage à 4 bits, et permet l'ajustement fin de Llama-2-13B et Stable Diffusion 3.5 Large sur un seul GPU de 24 Go.
Malgré les avancées impressionnantes des modèles visio-linguistiques (VLMs) pour les tâches multimodales, leur dépendance aux entrées RVB limite une compréhension spatiale précise. Les méthodes existantes pour intégrer des indices spatiaux, tels que les nuages de points ou la profondeur, nécessitent soit des capteurs spécialisés, soit échouent à exploiter efficacement l'information de profondeur pour un raisonnement d'ordre supérieur. À cette fin, nous proposons une nouvelle méthode de Sens et Raisonnement Spatial, baptisée SSR, un cadre novateur qui transforme les données brutes de profondeur en justifications textuelles structurées et interprétables. Ces justifications textuelles servent de représentations intermédiaires significatives pour améliorer considérablement les capacités de raisonnement spatial. De plus, nous exploitons la distillation de connaissances pour compresser les justifications générées en embeddings latents compacts, facilitant ainsi une intégration économe en ressources et plug-and-play dans les VLMs existants sans nécessiter de réentraînement. Pour permettre une évaluation complète, nous introduisons un nouveau jeu de données nommé SSR-CoT, un ensemble de données de raisonnement visio-linguistique à grande échelle enrichi d'annotations intermédiaires de raisonnement spatial, et présentons SSRBench, un benchmark multi-tâches complet. Des expériences approfondies sur plusieurs benchmarks démontrent que SSR améliore substantiellement l'utilisation de la profondeur et renforce le raisonnement spatial, faisant ainsi progresser les VLMs vers une compréhension multimodale plus proche de celle des humains. Notre page de projet est disponible à l'adresse https://yliu-cs.github.io/SSR.
Les architectures de type Mixture-of-Experts (MoE) intégrées dans les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont atteint des capacités de raisonnement impressionnantes en activant de manière sélective des experts pour faciliter des processus cognitifs structurés. Malgré des avancées notables, les modèles de raisonnement existants souffrent souvent d'inefficacités cognitives telles que la surréflexion et la sous-réflexion. Pour remédier à ces limitations, nous introduisons une nouvelle méthodologie de pilotage au moment de l'inférence, appelée Reinforcing Cognitive Experts (RICE), conçue pour améliorer les performances de raisonnement sans nécessiter d'entraînement supplémentaire ou d'heuristiques complexes. En exploitant l'information mutuelle normalisée point par point (nPMI), nous identifions systématiquement des experts spécialisés, appelés « experts cognitifs », qui orchestrent des opérations de raisonnement méta-niveau caractérisées par des tokens tels que « donc ». Les évaluations empiriques avec des LRMs basés sur MoE de pointe (DeepSeek-R1 et Qwen3-235B) sur des benchmarks rigoureux de raisonnement quantitatif et scientifique montrent des améliorations notables et cohérentes en termes de précision du raisonnement, d'efficacité cognitive et de généralisation inter-domaines. De manière cruciale, notre approche légère surpasse largement les techniques courantes de pilotage du raisonnement, telles que la conception de prompts et les contraintes de décodage, tout en préservant les compétences générales du modèle à suivre des instructions. Ces résultats mettent en évidence le renforcement des experts cognitifs comme une direction prometteuse, pratique et interprétable pour améliorer l'efficacité cognitive dans les modèles de raisonnement avancés.
La recherche générative par IA transforme la récupération d'information en fournissant des réponses de bout en bout à des requêtes complexes, réduisant ainsi la dépendance des utilisateurs à la navigation manuelle et à la synthèse de multiples pages web. Cependant, bien que ce paradigme améliore la commodité, il perturbe la boucle d'amélioration basée sur les retours d'expérience qui a historiquement alimenté l'évolution de la recherche web traditionnelle. La recherche web peut continuellement améliorer ses modèles de classement en collectant des retours d'expérience à grande échelle et granulaire (par exemple, les clics, le temps de consultation) au niveau des documents. En revanche, la recherche générative par IA fonctionne à travers un pipeline de recherche beaucoup plus long, englobant la décomposition des requêtes, la récupération de documents et la génération de réponses, mais ne reçoit généralement que des retours d'expérience grossiers sur la réponse finale. Cela introduit une discontinuité dans la boucle de rétroaction, où les retours d'expérience sur le résultat final ne peuvent pas être efficacement répercutés sur des composants spécifiques du système, rendant difficile l'amélioration de chaque étape intermédiaire et le maintien de la boucle de rétroaction. Dans cet article, nous envisageons NExT-Search, un paradigme de nouvelle génération conçu pour réintroduire des retours d'expérience granulaires au niveau du processus dans la recherche générative par IA. NExT-Search intègre deux modes complémentaires : le Mode Débug Utilisateur, qui permet aux utilisateurs engagés d'intervenir à des étapes clés ; et le Mode Utilisateur Fantôme, où un agent utilisateur personnalisé simule les préférences de l'utilisateur et fournit des retours d'expérience assistés par IA pour les utilisateurs moins interactifs. De plus, nous envisageons comment ces signaux de rétroaction peuvent être exploités à travers l'adaptation en ligne, qui affine les résultats de recherche en temps réel, et la mise à jour hors ligne, qui agrège les logs d'interaction pour ajuster périodiquement les modèles de décomposition de requêtes, de récupération et de génération. En restaurant le contrôle humain sur les étapes clés du pipeline de recherche générative par IA, nous croyons que NExT-Search offre une direction prometteuse pour construire des systèmes de recherche par IA riches en retours d'expérience, capables d'évoluer continuellement grâce aux retours humains.
À mesure que les modèles de langage deviennent plus puissants et sophistiqués, il est crucial qu'ils restent dignes de confiance et fiables. Des preuves préliminaires préoccupantes suggèrent que ces modèles pourraient tenter de tromper ou de cacher des informations à leurs opérateurs. Pour explorer la capacité des techniques actuelles à révéler de telles connaissances cachées, nous entraînons un modèle Tabou : un modèle de langage qui décrit un mot secret spécifique sans le mentionner explicitement. Il est important de noter que le mot secret n'est ni présent dans les données d'entraînement du modèle ni dans son prompt. Nous étudions ensuite des méthodes pour découvrir ce secret. Tout d'abord, nous évaluons des approches non interprétables (boîte noire). Ensuite, nous développons des stratégies largement automatisées basées sur des techniques d'interprétabilité mécaniste, notamment le logit lens et les autoencodeurs parcimonieux. L'évaluation montre que ces deux approches sont efficaces pour révéler le mot secret dans notre cadre de preuve de concept. Nos résultats mettent en lumière le potentiel de ces méthodes pour extraire des connaissances cachées et suggèrent plusieurs pistes prometteuses pour des travaux futurs, notamment le test et l'affinement de ces techniques sur des modèles plus complexes. Ce travail vise à contribuer à la résolution du problème crucial de l'extraction de connaissances secrètes des modèles de langage, favorisant ainsi leur déploiement sûr et fiable.
Nous présentons Vox-Profile, un benchmark complet pour caractériser des traits riches des locuteurs et de la parole à l'aide de modèles de base de la parole. Contrairement aux travaux existants qui se concentrent sur une seule dimension des traits des locuteurs, Vox-Profile propose des profils holistiques et multidimensionnels qui reflètent à la fois des traits statiques des locuteurs (par exemple, l'âge, le sexe, l'accent) et des propriétés dynamiques de la parole (par exemple, l'émotion, le débit de parole). Ce benchmark s'appuie sur les sciences de la parole et la linguistique, développé avec des experts du domaine pour indexer avec précision les caractéristiques des locuteurs et de la parole. Nous rapportons des expériences de benchmark utilisant plus de 15 ensembles de données de parole publics et plusieurs modèles de base de la parole largement utilisés, ciblant diverses propriétés statiques et dynamiques des locuteurs et de la parole. En plus des expériences de benchmark, nous présentons plusieurs applications en aval soutenues par Vox-Profile. Premièrement, nous montrons que Vox-Profile peut enrichir les ensembles de données existants de reconnaissance vocale pour analyser la variabilité des performances de la reconnaissance automatique de la parole (ASR). Vox-Profile est également utilisé comme un outil pour évaluer les performances des systèmes de génération de parole. Enfin, nous évaluons la qualité de nos profils automatisés par comparaison avec une évaluation humaine et montrons une validité convergente. Vox-Profile est disponible publiquement à l'adresse suivante : https://github.com/tiantiaf0627/vox-profile-release.
Gemini est de plus en plus utilisé pour exécuter des tâches au nom des utilisateurs, où les capacités d'appel de fonction et d'utilisation d'outils permettent au modèle d'accéder aux données des utilisateurs. Cependant, certains outils nécessitent l'accès à des données non fiables, introduisant ainsi des risques. Des adversaires peuvent intégrer des instructions malveillantes dans ces données non fiables, ce qui peut amener le modèle à s'écarter des attentes de l'utilisateur et à mal gérer ses données ou ses autorisations. Dans ce rapport, nous présentons l'approche de Google DeepMind pour évaluer la robustesse adversarial des modèles Gemini et décrivons les principales leçons tirées de ce processus. Nous testons comment Gemini se comporte face à un adversaire sophistiqué grâce à un cadre d'évaluation adversarial, qui déploie une série de techniques d'attaque adaptatives pour fonctionner en continu contre les versions passées, actuelles et futures de Gemini. Nous expliquons comment ces évaluations continues contribuent directement à renforcer la résilience de Gemini contre les manipulations.
La distillation s'est imposée comme une approche pratique et efficace pour améliorer les capacités de raisonnement des modèles de langage open-source. Dans ce travail, nous menons une étude empirique à grande échelle sur la distillation de données de raisonnement en collectant des sorties vérifiées provenant de trois modèles enseignants de pointe—AM-Thinking-v1, Qwen3-235B-A22B et DeepSeek-R1—sur un corpus partagé de 1,89 million de requêtes. Nous construisons trois ensembles de données parallèles et analysons leurs distributions, révélant que les données distillées par AM-Thinking-v1 présentent une plus grande diversité en termes de longueur de tokens et une perplexité plus faible. Les modèles étudiants entraînés sur chaque ensemble de données sont évalués sur des benchmarks de raisonnement incluant AIME2024, AIME2025, MATH500 et LiveCodeBench. Le modèle basé sur AM obtient systématiquement les meilleures performances (par exemple, 84,3 sur AIME2024, 72,2 sur AIME2025, 98,4 sur MATH500 et 65,9 sur LiveCodeBench) et démontre un comportement de sortie adaptatif—produisant des réponses plus longues pour les tâches plus difficiles et plus courtes pour les tâches plus simples. Ces résultats mettent en lumière la valeur des traces de raisonnement de haute qualité et vérifiées. Nous publions les ensembles de données distillés AM-Thinking-v1 et Qwen3-235B-A22B pour soutenir les recherches futures sur les modèles de langage open-source performants et orientés vers le raisonnement. Les ensembles de données sont disponibles publiquement sur Hugging Face : \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
Le réglage fin par renforcement (RFT) est devenu une approche standard pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, son impact sur la fiabilité des modèles reste peu exploré. Dans ce travail, nous identifions et étudions systématiquement un effet secondaire critique du RFT, que nous appelons la taxe d'hallucination : une dégradation du comportement de refus, conduisant les modèles à produire des réponses hallucinées à des questions insolubles avec assurance. Pour étudier ce phénomène, nous introduisons SUM (Synthetic Unanswerable Math), un ensemble de données de haute qualité composé de problèmes mathématiques insolubles, conçu pour évaluer la capacité des modèles à reconnaître une question insoluble en raisonnant à partir d'informations insuffisantes ou ambiguës. Nos résultats montrent que l'entraînement standard par RFT pourrait réduire les taux de refus des modèles de plus de 80 %, augmentant ainsi significativement leur tendance à halluciner. Nous démontrons en outre qu'incorporer seulement 10 % de SUM pendant le RFT restaure substantiellement un comportement de refus approprié, avec des compromis minimes sur la précision des tâches solubles. De manière cruciale, cette approche permet aux LLM d'utiliser les ressources de calcul au moment de l'inférence pour raisonner sur leur propre incertitude et les limites de leurs connaissances, améliorant ainsi la généralisation non seulement pour les problèmes mathématiques hors domaine, mais aussi pour les tâches de réponse à des questions factuelles.
La conception de modèles de langage à grande échelle (LLM) capables de raisonnement efficace nécessite généralement un entraînement utilisant l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ou une distillation avec des chaînes de pensée longues (CoT) soigneusement sélectionnées, deux approches qui dépendent fortement de vastes quantités de données d'entraînement. Cela représente un défi majeur lorsque la quantité de données d'entraînement de qualité est limitée. Nous proposons une stratégie d'entraînement en deux étapes, économe en échantillons, pour développer des LLM capables de raisonnement sous supervision limitée. Dans la première étape, nous "préchauffons" le modèle en distillant des CoT longues à partir d'un domaine simplifié, à savoir les énigmes logiques des Chevaliers et des Valets (K&K), afin d'acquérir des compétences de raisonnement générales. Dans la deuxième étape, nous appliquons le RLVR au modèle préchauffé en utilisant un ensemble limité d'exemples du domaine cible. Nos expériences démontrent que cette approche en deux phases offre plusieurs avantages : (i) la phase de préchauffage seule facilite un raisonnement généralisé, conduisant à des améliorations de performance sur une gamme de tâches, notamment MATH, HumanEval⁺ et MMLU-Pro ; (ii) lorsque le modèle de base et le modèle préchauffé sont tous deux entraînés par RLVR sur le même petit ensemble de données (≤100 exemples), le modèle préchauffé surpasse systématiquement le modèle de base ; (iii) le préchauffage avant l'entraînement RLVR permet au modèle de maintenir une généralisabilité inter-domaines même après un entraînement sur un domaine spécifique ; (iv) l'introduction du préchauffage dans le pipeline améliore non seulement la précision, mais aussi l'efficacité globale en termes d'échantillons pendant l'entraînement RLVR. Les résultats de cette étude mettent en lumière le potentiel du préchauffage pour construire des LLM robustes capables de raisonnement dans des environnements pauvres en données.
Malgré leur succès remarquable et leur déploiement dans divers flux de travail, les modèles de langage produisent parfois des réponses non véridiques. Notre compréhension limitée de la manière dont la véracité est encodée de manière mécanique dans ces modèles compromet leur fiabilité et leur sécurité. Dans cet article, nous proposons une méthode pour identifier les représentations de la véracité au niveau des neurones. Nous montrons que les modèles de langage contiennent des neurones de vérité, qui encodent la véracité de manière indépendante du sujet. Des expériences menées sur des modèles de différentes tailles valident l'existence de ces neurones de vérité, confirmant que l'encodage de la véracité au niveau des neurones est une propriété partagée par de nombreux modèles de langage. Les motifs de distribution des neurones de vérité à travers les couches s'alignent avec les découvertes antérieures sur la géométrie de la véracité. La suppression sélective des activations des neurones de vérité identifiés via le jeu de données TruthfulQA dégrade les performances à la fois sur TruthfulQA et sur d'autres benchmarks, montrant que les mécanismes de véracité ne sont pas liés à un ensemble de données spécifique. Nos résultats offrent de nouvelles perspectives sur les mécanismes sous-jacents à la véracité dans les modèles de langage et mettent en lumière des directions potentielles pour améliorer leur fiabilité et leur crédibilité.
Garantir la sécurité des grands modèles de langage (LLM) est essentiel pour un déploiement responsable, mais les évaluations existantes privilégient souvent la performance plutôt que l'identification des modes de défaillance. Nous présentons Phare, un cadre de diagnostic multilingue pour explorer et évaluer le comportement des LLM selon trois dimensions critiques : l'hallucination et la fiabilité, les biais sociaux, et la génération de contenus nuisibles. Notre évaluation de 17 LLM de pointe révèle des schémas de vulnérabilités systématiques dans toutes les dimensions de sécurité, incluant la complaisance, la sensibilité aux prompts et la reproduction de stéréotypes. En mettant en lumière ces modes de défaillance spécifiques plutôt que de simplement classer les modèles, Phare offre aux chercheurs et aux praticiens des insights actionnables pour construire des systèmes de langage plus robustes, alignés et dignes de confiance.
L'avancée rapide des techniques de détection de bogues a conduit à la découverte d'un nombre de vulnérabilités supérieur à ce que les développeurs peuvent raisonnablement corriger, créant un besoin urgent de méthodes efficaces de réparation automatisée de programmes (Automated Program Repair, APR). Cependant, la complexité des bogues modernes rend souvent l'analyse précise des causes racines difficile et peu fiable. Pour relever ce défi, nous proposons la réparation au site de crash afin de simplifier la tâche de réparation tout en atténuant le risque d'exploitation. De plus, nous introduisons une approche de génération de correctifs guidée par des modèles, qui réduit significativement le coût en tokens des modèles de langage de grande taille (Large Language Models, LLMs) tout en maintenant à la fois l'efficacité et l'efficience. Nous implémentons notre système prototype, WILLIAMT, et l'évaluons par rapport aux outils APR les plus performants. Nos résultats montrent que, lorsqu'il est combiné avec l'agent le plus performant, CodeRover-S, WILLIAMT réduit le coût en tokens de 45,9 % et augmente le taux de correction des bogues à 73,5 % (+29,6 %) sur ARVO, un benchmark de vulnérabilités logicielles open source de référence. Par ailleurs, nous démontrons que WILLIAMT peut fonctionner efficacement même sans accès aux LLMs de pointe : même un modèle local exécuté sur un Mac M4 Mini atteint un taux de réparation raisonnable. Ces résultats mettent en évidence l'applicabilité et l'évolutivité étendues de WILLIAMT.
Avec les progrès rapides des modèles de langage de grande envergure (LLM) ces dernières années, un large éventail de tâches en ingénierie logicielle peut désormais être abordé à l'aide de ces modèles, améliorant ainsi considérablement la productivité et l'évolutivité. De nombreux jeux de données de référence ont été développés pour évaluer les capacités de codage de ces modèles, bien qu'ils se concentrent principalement sur des tâches de résolution de problèmes et de correction d'erreurs. En revanche, nous introduisons un nouveau benchmark de codage, MIGRATION-BENCH, avec un objectif distinct : la migration de code. MIGRATION-BENCH vise à servir de référence exhaustive pour la migration de Java 8 vers les dernières versions à support à long terme (LTS) (Java 17, 21). MIGRATION-BENCH inclut un jeu de données complet et un sous-ensemble sélectionné avec respectivement 5 102 et 300 dépôts. Le sous-ensemble sélectionné est représentatif, choisi pour sa complexité et sa difficulté, offrant ainsi une ressource polyvalente pour soutenir la recherche dans le domaine de la migration de code. De plus, nous fournissons un cadre d'évaluation complet pour faciliter une évaluation rigoureuse et standardisée des LLM sur cette tâche complexe. Nous proposons également SD-Feedback et démontrons que les LLM peuvent efficacement gérer la migration de code au niveau du dépôt vers Java 17. Pour le sous-ensemble sélectionné avec Claude-3.5-Sonnet-v2, SD-Feedback atteint un taux de réussite (pass@1) de 62,33 % et 27,00 % pour les migrations minimales et maximales respectivement. Le jeu de données de référence et le code source sont disponibles à l'adresse suivante : https://huggingface.co/collections/AmazonScience et https://github.com/amazon-science/self_debug respectivement.
Le mélange parcimonieux d'experts (Sparse Mixture of Experts, SMoE) propose une solution attrayante pour augmenter la complexité du modèle au-delà des méthodes traditionnelles consistant à accroître la profondeur ou la largeur du réseau. Cependant, nous soutenons que l'entraînement efficace des SMoE reste un défi en raison d'un processus de routage sous-optimal, où les experts effectuant les calculs ne contribuent pas directement au processus de routage. Dans ce travail, nous proposons la compétition, un nouveau mécanisme pour router les tokens vers les experts présentant la réponse neuronale la plus élevée. Théoriquement, nous montrons que le mécanisme de compétition offre une meilleure efficacité d'échantillonnage que le routage traditionnel par softmax. De plus, nous développons CompeteSMoE, un algorithme simple mais efficace pour entraîner des modèles de langage de grande taille en déployant un routeur pour apprendre la politique de compétition, permettant ainsi d'obtenir de solides performances avec une faible surcharge d'entraînement. Nos évaluations empiriques approfondies sur les tâches de réglage d'instructions visuelles et de pré-entraînement linguistique démontrent l'efficacité, la robustesse et l'évolutivité de CompeteSMoE par rapport aux stratégies SMoE de pointe. Nous avons rendu l'implémentation disponible à l'adresse suivante : https://github.com/Fsoft-AIC/CompeteSMoE. Ce travail est une version améliorée de l'étude précédente disponible sur arXiv:2402.02526.
Le raisonnement des modèles de langage de grande taille (LLM) pour des tâches complexes implique intrinsèquement un compromis entre la précision des solutions et l'efficacité computationnelle. L'étape subséquente de vérification, bien qu'elle vise à améliorer les performances, complique davantage ce paysage en introduisant son propre compromis difficile : les modèles génératifs de récompense sophistiqués (GenRMs) peuvent être prohibitifs sur le plan computationnel s'ils sont intégrés de manière naïve avec les LLM au moment des tests, tandis que des méthodes plus simples et plus rapides peuvent manquer de fiabilité. Pour surmonter ces défis, nous introduisons FlexiVe, un vérificateur génératif novateur qui équilibre de manière flexible les ressources computationnelles entre une pensée rapide et fiable et une pensée lente et méticuleuse en utilisant une stratégie d'allocation flexible du budget de vérification. Nous proposons également le pipeline Solve-Detect-Verify, un cadre d'échelle efficace au moment de l'inférence qui intègre intelligemment FlexiVe, en identifiant de manière proactive les points d'achèvement des solutions pour déclencher une vérification ciblée et fournir un retour d'information focalisé au solveur. Les expériences montrent que FlexiVe atteint une précision supérieure dans l'identification des erreurs au sein des traces de raisonnement sur ProcessBench. De plus, sur des benchmarks de raisonnement mathématique exigeants (AIME 2024, AIME 2025 et CNMO), notre approche complète surpasse les bases de référence comme l'auto-cohérence en termes de précision du raisonnement et d'efficacité de l'inférence. Notre système offre une solution scalable et efficace pour améliorer le raisonnement des LLM au moment des tests.
Le redimensionnement au moment du test (Test-time scaling, TTS) s'est avéré efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). La vérification joue un rôle clé dans le TTS, influençant simultanément (1) les performances de raisonnement et (2) l'efficacité computationnelle, en raison de la qualité et du coût computationnel de la vérification. Dans ce travail, nous remettons en question les paradigmes conventionnels de vérification et faisons une première tentative pour étudier systématiquement l'impact de la granularité de la vérification, c'est-à-dire la fréquence à laquelle le vérificateur est invoqué pendant la génération, au-delà de la vérification uniquement de la sortie finale ou des étapes individuelles de génération. À cette fin, nous introduisons la recherche à granularité variable (Variable Granularity Search, VG-Search), un algorithme unifié qui généralise la recherche en faisceau (beam search) et l'échantillonnage Best-of-N via un paramètre de granularité réglable g. Des expériences approfondies avec VG-Search sous différents budgets de calcul, configurations générateur-vérificateur et attributs de tâche révèlent que la sélection dynamique de g peut améliorer l'efficacité computationnelle et le comportement de redimensionnement. Sur la base de ces résultats, nous proposons des stratégies adaptatives de VG-Search qui permettent des gains de précision allant jusqu'à 3,1 % par rapport à la recherche en faisceau et 3,6 % par rapport à Best-of-N, tout en réduisant les FLOPs de plus de 52 %. Nous mettrons le code en open source pour soutenir les recherches futures.
Alors que les techniques de post-formation évoluent, les grands modèles de langage (LLMs) sont de plus en plus enrichis de capacités de raisonnement structuré en plusieurs étapes, souvent optimisées par apprentissage par renforcement. Ces modèles améliorés par le raisonnement surpassent les LLMs standards sur des tâches complexes et constituent désormais la base de nombreuses API commerciales de LLMs. Cependant, pour protéger les comportements propriétaires et réduire la verbosité, les fournisseurs masquent généralement les traces de raisonnement tout en ne renvoyant que la réponse finale. Cette opacité introduit un manque critique de transparence : les utilisateurs sont facturés pour des tokens de raisonnement invisibles, qui représentent souvent la majorité du coût, sans avoir aucun moyen de vérifier leur authenticité. Cela ouvre la porte à une inflation du nombre de tokens, où les fournisseurs pourraient surestimer l'utilisation de tokens ou injecter des tokens synthétiques et peu coûteux pour gonfler les frais. Pour résoudre ce problème, nous proposons CoIn, un cadre de vérification qui audite à la fois la quantité et la validité sémantique des tokens cachés. CoIn construit un arbre de hachage vérifiable à partir des empreintes d'incorporation de tokens pour vérifier le nombre de tokens, et utilise une correspondance de pertinence basée sur les incorporations pour détecter le contenu de raisonnement fabriqué. Les expériences démontrent que CoIn, lorsqu'il est déployé comme auditeur tiers de confiance, peut détecter efficacement l'inflation du nombre de tokens avec un taux de réussite atteignant jusqu'à 94,7%, montrant une forte capacité à rétablir la transparence de la facturation dans les services opaques de LLMs. Le jeu de données et le code sont disponibles à l'adresse https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
Malgré les avancées significatives des grands modèles de langage (LLMs), leurs capacités de mémorisation des connaissances restent sous-explorées, en raison du manque de terrain d'essai standardisé et de haute qualité. Dans cet article, nous introduisons un nouveau benchmark d'injection de connaissances à grande échelle et basé sur le monde réel, qui évolue continuellement dans le temps sans nécessiter d'intervention humaine. Plus précisément, nous proposons WikiDYK, qui exploite des faits récemment ajoutés et rédigés par des humains provenant des entrées "Le saviez-vous..." de Wikipédia. Ces entrées sont soigneusement sélectionnées par des éditeurs experts de Wikipédia sur la base de critères tels que la vérifiabilité et la clarté. Chaque entrée est convertie en plusieurs paires question-réponse couvrant divers formats de tâches, allant des invites de type cloze simples aux questions complexes à sauts multiples. WikiDYK contient 12 290 faits et 77 180 questions, et est également extensible de manière transparente avec les futures mises à jour des éditeurs de Wikipédia. Des expériences approfondies utilisant un pré-entraînement continu révèlent une observation surprenante : malgré leur prévalence dans les LLMs modernes, les modèles de langage causaux (CLMs) démontrent des capacités de mémorisation des connaissances significativement plus faibles par rapport aux modèles de langage bidirectionnels (BiLMs), affichant une précision de fiabilité inférieure de 23 %. Pour compenser les échelles plus réduites des BiLMs actuels, nous introduisons un cadre collaboratif modulaire utilisant des ensembles de BiLMs comme référentiels de connaissances externes à intégrer avec les LLMs. Les expériences montrent que notre cadre améliore encore la précision de fiabilité jusqu'à 29,1 %.
Cette recherche propose une évaluation unique de la manière dont les systèmes d'IA interprètent le langage numérique de la Génération Alpha (Gen Alpha, née entre 2010 et 2024). En tant que première cohorte élevée aux côtés de l'IA, la Gen Alpha est confrontée à de nouvelles formes de risques en ligne en raison d'un engagement numérique immersif et d'un décalage croissant entre leur communication évolutive et les outils de sécurité existants. Leur langage distinct, façonné par les jeux, les mèmes et les tendances pilotées par l'IA, masque souvent des interactions nuisibles, tant pour les modérateurs humains que pour les systèmes automatisés. Nous évaluons quatre modèles d'IA de pointe (GPT-4, Claude, Gemini et Llama 3) sur leur capacité à détecter le harcèlement et la manipulation dissimulés dans le discours de la Gen Alpha. En utilisant un ensemble de données de 100 expressions récentes provenant de plateformes de jeux, de réseaux sociaux et de contenus vidéo, l'étude révèle des lacunes critiques de compréhension ayant des implications directes pour la sécurité en ligne. Ce travail contribue : (1) un ensemble de données inédit capturant les expressions de la Gen Alpha ; (2) un cadre pour améliorer les systèmes de modération par IA pour la protection des jeunes ; (3) une évaluation multi-perspectives incluant les systèmes d'IA, les modérateurs humains et les parents, avec la contribution directe de co-chercheurs de la Gen Alpha ; et (4) une analyse de la manière dont la divergence linguistique accroît la vulnérabilité des jeunes. Les résultats soulignent le besoin urgent de repenser les systèmes de sécurité adaptés à la communication des jeunes, surtout compte tenu de la réticence de la Gen Alpha à demander de l'aide lorsque les adultes ne comprennent pas leur monde numérique. Cette étude combine les insights d'un chercheur de la Gen Alpha avec une analyse académique systématique pour relever les défis critiques de la sécurité numérique.
La détection des risques liés à l'IA devient plus complexe à mesure que des modèles plus puissants émergent et développent des méthodes novatrices, telles que le *Alignment Faking*, pour contourner ces tentatives de détection. Inspirés par la manière dont les comportements à risque chez les humains (par exemple, les activités illégales susceptibles de nuire à autrui) sont parfois guidés par des valeurs profondément ancrées, nous pensons que l'identification des valeurs au sein des modèles d'IA peut servir de système d'alerte précoce pour les comportements risqués de l'IA. Nous avons créé *LitmusValues*, un pipeline d'évaluation visant à révéler les priorités des modèles d'IA sur une gamme de classes de valeurs liées à l'IA. Ensuite, nous avons rassemblé *AIRiskDilemmas*, une collection diversifiée de dilemmes qui opposent des valeurs les unes aux autres dans des scénarios pertinents pour les risques de sécurité de l'IA, tels que la recherche de pouvoir. En mesurant la priorisation des valeurs d'un modèle d'IA à travers ses choix agrégés, nous obtenons un ensemble cohérent de priorités de valeurs prédites qui révèlent des risques potentiels. Nous démontrons que les valeurs dans *LitmusValues* (y compris celles apparemment inoffensives comme la bienveillance) peuvent prédire à la fois les comportements risqués observés dans *AIRiskDilemmas* et les comportements risqués non observés dans *HarmBench*.
La détection des biais médiatiques est une tâche cruciale pour garantir une diffusion d'informations équitable et équilibrée, mais elle reste difficile en raison de la subjectivité des biais et de la rareté des données annotées de haute qualité. Dans ce travail, nous effectuons une classification des biais au niveau de la phrase en affinant un modèle basé sur RoBERTa sur le jeu de données BABE annoté par des experts. En utilisant le test de McNemar et le test t apparié de validation croisée 5x2, nous montrons des améliorations statistiquement significatives des performances par rapport à un modèle de référence DA-RoBERTa pré-entraîné de manière adaptative au domaine. De plus, une analyse basée sur l'attention montre que notre modèle évite les écueils courants comme une hypersensibilité aux termes politiquement chargés et se concentre plutôt de manière plus significative sur les tokens contextuellement pertinents. Pour un examen complet des biais médiatiques, nous présentons un pipeline qui combine notre modèle avec un classificateur de types de biais déjà existant. Notre méthode montre une bonne généralisation et interprétabilité, malgré les contraintes liées à l'analyse au niveau de la phrase et à la taille du jeu de données en raison du manque de corpus de biais plus vastes et plus avancés. Nous discutons de la modélisation contextuelle, de la neutralisation des biais et de la classification avancée des types de biais comme directions futures potentielles. Nos résultats contribuent à la construction de systèmes NLP plus robustes, explicables et socialement responsables pour la détection des biais médiatiques.
Ces dernières années ont vu une augmentation significative de la création et de la consommation de contenus vidéo. La conception de contenus captivants nécessite une curation minutieuse des éléments visuels et audio. Alors que la curation des indices visuels, à travers des techniques comme la sélection du point de vue optimal ou le post-édition, a été centrale dans la production médiatique, son équivalent naturel, l'audio, n'a pas connu d'avancées équivalentes. Cela entraîne souvent une discordance entre la saillance visuelle et acoustique. Pour combler cette lacune, nous introduisons une nouvelle tâche : la mise en valeur acoustique guidée par le visuel, qui vise à transformer l'audio pour délivrer des effets de mise en valeur appropriés guidés par la vidéo accompagnante, créant ainsi une expérience audio-visuelle plus harmonieuse. Nous proposons un cadre multimodal flexible basé sur les transformers pour résoudre cette tâche. Pour entraîner notre modèle, nous introduisons également un nouveau jeu de données -- le jeu de données "muddy mix", en tirant parti de la conception méticuleuse de l'audio et de la vidéo trouvée dans les films, qui fournit une forme de supervision gratuite. Nous développons un processus de génération de pseudo-données pour simuler un audio mal mixé, imitant des scénarios réels à travers un processus en trois étapes -- séparation, ajustement et remixage. Notre approche surpasse systématiquement plusieurs modèles de référence dans les évaluations quantitatives et subjectives. Nous étudions également systématiquement l'impact de différents types de guidage contextuel et des niveaux de difficulté du jeu de données. Notre page de projet est disponible ici : https://wikichao.github.io/VisAH/.
L'apprentissage multimodal améliore les capacités perceptives des systèmes cognitifs en intégrant des informations provenant de différentes modalités sensorielles. Cependant, les recherches existantes sur la fusion multimodale supposent généralement une intégration statique, ne prenant pas pleinement en compte les mécanismes dynamiques clés observés dans le cerveau. Plus précisément, le cerveau présente un phénomène d'efficacité inverse, où des indices unimodaux plus faibles entraînent des bénéfices d'intégration multisensorielle plus importants ; à l'inverse, lorsque les indices individuels sont plus forts, l'effet de la fusion est atténué. Ce mécanisme permet aux systèmes biologiques d'atteindre une cognition robuste même avec des indices perceptuels rares ou bruités. Inspirés par ce mécanisme biologique, nous explorons la relation entre la sortie multimodale et les informations provenant des modalités individuelles, proposant une stratégie de fusion multimodale pilotée par l'efficacité inverse (IEMF). En intégrant cette stratégie dans les réseaux de neurones, nous obtenons une intégration plus efficace avec une amélioration des performances du modèle et de l'efficacité computationnelle, démontrant une réduction allant jusqu'à 50 % des coûts de calcul pour diverses méthodes de fusion. Nous menons des expériences sur des tâches de classification audio-visuelle, d'apprentissage continu et de réponse à des questions pour valider notre méthode. Les résultats montrent systématiquement que notre méthode excelle dans ces tâches. Pour vérifier l'universalité et la généralisation, nous menons également des expériences sur les réseaux de neurones artificiels (ANN) et les réseaux de neurones à impulsions (SNN), avec des résultats montrant une bonne adaptabilité aux deux types de réseaux. Notre recherche met en avant le potentiel d'intégration de mécanismes inspirés de la biologie dans les réseaux multimodaux et propose des directions prometteuses pour le développement futur de l'intelligence artificielle multimodale. Le code est disponible à l'adresse https://github.com/Brain-Cog-Lab/IEMF.
La tokenisation constitue la première couche de calcul - souvent sous-estimée - dans les modèles de langage. Alors que l'incitation par chaîne de pensée (Chain-of-Thought, CoT) permet aux modèles transformeurs d'approximer un calcul récurrent en externalisant les étapes intermédiaires, nous montrons que le succès d'un tel raisonnement est fondamentalement limité par la structure des entrées tokenisées. Ce travail présente une investigation théorique et empirique sur la manière dont les schémas de tokenisation, en particulier les méthodes basées sur les sous-mots comme l'encodage par paires d'octets (byte-pair encoding, BPE), entravent le calcul symbolique en fusionnant ou en obscurcissant les unités de raisonnement atomiques. Nous introduisons la notion de Conscience des Tokens pour formaliser comment une granularité tokenique inadéquate perturbe l'alignement logique et empêche les modèles de généraliser les procédures symboliques. À travers une évaluation systématique sur des tâches arithmétiques et symboliques, nous démontrons que la structure des tokens affecte considérablement les performances de raisonnement, provoquant des échecs même avec CoT, tandis que des formats alignés atomiquement débloquent une forte généralisation, permettant à de petits modèles (par exemple, GPT-4o-mini) de surpasser des systèmes plus grands (par exemple, o1) dans le raisonnement structuré. Nos résultats révèlent que la capacité de raisonnement symbolique dans les LLM n'est pas purement architecturale, mais profondément conditionnée par les représentations au niveau des tokens.
La géolocalisation mondiale d'images - la tâche consistant à prédire les coordonnées GPS à partir d'images prises n'importe où sur Terre - représente un défi fondamental en raison de la grande diversité du contenu visuel entre les régions. Bien que les approches récentes adoptent un pipeline en deux étapes de récupération de candidats et de sélection de la meilleure correspondance, elles reposent généralement sur des heuristiques de similarité simplistes et une supervision ponctuelle, ne parvenant pas à modéliser les relations spatiales entre les candidats. Dans cet article, nous proposons GeoRanker, un cadre de classement prenant en compte les distances qui exploite de grands modèles vision-langage pour encoder conjointement les interactions requête-candidat et prédire la proximité géographique. De plus, nous introduisons une fonction de perte multi-ordre qui classe à la fois les distances absolues et relatives, permettant au modèle de raisonner sur des relations spatiales structurées. Pour soutenir cela, nous avons constitué GeoRanking, le premier ensemble de données explicitement conçu pour les tâches de classement géographique avec des informations multimodales sur les candidats. GeoRanker obtient des résultats de pointe sur deux benchmarks bien établis (IM2GPS3K et YFCC4K), surpassant significativement les meilleures méthodes actuelles.
Le Question-Réponse Multi-Étapes (MHQA) ajoute des couches de complexité au question-réponse, le rendant plus difficile. Lorsque les modèles de langage (LMs) sont sollicités avec plusieurs résultats de recherche, ils doivent non seulement extraire des informations pertinentes, mais aussi utiliser un raisonnement multi-étapes à travers les sources d'information. Bien que les LMs performent bien sur les tâches traditionnelles de question-réponse, le masque causal peut entraver leur capacité à raisonner dans des contextes complexes. Dans cet article, nous explorons comment les LMs répondent aux questions multi-étapes en permutant les résultats de recherche (documents récupérés) sous diverses configurations. Notre étude révèle des résultats intéressants comme suit : 1) Les modèles encodeur-décodeur, tels que ceux de la famille Flan-T5, surpassent généralement les LMs décodeurs uniquement causaux dans les tâches MHQA, malgré une taille significativement plus petite ; 2) modifier l'ordre des documents de référence révèle des tendances distinctes à la fois dans les modèles Flan T5 et dans les modèles décodeurs uniquement affinés, avec une performance optimale observée lorsque l'ordre des documents correspond à l'ordre de la chaîne de raisonnement ; 3) améliorer les modèles décodeurs uniquement causaux avec une attention bidirectionnelle en modifiant le masque causal peut efficacement augmenter leur performance finale. En plus de ce qui précède, nous menons une investigation approfondie de la distribution des poids d'attention des LMs dans le contexte du MHQA. Nos expériences révèlent que les poids d'attention ont tendance à atteindre des valeurs plus élevées lorsque la réponse obtenue est correcte. Nous exploitons cette découverte pour améliorer heuristiquement la performance des LMs sur cette tâche. Notre code est disponible publiquement à l'adresse https://github.com/hwy9855/MultiHopQA-Reasoning.
Les récents progrès des modèles de langage de grande taille (LLMs) et l'abondance de données alimentaires ont conduit à des études visant à améliorer la compréhension des aliments grâce aux LLMs. Malgré plusieurs systèmes de recommandation utilisant des LLMs et des graphes de connaissances (KGs), les recherches sur l'intégration de KGs liés à l'alimentation avec des LLMs restent limitées. Nous présentons KERL, un système unifié qui exploite des KGs alimentaires et des LLMs pour fournir des recommandations alimentaires personnalisées et générer des recettes accompagnées d'informations micro-nutritionnelles. Étant donné une question en langage naturel, KERL extrait des entités, récupère des sous-graphes du KG, qui sont ensuite fournis au LLM comme contexte pour sélectionner les recettes répondant aux contraintes. Ensuite, notre système génère les étapes de cuisson et les informations nutritionnelles pour chaque recette. Pour évaluer notre approche, nous avons également développé un ensemble de données de référence en compilant des questions liées aux recettes, combinées à des contraintes et des préférences personnelles. À travers des expériences approfondies, nous montrons que notre approche de LLM augmenté par KG surpasse significativement les méthodes existantes, offrant une solution complète et cohérente pour la recommandation alimentaire, la génération de recettes et l'analyse nutritionnelle. Notre code et les ensembles de données de référence sont disponibles publiquement à l'adresse https://github.com/mohbattharani/KERL.
Le décodage cerveau-image a récemment été propulsé par les progrès des modèles d'IA générative et la disponibilité de grandes quantités de données d'imagerie par résonance magnétique fonctionnelle (IRMf) à ultra-haut champ. Cependant, les approches actuelles dépendent de pipelines multi-étapes complexes et d'étapes de prétraitement qui réduisent généralement la dimension temporelle des enregistrements cérébraux, limitant ainsi les décodeurs cérébraux résolus dans le temps. Nous présentons ici Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), un nouveau modèle de diffusion en une seule étape conçu pour reconstruire des images à partir d'enregistrements IRMf en évolution dynamique. Notre approche apporte trois contributions principales. Premièrement, Dynadiff simplifie l'entraînement par rapport aux approches existantes. Deuxièmement, notre modèle surpasse les modèles de pointe sur les signaux IRMf résolus dans le temps, en particulier sur les métriques de reconstruction sémantique de haut niveau, tout en restant compétitif sur les données IRMf prétraitées qui réduisent le temps. Troisièmement, cette approche permet une caractérisation précise de l'évolution des représentations d'images dans l'activité cérébrale. Globalement, ce travail pose les bases du décodage cerveau-image résolu dans le temps.
Malgré les avancées des modèles de langage basés sur les transformers, une question fondamentale reste largement sans réponse : Toutes les couches sont-elles activées lors de l'inférence ? Nous explorons cette question en détectant les couches non activées (que nous appelons Vides) à l'aide d'une méthode de calcul adaptatif non entraînable et sans paramètres appelée L2 Adaptive Computation (LAC). Nous adaptons LAC de son application initiale axée sur l'efficacité pour tracer les couches activées pendant l'inférence. Cette méthode surveille les changements dans la norme L2 des activations pour identifier les vides. Nous analysons l'activation des couches dans les modèles de langage ajustés par instruction (instruction-tuned) à travers deux phases : le Traitement des Invites (Prompt Processing, PP), où nous traçons les couches activées pour chaque token dans les invites d'entrée, et la Génération de Réponses (Response Generation, RG), où nous traçons les couches activées pour chaque token généré. Nous démontrons en outre que des couches distinctes sont activées pendant ces deux phases. Pour montrer l'efficacité de notre méthode, nous avons évalué trois modèles de langage ajustés par instruction distincts des familles Llama, Mistral et Qwen sur trois benchmarks : MMLU, GPQA Diamond et BoolQ. Par exemple, sur MMLU avec un paramétrage zero-shot, ignorer les vides dans Qwen2.5-7B-Instruct a entraîné une amélioration de 69,24 à 71,29 tandis que le modèle n'utilise que 30 % des couches. De même, Mistral-7B-Instruct-v0.3 sur GPQA Diamond est passé de 13,88 à 18,36 en utilisant 70 % des couches pendant les phases PP et RG. Ces résultats montrent que toutes les couches ne contribuent pas de manière égale pendant l'inférence, et que sauter sélectivement la plupart d'entre elles peut améliorer les performances des modèles sur certaines tâches.
Un problème bien connu du Retrieval Augmented Generation (RAG) est que les passages récupérés qui ne sont pas pertinents par rapport à la requête peuvent parfois distraire le LLM générateur de réponses, l'amenant à fournir une réponse incorrecte. Dans cet article, nous mettons en lumière ce problème central et formulons l'effet distracteur d'un passage par rapport à une requête (et à un LLM). Nous proposons une mesure quantifiable de l'effet distracteur d'un passage et démontrons sa robustesse à travers différents LLMs. Notre recherche introduit des méthodes novatrices pour identifier et utiliser des passages fortement distracteurs afin d'améliorer les systèmes RAG. En affinant les LLMs avec ces passages soigneusement sélectionnés, nous obtenons une augmentation allant jusqu'à 7,5 % de la précision des réponses par rapport aux modèles affinés sur des ensembles de données RAG conventionnels. Notre contribution est double : premièrement, nous allons au-delà de la simple classification binaire des passages non pertinents comme étant soit complètement sans rapport, soit distracteurs, et deuxièmement, nous développons et analysons plusieurs méthodes pour identifier des passages fortement distracteurs. À notre connaissance, aucune autre recherche n'a fourni un cadre aussi complet pour l'identification et l'utilisation de passages fortement distracteurs.
Nous présentons un cadre conceptuel pour entraîner des modèles vision-langage (VLMs) à réaliser la prise de perspective visuelle (VPT), une capacité fondamentale pour la cognition incarnée essentielle à l'interaction humain-robot (HRI). Comme première étape vers cet objectif, nous introduisons un ensemble de données synthétiques, généré dans NVIDIA Omniverse, qui permet un apprentissage supervisé pour des tâches de raisonnement spatial. Chaque instance comprend une image RGB, une description en langage naturel et une matrice de transformation 4x4 représentant la pose d'un objet comme vérité terrain. Nous nous concentrons sur l'inférence de la distance sur l'axe Z comme compétence de base, avec des extensions futures visant un raisonnement complet à 6 degrés de liberté (DOFs). L'ensemble de données est publiquement disponible pour soutenir des recherches ultérieures. Ce travail constitue une étape fondamentale vers des systèmes d'IA incarnée capables de compréhension spatiale dans des scénarios interactifs humain-robot.
Les représentations visuelles sont essentielles pour les capacités d'apprentissage et de généralisation des politiques de manipulation robotique. Alors que les méthodes existantes reposent sur des caractéristiques globales ou denses, ces représentations entremêlent souvent les informations pertinentes et non pertinentes pour la tâche, limitant ainsi la robustesse face aux changements de distribution. Dans ce travail, nous explorons les représentations centrées sur les objets (OCR) comme alternative structurée qui segmente l'entrée visuelle en un ensemble fini d'entités, introduisant des biais inductifs qui s'alignent plus naturellement avec les tâches de manipulation. Nous comparons une gamme d'encodeurs visuels - centrés sur les objets, globaux et denses - à travers une série de tâches de manipulation simulées et réelles, allant du simple au complexe, et évaluons leur capacité de généralisation dans diverses conditions visuelles, incluant des changements d'éclairage, de texture et la présence de distracteurs. Nos résultats montrent que les politiques basées sur OCR surpassent les représentations denses et globales dans des scénarios de généralisation, même sans prétraitement spécifique à la tâche. Ces observations suggèrent que OCR est une voie prometteuse pour concevoir des systèmes visuels capables de généraliser efficacement dans des environnements robotiques dynamiques et réels.