Articles de recherche en IA sélectionnés quotidiennement avec traductions
La croissance remarquable des capacités des grands modèles de langage (LLM) a stimulé l'exploration des systèmes multi-agents, avec l'émergence de cadres de débat comme une voie prometteuse pour améliorer la résolution de problèmes. Ces approches de débat multi-agents (MAD), où les agents présentent, critiquent et affinent de manière collaborative des arguments, offrent potentiellement un raisonnement amélioré, une robustesse accrue et des perspectives diversifiées par rapport aux modèles monolithiques. Malgré les études antérieures exploitant le MAD, une compréhension systématique de son efficacité par rapport aux méthodes mono-agents, en particulier dans des conditions variées, reste insaisissable. Cet article vise à combler cette lacune en conceptualisant le MAD comme une technique de mise à l'échelle computationnelle au moment du test, caractérisée par un affinement collaboratif et des capacités d'exploration diversifiées. Nous menons une investigation empirique approfondie comparant le MAD à des méthodes de mise à l'échelle mono-agents robustes sur des tâches de raisonnement mathématique et de sécurité. Notre étude examine systématiquement l'influence de la difficulté de la tâche, de l'échelle du modèle et de la diversité des agents sur la performance du MAD. Les principaux résultats révèlent que, pour le raisonnement mathématique, le MAD offre des avantages limités par rapport à la mise à l'échelle mono-agent, mais devient plus efficace avec l'augmentation de la difficulté des problèmes et la diminution des capacités du modèle, tandis que la diversité des agents montre peu de bénéfices. À l'inverse, pour les tâches de sécurité, l'affinement collaboratif du MAD peut augmenter la vulnérabilité, mais l'intégration de configurations d'agents diversifiées facilite une réduction progressive du succès des attaques grâce au processus d'affinement collaboratif. Nous croyons que nos résultats fournissent des orientations critiques pour le développement futur de systèmes MAD plus efficaces et stratégiquement déployés.
Les approches existantes de segmentation par raisonnement ajustent généralement des modèles de langage multimodaux de grande taille (MLLMs) en utilisant des paires image-texte et des labels de masque correspondants. Cependant, elles présentent une généralisation limitée aux scénarios hors distribution sans processus de raisonnement explicite. Bien que des efforts récents exploitent l'apprentissage par renforcement via l'optimisation de politique relative au groupe (GRPO) pour améliorer la capacité de raisonnement, ils souffrent souvent de surréflexion - produisant des chaînes de raisonnement uniformément verbeuses indépendamment de la complexité de la tâche. Cela entraîne des coûts de calcul élevés et un contrôle limité sur la qualité du raisonnement. Pour résoudre ce problème, nous proposons PixelThink, un schéma simple mais efficace qui intègre la difficulté de la tâche estimée de manière externe et l'incertitude du modèle mesurée de manière interne pour réguler la génération de raisonnement dans un paradigme d'apprentissage par renforcement. Le modèle apprend à compresser la longueur du raisonnement en fonction de la complexité de la scène et de la confiance prédictive. Pour soutenir une évaluation complète, nous introduisons ReasonSeg-Diff, un benchmark étendu avec des références de raisonnement annotées et des scores de difficulté, ainsi qu'une série de métriques conçues pour évaluer conjointement la précision de la segmentation, la qualité du raisonnement et l'efficacité. Les résultats expérimentaux démontrent que l'approche proposée améliore à la fois l'efficacité du raisonnement et les performances globales de la segmentation. Notre travail apporte de nouvelles perspectives vers une compréhension multimodale efficace et interprétable. Le code et le modèle seront rendus publics.
Dans ce travail, nous présentons la première étude explorant la mise à l'échelle au moment de l'inférence pour les tâches de raisonnement sur tableaux. Nous développons et évaluons deux stratégies post-entraînement pour permettre cette mise à l'échelle : la distillation à partir de traces de raisonnement de modèles de pointe et l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Pour la distillation, nous introduisons un jeu de données à grande échelle de traces de raisonnement générées par DeepSeek-R1, que nous utilisons pour affiner des LLMs dans le modèle Table-R1-SFT. Pour RLVR, nous proposons des fonctions de récompense vérifiables spécifiques aux tâches et appliquons l'algorithme GRPO pour obtenir le modèle Table-R1-Zero. Nous évaluons nos modèles de la série Table-R1 sur diverses tâches de raisonnement sur tableaux, incluant les questions-réponses courtes, la vérification de faits et les questions-réponses libres. Notamment, le modèle Table-R1-Zero égalise ou dépasse les performances de GPT-4.1 et DeepSeek-R1, tout en utilisant uniquement un LLM à 7 milliards de paramètres. Il démontre également une forte généralisation sur des ensembles de données hors domaine. Des analyses approfondies et qualitatives révèlent les avantages du réglage par instruction, des choix d'architecture de modèle et de la généralisation inter-tâches, ainsi que l'émergence de compétences essentielles en raisonnement sur tableaux pendant l'entraînement par renforcement.
Les récents progrès dans les modèles de langage multimodaux de grande envergure (MLLM) ont considérablement amélioré les performances sur les tâches visuelles en 2D. Cependant, l'amélioration de leur intelligence spatiale reste un défi. Les MLLM 3D existants reposent toujours sur des données 3D ou 2.5D supplémentaires pour intégrer la conscience spatiale, limitant ainsi leur utilité dans des scénarios où seules des entrées 2D sont disponibles, comme des images ou des vidéos. Dans cet article, nous présentons Spatial-MLLM, un nouveau cadre pour le raisonnement spatial basé sur des observations purement 2D. Contrairement aux MLLM vidéo conventionnels qui s'appuient sur des encodeurs visuels basés sur CLIP optimisés pour la compréhension sémantique, notre idée clé est de libérer le fort a priori de structure provenant du modèle de fondation de géométrie visuelle à propagation avant. Plus précisément, nous proposons une architecture à double encodeur : un encodeur visuel 2D pré-entraîné pour extraire des caractéristiques sémantiques, et un encodeur spatial initialisé à partir de la structure principale du modèle de géométrie visuelle pour extraire des caractéristiques de structure 3D. Un connecteur intègre ensuite ces deux caractéristiques en des tokens visuels unifiés pour une compréhension spatiale améliorée. De plus, nous proposons une stratégie d'échantillonnage de trames consciente de l'espace au moment de l'inférence, qui sélectionne les trames spatialement informatives d'une séquence vidéo, garantissant ainsi que même avec une longueur de token limitée, le modèle se concentre sur les trames cruciales pour le raisonnement spatial. Au-delà des améliorations architecturales, nous construisons le jeu de données Spatial-MLLM-120k et entraînons le modèle sur celui-ci en utilisant un réglage fin supervisé et GRPO. Des expériences approfondies sur divers jeux de données du monde réel démontrent que notre Spatial-MLLM atteint des performances de pointe dans un large éventail de tâches de compréhension et de raisonnement spatial basées sur la vision. Page du projet : https://diankun-wu.github.io/Spatial-MLLM/.
Les études récentes sur l'entraînement postérieur des grands modèles de langage (LLMs) pour le raisonnement via l'apprentissage par renforcement (RL) se concentrent généralement sur des tâches pouvant être vérifiées et récompensées avec précision, comme la résolution de problèmes mathématiques. En revanche, notre recherche examine l'impact du bruit dans les récompenses, une considération plus pratique pour les scénarios réels impliquant l'entraînement postérieur des LLMs à l'aide de modèles de récompense. Nous avons constaté que les LLMs démontrent une forte robustesse face à un bruit substantiel dans les récompenses. Par exemple, inverser manuellement 40 % des sorties de la fonction de récompense dans des tâches mathématiques permet tout de même à un modèle Qwen-2.5-7B d'atteindre une convergence rapide, améliorant ses performances sur les tâches mathématiques de 5 % à 72 %, comparé à la précision de 75 % obtenue par un modèle entraîné avec des récompenses sans bruit. Étonnamment, en récompensant uniquement l'apparition de phrases clés de raisonnement (appelées récompense de modèle de raisonnement, RPR), comme « d'abord, je dois »—sans vérifier la justesse des réponses—le modèle a atteint une performance maximale en aval (plus de 70 % de précision pour Qwen-2.5-7B) comparable à celle des modèles entraînés avec une vérification stricte de la justesse et des récompenses précises. Reconnaissant l'importance du processus de raisonnement par rapport aux résultats finaux, nous avons combiné la RPR avec des modèles de récompense bruités. La RPR a permis de calibrer les modèles de récompense bruités, atténuant les faux négatifs potentiels et améliorant les performances des LLMs sur des tâches ouvertes. Ces résultats soulignent l'importance d'améliorer les capacités fondamentales des modèles pendant la phase de pré-entraînement tout en fournissant des pistes pour faire progresser les techniques d'entraînement postérieur. Notre code et nos scripts sont disponibles à l'adresse suivante : https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
Les MLLM (Modèles Multimodaux à Grande Échelle) ont été largement étudiés récemment pour la tâche de réponse à des questions sur des vidéos. Cependant, la plupart des évaluations existantes se concentrent sur des vidéos naturelles, négligeant les vidéos synthétiques, telles que le contenu généré par IA (AIGC). Par ailleurs, certaines recherches sur la génération de vidéos s'appuient sur les MLLM pour évaluer la qualité des vidéos générées, mais les capacités des MLLM à interpréter les vidéos AIGC restent largement sous-explorées. Pour remédier à cela, nous proposons un nouveau benchmark, VF-Eval, qui introduit quatre tâches—validation de la cohérence, détection des erreurs, identification du type d'erreur et évaluation du raisonnement—afin d'évaluer de manière exhaustive les capacités des MLLM sur les vidéos AIGC. Nous évaluons 13 MLLM de pointe sur VF-Eval et constatons que même le modèle le plus performant, GPT-4.1, peine à obtenir des performances constantes sur toutes les tâches. Cela souligne la nature exigeante de notre benchmark. De plus, pour explorer les applications pratiques de VF-Eval dans l'amélioration de la génération de vidéos, nous menons une expérience, RePrompt, démontrant qu'un alignement plus étroit des MLLM avec les retours humains peut bénéficier à la génération de vidéos.
L'avancée rapide des grands modèles vision-langage (VLMs) a propulsé le développement d'agents d'interface graphique (GUI) basés uniquement sur la vision, capables de percevoir et d'opérer des interfaces utilisateur graphiques (GUI) pour accomplir de manière autonome les instructions des utilisateurs. Cependant, les approches existantes adoptent généralement un cadre d'apprentissage hors ligne, qui présente deux limitations principales : (1) une forte dépendance à des annotations manuelles de haute qualité pour l'ancrage des éléments et la supervision des actions, et (2) une adaptabilité limitée aux environnements dynamiques et interactifs. Pour résoudre ces limitations, nous proposons ZeroGUI, un cadre d'apprentissage en ligne et scalable pour automatiser l'entraînement des agents GUI sans aucun coût humain. Plus précisément, ZeroGUI intègre (i) une génération automatique de tâches basée sur les VLMs pour produire des objectifs d'entraînement variés à partir de l'état actuel de l'environnement, (ii) une estimation automatique des récompenses basée sur les VLMs pour évaluer la réussite des tâches sans fonctions d'évaluation manuelles, et (iii) un apprentissage par renforcement en ligne en deux étapes pour interagir continuellement avec les environnements GUI et en apprendre. Les expériences sur deux agents GUI avancés (UI-TARS et Aguvis) démontrent que ZeroGUI améliore significativement les performances dans les environnements OSWorld et AndroidLab. Le code est disponible à l'adresse https://github.com/OpenGVLab/ZeroGUI.
Les modèles de langage de grande taille basés sur la diffusion (Diffusion LLMs) ont montré un potentiel prometteur pour la génération de texte non autoregressive avec des capacités de décodage parallèle. Cependant, la vitesse d'inférence pratique des Diffusion LLMs open-source est souvent inférieure à celle des modèles autoregressifs en raison de l'absence de cache Clé-Valeur (KV) et de la dégradation de la qualité lors du décodage simultané de plusieurs tokens. Pour combler cet écart, nous introduisons un mécanisme novateur de cache KV approximatif par blocs, spécialement conçu pour les modèles de diffusion bidirectionnels, permettant la réutilisation du cache avec une baisse de performance négligeable. De plus, nous identifions la cause principale de la dégradation de la qualité de génération dans le décodage parallèle comme étant la perturbation des dépendances entre tokens sous l'hypothèse d'indépendance conditionnelle. Pour résoudre ce problème, nous proposons une stratégie de décodage parallèle basée sur la confiance, qui décode sélectivement les tokens dépassant un seuil de confiance, atténuant ainsi les violations de dépendances et préservant la qualité de génération. Les résultats expérimentaux sur les modèles LLaDA et Dream, à travers plusieurs benchmarks de LLM, démontrent une amélioration du débit allant jusqu'à 27,6 fois avec une perte de précision minimale, réduisant l'écart de performance avec les modèles autoregressifs et ouvrant la voie au déploiement pratique des Diffusion LLMs.
Des études récentes ont montré que le raisonnement en chaîne de pensée (CoT) longue peut considérablement améliorer les performances des grands modèles de langage (LLMs) sur des tâches complexes. Cependant, cet avantage reste à démontrer dans le domaine de la compréhension vidéo, car la plupart des benchmarks existants manquent de la profondeur de raisonnement nécessaire pour mettre en évidence les bénéfices des chaînes CoT étendues. Bien que des efforts récents aient proposé des benchmarks visant le raisonnement vidéo, les tâches sont souvent basées sur des connaissances et ne reposent pas fortement sur le contenu visuel. Pour combler cette lacune, nous introduisons VideoReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo complexe et centré sur la vision. Pour garantir une richesse visuelle et une complexité de raisonnement élevée, chaque vidéo de VideoReasonBench représente une séquence d'opérations fines sur un état latent qui n'est visible que dans une partie de la vidéo. Les questions évaluent trois niveaux croissants de compétences en raisonnement vidéo : rappeler les informations visuelles observées, inférer le contenu des états latents, et prédire des informations au-delà de la vidéo. Dans ce cadre, les modèles doivent rappeler avec précision plusieurs opérations dans la vidéo et effectuer un raisonnement étape par étape pour obtenir les bonnes réponses finales à ces questions. En utilisant VideoReasonBench, nous évaluons de manière exhaustive 18 modèles multimodaux de pointe (MLLMs), constatant que la plupart obtiennent de faibles performances sur le raisonnement vidéo complexe, par exemple, GPT-4o n'atteint que 6,9 % de précision, tandis que Gemini-2.5-Pro, amélioré par la pensée, surpasse significativement les autres avec 56,0 % de précision. Nos investigations sur le "scaling au moment du test" révèlent en outre qu'un budget de pensée étendu, bien qu'il n'offre aucun ou peu de bénéfices sur les benchmarks vidéo existants, est essentiel pour améliorer les performances sur VideoReasonBench.
La Conception Assistée par Ordinateur (CAO) joue un rôle central dans l'ingénierie et la fabrication, permettant de créer des modèles 3D précis et modifiables. L'utilisation de diverses données provenant de capteurs ou fournies par l'utilisateur comme entrées pour la reconstruction CAO peut démocratiser l'accès aux applications de conception. Cependant, les méthodes existantes se concentrent généralement sur une seule modalité d'entrée, comme les nuages de points, les images ou le texte, ce qui limite leur généralisabilité et leur robustesse. En tirant parti des récentes avancées dans les modèles vision-langage (VLM), nous proposons un modèle de reconstruction CAO multimodal qui traite simultanément les trois modalités d'entrée. Inspirés par les paradigmes d'entraînement des grands modèles de langage (LLM), nous adoptons un pipeline en deux étapes : un réglage fin supervisé (SFT) sur des données générées de manière procédurale à grande échelle, suivi d'un réglage fin par apprentissage par renforcement (RL) utilisant des retours en ligne obtenus de manière programmatique. De plus, nous sommes les premiers à explorer le réglage fin par RL des LLM pour des tâches de CAO, démontrant que les algorithmes de RL en ligne tels que l'Optimisation des Préférences Relatives de Groupe (GRPO) surpassent les alternatives hors ligne. Dans le benchmark DeepCAD, notre modèle SFT surpasse les approches unimodales existantes dans les trois modalités d'entrée simultanément. Plus important encore, après le réglage fin par RL, cadrille établit de nouveaux records sur trois ensembles de données complexes, incluant un ensemble de données du monde réel.
Cet article présente Diffusion via Modèles Autoregressifs (D-AR), un nouveau paradigme qui reformule le processus de diffusion d'images comme une procédure autoregressive classique, suivant la méthode standard de prédiction du token suivant. Nous commençons par concevoir le tokenizer qui convertit les images en séquences de tokens discrets, où les tokens à différentes positions peuvent être décodés en différentes étapes de débruitage de la diffusion dans l'espace des pixels. Grâce aux propriétés de la diffusion, ces tokens suivent naturellement un ordre allant du grossier au fin, ce qui se prête directement à la modélisation autoregressive. Par conséquent, nous appliquons la prédiction standard du token suivant sur ces tokens, sans modifier aucun des designs sous-jacents (que ce soit les masques causaux ou les stratégies d'entraînement/d'inférence), et cette génération séquentielle de tokens autoregressifs reflète directement la procédure de diffusion dans l'espace des images. Autrement dit, une fois que le modèle autoregressif génère un incrément de tokens, nous pouvons directement décoder ces tokens en l'étape correspondante de débruitage de la diffusion de manière continue. Notre pipeline révèle naturellement plusieurs propriétés intrigantes, par exemple, il permet des prévisualisations cohérentes lors de la génération d'un sous-ensemble de tokens et permet une synthèse contrôlée par la mise en page en zero-shot. Sur le benchmark standard d'ImageNet, notre méthode atteint un FID de 2,09 en utilisant un backbone Llama de 775M avec 256 tokens discrets. Nous espérons que notre travail pourra inspirer de futures recherches sur les architectures autoregressives unifiées pour la synthèse visuelle, en particulier avec les grands modèles de langage. Le code et les modèles seront disponibles à l'adresse suivante : https://github.com/showlab/D-AR.
Nous présentons AnySplat, un réseau feed-forward pour la synthèse de nouvelles vues à partir de collections d'images non calibrées. Contrairement aux pipelines traditionnels de rendu neuronal qui nécessitent des poses de caméra connues et une optimisation par scène, ou aux méthodes feed-forward récentes qui succombent sous le poids computationnel des vues denses, notre modèle prédit tout en une seule passe. Une seule passe avant produit un ensemble de primitives 3D Gaussiennes encodant à la fois la géométrie et l'apparence de la scène, ainsi que les paramètres intrinsèques et extrinsèques de la caméra pour chaque image d'entrée. Cette conception unifiée s'adapte sans effort à des jeux de données multivues capturés de manière informelle, sans aucune annotation de pose. Dans des évaluations en zero-shot approfondies, AnySplat atteint la qualité des références nécessitant des poses, que ce soit dans des scénarios de vues clairsemées ou denses, tout en surpassant les approches existantes ne nécessitant pas de poses. De plus, il réduit considérablement la latence de rendu par rapport aux champs neuronaux basés sur l'optimisation, rendant la synthèse de nouvelles vues en temps réel accessible pour des environnements de capture non contraints. Page du projet : https://city-super.github.io/anysplat/
Les modèles de raisonnement de grande taille (LRMs) récemment développés démontrent des performances puissantes dans la résolution de tâches complexes grâce à leur capacité de raisonnement en chaîne de pensée (CoT). Ces LRMs étant principalement développés par un post-entraînement sur des tâches de raisonnement formel, il reste incertain et débattu s'ils généralisent cette capacité de raisonnement pour réduire les hallucinations dans les tâches de recherche de faits. Par exemple, DeepSeek-R1 rapporte une amélioration des performances sur SimpleQA, un benchmark de recherche de faits, tandis qu'OpenAI-o3 observe une hallucination encore plus prononcée. Cette divergence soulève naturellement la question de recherche suivante : Les modèles de raisonnement sont-ils plus sujets aux hallucinations ? Cet article aborde cette question sous trois angles. (1) Nous menons d'abord une évaluation holistique des hallucinations dans les LRMs. Notre analyse révèle que les LRMs soumis à un pipeline complet de post-entraînement avec un affinage supervisé à froid (SFT) et un apprentissage par renforcement avec récompense vérifiable atténuent généralement leurs hallucinations. En revanche, la distillation seule et l'entraînement par renforcement sans affinage à froid introduisent des hallucinations plus subtiles. (2) Pour explorer pourquoi différents pipelines de post-entraînement modifient l'impact sur les hallucinations dans les LRMs, nous réalisons une analyse comportementale. Nous caractérisons deux comportements cognitifs critiques qui affectent directement la factualité d'un LRM : la Répétition de Défauts, où les tentatives de raisonnement superficiel suivent de manière répétée la même logique sous-jacente erronée, et le Décalage Pensée-Réponse, où la réponse finale ne correspond pas fidèlement au processus de CoT précédent. (3) Enfin, nous investiguons le mécanisme derrière les hallucinations des LRMs sous l'angle de l'incertitude du modèle. Nous constatons qu'une augmentation des hallucinations des LRMs est généralement associée à un désalignement entre l'incertitude du modèle et la précision factuelle. Notre travail fournit une compréhension initiale des hallucinations dans les LRMs.
Les modèles de langage (LMs) obtiennent de bons résultats sur les benchmarks de codage standardisés, mais rencontrent des difficultés avec les tâches d'ingénierie logicielle réelles, comme la résolution d'issues GitHub dans SWE-Bench, en particulier lorsque les paramètres du modèle sont inférieurs à 100 milliards. Bien que les modèles plus petits soient préférables en pratique en raison de leur coût computationnel réduit, améliorer leurs performances reste un défi. Les approches existantes reposent principalement sur un fine-tuning supervisé (SFT) avec des données de haute qualité, qui sont coûteuses à produire à grande échelle. Une alternative est le scaling au moment du test : générer plusieurs sorties, les évaluer à l'aide d'un vérificateur et sélectionner la meilleure. Bien qu'efficace, cette stratégie nécessite souvent un échantillonnage excessif et une évaluation coûteuse, limitant son application pratique. Nous proposons Evolutionary Test-Time Scaling (EvoScale), une méthode économe en échantillons qui traite la génération comme un processus évolutif. En affinant itérativement les sorties via sélection et mutation, EvoScale déplace la distribution des sorties vers des régions à score plus élevé, réduisant ainsi le nombre d'échantillons nécessaires pour trouver des solutions correctes. Pour réduire la surcharge liée à l'échantillonnage et à la sélection répétés, nous entraînons le modèle à s'auto-évoluer en utilisant l'apprentissage par renforcement (RL). Plutôt que de s'appuyer sur des vérificateurs externes au moment de l'inférence, le modèle apprend à auto-améliorer les scores de ses propres générations au fil des itérations. Évalué sur SWE-Bench-Verified, EvoScale permet à notre modèle de 32 milliards de paramètres, Satori-SWE-32B, d'égaler ou de surpasser les performances des modèles de plus de 100 milliards de paramètres tout en utilisant un nombre réduit d'échantillons. Le code, les données et les modèles seront entièrement open-source.
Nous présentons LoRAShop, le premier cadre pour l'édition d'images multi-concepts avec des modèles LoRA. LoRAShop s'appuie sur une observation clé concernant les schémas d'interaction des caractéristiques dans les transformeurs de diffusion de style Flux : les caractéristiques spécifiques aux concepts des transformeurs activent des régions spatialement cohérentes tôt dans le processus de débruitage. Nous exploitons cette observation pour dériver un masque latent désentrelacé pour chaque concept lors d'une passe avant préalable et mélanger les poids LoRA correspondants uniquement dans les régions englobant les concepts à personnaliser. Les modifications résultantes intègrent de manière fluide plusieurs sujets ou styles dans la scène originale tout en préservant le contexte global, l'éclairage et les détails fins. Nos expériences montrent que LoRAShop offre une meilleure préservation de l'identité par rapport aux méthodes de référence. En éliminant le réentraînement et les contraintes externes, LoRAShop transforme les modèles de diffusion personnalisés en un outil pratique de « photoshop-avec-LoRAs » et ouvre de nouvelles perspectives pour la narration visuelle compositionnelle et l'itération créative rapide.
Les Transformers se sont imposés comme les architectures de référence pour la modélisation de séquences, principalement en raison de leur efficacité dans les tâches de récupération en contexte et de leur capacité à apprendre à grande échelle. Cependant, leur complexité quadratique en mémoire et en temps limite leur applicabilité pour les séquences longues, ce qui a incité les chercheurs à explorer des architectures alternatives efficaces, telles que les réseaux de neurones récurrents modernes (également appelés modules de mémoire récurrente à long terme). Malgré leur récent succès dans diverses tâches en aval, ces modèles peinent dans les tâches nécessitant une compréhension de contexte étendu et une extrapolation à des séquences plus longues. Nous observons que ces lacunes proviennent de trois aspects disjoints dans leur conception : (1) une capacité mémoire limitée, contrainte par l'architecture de la mémoire et la cartographie des caractéristiques de l'entrée ; (2) une nature en ligne des mises à jour, c'est-à-dire l'optimisation de la mémoire uniquement par rapport à la dernière entrée ; et (3) une gestion peu expressive de leur mémoire de taille fixe. Pour améliorer ces trois aspects, nous présentons ATLAS, un module de mémoire à long terme de haute capacité qui apprend à mémoriser le contexte en optimisant la mémoire sur la base des tokens actuels et passés, surmontant ainsi la nature en ligne des modèles de mémoire à long terme. Sur la base de cette idée, nous introduisons une nouvelle famille d'architectures de type Transformer, appelées DeepTransformers, qui constituent des généralisations strictes de l'architecture Transformer originale. Nos résultats expérimentaux sur des tâches de modélisation du langage, de raisonnement de bon sens, de rappel intensif et de compréhension de contexte long montrent qu'ATLAS surpasse les performances des Transformers et des modèles récurrents linéaires récents. ATLAS améliore également les performances en contexte long des Titans, atteignant une précision de +80\% pour une longueur de contexte de 10M dans le benchmark BABILong.
Les modèles de langage multimodal unifiés tels que Show-o et Janus ont démontré des performances solides à la fois pour les tâches de génération et de compréhension. Cependant, ces modèles reposent généralement sur des jeux de données à grande échelle et nécessitent des ressources de calcul importantes lors de la phase de pré-entraînement. De plus, plusieurs méthodes post-entraînement ont été proposées, mais elles dépendent souvent de données externes ou se limitent à des personnalisations spécifiques à une tâche. Dans ce travail, nous introduisons UniRL, une approche post-entraînement auto-améliorante. Notre méthode permet au modèle de générer des images à partir de prompts et de les utiliser comme données d'entraînement à chaque itération, sans recourir à des données d'images externes. Par ailleurs, elle permet aux deux tâches de s'améliorer mutuellement : les images générées sont utilisées pour la compréhension, et les résultats de compréhension servent à superviser la génération. Nous explorons le fine-tuning supervisé (SFT) et l'optimisation de politique relative par groupe (GRPO) pour optimiser les modèles. UniRL offre trois avantages clés : (1) elle ne nécessite aucune donnée d'image externe, car tous les échantillons d'entraînement sont générés par le modèle lui-même pendant l'entraînement ; (2) elle améliore non seulement les performances individuelles des tâches, mais réduit également le déséquilibre entre génération et compréhension ; et (3) elle ne nécessite que quelques étapes d'entraînement supplémentaires lors de la phase post-entraînement. Nous évaluons UniRL sur Show-o et Janus, obtenant un score GenEval de 0,77 pour Show-o et 0,65 pour Janus. Le code et les modèles seront disponibles sur https://github.com/showlab/UniRL.
La tâche de résolution de problèmes, où un modèle génère des correctifs pour résoudre des bogues réels, est devenue un critère essentiel pour évaluer les capacités des grands modèles de langage (LLMs). Bien que SWE-bench et ses variantes soient devenus des références standard dans ce domaine, ils présentent des limites majeures : ils n'ont pas été mis à jour depuis leur publication initiale, couvrent un ensemble restreint de dépôts, et dépendent fortement d'efforts manuels pour la construction des instances et la configuration des environnements. Ces facteurs entravent l'évolutivité et introduisent des risques de surapprentissage et de contamination des données. Dans ce travail, nous présentons SWE-bench-Live, un benchmark actualisable en temps réel conçu pour surmonter ces défis. Notre version initiale comprend 1 319 tâches issues de problèmes réels sur GitHub créés depuis 2024, couvrant 93 dépôts. Chaque tâche est accompagnée d'une image Docker dédiée pour garantir une exécution reproductible. Au cœur de notre benchmark se trouve \method, un pipeline de curation automatisé qui simplifie l'ensemble du processus, de la création des instances à la configuration des environnements, éliminant les goulots d'étranglement manuels et permettant une évolutivité et des mises à jour continues. Nous évaluons une gamme de frameworks d'agents et de LLMs de pointe sur SWE-bench-Live, révélant un écart de performance significatif par rapport aux benchmarks statiques comme SWE-bench, même dans des conditions d'évaluation contrôlées. Pour mieux comprendre cette divergence, nous effectuons des analyses détaillées portant sur l'origine des dépôts, la récence des problèmes et la difficulté des tâches. En fournissant un benchmark frais, diversifié et exécutable basé sur l'activité en temps réel des dépôts, SWE-bench-Live facilite une évaluation rigoureuse et résistante à la contamination des LLMs et des agents dans des contextes de développement logiciel dynamiques et réels.
Les autoencodeurs parcimonieux (SAE) ont démontré un potentiel significatif dans l'interprétation des états cachés des modèles de langage en les décomposant en directions latentes interprétables. Cependant, l'entraînement des SAE à grande échelle reste un défi, en particulier lorsque des dictionnaires de grande taille sont utilisés. Bien que les décodeurs puissent exploiter des noyaux optimisés pour la parcimonie afin d'améliorer l'efficacité, les encodeurs nécessitent toujours des opérations linéaires intensives en calcul avec des dimensions de sortie importantes. Pour résoudre ce problème, nous proposons KronSAE, une architecture novatrice qui factorise la représentation latente via une décomposition en produit de Kronecker, réduisant ainsi considérablement la mémoire et la surcharge computationnelle. Par ailleurs, nous introduisons mAND, une fonction d'activation différentiable qui approxime l'opération binaire ET, améliorant l'interprétabilité et les performances dans notre cadre factorisé.
Les mécanismes de préférence, tels que la préférence humaine, les LLM-comme-juges (LaaJ) et les modèles de récompense, sont centraux pour aligner et évaluer les grands modèles de langage (LLM). Pourtant, les concepts sous-jacents qui motivent ces préférences restent mal compris. Dans ce travail, nous proposons une méthode entièrement automatisée pour générer des explications locales et globales basées sur des concepts des préférences à travers plusieurs domaines. Notre méthode utilise un LLM pour identifier les concepts qui distinguent les réponses choisies des réponses rejetées, et pour les représenter à l'aide de vecteurs basés sur des concepts. Pour modéliser les relations entre les concepts et les préférences, nous proposons un modèle de régression hiérarchique multi-domaine de type boîte blanche qui capture à la fois les effets généraux et spécifiques à chaque domaine. Pour évaluer notre méthode, nous constituons un ensemble de données couvrant huit domaines variés et complexes, et expliquons douze mécanismes. Notre méthode obtient de solides performances en matière de prédiction des préférences, surpassant les méthodes de référence tout en étant explicable. De plus, nous évaluons les explications dans deux contextes axés sur des applications. Premièrement, guider les sorties des LLM avec des concepts issus des explications LaaJ produit des réponses que ces juges préfèrent de manière cohérente. Deuxièmement, inciter les LaaJ avec des concepts expliquant les préférences humaines améliore leurs prédictions de préférence. Ensemble, notre travail établit un nouveau paradigme pour l'explicabilité à l'ère des LLM.
Les textes visuels intégrés dans les vidéos véhiculent des informations sémantiques riches, essentielles à la fois pour la compréhension globale des vidéos et pour le raisonnement détaillé sur les actions humaines locales. Cependant, les benchmarks existants pour la compréhension vidéo négligent largement l'information textuelle, tandis que les benchmarks spécifiques à la reconnaissance optique de caractères (OCR) se limitent aux images statiques, ce qui limite leur capacité à capturer l'interaction entre le texte et les contextes visuels dynamiques. Pour combler cette lacune, nous proposons VidText, un nouveau benchmark conçu pour une évaluation complète et approfondie de la compréhension des textes vidéo. VidText offre les caractéristiques clés suivantes : 1) Il couvre un large éventail de scénarios réels et prend en charge du contenu multilingue, englobant divers contextes où le texte vidéo apparaît naturellement. 2) Il introduit un cadre d'évaluation hiérarchique avec des tâches au niveau de la vidéo, du clip et de l'instance, permettant d'évaluer à la fois les capacités de résumé global et de recherche locale. 3) Le benchmark propose également un ensemble de tâches jumelées de perception et de raisonnement, allant de la perception de texte visuel au raisonnement croisé entre les informations textuelles et visuelles. Des expériences approfondies sur 18 modèles multimodaux de pointe (LMMs) révèlent que les modèles actuels rencontrent des difficultés sur la plupart des tâches, avec une marge d'amélioration significative. Une analyse plus poussée met en lumière l'impact de facteurs intrinsèques au modèle, tels que la résolution d'entrée et les capacités OCR, ainsi que de facteurs externes, notamment l'utilisation d'informations auxiliaires et de stratégies de raisonnement en chaîne de pensée (Chain-of-Thought). Nous espérons que VidText comblera le manque actuel dans les benchmarks de compréhension vidéo et servira de base pour les recherches futures sur le raisonnement multimodal avec le texte vidéo dans des environnements dynamiques.
Le développement de modèles de base pour la parole (SFMs) tels que Whisper et SeamlessM4T a considérablement fait progresser le domaine du traitement de la parole. Cependant, leur nature fermée—avec des données d’entraînement et des codes inaccessibles—pose des défis majeurs en termes de reproductibilité et d’évaluation équitable. Alors que d’autres domaines ont réalisé des progrès substantiels vers la science ouverte en développant des modèles entièrement transparents entraînés sur des codes et des données open source (OS), des efforts similaires dans le domaine de la parole restent limités. Pour combler cette lacune, nous présentons FAMA, la première famille de SFMs en science ouverte pour l’anglais et l’italien, entraînée sur plus de 150 000 heures de données vocales OS. De plus, nous introduisons un nouveau jeu de données contenant 16 000 heures de parole nettoyée et pseudo-étiquetée pour les deux langues. Les résultats montrent que FAMA atteint des performances compétitives par rapport aux SFMs existants tout en étant jusqu’à 8 fois plus rapide. Tous les artefacts, y compris les codes, les jeux de données et les modèles, sont publiés sous des licences conformes à l’OS, favorisant l’ouverture dans la recherche sur les technologies de la parole.
L'accentuation de phrase fait référence à l'emphase placée sur des mots spécifiques dans un énoncé oral pour mettre en évidence ou contraster une idée, ou pour introduire de nouvelles informations. Elle est souvent utilisée pour impliquer une intention sous-jacente qui n'est pas explicitement énoncée. Les récents progrès des modèles de langage sensibles à la parole (SLM) ont permis un traitement direct de l'audio, permettant aux modèles de contourner la transcription et d'accéder à la richesse complète du signal vocal, ainsi que d'exécuter des tâches de raisonnement audio telles que la réponse à des questions orales. Malgré le rôle crucial de l'accentuation de phrase dans la formation du sens et de l'intention du locuteur, elle reste largement négligée dans l'évaluation et le développement de ces modèles. Dans ce travail, nous comblons cette lacune en introduisant StressTest, un benchmark spécialement conçu pour évaluer la capacité d'un modèle à distinguer les interprétations de phrases orales en fonction du schéma d'accentuation. Nous évaluons les performances de plusieurs SLM leaders et constatons que, malgré leurs capacités globales, ils obtiennent de mauvais résultats sur de telles tâches. Pour surmonter cette limitation, nous proposons un nouveau pipeline de génération de données synthétiques et créons Stress17k, un ensemble d'entraînement qui simule le changement de sens impliqué par la variation d'accentuation. Ensuite, nous montrons empiriquement que l'optimisation des modèles avec cet ensemble de données synthétiques s'aligne bien avec les enregistrements réels et permet un ajustement fin efficace des SLM. Les résultats suggèrent que notre modèle ajusté, StresSLM, surpasse significativement les modèles existants sur les tâches de raisonnement et de détection de l'accentuation de phrase. Code, modèles, données et échantillons audio - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Le raisonnement de sécurité est un paradigme récent où les modèles de langage (LLMs) raisonnent sur des politiques de sécurité avant de générer des réponses, atténuant ainsi les limites des mesures de sécurité existantes telles que le refus excessif et les vulnérabilités de contournement. Cependant, la mise en œuvre de ce paradigme est complexe en raison du processus coûteux en ressources pour créer des ensembles de données de chaînes de pensée (CoT) intégrant des politiques de haute qualité, tout en garantissant que le raisonnement reste précis et exempt d'hallucinations ou de conflits de politiques. Pour relever ce défi, nous proposons AIDSAFE : Agentic Iterative Deliberation for Safety Reasoning, une nouvelle méthode de génération de données qui exploite la délibération multi-agent pour développer itérativement le raisonnement sur les politiques de sécurité. Une étape de raffinement des données dans AIDSAFE assure des résultats de haute qualité en éliminant les pensées répétitives, redondantes et trompeuses. Les CoT générés par AIDSAFE fournissent une base solide pour l'apprentissage supervisé (SFT) axé sur la sécurité. De plus, pour répondre au besoin de données de préférence dans les étapes d'alignement, comme l'entraînement DPO, nous introduisons une méthode supplémentaire qui utilise l'augmentation des croyances pour créer des échantillons distincts de CoT sélectionnés et rejetés. Nos évaluations démontrent que les CoT générés par AIDSAFE atteignent une adhésion supérieure aux politiques et une qualité de raisonnement élevée. Par conséquent, nous montrons que l'affinement des LLMs open-source sur ces CoT peut significativement améliorer la généralisation de la sécurité et la robustesse aux contournements, tout en maintenant une utilité acceptable et une précision dans le refus excessif. Les ensembles de données CoT générés par AIDSAFE sont disponibles ici : https://huggingface.co/datasets/AmazonScience/AIDSAFE.
Les modèles séquentiels tels que les transformers nécessitent que les entrées soient représentées sous forme de séquences unidimensionnelles. Dans le domaine de la vision, cela implique généralement d'aplatir les images en utilisant un ordre fixe de type ligne par ligne (balayage raster). Bien que l'auto-attention complète soit équivariante aux permutations, les transformers modernes pour les longues séquences reposent de plus en plus sur des approximations architecturales qui rompent cette invariance et introduisent une sensibilité à l'ordre des patches. Nous montrons que l'ordre des patches affecte significativement les performances du modèle dans de tels contextes, avec des alternatives simples comme l'ordre colonne par colonne ou les courbes de Hilbert entraînant des variations notables de précision. Motivés par cela, nous proposons REOrder, un cadre en deux étapes pour découvrir des ordonnancements de patches optimaux pour une tâche donnée. Premièrement, nous dérivons un a priori informationnel en évaluant la compressibilité de diverses séquences de patches. Ensuite, nous apprenons une politique sur les permutations en optimisant une politique de Plackett-Luce à l'aide de REINFORCE. Cette approche permet un apprentissage efficace dans un espace combinatoire de permutations. REOrder améliore la précision top-1 par rapport à l'ordre ligne par ligne sur ImageNet-1K jusqu'à 3,01 % et sur Functional Map of the World de 13,35 %.
La démonstration de théorèmes constitue un banc d'essai majeur pour évaluer les capacités de raisonnement complexe des grands modèles de langage (LLM). Cependant, les approches traditionnelles de démonstration automatique de théorèmes (ATP) reposent fortement sur des systèmes de preuve formels qui s'alignent mal avec la force des LLM, issue des connaissances informelles en langage naturel acquises lors du pré-entraînement. Dans ce travail, nous proposons DeepTheorem, un cadre complet de démonstration informelle de théorèmes exploitant le langage naturel pour améliorer le raisonnement mathématique des LLM. DeepTheorem inclut un jeu de données de référence à grande échelle composé de 121 000 théorèmes et preuves informels de niveau Olympiade Internationale de Mathématiques (IMO), couvrant divers domaines mathématiques, rigoureusement annotés pour leur exactitude, leur difficulté et leurs catégories thématiques, accompagnés de variantes de théorèmes systématiquement construites et vérifiables. Nous concevons une nouvelle stratégie d'apprentissage par renforcement (RL-Zero) explicitement adaptée à la démonstration informelle de théorèmes, exploitant les variantes vérifiées pour inciter une inférence mathématique robuste. De plus, nous proposons des métriques d'évaluation complètes des résultats et du processus, examinant l'exactitude des preuves et la qualité des étapes de raisonnement. Des analyses expérimentales approfondies démontrent que DeepTheorem améliore significativement les performances des LLM en démonstration de théorèmes par rapport aux jeux de données existants et aux protocoles de fine-tuning supervisé, atteignant une précision et une qualité de raisonnement de pointe. Nos résultats mettent en lumière le potentiel de DeepTheorem à faire progresser fondamentalement la démonstration automatique informelle de théorèmes et l'exploration mathématique.
Les modèles de génération unifiés visent à traiter des tâches variées à travers différentes modalités -- telles que la génération de texte, la génération d'images et le raisonnement vision-langage -- au sein d'une architecture unique et d'un paradigme de décodage commun. Les modèles unifiés autorégressifs souffrent d'une inférence lente en raison du décodage séquentiel, tandis que les modèles unifiés non autorégressifs présentent une généralisation faible due à des architectures pré-entraînées limitées. Nous présentons Muddit, un transformeur de diffusion discrète unifié qui permet une génération rapide et parallèle à la fois pour les modalités texte et image. Contrairement aux modèles de diffusion unifiés précédents entraînés à partir de zéro, Muddit intègre des connaissances visuelles solides provenant d'une architecture pré-entraînée de génération texte-image avec un décodeur de texte léger, permettant une génération multimodale flexible et de haute qualité sous une architecture unifiée. Les résultats empiriques montrent que Muddit atteint des performances compétitives ou supérieures par rapport à des modèles autorégressifs nettement plus grands, tant en termes de qualité que d'efficacité. Ce travail met en lumière le potentiel de la diffusion purement discrète, lorsqu'elle est équipée de connaissances visuelles solides, en tant qu'architecture scalable et efficace pour la génération unifiée.
Les algorithmes d'apprentissage par renforcement sont fondamentaux pour aligner les grands modèles de langage avec les préférences humaines et pour améliorer leurs capacités de raisonnement. Cependant, les algorithmes d'apprentissage par renforcement actuels souffrent souvent d'une instabilité lors de l'entraînement due à des contraintes de politique en ligne (on-policy) trop lâches, ainsi que d'une inefficacité computationnelle causée par des modèles auxiliaires. Dans ce travail, nous proposons l'apprentissage par renforcement en ligne avec une base de récompense optimale (On-Policy RL with Optimal reward baseline, OPO), un nouvel algorithme d'apprentissage par renforcement simplifié conçu pour relever ces défis. OPO met l'accent sur l'importance d'un entraînement en ligne exact, ce qui stabilise empiriquement le processus d'entraînement et améliore l'exploration. De plus, OPO introduit la base de récompense optimale qui, théoriquement, minimise la variance du gradient. Nous évaluons OPO sur des benchmarks de raisonnement mathématique. Les résultats démontrent sa performance supérieure et sa stabilité d'entraînement sans nécessiter de modèles supplémentaires ou de termes de régularisation. Par ailleurs, OPO atteint des décalages de politique plus faibles et une entropie de sortie plus élevée, encourageant des réponses plus diversifiées et moins répétitives. Ces résultats soulignent OPO comme une direction prometteuse pour un apprentissage par renforcement stable et efficace dans l'alignement des grands modèles de langage et les tâches de raisonnement. L'implémentation est disponible à l'adresse suivante : https://github.com/microsoft/LMOps/tree/main/opo.
Les récents progrès des agents de modèles de langage de grande taille (LLM) ont considérablement accéléré l'automatisation des découvertes scientifiques, tout en soulevant simultanément des préoccupations éthiques et de sécurité critiques. Pour relever systématiquement ces défis, nous présentons SafeScientist, un cadre innovant de scientifique IA spécifiquement conçu pour renforcer la sécurité et la responsabilité éthique dans l'exploration scientifique pilotée par l'IA. SafeScientist refuse de manière proactive les tâches éthiquement inappropriées ou à haut risque et met rigoureusement l'accent sur la sécurité tout au long du processus de recherche. Pour assurer une supervision complète de la sécurité, nous intégrons plusieurs mécanismes de défense, notamment la surveillance des invites, la surveillance de la collaboration entre agents, la surveillance de l'utilisation des outils et un composant d'examen éthique. En complément de SafeScientist, nous proposons SciSafetyBench, un nouveau benchmark spécialement conçu pour évaluer la sécurité de l'IA dans des contextes scientifiques, comprenant 240 tâches scientifiques à haut risque réparties dans 6 domaines, ainsi que 30 outils scientifiques spécialement conçus et 120 tâches liées aux risques des outils. Des expériences approfondies démontrent que SafeScientist améliore significativement les performances de sécurité de 35 % par rapport aux cadres traditionnels de scientifiques IA, sans compromettre la qualité des résultats scientifiques. De plus, nous validons rigoureusement la robustesse de notre pipeline de sécurité contre diverses méthodes d'attaque adverses, confirmant ainsi l'efficacité de notre approche intégrée. Le code et les données seront disponibles à l'adresse https://github.com/ulab-uiuc/SafeScientist. \red{Avertissement : cet article contient des exemples de données qui peuvent être offensants ou nuisibles.}
Les récentes avancées dans les modèles du monde ont révolutionné la simulation d'environnements dynamiques, permettant aux systèmes de prévoir les états futurs et d'évaluer les actions potentielles. Dans le domaine de la conduite autonome, ces capacités aident les véhicules à anticiper le comportement des autres usagers de la route, à effectuer une planification tenant compte des risques, à accélérer l'entraînement en simulation et à s'adapter à des scénarios nouveaux, améliorant ainsi la sécurité et la fiabilité. Les approches actuelles présentent des lacunes dans le maintien d'une cohérence géométrique 3D robuste ou dans l'accumulation d'artefacts lors de la gestion des occlusions, deux aspects critiques pour une évaluation fiable de la sécurité dans les tâches de navigation autonome. Pour remédier à cela, nous introduisons GeoDrive, qui intègre explicitement des conditions de géométrie 3D robuste dans les modèles du monde de conduite afin d'améliorer la compréhension spatiale et la contrôlabilité des actions. Plus précisément, nous extrayons d'abord une représentation 3D à partir de l'image d'entrée, puis nous obtenons son rendu 2D basé sur la trajectoire de l'ego-véhicule spécifiée par l'utilisateur. Pour permettre une modélisation dynamique, nous proposons un module d'édition dynamique pendant l'entraînement afin d'améliorer les rendus en modifiant les positions des véhicules. Des expériences approfondies démontrent que notre méthode surpasse significativement les modèles existants à la fois en précision des actions et en conscience spatiale 3D, conduisant à une modélisation de scène plus réaliste, adaptable et fiable pour une conduite autonome plus sûre. De plus, notre modèle peut généraliser à de nouvelles trajectoires et offre des capacités d'édition interactive de la scène, telles que l'édition d'objets et le contrôle des trajectoires d'objets.
Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) permet aux grands modèles de langage (LLMs) de dépasser les réponses rapides du Système 1 et de s’engager dans un raisonnement délibératif du Système 2. Cependant, cela se fait au prix d’une inefficacité significative due à la production verbale d’étapes intermédiaires. Les méthodes récentes de raisonnement dans l’espace latent améliorent l’efficacité en opérant sur les états cachés sans décodage en langage, mais elles traitent toutes les étapes de manière uniforme, ne distinguant pas les déductions critiques des étapes auxiliaires, ce qui entraîne une utilisation sous-optimale des ressources computationnelles. Dans cet article, nous proposons le raisonnement Système-1.5, un cadre de raisonnement adaptatif qui alloue dynamiquement les calculs à travers les étapes de raisonnement via des chemins raccourcis dans l’espace latent. Plus précisément, le raisonnement Système-1.5 introduit deux types de raccourcis dynamiques. Le raccourci de profondeur du modèle (DS) raisonne de manière adaptative le long de la profondeur verticale en sortant précocement les tokens non critiques via des branches d’adaptation légères, tout en permettant aux tokens critiques de continuer à travers les couches plus profondes du Transformer. Le raccourci d’étape (SS) réutilise les états cachés à travers les étapes de décodage pour sauter les étapes triviales et raisonner horizontalement dans l’espace latent. L’entraînement du raisonnement Système-1.5 implique un processus d’auto-distillation en deux étapes : d’abord, distiller le CoT en langage naturel en une pensée continue dans l’espace latent, puis distiller le raisonnement latent complet du Système 2 en chemins raccourcis adaptatifs (raisonnement Système-1.5). Les expériences sur des tâches de raisonnement démontrent la performance supérieure de notre méthode. Par exemple, sur GSM8K, le raisonnement Système-1.5 atteint une performance de raisonnement comparable aux méthodes traditionnelles de fine-tuning CoT tout en accélérant l’inférence de plus de 20 fois et en réduisant la génération de tokens de 92,31 % en moyenne.
Les consultations médecin-patient nécessitent une communication multi-tours, consciente du contexte et adaptée à des profils de patients diversifiés. L'entraînement ou l'évaluation de modèles de langage (LLMs) pour médecins dans de tels contextes exige des systèmes d'interaction avec des patients réalistes. Cependant, les simulateurs existants échouent souvent à refléter l'éventail complet des profils observés en pratique clinique. Pour remédier à cela, nous présentons PatientSim, un simulateur de patient qui génère des profils de patients réalistes et variés pour des scénarios cliniques, basés sur une expertise médicale. PatientSim fonctionne en utilisant : 1) des profils cliniques, incluant les symptômes et les antécédents médicaux, dérivés de données réelles issues des ensembles de données MIMIC-ED et MIMIC-IV, et 2) des profils définis par quatre axes : personnalité, maîtrise de la langue, niveau de rappel des antécédents médicaux et niveau de confusion cognitive, aboutissant à 37 combinaisons uniques. Nous avons évalué huit LLMs pour leur exactitude factuelle et leur cohérence de profil. Le modèle open-source le plus performant, Llama 3.3, a été validé par quatre cliniciens pour confirmer la robustesse de notre cadre. En tant que plateforme open-source et personnalisable, PatientSim offre une solution reproductible et scalable qui peut être adaptée à des besoins de formation spécifiques. Proposant un environnement respectueux de la confidentialité, il sert de banc d'essai robuste pour évaluer les systèmes de dialogue médicaux face à des présentations de patients variées et montre un potentiel prometteur en tant qu'outil éducatif pour les soins de santé.
Les grands modèles de langage (LLM) basés sur l'architecture Transformer stockent le contexte sous forme de paires clé-valeur (KV) lors de l'inférence. À mesure que la longueur du contexte augmente, la taille du cache KV s'étend, entraînant une surcharge mémoire importante et une latence accrue dans le mécanisme d'attention. Cet article présente KVzip, une méthode d'éviction du cache KV indépendante des requêtes, permettant une réutilisation efficace des caches KV compressés pour diverses requêtes. KVzip quantifie l'importance d'une paire KV en utilisant le LLM sous-jacent pour reconstruire les contextes originaux à partir des paires KV mises en cache, puis évince les paires de moindre importance. Des évaluations empiriques approfondies montrent que KVzip réduit la taille du cache KV de 3 à 4 fois et la latence de décodage FlashAttention d'environ 2 fois, avec une perte de performance négligeable dans les tâches de questions-réponses, de recherche, de raisonnement et de compréhension de code. Les évaluations incluent divers modèles tels que LLaMA3.1-8B, Qwen2.5-14B et Gemma3-12B, avec des longueurs de contexte atteignant jusqu'à 170 000 tokens. KVzip surpasse significativement les méthodes d'éviction KV existantes dépendantes des requêtes, qui subissent une dégradation des performances même avec un budget de cache de 90 % dans des scénarios multi-requêtes.
Les modèles de diffusion ont démontré une qualité de génération remarquable, mais au prix d'un nombre élevé d'évaluations de fonctions. Récemment, des solveurs avancés basés sur les équations différentielles ordinaires (EDO) ont été développés pour atténuer les exigences computationnelles substantielles de la résolution de la diffusion inverse avec un nombre limité d'étapes d'échantillonnage. Cependant, ces solveurs, fortement inspirés des méthodes multi-étapes de type Adams, reposent uniquement sur l'interpolation de Lagrange liée au temps t. Nous montrons que l'interpolation de Lagrange liée au temps t est sous-optimale pour les modèles de diffusion et révélons un espace de recherche compact composé des pas de temps et des coefficients des solveurs. Sur la base de notre analyse, nous proposons un nouvel algorithme de recherche de solveur différentiable pour identifier un solveur plus optimal. Équipés du solveur recherché, les modèles de flux rectifiés, par exemple, SiT-XL/2 et FlowDCN-XL/2, atteignent des scores FID de 2,40 et 2,35, respectivement, sur ImageNet256 avec seulement 10 étapes. Parallèlement, le modèle DDPM, DiT-XL/2, atteint un score FID de 2,33 avec seulement 10 étapes. Notamment, notre solveur recherché surpasse les solveurs traditionnels de manière significative. De plus, notre solveur recherché démontre une généralité à travers diverses architectures de modèles, résolutions et tailles de modèles.
Les benchmarks existants pour la compréhension vidéo confondent souvent les questions basées sur la connaissance et celles purement basées sur l'image, plutôt que d'isoler clairement la capacité de raisonnement temporel d'un modèle, qui est l'aspect clé distinguant la compréhension vidéo des autres modalités. Nous identifions deux limitations majeures qui obscurcissent la question de savoir si des scores plus élevés indiquent véritablement une meilleure compréhension du contenu dynamique des vidéos : (1) les forts a priori linguistiques, où les modèles peuvent répondre aux questions sans regarder la vidéo ; et (2) l'invariance au mélange, où les modèles maintiennent des performances similaires sur certaines questions même lorsque les images de la vidéo sont mélangées temporellement. Pour atténuer ces problèmes, nous proposons VBenchComp, un pipeline automatisé qui catégorise les questions dans différents domaines : LLM-Répondables, Sémantiques et Temporelles. Plus précisément, les questions LLM-Répondables peuvent être résolues sans visionner la vidéo ; les questions Sémantiques restent répondables même lorsque les images de la vidéo sont mélangées ; et les questions Temporelles nécessitent de comprendre l'ordre temporel correct des images. Les autres questions sont étiquetées comme Autres. Cela permet une évaluation fine des différentes capacités d'un LLM vidéo. Notre analyse révèle des faiblesses nuancées des modèles qui sont masquées par les scores globaux traditionnels, et nous offrons des insights et des recommandations pour concevoir de futurs benchmarks qui évaluent plus précisément les LLM vidéo.
La génération de vidéos a réalisé des progrès significatifs avec l'émergence de modèles génératifs profonds, en particulier les approches basées sur la diffusion. Cependant, la génération de vidéos à partir de plusieurs sujets de référence continue de rencontrer des défis majeurs pour maintenir la cohérence multi-sujets et assurer une qualité de génération élevée. Dans cet article, nous proposons MAGREF, un cadre unifié pour la génération de vidéos à référence multiple, qui introduit un guidage masqué pour permettre une synthèse vidéo cohérente multi-sujets conditionnée par diverses images de référence et une invite textuelle. Plus précisément, nous proposons (1) un mécanisme de masquage dynamique sensible aux régions qui permet à un seul modèle de gérer de manière flexible diverses inférences de sujets, y compris les humains, les objets et les arrière-plans, sans modifications architecturales, et (2) un mécanisme de concaténation de canaux au niveau des pixels qui opère sur la dimension des canaux pour mieux préserver les caractéristiques d'apparence. Notre modèle offre une qualité de génération vidéo de pointe, généralisant de l'entraînement sur un seul sujet à des scénarios multi-sujets complexes avec une synthèse cohérente et un contrôle précis sur chaque sujet, surpassant les bases de référence open-source et commerciales existantes. Pour faciliter l'évaluation, nous introduisons également un benchmark vidéo multi-sujets complet. Des expériences approfondies démontrent l'efficacité de notre approche, ouvrant la voie à une synthèse vidéo multi-sujets évolutive, contrôlable et de haute fidélité. Le code et le modèle sont disponibles à l'adresse : https://github.com/MAGREF-Video/MAGREF
Les grands modèles de langage (LLM) ont démontré un potentiel prometteur en matière de persuasion, mais les travaux existants sur l'entraînement de persuaders basés sur LLM restent préliminaires. Notamment, bien que les humains soient compétents pour modéliser de manière proactive et dynamique les pensées et opinions de leurs adversaires, les LLM actuels peinent à raisonner selon la Théorie de l'Esprit (ToM), ce qui entraîne une diversité limitée et une faible conscience de l'adversaire. Pour pallier cette limitation, nous introduisons le Persuader Augmenté par la Théorie de l'Esprit (ToMAP), une approche novatrice pour construire des agents persuadeurs plus flexibles en intégrant deux modules de théorie de l'esprit qui améliorent la conscience et l'analyse de l'état mental de l'adversaire. Plus précisément, nous commençons par inciter le persuadeur à considérer les objections possibles à la thèse centrale, puis utilisons un encodeur de texte couplé à un classifieur MLP entraîné pour prédire la position actuelle de l'adversaire sur ces contre-arguments. Notre schéma d'apprentissage par renforcement soigneusement conçu permet au persuadeur d'apprendre à analyser les informations relatives à l'adversaire et à les utiliser pour générer des arguments plus efficaces. Les expériences montrent que le persuadeur ToMAP, bien que ne contenant que 3 milliards de paramètres, surpasse des modèles de référence beaucoup plus grands, comme GPT-4o, avec un gain relatif de 39,4 % sur plusieurs modèles de persuadees et divers corpus. Notamment, ToMAP présente des chaînes de raisonnement complexes et une répétition réduite pendant l'entraînement, ce qui conduit à des arguments plus diversifiés et efficaces. La fonctionnalité de conscience de l'adversaire de ToMAP le rend également adapté aux conversations longues et lui permet d'employer des stratégies plus logiques et conscientes de l'adversaire. Ces résultats soulignent l'efficacité de notre méthode et mettent en évidence son potentiel pour développer des agents de langage plus persuasifs. Le code est disponible à l'adresse suivante : https://github.com/ulab-uiuc/ToMAP.
Dans cet article, nous unifions plus de 10 approches existantes de distillation de diffusion en une étape, telles que Diff-Instruct, DMD, SIM, SiD, f-distill, etc., au sein d'un cadre théorique que nous nommons \emph{Uni-Instruct}. Uni-Instruct est motivé par notre théorie proposée d'expansion de diffusion de la famille des f-divergences. Nous introduisons ensuite des théories clés qui surmontent le problème d'intractabilité de la f-divergence étendue originale, aboutissant à une fonction de perte équivalente mais traitable qui entraîne efficacement les modèles de diffusion en une étape en minimisant la famille des f-divergences étendues. La nouvelle unification introduite par Uni-Instruct offre non seulement des contributions théoriques qui aident à comprendre les approches existantes d'un point de vue global, mais conduit également à des performances de génération en une étape de pointe. Sur le benchmark de génération CIFAR10, Uni-Instruct atteint des valeurs record de Distance de Fréchet Inception (FID) de \emph{1,46} pour la génération non conditionnelle et de \emph{1,38} pour la génération conditionnelle. Sur le benchmark de génération ImageNet-64 × 64, Uni-Instruct atteint un nouveau FID de génération en une étape de \emph{1,02}, surpassant son modèle de diffusion enseignant en 79 étapes avec une marge d'amélioration significative de 1,33 (1,02 contre 2,35). Nous appliquons également Uni-Instruct à des tâches plus larges comme la génération de texte en 3D. Pour la génération de texte en 3D, Uni-Instruct donne des résultats décents, surpassant légèrement les méthodes précédentes, telles que SDS et VSD, en termes de qualité et de diversité de génération. Les contributions théoriques et empiriques solides d'Uni-Instruct pourront potentiellement aider les études futures sur la distillation de diffusion en une étape et le transfert de connaissances des modèles de diffusion.
La séparation de sources audio est fondamentale pour permettre aux machines de comprendre les environnements acoustiques complexes et constitue la base de nombreuses applications audio. Les approches actuelles d'apprentissage profond supervisé, bien que puissantes, sont limitées par la nécessité de disposer de grandes quantités de données étiquetées spécifiques à la tâche et peinent à généraliser face à l'immense variabilité et à la nature ouverte des scènes acoustiques du monde réel. Inspirés par le succès des modèles génératifs de fondation, nous explorons si les modèles de diffusion audio guidés par texte pré-entraînés peuvent surmonter ces limitations. Nous faisons une découverte surprenante : la séparation de sources en zero-shot peut être réalisée uniquement grâce à un modèle de diffusion audio guidé par texte pré-entraîné, sous la bonne configuration. Notre méthode, nommée ZeroSep, fonctionne en inversant l'audio mixé dans l'espace latent du modèle de diffusion, puis en utilisant le conditionnement textuel pour guider le processus de débruitage afin de récupérer les sources individuelles. Sans aucun entraînement ou ajustement spécifique à la tâche, ZeroSep réutilise le modèle de diffusion génératif pour une tâche de séparation discriminative et supporte intrinsèquement les scénarios ouverts grâce à ses riches connaissances textuelles préalables. ZeroSep est compatible avec une variété de modèles de diffusion audio guidés par texte pré-entraînés et offre des performances de séparation solides sur plusieurs benchmarks de séparation, surpassant même les méthodes supervisées.
Les modèles de langage de grande taille (LLMs) génèrent des solutions fonctionnellement correctes, mais peinent souvent à atteindre une efficacité optimale du code, un goulot d'étranglement critique pour leur déploiement en conditions réelles. Dans cet article, nous introduisons un cadre novateur d'optimisation itérative au moment du test pour résoudre ce problème, en utilisant un système en boucle fermée où les LLMs affinent itérativement le code sur la base de retours d'expérience provenant d'un bac à sable d'exécution. Nous explorons trois stratégies d'entraînement : le Fine-Tuning Supervisé (SFT), l'Optimisation Directe des Préférences (DPO) et l'Optimisation Relative des Politiques par Groupe (GRPO). Les expériences menées sur notre ensemble de données Venus et le benchmark APPS montrent que le SFT et le DPO atteignent rapidement un plafond en termes de gains d'efficacité. En revanche, le GRPO, utilisant l'apprentissage par renforcement (RL) avec des retours d'exécution, optimise continuellement les performances du code, améliorant significativement à la fois le pass@1 (de 47 % à 62 %) et la probabilité de surpasser les soumissions humaines en efficacité (de 31 % à 45 %). Notre travail démontre une amélioration efficace de l'efficacité du code au moment du test et révèle de manière critique la puissance du RL pour enseigner aux LLMs à véritablement auto-améliorer l'efficacité du code.
Nous proposons un cadre unifié pour le contrôle du mouvement dans la génération vidéo, intégrant de manière fluide les mouvements de caméra, les translations au niveau des objets et les mouvements locaux fins à l'aide d'entrées basées sur des trajectoires. Contrairement aux méthodes antérieures qui traitent ces types de mouvements via des modules séparés ou des conceptions spécifiques à une tâche, notre approche offre une solution cohérente en projetant des trajectoires définies par l'utilisateur dans l'espace latent de modèles pré-entraînés de génération d'images vers des vidéos, via un injecteur de mouvement léger. Les utilisateurs peuvent spécifier des points clés et leurs trajectoires de mouvement pour contrôler des déformations localisées, le mouvement d'objets entiers, la dynamique de caméra virtuelle ou des combinaisons de ces éléments. Les signaux de trajectoire injectés guident le processus génératif pour produire des séquences de mouvement temporellement cohérentes et sémantiquement alignées. Notre cadre démontre une performance supérieure dans plusieurs tâches de contrôle de mouvement vidéo, incluant des effets de mouvement stylisés (par exemple, des pinceaux de mouvement), des changements dynamiques de point de vue et une manipulation précise des mouvements locaux. Les expériences montrent que notre méthode offre une contrôlabilité et une qualité visuelle significativement meilleures par rapport aux approches antérieures et aux solutions commerciales, tout en restant largement compatible avec diverses architectures de pointe pour la génération vidéo. Page du projet : https://anytraj.github.io/.
Les Transformeurs de Diffusion (DiT) sont devenus le modèle de référence pour générer du contenu visuel de haute qualité, comme des vidéos et des images. Un goulot d'étranglement majeur réside dans le mécanisme d'attention, dont la complexité augmente de manière quadratique avec la résolution et la durée des vidéos. Une approche logique pour alléger cette charge est l'attention parcimonieuse, où seul un sous-ensemble de tokens ou de patches est inclus dans le calcul. Cependant, les techniques existantes échouent à préserver la qualité visuelle à des niveaux de parcimonie extrêmement élevés et peuvent même entraîner des surcoûts de calcul non négligeables. % Pour répondre à cette problématique, nous proposons Re-ttention, qui met en œuvre une attention très parcimonieuse pour les modèles de génération visuelle en exploitant la redondance temporelle des Modèles de Diffusion pour surmonter le décalage de normalisation probabiliste au sein du mécanisme d'attention. Plus précisément, Re-ttention redéfinit les scores d'attention en se basant sur l'historique des distributions softmax précédentes afin de préserver la qualité visuelle de l'attention quadratique complète à des niveaux de parcimonie très élevés. % Les résultats expérimentaux sur des modèles T2V/T2I tels que CogVideoX et les PixArt DiTs démontrent que Re-ttention nécessite aussi peu que 3,1 % des tokens lors de l'inférence, surpassant les méthodes contemporaines comme FastDiTAttn, Sparse VideoGen et MInference. De plus, nous mesurons la latence pour montrer que notre méthode peut atteindre une réduction de plus de 45 % de la latence end-to-end % et de plus de 92 % de la latence d'auto-attention sur un GPU H100 à un coût négligeable. Le code est disponible en ligne ici : https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
Nous avons entraîné 13 440 grands modèles de langage et constaté que la minimisation de l'entropie nécessite seulement une seule donnée non étiquetée et 10 étapes d'optimisation pour obtenir des améliorations de performances comparables, voire supérieures, à celles obtenues en utilisant des milliers de données et des récompenses soigneusement conçues dans l'apprentissage par renforcement basé sur des règles. Ce résultat frappant pourrait inciter à repenser les paradigmes de post-entraînement pour les grands modèles de langage. Notre code est disponible à l'adresse suivante : https://github.com/zitian-gao/one-shot-em.
Les rébus, ces énigmes visuelles qui encodent le langage à travers l'imagerie, l'agencement spatial et la substitution symbolique, représentent un défi unique pour les modèles vision-langage (VLMs) actuels. Contrairement aux tâches traditionnelles de légendage d'images ou de réponse à des questions, la résolution de rébus nécessite une abstraction multimodale, un raisonnement symbolique et une compréhension des jeux de mots culturels, phonétiques et linguistiques. Dans cet article, nous étudions la capacité des VLMs contemporains à interpréter et résoudre des rébus en construisant un benchmark manuellement généré et annoté de rébus variés en langue anglaise, allant de simples substitutions pictographiques à des indices dépendants de l'espace (comme "head" au-dessus de "heels"). Nous analysons les performances de différents VLMs, et nos résultats révèlent que si les VLMs montrent certaines capacités surprenantes à décoder des indices visuels simples, ils rencontrent des difficultés significatives face aux tâches nécessitant un raisonnement abstrait, une pensée latérale et une compréhension des métaphores visuelles.
Les récents modèles de raisonnement à grande échelle (LRMs) avec traces de pensée ont démontré des performances solides sur les tâches de raisonnement en anglais. Cependant, leur capacité à raisonner dans d'autres langues est moins étudiée. Cette capacité est aussi importante que la précision des réponses pour les applications réelles, car les utilisateurs peuvent trouver la trace de raisonnement utile pour la supervision uniquement lorsqu'elle est exprimée dans leur propre langue. Nous évaluons de manière exhaustive deux familles principales de LRMs sur notre benchmark XReasoning et constatons que même les modèles les plus avancés reviennent souvent à l'anglais ou produisent un raisonnement fragmenté dans d'autres langues, révélant un écart substantiel dans le raisonnement multilingue. Les interventions basées sur des prompts qui forcent les modèles à raisonner dans la langue de l'utilisateur améliorent la lisibilité et la supervision, mais réduisent la précision des réponses, exposant un compromis important. Nous montrons en outre qu'un post-entraînement ciblé sur seulement 100 exemples atténue ce décalage, bien qu'une certaine perte de précision subsiste. Nos résultats mettent en évidence les capacités limitées de raisonnement multilingue des LRMs actuels et tracent des directions pour les travaux futurs. Le code et les données sont disponibles à l'adresse https://github.com/Betswish/mCoT-XReasoning.
Les récents progrès des grands modèles vision-langage (LVLMs) ont permis des applications prometteuses dans les tâches médicales, telles que la génération de rapports et la réponse à des questions visuelles. Cependant, les benchmarks existants se concentrent principalement sur la réponse diagnostique finale, offrant un aperçu limité de la capacité des modèles à engager un raisonnement cliniquement pertinent. Pour remédier à cela, nous présentons CheXStruct et CXReasonBench, un pipeline structuré et un benchmark construits sur le jeu de données MIMIC-CXR-JPG, accessible au public. CheXStruct dérive automatiquement une séquence d'étapes de raisonnement intermédiaires directement à partir de radiographies thoraciques, telles que la segmentation des régions anatomiques, l'identification des repères anatomiques et des mesures diagnostiques, le calcul des indices diagnostiques, et l'application de seuils cliniques. CXReasonBench exploite ce pipeline pour évaluer si les modèles peuvent effectuer des étapes de raisonnement cliniquement valides et dans quelle mesure ils peuvent apprendre à partir d'un guidage structuré, permettant une évaluation fine et transparente du raisonnement diagnostique. Le benchmark comprend 18 988 paires de questions-réponses réparties sur 12 tâches diagnostiques et 1 200 cas, chacun associé à jusqu'à 4 entrées visuelles, et prend en charge une évaluation multi-voies et multi-étapes, incluant l'ancrage visuel via la sélection de régions anatomiques et les mesures diagnostiques. Même les plus performants des 10 LVLMs évalués éprouvent des difficultés avec le raisonnement structuré et la généralisation, échouant souvent à relier les connaissances abstraites à une interprétation visuelle ancrée dans l'anatomie. Le code est disponible à l'adresse suivante : https://github.com/ttumyche/CXReasonBench
Les modèles vision-langage (VLMs) ont démontré des capacités remarquables dans l'alignement des modalités visuelles et textuelles, permettant une large gamme d'applications dans la compréhension et la génération multimodales. Bien qu'ils excellent dans les scénarios d'apprentissage zero-shot et de transfert, les VLMs restent vulnérables aux erreurs de classification, produisant souvent des prédictions confiantes mais incorrectes. Cette limitation représente un risque significatif dans les domaines critiques pour la sécurité, où des prédictions erronées peuvent entraîner des conséquences graves. Dans ce travail, nous présentons TrustVLM, un cadre d'apprentissage sans entraînement conçu pour relever le défi crucial de l'estimation de la fiabilité des prédictions des VLMs. Motivés par l'écart de modalité observé dans les VLMs et l'idée que certains concepts sont plus distinctement représentés dans l'espace d'incorporation des images, nous proposons une nouvelle fonction de scoring de confiance qui exploite cet espace pour améliorer la détection des erreurs de classification. Nous évaluons rigoureusement notre approche sur 17 ensembles de données variés, en utilisant 4 architectures et 2 VLMs, et démontrons des performances de pointe, avec des améliorations allant jusqu'à 51,87 % en AURC, 9,14 % en AUROC et 32,42 % en FPR95 par rapport aux bases de référence existantes. En améliorant la fiabilité du modèle sans nécessiter de réentraînement, TrustVLM ouvre la voie à un déploiement plus sûr des VLMs dans des applications réelles. Le code sera disponible à l'adresse https://github.com/EPFL-IMOS/TrustVLM.
Nous présentons UniTEX, un nouveau cadre de génération de textures 3D en deux étapes pour créer des textures de haute qualité et cohérentes pour des actifs 3D. Les approches existantes reposent principalement sur l'inpainting basé sur les UV pour affiner les textures après avoir reprojeté les images multi-vues générées sur les formes 3D, ce qui introduit des défis liés à l'ambiguïté topologique. Pour résoudre ce problème, nous proposons de contourner les limitations du mappage UV en opérant directement dans un espace fonctionnel 3D unifié. Plus précisément, nous proposons d'abord de porter la génération de textures dans l'espace 3D via les Fonctions de Texture (TFs)—une représentation volumétrique continue qui associe tout point 3D à une valeur de texture basée uniquement sur la proximité de la surface, indépendamment de la topologie du maillage. Ensuite, nous proposons de prédire ces TFs directement à partir d'images et de données géométriques en utilisant un modèle de texturage à grande échelle basé sur des transformateurs (LTM). Pour améliorer davantage la qualité des textures et tirer parti de puissants a priori 2D, nous développons une stratégie avancée basée sur LoRA pour adapter efficacement des Transformateurs de Diffusion à grande échelle (DiTs) pour la synthèse de textures multi-vues de haute qualité comme première étape. Des expériences approfondies démontrent qu'UniTEX atteint une qualité visuelle et une intégrité des textures supérieures aux approches existantes, offrant une solution généralisable et évolutive pour la génération automatisée de textures 3D. Le code sera disponible sur : https://github.com/YixunLiang/UniTEX.
Le Gaussian Splatting (GS) a récemment émergé comme une représentation efficace pour le rendu de scènes 3D à partir d'images 2D et a été étendu aux images, vidéos et contenus dynamiques 4D. Cependant, l'application du transfert de style aux représentations basées sur GS, en particulier au-delà de simples changements de couleur, reste un défi. Dans ce travail, nous présentons CLIPGaussians, le premier cadre unifié de transfert de style qui prend en charge la stylisation guidée par texte et par image à travers plusieurs modalités : images 2D, vidéos, objets 3D et scènes 4D. Notre méthode opère directement sur les primitives gaussiennes et s'intègre aux pipelines GS existants en tant que module complémentaire, sans nécessiter de modèles génératifs volumineux ni de réentraînement à partir de zéro. L'approche CLIPGaussians permet une optimisation conjointe de la couleur et de la géométrie dans les contextes 3D et 4D, et assure une cohérence temporelle dans les vidéos, tout en conservant une taille de modèle réduite. Nous démontrons une fidélité et une cohérence de style supérieures pour toutes les tâches, validant CLIPGaussians comme une solution universelle et efficace pour le transfert de style multimodal.
Les méthodes existantes de distillation de chaînes de raisonnement (CoT) peuvent transférer efficacement les capacités de raisonnement aux modèles de base, mais elles souffrent de deux limitations majeures : la verbosité excessive des traces de raisonnement et l'adaptabilité insuffisante à la difficulté des problèmes. Les longues traces de raisonnement augmentent significativement les coûts d'inférence, et les solutions de longueur uniforme empêchent les modèles de base d'apprendre des stratégies de raisonnement adaptatives. Pour résoudre ces problèmes, nous proposons une méthode de prompting adaptée à la difficulté (DAP) pour raccourcir dynamiquement les traces de raisonnement sans perte de performance. Dans notre approche, un grand modèle enseignant évalue d'abord la difficulté de chaque problème, puis réécrit ses traces de raisonnement à une longueur appropriée plus courte, produisant ainsi des traces de raisonnement concises mais complètes. En exploitant le pipeline DAP, nous avons constitué un ensemble de données distillé appelé LiteCoT, composé de 100 000 exemples de raisonnement concis, avec des solutions ne dépassant en moyenne que 720 tokens (un ordre de grandeur plus court que les CoT typiques). En utilisant LiteCoT, nous avons distillé une nouvelle famille de modèles de raisonnement appelée Liter (1,5B, 7B et 32B) basée sur l'architecture Qwen2.5. Les expériences montrent qu'un modèle étudiant affiné sur seulement 100 000 de ces échantillons CoT élagués selon la difficulté surpasse un modèle distillé sur 800 000 échantillons CoT originaux longs, tout en réduisant significativement les coûts d'entraînement et d'inférence. Notre méthode généralise également bien : sur 11 benchmarks divers, les CoT plus courts adaptés à la difficulté atteignent une précision égale ou supérieure à celle des longues chaînes, en utilisant beaucoup moins de tokens. Par exemple, sur l'examen difficile AIME24, notre approche atteint 74,2 % de Pass@1 en utilisant seulement environ 5 000 tokens d'inférence, surpassant d'autres méthodes qui consomment beaucoup plus de tokens. Notre code et nos données sont disponibles à l'adresse https://github.com/Evanwu1125/LiteCoT.
Nous présentons un cadre basé sur des images clés pour générer des vidéos de danse animale synchronisées à la musique et conscientes de la chorégraphie. En partant de quelques images clés représentant des poses distinctes d'animaux — générées via des invites texte-image ou GPT-4o — nous formulons la synthèse de danse comme un problème d'optimisation de graphe : trouver la structure d'images clés optimale qui satisfait un motif chorégraphique spécifique de battements, lequel peut être automatiquement estimé à partir d'une vidéo de danse de référence. Nous introduisons également une approche pour la génération d'images de poses en miroir, essentielle pour capturer la symétrie dans la danse. Les images intermédiaires sont synthétisées à l'aide d'un modèle de diffusion vidéo. Avec seulement six images clés en entrée, notre méthode peut produire des vidéos de danse allant jusqu'à 30 secondes pour une large gamme d'animaux et de pistes musicales.
Les modèles de projection gaussienne 3D en flux direct (3DGS) ont récemment émergé comme une solution prometteuse pour la synthèse de nouvelles vues, permettant une inférence en une seule passe sans nécessiter d'optimisation 3DGS par scène. Cependant, leur évolutivité est fondamentalement limitée par la capacité réduite de leurs encodeurs, entraînant une dégradation des performances ou une consommation excessive de mémoire à mesure que le nombre de vues d'entrée augmente. Dans ce travail, nous analysons les frameworks 3DGS en flux direct à travers le prisme du principe du goulot d'étranglement de l'information et introduisons ZPressor, un module léger et indépendant de l'architecture qui permet une compression efficace des entrées multi-vues en un état latent compact Z, conservant les informations essentielles de la scène tout en éliminant la redondance. Concrètement, ZPressor permet aux modèles 3DGS en flux direct existants de s'adapter à plus de 100 vues d'entrée à une résolution de 480P sur un GPU de 80 Go, en partitionnant les vues en ensembles d'ancrage et de support et en utilisant l'attention croisée pour compresser les informations des vues de support dans les vues d'ancrage, formant ainsi l'état latent compressé Z. Nous montrons que l'intégration de ZPressor dans plusieurs modèles 3DGS en flux direct de pointe améliore systématiquement les performances avec un nombre modéré de vues d'entrée et renforce la robustesse dans des configurations de vues denses sur deux benchmarks à grande échelle, DL3DV-10K et RealEstate10K. Les résultats vidéo, le code et les modèles entraînés sont disponibles sur notre page de projet : https://lhmd.top/zpressor.
Le développement de logiciels hautes performances est une tâche complexe qui nécessite une expertise spécialisée. Nous présentons GSO, un benchmark pour évaluer les capacités des modèles de langage dans le développement de logiciels hautes performances. Nous développons un pipeline automatisé qui génère et exécute des tests de performance pour analyser les historiques de commits de dépôts, identifiant ainsi 102 tâches d'optimisation complexes réparties sur 10 bases de code, couvrant divers domaines et langages de programmation. Un agent reçoit une base de code et un test de performance comme spécification précise, et a pour mission d'améliorer l'efficacité en temps d'exécution, mesurée par rapport à l'optimisation réalisée par un développeur expert. Notre évaluation quantitative révèle que les principaux agents SWE rencontrent des difficultés significatives, avec un taux de réussite inférieur à 5 %, et des améliorations limitées même avec une mise à l'échelle au moment de l'inférence. Notre analyse qualitative identifie les principaux modes d'échec, notamment les difficultés avec les langages de bas niveau, la pratique de stratégies d'optimisation paresseuses, et les défis liés à la localisation précise des goulots d'étranglement. Nous publions le code et les artefacts de notre benchmark ainsi que les trajectoires des agents pour permettre des recherches futures.
Bien que les représentations multimodales pré-entraînées (par exemple, CLIP) aient démontré des capacités impressionnantes, elles présentent des vulnérabilités compositionnelles significatives conduisant à des jugements contre-intuitifs. Nous introduisons Multimodal Adversarial Compositionality (MAC), un benchmark qui exploite les modèles de langage de grande taille (LLMs) pour générer des échantillons de texte trompeurs afin de mettre à profit ces vulnérabilités à travers différentes modalités, et les évalue à la fois par le taux de réussite des attaques par échantillon et par la diversité basée sur l'entropie au niveau du groupe. Pour améliorer les méthodes zero-shot, nous proposons une approche d'auto-apprentissage qui utilise un ajustement fin par rejet d'échantillons avec un filtrage favorisant la diversité, ce qui améliore à la fois le taux de réussite des attaques et la diversité des échantillons. En utilisant des modèles de langage plus petits comme Llama-3.1-8B, notre approche démontre une performance supérieure dans la révélation des vulnérabilités compositionnelles à travers diverses représentations multimodales, incluant les images, les vidéos et les audios.
Ces dernières années ont vu des avancées rapides dans la génération d'images pilotée par l'IA. Les premiers modèles de diffusion mettaient l'accent sur la qualité perceptuelle, tandis que les nouveaux modèles multimodaux comme GPT-4o-image intègrent un raisonnement de haut niveau, améliorant la compréhension sémantique et la composition structurelle. La génération d'illustrations scientifiques illustre bien cette évolution : contrairement à la synthèse d'images générales, elle exige une interprétation précise du contenu technique et la transformation d'idées abstraites en visuels clairs et standardisés. Cette tâche est nettement plus exigeante en connaissances et laborieuse, nécessitant souvent des heures de travail manuel et des outils spécialisés. L'automatiser de manière contrôlée et intelligente apporterait une valeur pratique substantielle. Pourtant, aucun benchmark n'existe actuellement pour évaluer l'IA sur ce front. Pour combler cette lacune, nous introduisons SridBench, le premier benchmark dédié à la génération de figures scientifiques. Il comprend 1 120 instances sélectionnées à partir d'articles scientifiques de premier plan dans 13 disciplines des sciences naturelles et informatiques, collectées par des experts humains et des MLLMs. Chaque échantillon est évalué selon six dimensions, incluant la fidélité sémantique et la précision structurelle. Les résultats expérimentaux révèlent que même les modèles de pointe comme GPT-4o-image sont en retard par rapport aux performances humaines, avec des problèmes courants dans la clarté texte/visuel et l'exactitude scientifique. Ces résultats soulignent la nécessité de capacités de génération visuelle plus avancées, pilotées par le raisonnement.
Les rapports de radiologie transmettent des observations cliniques détaillées et captent le raisonnement diagnostique qui évolue au fil du temps. Cependant, les méthodes d'évaluation existantes se limitent à des contextes de rapport unique et reposent sur des métriques grossières qui ne parviennent pas à saisir la sémantique clinique fine et les dépendances temporelles. Nous présentons LUNGUAGE, un ensemble de données de référence pour la génération structurée de rapports de radiologie, qui prend en charge à la fois l'évaluation de rapports uniques et l'évaluation longitudinale au niveau du patient sur plusieurs études. Il contient 1 473 rapports annotés de radiographies thoraciques, chacun examiné par des experts, et 80 d'entre eux contiennent des annotations longitudinales pour capturer la progression de la maladie et les intervalles entre les études, également examinés par des experts. En utilisant ce benchmark, nous développons un cadre en deux étapes qui transforme les rapports générés en représentations structurées alignées sur un schéma, permettant une interprétation longitudinale. Nous proposons également LUNGUAGESCORE, une métrique interprétable qui compare les sorties structurées au niveau des entités, des relations et des attributs tout en modélisant la cohérence temporelle sur les chronologies des patients. Ces contributions établissent le premier ensemble de données de référence, cadre de structuration et métrique d'évaluation pour les rapports de radiologie séquentiels, avec des résultats empiriques démontrant que LUNGUAGESCORE soutient efficacement l'évaluation des rapports structurés. Le code est disponible à l'adresse : https://github.com/SuperSupermoon/Lunguage
Les capacités croissantes des modèles de langage multimodaux à grande échelle (MLLMs) ont fait progresser des tâches telles que la compréhension des graphiques. Cependant, ces modèles souffrent souvent d'hallucinations, où les séquences de texte générées entrent en conflit avec les données visuelles fournies. Pour remédier à cela, nous introduisons l'Attribution Visuelle Post-Hoc pour les Graphiques, qui identifie des éléments granulaires du graphique validant une réponse associée au graphique. Nous proposons ChartLens, un nouvel algorithme d'attribution de graphiques qui utilise des techniques basées sur la segmentation pour identifier les objets du graphique et emploie un ensemble de marques pour inciter les MLLMs à effectuer une attribution visuelle granulaire. De plus, nous présentons ChartVA-Eval, un benchmark comprenant des graphiques synthétiques et réels issus de divers domaines tels que la finance, les politiques publiques et l'économie, avec des annotations d'attribution granulaires. Nos évaluations montrent que ChartLens améliore les attributions granulaires de 26 à 66 %.
Les grands modèles de langage ont été largement étudiés en tant que bases de connaissances neuronales pour leur accès au savoir, leur éditabilité, leur raisonnement et leur explicabilité. Cependant, peu de travaux se concentrent sur les motifs structurels de leurs connaissances. Motivés par cette lacune, nous explorons ces motifs structurels sous l'angle des graphes. Nous quantifions les connaissances des LLM à la fois au niveau des triplets et des entités, et analysons leur relation avec les propriétés structurelles des graphes telles que le degré des nœuds. De plus, nous mettons en évidence l'homophilie de connaissances, où les entités topologiquement proches présentent des niveaux de savoir similaires, ce qui nous motive à développer des modèles d'apprentissage automatique sur graphes pour estimer les connaissances d'une entité en fonction de ses voisins locaux. Ce modèle permet également une vérification précieuse des connaissances en sélectionnant les triplets moins connus des LLM. Les résultats empiriques montrent que l'utilisation de triplets sélectionnés pour le fine-tuning conduit à des performances supérieures.
L'intelligence spatiale est essentielle pour les modèles de langage multimodal de grande envergure (MLLMs) opérant dans le monde physique complexe. Cependant, les benchmarks existants ne sondent que les relations sur une seule image et échouent ainsi à évaluer le raisonnement spatial multi-image que nécessitent les déploiements dans le monde réel. Nous présentons MMSI-Bench, un benchmark de question-réponse visuelle (VQA) dédié à l'intelligence spatiale multi-image. Six chercheurs en vision 3D ont passé plus de 300 heures à élaborer méticuleusement 1 000 questions à choix multiples complexes et sans ambiguïté à partir de plus de 120 000 images, chacune étant associée à des distracteurs soigneusement conçus et à un processus de raisonnement étape par étape. Nous menons des expériences approfondies et évaluons minutieusement 34 MLLMs open-source et propriétaires, observant un écart important : le modèle open-source le plus performant atteint environ 30 % de précision, tandis que le modèle de raisonnement o3 d'OpenAI atteint 40 %, contre 97 % pour les humains. Ces résultats soulignent la nature exigeante de MMSI-Bench et le potentiel considérable pour les recherches futures. En exploitant les processus de raisonnement annotés, nous proposons également un pipeline automatisé d'analyse des erreurs qui diagnostique quatre modes d'échec dominants, incluant (1) les erreurs de fondation, (2) les erreurs de correspondance de chevauchement et de reconstruction de scène, (3) les erreurs de raisonnement de transformation de situation, et (4) les erreurs de logique spatiale, offrant ainsi des perspectives précieuses pour faire progresser l'intelligence spatiale multi-image. Page du projet : https://runsenxu.com/projects/MMSI_Bench .
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) est devenue une technique standard pour aligner les modèles de langage avec les préférences humaines de manière supervisée. Malgré son succès empirique, la justification théorique derrière sa paramétrisation de récompense par rapport logarithmique reste incomplète. Dans ce travail, nous comblons cette lacune en utilisant la Distribution d'Information Différentielle (Differential Information Distribution, DID) : une distribution sur les séquences de tokens qui capture l'information acquise lors des mises à jour de la politique. Premièrement, nous montrons que lorsque les étiquettes de préférence encodent l'information différentielle nécessaire pour transformer une politique de référence en une politique cible, la récompense par rapport logarithmique dans DPO émerge comme la forme uniquement optimale pour apprendre la politique cible via l'optimisation des préférences. Ce résultat conduit naturellement à une expression en forme fermée pour la distribution d'échantillonnage optimale sur les réponses rejetées. Deuxièmement, nous constatons que la condition pour que les préférences encodent l'information différentielle est fondamentalement liée à une hypothèse implicite concernant les politiques ordonnées par marge logarithmique — un biais inductif largement utilisé dans l'optimisation des préférences mais précédemment non reconnu. Enfin, en analysant l'entropie de la DID, nous caractérisons comment l'apprentissage d'une information différentielle à faible entropie renforce la distribution de la politique, tandis qu'une information différentielle à haute entropie induit un effet de lissage, ce qui explique le phénomène de déplacement de la vraisemblance logarithmique. Nous validons nos résultats théoriques dans des expériences synthétiques et les étendons à des ensembles de données réels de suivi d'instructions. Nos résultats suggèrent que l'apprentissage d'une information différentielle à haute entropie est crucial pour le suivi général d'instructions, tandis que l'apprentissage d'une information différentielle à faible entropie bénéficie aux questions-réponses nécessitant des connaissances approfondies. Globalement, notre travail présente une perspective unificatrice sur l'objectif de DPO, la structure des données de préférence et les comportements de politique résultants à travers le prisme de l'information différentielle.
Alors que l'apprentissage par renforcement (RL) sur des chaînes de pensée a considérablement fait progresser les modèles de langage dans des tâches telles que les mathématiques et la programmation, le raisonnement visuel introduit une complexité supplémentaire en exigeant que les modèles dirigent l'attention visuelle, interprètent les entrées perceptuelles et ancrent le raisonnement abstrait dans des preuves spatiales. Nous présentons ViGoRL (Visually Grounded Reinforcement Learning), un modèle vision-langage entraîné avec RL pour ancrer explicitement chaque étape de raisonnement à des coordonnées visuelles spécifiques. Inspiré par la prise de décision visuelle humaine, ViGoRL apprend à produire des traces de raisonnement spatialement ancrées, guidant l'attention visuelle vers les régions pertinentes pour la tâche à chaque étape. Lorsqu'une exploration fine est nécessaire, notre nouveau cadre RL multi-tours permet au modèle de zoomer dynamiquement sur les coordonnées prédites au fur et à mesure que le raisonnement se déroule. Sur un ensemble diversifié de benchmarks de raisonnement visuel—incluant SAT-2 et BLINK pour le raisonnement spatial, V*bench pour la recherche visuelle, et ScreenSpot et VisualWebArena pour l'ancrage basé sur le web—ViGoRL surpasse systématiquement à la fois le fine-tuning supervisé et les baselines RL conventionnelles qui manquent de mécanismes d'ancrage explicites. L'intégration du RL multi-tours avec un retour visuel zoomé améliore significativement les performances de ViGoRL pour la localisation de petits éléments d'interface graphique et la recherche visuelle, atteignant 86,4 % sur V*Bench. De plus, nous constatons que l'ancrage amplifie d'autres comportements visuels tels que l'exploration de régions, la définition de sous-objectifs ancrés et la vérification visuelle. Enfin, les évaluations humaines montrent que les références visuelles du modèle sont non seulement spatialement précises, mais aussi utiles pour comprendre les étapes de raisonnement du modèle. Nos résultats montrent que le RL visuellement ancré est un paradigme puissant pour doter les modèles de raisonnement visuel généraliste.
L'objectif principal de la quantification post-entraînement (PTQ) est de produire un modèle compressé dont la distribution de sortie soit aussi proche que possible de celle du modèle original. Pour y parvenir de manière réalisable, presque tous les algorithmes de PTQ pour modèles de langage (LLM) quantifient les couches linéaires en minimisant indépendamment l'erreur d'activation immédiate. Cependant, cet objectif localisé ignore l'effet des couches suivantes, donc sa réduction ne garantit pas nécessairement un modèle plus proche. Dans ce travail, nous introduisons Yet Another Quantization Algorithm (YAQA), un algorithme d'arrondi adaptatif qui utilise des approximations factorisées de Kronecker de la hessienne de chaque couche linéaire par rapport à la divergence KL du modèle complet. YAQA se compose de deux éléments : des esquisses factorisées de Kronecker de la hessienne complète par couche, qui peuvent être calculées de manière réalisable pour des LLM de centaines de milliards de paramètres, et un algorithme d'arrondi indépendant du quantificateur qui utilise ces esquisses et est accompagné de garanties théoriques. Sur une large gamme de modèles et de quantificateurs, YAQA réduit empiriquement la divergence KL par rapport au modèle original d'environ 30 %, tout en atteignant des performances de pointe sur les tâches en aval.
L'évaluation de la créativité demeure une frontière complexe pour les modèles de langage à grande échelle (LLMs). Les évaluations actuelles reposent fortement sur des jugements humains inefficaces et coûteux, ce qui entrave les progrès dans l'amélioration de la créativité des machines. Bien que des méthodes automatisées existent, allant des tests psychologiques aux approches basées sur des heuristiques ou des prompts, elles manquent souvent de généralisabilité ou d'alignement avec les jugements humains. Pour résoudre ces problèmes, nous proposons dans cet article un cadre novateur de comparaison par paires pour évaluer la créativité textuelle, en exploitant des instructions contextuelles partagées pour améliorer la cohérence de l'évaluation. Nous introduisons CreataSet, un jeu de données à grande échelle comprenant plus de 100 000 paires instruction-réponse créatives de niveau humain et plus d'un million de paires synthétiques, couvrant diverses tâches en domaine ouvert. En entraînant sur CreataSet, nous développons un évaluateur basé sur un LLM nommé CrEval. CrEval démontre une supériorité remarquable par rapport aux méthodes existantes en termes d'alignement avec les jugements humains. Les résultats expérimentaux soulignent l'importance indispensable de l'intégration de données générées par l'homme et de données synthétiques pour entraîner des évaluateurs hautement robustes, et mettent en avant l'utilité pratique de CrEval pour stimuler la créativité des LLMs. Nous publierons bientôt toutes les données, le code et les modèles pour soutenir les recherches futures.
Dans ce travail, nous révélons les limites des tokenizers visuels et des VAEs (Variational Autoencoders) dans la préservation des caractéristiques fines, et proposons un benchmark pour évaluer la performance de reconstruction pour deux contenus visuels complexes : le texte et le visage. Les tokenizers visuels et les VAEs ont considérablement fait progresser la génération visuelle et la modélisation multimodale en fournissant des représentations d'images compressées ou quantifiées plus efficaces. Cependant, bien qu'ils aident les modèles de production à réduire les charges de calcul, la perte d'information due à la compression d'images limite fondamentalement la qualité maximale de la génération visuelle. Pour évaluer cette limite supérieure, nous nous concentrons sur l'évaluation des caractéristiques reconstruites du texte et du visage, car elles présentent généralement : 1) des échelles plus petites, 2) des textures denses et riches, 3) une tendance à s'effondrer, et 4) une sensibilité élevée à la vision humaine. Nous commençons par collecter et organiser un ensemble diversifié d'images claires de texte et de visages à partir de jeux de données existants. Contrairement aux approches utilisant des modèles VLM, nous employons des modèles établis de reconnaissance optique de caractères (OCR) et de reconnaissance faciale pour l'évaluation, garantissant la précision tout en maintenant un processus d'évaluation extrêmement léger <span style="font-weight: bold; color: rgb(214, 21, 21);">nécessitant seulement 2 Go de mémoire et 4 minutes</span> pour être complété. En utilisant notre benchmark, nous analysons la qualité de reconstruction du texte et du visage à différentes échelles pour divers tokenizers d'images et VAEs. Nos résultats montrent que les tokenizers visuels modernes peinent encore à préserver les caractéristiques fines, en particulier à des échelles plus petites. Nous étendons également ce cadre d'évaluation à la vidéo, en réalisant une analyse approfondie des tokenizers vidéo. De plus, nous démontrons que les métriques traditionnelles ne reflètent pas avec précision la performance de reconstruction pour les visages et le texte, tandis que les métriques que nous proposons servent de complément efficace.
Les grands modèles de langage (LLMs) ont démontré un potentiel significatif dans des disciplines scientifiques telles que la biomédecine, notamment dans la génération d'hypothèses, où ils peuvent analyser une vaste littérature, identifier des modèles et suggérer des orientations de recherche. Cependant, un défi majeur réside dans l'évaluation de la véracité des hypothèses générées, car la vérification de leur exactitude nécessite souvent un temps et des ressources considérables. De plus, le problème d'hallucination des LLMs peut conduire à la génération d'hypothèses qui semblent plausibles mais qui sont finalement incorrectes, compromettant ainsi leur fiabilité. Pour faciliter l'étude systématique de ces défis, nous introduisons TruthHypo, un benchmark pour évaluer les capacités des LLMs à générer des hypothèses biomédicales véridiques, et KnowHD, un détecteur d'hallucinations basé sur la connaissance pour évaluer dans quelle mesure les hypothèses sont ancrées dans les connaissances existantes. Nos résultats montrent que les LLMs peinent à générer des hypothèses véridiques. En analysant les hallucinations dans les étapes de raisonnement, nous démontrons que les scores de fondement fournis par KnowHD constituent une métrique efficace pour filtrer les hypothèses véridiques parmi les diverses sorties des LLMs. Les évaluations humaines valident en outre l'utilité de KnowHD pour identifier les hypothèses véridiques et accélérer la découverte scientifique. Nos données et notre code source sont disponibles à l'adresse https://github.com/Teddy-XiongGZ/TruthHypo.
L'estimation de qualité au niveau des mots (WQE) vise à identifier automatiquement les erreurs fines dans les sorties de traduction automatique et trouve de nombreuses applications, notamment pour assister les traducteurs lors de la post-édition. Les techniques modernes de WQE sont souvent coûteuses, impliquant l'utilisation de grands modèles de langage ou un entraînement ad hoc sur de grandes quantités de données annotées manuellement. Dans ce travail, nous explorons des alternatives efficaces exploitant les avancées récentes en interprétabilité des modèles de langage et en quantification de l'incertitude pour identifier les erreurs de traduction à partir du fonctionnement interne des modèles de traduction. Dans notre évaluation couvrant 14 métriques sur 12 directions de traduction, nous quantifions l'impact de la variation des annotations humaines sur la performance des métriques en utilisant plusieurs ensembles d'annotations humaines. Nos résultats mettent en évidence le potentiel inexploité des métriques non supervisées, les limites des méthodes supervisées face à l'incertitude des annotations, et la fragilité des pratiques d'évaluation basées sur un seul annotateur.
Le Classifier-Free Guidance (CFG) améliore significativement la contrôlabilité des modèles génératifs en interpolant des prédictions conditionnelles et non conditionnelles. Cependant, le CFG standard utilise souvent une entrée non conditionnelle statique, ce qui peut être sous-optimal pour les processus de génération itératifs où l'incertitude du modèle varie dynamiquement. Nous introduisons l'Adaptive Classifier-Free Guidance (A-CFG), une méthode novatrice qui adapte l'entrée non conditionnelle en exploitant la confiance prédictive instantanée du modèle. À chaque étape d'un modèle de langage à diffusion masquée itératif, l'A-CFG identifie les tokens dans la séquence générée actuelle pour lesquels le modèle montre une faible confiance. Ces tokens sont temporairement re-masqués pour créer une entrée non conditionnelle dynamique et localisée. Cela concentre l'influence corrective du CFG précisément sur les zones d'ambiguïté, conduisant à un guidage plus efficace. Nous intégrons l'A-CFG dans un modèle de langage à diffusion masquée de pointe et démontrons son efficacité. Les expériences sur divers benchmarks de génération de langage montrent que l'A-CFG apporte des améliorations substantielles par rapport au CFG standard, atteignant par exemple un gain de 3,9 points sur GPQA. Notre travail met en évidence l'avantage d'adapter dynamiquement les mécanismes de guidage à l'incertitude du modèle dans la génération itérative.
Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans les tâches de question-réponse (QA) grâce à leurs capacités supérieures en compréhension et génération du langage naturel. Cependant, les systèmes de QA basés sur les LLMs rencontrent des difficultés avec les tâches de QA complexes en raison d'une capacité de raisonnement limitée, de connaissances obsolètes et de phénomènes d'hallucination. Plusieurs travaux récents proposent de synthétiser les LLMs et les graphes de connaissances (KGs) pour la QA afin de relever ces défis. Dans cette étude, nous proposons une nouvelle taxonomie structurée qui catégorise les méthodologies de synthèse des LLMs et des KGs pour la QA selon les catégories de QA et le rôle du KG lors de son intégration avec les LLMs. Nous examinons systématiquement les avancées les plus récentes dans la synthèse des LLMs et des KGs pour la QA, et comparons et analysons ces approches en termes de forces, de limites et des exigences en matière de KG. Nous alignons ensuite ces approches avec les tâches de QA et discutons de la manière dont elles répondent aux principaux défis des différentes QA complexes. Enfin, nous résumons les avancées, les métriques d'évaluation et les ensembles de données de référence, et mettons en lumière les défis ouverts et les opportunités.