Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) ont étendu leur impact au-delà du traitement du langage naturel, favorisant considérablement le développement de recherches interdisciplinaires. Récemment, divers agents basés sur des LLMs ont été développés pour assister les progrès de la découverte scientifique à travers de multiples aspects et domaines. Parmi ceux-ci, les agents utilisant des ordinateurs, capables d'interagir avec les systèmes d'exploitation comme le font les humains, ouvrent la voie à la résolution automatisée de problèmes scientifiques et à la gestion des routines dans les workflows des chercheurs. Reconnaissant le potentiel transformateur de ces agents, nous présentons ScienceBoard, qui englobe deux contributions complémentaires : (i) un environnement réaliste et multi-domaines mettant en avant des workflows scientifiques dynamiques et visuellement riches avec des logiciels professionnels intégrés, où les agents peuvent interagir de manière autonome via différentes interfaces pour accélérer des tâches et expériences de recherche complexes ; et (ii) un benchmark exigeant de 169 tâches de haute qualité, rigoureusement validées et issues du monde réel, couvrant des workflows de découverte scientifique dans des domaines tels que la biochimie, l'astronomie et la géoinformatique. Des évaluations approfondies d'agents dotés de backbones de pointe (par exemple, GPT-4o, Claude 3.7, UI-TARS) montrent que, malgré certains résultats prometteurs, ils ne parviennent pas encore à assister de manière fiable les scientifiques dans des workflows complexes, atteignant seulement un taux de réussite global de 15 %. Une analyse approfondie fournit en outre des insights précieux pour surmonter les limitations actuelles des agents et pour des principes de conception plus efficaces, ouvrant la voie à la création d'agents plus performants pour la découverte scientifique. Notre code, environnement et benchmark sont disponibles à l'adresse suivante : https://qiushisun.github.io/ScienceBoard-Home/.
La génération d'affiches académiques est une tâche cruciale mais complexe dans la communication scientifique, nécessitant la compression de documents à contexte long et entrelacé en une seule page visuellement cohérente. Pour relever ce défi, nous introduisons le premier benchmark et suite de métriques pour la génération d'affiches, qui associe des articles récents de conférence à des affiches conçues par les auteurs et évalue les résultats sur (i) la Qualité Visuelle - alignement sémantique avec les affiches humaines, (ii) la Cohérence Textuelle - fluidité linguistique, (iii) l'Évaluation Holistique - six critères esthétiques et informationnels détaillés notés par un VLM-juge, et notamment (iv) PaperQuiz - la capacité de l'affiche à transmettre le contenu central de l'article, mesurée par des VLMs répondant à des quiz générés. Sur la base de ce benchmark, nous proposons PosterAgent, un pipeline multi-agent de haut en bas avec boucle visuelle : le (a) Parser distille l'article en une bibliothèque d'actifs structurés ; le (b) Planner aligne les paires texte-visuel dans une disposition en arbre binaire qui préserve l'ordre de lecture et l'équilibre spatial ; et la boucle (c) Painter-Commenter affine chaque panneau en exécutant du code de rendu et en utilisant les retours d'un VLM pour éliminer les débordements et assurer l'alignement. Dans notre évaluation exhaustive, nous constatons que les sorties de GPT-4o - bien que visuellement attrayantes à première vue - présentent souvent du texte bruyant et de faibles scores PaperQuiz, et nous constatons que l'engagement du lecteur est le principal goulot d'étranglement esthétique, car les affiches conçues par des humains reposent largement sur la sémantique visuelle pour transmettre le sens. Nos variantes entièrement open-source (par exemple, basées sur la série Qwen-2.5) surpassent les systèmes multi-agents existants pilotés par 4o sur presque toutes les métriques, tout en utilisant 87 % de tokens en moins. Cela transforme un article de 22 pages en une affiche finalisée mais modifiable au format .pptx - le tout pour seulement 0,005 $. Ces résultats tracent des directions claires pour la prochaine génération de modèles de génération d'affiches entièrement automatisés. Le code et les jeux de données sont disponibles à l'adresse https://github.com/Paper2Poster/Paper2Poster.
Le raisonnement logique est un aspect fondamental de l'intelligence humaine et une capacité essentielle pour les modèles de langage multimodaux de grande envergure (MLLMs). Malgré les avancées significatives dans le raisonnement multimodal, les benchmarks existants ne parviennent pas à évaluer de manière exhaustive leurs capacités de raisonnement en raison de l'absence de catégorisation explicite des types de raisonnement logique et d'une compréhension floue du raisonnement. Pour résoudre ces problèmes, nous introduisons MME-Reasoning, un benchmark complet conçu pour évaluer la capacité de raisonnement des MLLMs, qui couvre les trois types de raisonnement (à savoir inductif, déductif et abductif) dans ses questions. Nous avons soigneusement sélectionné les données pour garantir que chaque question évalue efficacement la capacité de raisonnement plutôt que les compétences perceptuelles ou l'étendue des connaissances, et avons étendu les protocoles d'évaluation pour couvrir l'évaluation de questions diversifiées. Notre évaluation révèle des limitations substantielles des MLLMs de pointe lorsqu'ils sont soumis à des évaluations holistiques des capacités de raisonnement logique. Même les MLLMs les plus avancés montrent des performances limitées en matière de raisonnement logique complet, avec des déséquilibres de performance notables entre les types de raisonnement. En outre, nous avons mené une analyse approfondie des approches telles que le « mode de pensée » et le RL basé sur des règles, qui sont communément considérées comme améliorant les capacités de raisonnement. Ces résultats mettent en évidence les limitations critiques et les déséquilibres de performance des MLLMs actuels dans divers scénarios de raisonnement logique, fournissant des insights complets et systématiques pour la compréhension et l'évaluation des capacités de raisonnement.
Les récentes avancées telles qu'OpenAI-o1 et DeepSeek R1 ont démontré le potentiel de l'apprentissage par renforcement (Reinforcement Learning, RL) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs). Bien que les efforts de réplication open-source se soient principalement concentrés sur les domaines mathématiques et de programmation, les méthodes et ressources pour développer des capacités de raisonnement général restent sous-explorées. Cet écart est en partie dû à la difficulté de collecter des données de raisonnement diversifiées et vérifiables adaptées au RL. Nous émettons l'hypothèse que le raisonnement logique est essentiel pour développer des capacités de raisonnement général, car la logique constitue un élément fondamental du raisonnement. Dans ce travail, nous présentons SynLogic, un cadre de synthèse de données et un ensemble de données qui génèrent à grande échelle des données de raisonnement logique diversifiées, couvrant 35 tâches de raisonnement logique variées. L'approche SynLogic permet une synthèse contrôlée de données avec une difficulté et une quantité ajustables. Fait important, tous les exemples peuvent être vérifiés par des règles simples, ce qui les rend idéalement adaptés au RL avec des récompenses vérifiables. Dans nos expériences, nous validons l'efficacité de l'entraînement par RL sur l'ensemble de données SynLogic à l'aide de modèles de 7B et 32B. SynLogic permet d'atteindre des performances de pointe en raisonnement logique parmi les ensembles de données open-source, surpassant DeepSeek-R1-Distill-Qwen-32B de 6 points sur BBEH. De plus, le mélange des données SynLogic avec des tâches mathématiques et de programmation améliore l'efficacité de l'entraînement dans ces domaines et renforce significativement la généralisation du raisonnement. Notamment, notre modèle d'entraînement mixte surpasse DeepSeek-R1-Zero-Qwen-32B sur plusieurs benchmarks. Ces résultats positionnent SynLogic comme une ressource précieuse pour faire progresser les capacités de raisonnement général des LLMs. Nous mettons à disposition en open-source à la fois le pipeline de synthèse de données et l'ensemble de données SynLogic à l'adresse https://github.com/MiniMax-AI/SynLogic.
Les modèles de diffusion ont considérablement fait progresser la stylisation d'images, mais deux défis majeurs persistent : (1) maintenir une stylisation cohérente dans des scènes complexes, en particulier en ce qui concerne l'identité, la composition et les détails fins, et (2) prévenir la dégradation du style dans les pipelines image-à-image utilisant des LoRAs de style. La cohérence exceptionnelle de la stylisation de GPT-4o met en évidence l'écart de performance entre les méthodes open-source et les modèles propriétaires. Pour combler cet écart, nous proposons OmniConsistency, un plugin universel de cohérence exploitant les Transformers de Diffusion à grande échelle (DiTs). OmniConsistency apporte trois contributions principales : (1) un cadre d'apprentissage de cohérence en contexte, entraîné sur des paires d'images alignées pour une généralisation robuste ; (2) une stratégie d'apprentissage progressive en deux étapes, découplant l'apprentissage du style de la préservation de la cohérence pour atténuer la dégradation du style ; et (3) une conception entièrement plug-and-play compatible avec des LoRAs de style arbitraires sous le framework Flux. Des expériences approfondies montrent qu'OmniConsistency améliore significativement la cohérence visuelle et la qualité esthétique, atteignant des performances comparables à celles du modèle commercial de pointe GPT-4o.
Une étude récente a montré que les grands modèles de langage (LLMs) peuvent reconstruire des textes étonnamment longs - jusqu'à des milliers de tokens - via une génération autorégressive à partir d'un seul embedding d'entrée spécialement entraîné. Dans ce travail, nous explorons si une telle reconstruction est possible sans autorégression. Nous montrons que des LLMs figés peuvent générer des centaines de tokens précis en une seule passe avant, lorsqu'ils sont fournis avec seulement deux embeddings appris. Cela révèle une capacité surprenante et peu explorée des LLMs - la génération multi-tokens sans décodage itératif. Nous étudions le comportement de ces embeddings et apportons un éclairage sur le type d'informations qu'ils encodent. Nous montrons également empiriquement que bien que ces représentations ne soient pas uniques pour un texte donné, elles forment des régions connectées et locales dans l'espace d'embedding - une propriété qui suggère le potentiel d'apprentissage d'un encodeur dédié dans cet espace.
Les grands modèles de langage (LLMs) pour le raisonnement reposent fortement sur l'augmentation des ressources de calcul au moment de l'inférence pour accomplir des tâches de raisonnement complexes en générant des chaînes de "réflexion" étendues. Bien que cette approche démontre des résultats impressionnants, elle entraîne des coûts de calcul et des temps d'inférence significatifs. Dans ce travail, nous remettons en question l'hypothèse selon laquelle des chaînes de réflexion plus longues améliorent les capacités de raisonnement. Nous montrons d'abord que des chaînes de raisonnement plus courtes pour des questions individuelles sont nettement plus susceptibles de produire des réponses correctes - jusqu'à 34,5 % plus précises que la chaîne la plus longue échantillonnée pour la même question. Sur la base de ces résultats, nous proposons short-m@k, une nouvelle méthode d'inférence pour les LLMs de raisonnement. Notre méthode exécute k générations indépendantes en parallèle et interrompt le calcul dès que les m premiers processus de réflexion sont terminés. La réponse finale est choisie par vote majoritaire parmi ces m chaînes. La version basique short-1@k démontre des performances similaires, voire supérieures, au vote majoritaire standard dans des configurations à faible calcul - en utilisant jusqu'à 40 % de tokens de réflexion en moins. short-3@k, bien que légèrement moins efficace que short-1@k, surpasse systématiquement le vote majoritaire pour tous les budgets de calcul, tout en étant nettement plus rapide (jusqu'à 33 % de réduction du temps d'exécution). Inspirés par nos résultats, nous affinons un LLM en utilisant des chaînes de raisonnement courtes, longues et sélectionnées aléatoirement. Nous observons ensuite que l'entraînement sur les chaînes plus courtes conduit à de meilleures performances. Nos résultats suggèrent de repenser les méthodes actuelles de calcul au moment de l'inférence pour les LLMs de raisonnement, en soulignant qu'une "réflexion" plus longue ne se traduit pas nécessairement par une amélioration des performances et peut, contre-intuitivement, conduire à des résultats dégradés.
La génération Sujet-à-Vidéo (S2V) vise à créer des vidéos qui intègrent fidèlement du contenu de référence, offrant ainsi une flexibilité accrue dans la production de vidéos. Pour établir l'infrastructure nécessaire à la génération S2V, nous proposons OpenS2V-Nexus, composé de (i) OpenS2V-Eval, un benchmark granulaire, et (ii) OpenS2V-5M, un jeu de données à l'échelle du million. Contrairement aux benchmarks S2V existants hérités de VBench, qui se concentrent sur une évaluation globale et grossière des vidéos générées, OpenS2V-Eval se focalise sur la capacité du modèle à générer des vidéos cohérentes avec le sujet, présentant une apparence naturelle et une fidélité à l'identité du sujet. À cette fin, OpenS2V-Eval introduit 180 prompts issus de sept catégories principales de S2V, intégrant à la fois des données de test réelles et synthétiques. De plus, pour aligner précisément les préférences humaines avec les benchmarks S2V, nous proposons trois métriques automatiques, NexusScore, NaturalScore et GmeScore, pour quantifier respectivement la cohérence du sujet, le naturel et la pertinence textuelle dans les vidéos générées. Sur cette base, nous menons une évaluation complète de 16 modèles S2V représentatifs, mettant en lumière leurs forces et faiblesses selon différents contenus. Par ailleurs, nous créons le premier jeu de données open-source à grande échelle pour la génération S2V, OpenS2V-5M, qui comprend cinq millions de triplets sujet-texte-vidéo de haute qualité en 720P. Plus précisément, nous assurons la diversité des informations sur le sujet dans notre jeu de données en (1) segmentant les sujets et en construisant des informations d'appariement via des associations inter-vidéos, et (2) en utilisant GPT-Image-1 sur des images brutes pour synthétiser des représentations multi-vues. Grâce à OpenS2V-Nexus, nous fournissons une infrastructure robuste pour accélérer les futures recherches sur la génération S2V.
Les méthodes de mise à l'échelle au moment du test (Test-Time Scaling, TTS) pour améliorer le raisonnement des grands modèles de langage (Large Language Models, LLM) entraînent souvent des coûts de calcul substantiels, principalement en raison d'une dépendance excessive à des modèles de récompense de processus externes (Process Reward Models, PRM) ou à des méthodes d'échantillonnage comme Best-of-N (BoN). Cet article présente Guided by Gut (GG), un cadre TTS autoguidé efficace qui atteint des performances comparables à celles des PRM sans recourir à des modèles de vérification externes coûteux. Notre méthode utilise une recherche arborescente légère guidée uniquement par des signaux intrinsèques du LLM, à savoir la confiance au niveau des tokens et la nouveauté des étapes. Une innovation majeure consiste à améliorer la fiabilité des estimations de confiance internes via une phase de réglage par apprentissage par renforcement ciblé. Les évaluations empiriques sur des benchmarks de raisonnement mathématique complexes montrent que GG permet à des modèles plus petits (par exemple, 1,5 milliard de paramètres) d'atteindre une précision équivalente ou supérieure à celle de modèles nettement plus grands (par exemple, 32 à 70 milliards de paramètres), tout en réduisant l'utilisation de mémoire GPU jusqu'à 10 fois. Par rapport aux méthodes basées sur les PRM, GG atteint une précision comparable avec des vitesses d'inférence 8 fois plus rapides et une utilisation de mémoire 4 à 5 fois moindre. De plus, GG réduit l'utilisation de la mémoire du cache KV d'environ 50 % par rapport à la stratégie BoN, facilitant ainsi un déploiement plus efficace et pratique des techniques TTS.
Les récents progrès des modèles de langage multi-modaux (MLLMs) ont permis un traitement unifié du langage, de la vision et des entrées structurées, ouvrant la voie à des tâches complexes telles que la déduction logique, le raisonnement spatial et l'analyse scientifique. Malgré leur potentiel, les capacités de raisonnement des MLLMs, en particulier ceux enrichis de traces de pensée intermédiaires (MLLMs-T), restent mal comprises et manquent de benchmarks d'évaluation standardisés. Les travaux existants se concentrent principalement sur la perception ou la justesse des réponses finales, offrant peu d'informations sur la manière dont les modèles raisonnent ou échouent à travers les modalités. Pour combler cette lacune, nous introduisons le MMMR, un nouveau benchmark conçu pour évaluer rigoureusement le raisonnement multi-modal avec une pensée explicite. Le MMMR comprend 1) un ensemble de données de haute difficulté de 1 083 questions couvrant six types de raisonnement divers avec une profondeur symbolique et des exigences multi-étapes, et 2) un pipeline modulaire d'évaluation des traces de raisonnement (RTEP) pour évaluer la qualité du raisonnement au-delà de la précision, à travers des métriques comme la pertinence, la cohérence et des annotations d'erreurs structurées. Les résultats empiriques montrent que les MLLMs-T surpassent globalement leurs homologues sans pensée, mais même les meilleurs modèles comme Claude-3.7-Sonnet et Gemini-2.5 Pro souffrent de pathologies de raisonnement telles que l'incohérence et la sur-réflexion. Ce benchmark révèle des écarts persistants entre la précision et la qualité du raisonnement et fournit un pipeline d'évaluation actionnable pour le développement futur des modèles. Globalement, le MMMR offre une base scalable pour évaluer, comparer et améliorer la prochaine génération de systèmes de raisonnement multi-modaux.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont montré des résultats prometteurs dans la génération de code au niveau des fonctions, mais les tâches d'ingénierie logicielle au niveau des dépôts restent difficiles. Les solutions actuelles reposent principalement sur des agents LLM propriétaires, qui introduisent de l'imprévisibilité et limitent l'accessibilité, soulevant des préoccupations concernant la confidentialité des données et la personnalisation des modèles. Cet article explore si les LLMs open source peuvent efficacement traiter les tâches au niveau des dépôts sans nécessiter d'approches basées sur des agents. Nous démontrons que cela est possible en permettant aux LLMs de comprendre les fonctions et les fichiers au sein des bases de code grâce à leurs informations sémantiques et leurs dépendances structurelles. À cette fin, nous introduisons les modèles de graphe de code (CGMs), qui intègrent les structures de graphe de code des dépôts dans le mécanisme d'attention des LLMs et mappent les attributs des nœuds à l'espace d'entrée des LLMs à l'aide d'un adaptateur spécialisé. Combinée à un framework de RAG graphique sans agent, notre approche atteint un taux de résolution de 43,00 % sur le benchmark SWE-bench Lite en utilisant le modèle open source Qwen2.5-72B. Cette performance se classe première parmi les modèles à poids ouverts, deuxième parmi les méthodes utilisant des systèmes open source, et huitième au classement général, surpassant la précédente meilleure méthode basée sur un modèle open source de 12,33 %.
L'application de l'apprentissage par renforcement (Reinforcement Learning, RL) aux modèles de langage de grande taille pour la vidéo (Video-LLMs) montre un potentiel significatif pour le raisonnement complexe sur la vidéo. Cependant, les méthodes populaires de réglage fin par renforcement (Reinforcement Fine-Tuning, RFT), telles que l'optimisation de politique relative par groupe basée sur les résultats (Group Relative Policy Optimization, GRPO), sont limitées par des goulots d'étranglement dans la préparation des données (par exemple, le bruit ou le coût élevé) et présentent des améliorations instables dans la qualité des longues chaînes de raisonnement (chain-of-thoughts, CoTs) et des performances en aval. Pour répondre à ces limitations, nous proposons VerIPO, une méthode d'optimisation de politique itérative guidée par un vérificateur (Verifier-guided Iterative Policy Optimization), conçue pour améliorer progressivement la capacité des Video-LLMs à générer des chaînes de raisonnement profondes et à long terme. Le composant central est le vérificateur conscient des déploiements (Rollout-Aware Verifier), positionné entre les phases d'entraînement GRPO et d'optimisation des préférences directes (Direct Preference Optimization, DPO) pour former la boucle d'entraînement GRPO-Verifier-DPO. Ce vérificateur utilise de petits modèles de langage comme juges pour évaluer la logique de raisonnement des déploiements, permettant la construction de données contrastives de haute qualité, incluant des CoTs réfléchis et contextuellement cohérents. Ces échantillons de préférences soigneusement sélectionnés alimentent la phase DPO efficace (7 fois plus rapide que GRPO), conduisant à des améliorations marquées dans la qualité des chaînes de raisonnement, notamment en termes de longueur et de cohérence contextuelle. Cette boucle d'entraînement bénéficie de la recherche expansive de GRPO et de l'optimisation ciblée de DPO. Les résultats expérimentaux démontrent : 1) Une optimisation significativement plus rapide et plus efficace par rapport aux variantes standard de GRPO, offrant des performances supérieures ; 2) Nos modèles entraînés surpassent l'inférence directe des Video-LLMs à grande échelle réglés par instruction, produisant des CoTs longs et contextuellement cohérents sur diverses tâches de raisonnement vidéo ; et 3) Notre modèle avec une itération surpasse des modèles multimodaux puissants (par exemple, Kimi-VL) et des modèles de raisonnement long (par exemple, Video-R1), mettant en évidence son efficacité et sa stabilité.
Les Transformers de Diffusion (DiTs) sont essentiels pour la génération de vidéos, mais ils souffrent d'une latence importante due à la complexité quadratique de l'attention. En calculant uniquement les tokens critiques, l'attention parcimonieuse réduit les coûts de calcul et offre une approche prometteuse d'accélération. Cependant, nous constatons que les méthodes existantes ne parviennent pas à atteindre une qualité de génération optimale sous le même budget de calcul pour deux raisons : (1) Une identification imprécise des tokens critiques : les méthodes actuelles regroupent les tokens en fonction de leur position plutôt que de leur sémantique, ce qui conduit à des représentations agrégées imprécises. (2) Un gaspillage excessif de calcul : les tokens critiques sont dispersés parmi les tokens non critiques, ce qui entraîne un gaspillage de calcul sur les GPU, optimisés pour traiter des tokens contigus. Dans cet article, nous proposons SVG2, un framework sans entraînement qui maximise la précision d'identification et minimise le gaspillage de calcul, atteignant un compromis de frontière de Pareto entre qualité de génération et efficacité. Le cœur de SVG2 est la permutation sémantique, qui regroupe et réordonne les tokens en fonction de leur similarité sémantique en utilisant k-means. Cette approche garantit à la fois une représentation précise des clusters, améliorant la précision d'identification, et une disposition densifiée des tokens critiques, permettant un calcul efficace sans remplissage. De plus, SVG2 intègre un contrôle dynamique de budget top-p et des implémentations de noyaux personnalisées, atteignant des accélérations allant jusqu'à 2,30x et 1,89x tout en maintenant un PSNR allant jusqu'à 30 et 26 sur HunyuanVideo et Wan 2.1, respectivement.
Les modèles de langage multimodaux de grande taille (MLLMs) ont atteint une précision considérable dans la reconnaissance optique de caractères (OCR) à partir d'images statiques. Cependant, leur efficacité dans l'OCR vidéo est significativement réduite en raison de facteurs tels que le flou de mouvement, les variations temporelles et les effets visuels inhérents au contenu vidéo. Pour fournir des directives plus claires pour l'entraînement de MLLMs pratiques, nous introduisons le benchmark MME-VideoOCR, qui englobe un large éventail de scénarios d'application de l'OCR vidéo. MME-VideoOCR comprend 10 catégories de tâches regroupant 25 tâches individuelles et couvre 44 scénarios diversifiés. Ces tâches vont au-delà de la simple reconnaissance de texte pour intégrer une compréhension et un raisonnement plus profonds du contenu textuel dans les vidéos. Le benchmark se compose de 1 464 vidéos avec des résolutions, ratios d'aspect et durées variés, ainsi que de 2 000 paires de questions-réponses soigneusement sélectionnées et annotées manuellement. Nous évaluons 18 MLLMs de pointe sur MME-VideoOCR, révélant que même le modèle le plus performant (Gemini-2.5 Pro) n'atteint qu'une précision de 73,7 %. Une analyse fine montre que si les MLLMs existants démontrent de solides performances sur les tâches où les textes pertinents sont contenus dans une seule ou quelques images, ils présentent des capacités limitées pour gérer efficacement les tâches nécessitant une compréhension holistique de la vidéo. Ces limitations sont particulièrement évidentes dans les scénarios qui exigent un raisonnement spatio-temporel, une intégration d'informations inter-images ou une résistance aux biais de priorité linguistique. Nos résultats soulignent également l'importance d'une entrée visuelle haute résolution et d'une couverture temporelle suffisante pour une OCR fiable dans des scénarios vidéo dynamiques.
Dans cet article, nous présentons UI-Genie, un cadre auto-améliorant qui aborde deux défis majeurs des agents d'interface graphique (GUI) : la vérification des résultats des trajectoires est complexe et les données d'entraînement de haute qualité ne sont pas extensibles. Ces défis sont respectivement résolus par un modèle de récompense et un pipeline d'auto-amélioration. Le modèle de récompense, UI-Genie-RM, intègre une architecture entrelaçant images et texte qui traite efficacement le contexte historique et unifie les récompenses au niveau des actions et des tâches. Pour soutenir l'entraînement de UI-Genie-RM, nous développons des stratégies de génération de données soigneusement conçues, incluant la vérification basée sur des règles, la corruption contrôlée des trajectoires et l'extraction de négatifs difficiles. Pour relever le second défi, un pipeline d'auto-amélioration étend progressivement les tâches complexes résolubles des GUI en améliorant à la fois l'agent et les modèles de récompense grâce à une exploration guidée par les récompenses et une vérification des résultats dans des environnements dynamiques. Pour l'entraînement du modèle, nous générons UI-Genie-RM-517k et UI-Genie-Agent-16k, établissant ainsi le premier ensemble de données spécifique aux récompenses pour les agents GUI tout en démontrant une génération de trajectoires synthétiques de haute qualité sans annotation manuelle. Les résultats expérimentaux montrent que UI-Genie atteint des performances de pointe sur plusieurs benchmarks d'agents GUI grâce à trois générations d'auto-amélioration données-modèle. Nous mettons à disposition en open source l'implémentation complète de notre cadre ainsi que les ensembles de données générés pour faciliter les recherches futures sur https://github.com/Euphoria16/UI-Genie.
L'adaptation à faible rang (LoRA) est une méthode populaire pour le réglage fin efficace en paramètres (PEFT) des modèles génératifs, appréciée pour sa simplicité et son efficacité. Malgré des améliorations récentes, LoRA souffre toujours d'une limitation fondamentale : le surajustement lorsque le goulot d'étranglement est élargi. Elle fonctionne mieux aux rangs 32-64, mais sa précision stagne ou diminue à des rangs plus élevés, restant encore en deçà des performances du réglage fin complet (FFT). Nous identifions la cause profonde comme étant le goulot d'étranglement structurel de LoRA, qui introduit un enchevêtrement des gradients dans les canaux d'entrée non liés et déforme la propagation des gradients. Pour remédier à cela, nous introduisons une nouvelle structure, l'adaptation à faible rang granulaire (GraLoRA), qui partitionne les matrices de poids en sous-blocs, chacun avec son propre adaptateur à faible rang. Avec un coût de calcul ou de stockage négligeable, GraLoRA surmonte les limitations de LoRA, augmente efficacement la capacité de représentation et se rapproche davantage du comportement du FFT. Les expériences sur les benchmarks de génération de code et de raisonnement de bon sens montrent que GraLoRA surpasse systématiquement LoRA et d'autres méthodes de référence, atteignant un gain absolu allant jusqu'à +8,5 % en Pass@1 sur HumanEval+. Ces améliorations se maintiennent quelle que soit la taille du modèle ou les paramètres de rang, faisant de GraLoRA une solution évolutive et robuste pour le PEFT. Le code, les données et les scripts sont disponibles à l'adresse https://github.com/SqueezeBits/GraLoRA.git.
Les entreprises adoptent de plus en plus les modèles de langage de grande taille (LLM) pour des tâches de communication critiques, telles que la rédaction d'e-mails, la conception d'arguments de vente et la composition de messages informels. Le déploiement de ces modèles dans différentes régions nécessite qu'ils comprennent des contextes culturels et linguistiques variés et génèrent des réponses sûres et respectueuses. Pour les applications d'entreprise, il est crucial de réduire les risques réputationnels, de maintenir la confiance et d'assurer la conformité en identifiant et en gérant efficacement les langages inappropriés ou offensants. Pour répondre à ce besoin, nous présentons SweEval, un benchmark simulant des scénarios réels avec des variations de ton (positif ou négatif) et de contexte (formel ou informel). Les instructions demandent explicitement au modèle d'inclure des mots grossiers spécifiques tout en accomplissant la tâche. Ce benchmark évalue si les LLM se conforment ou résistent à de telles instructions inappropriées et examine leur alignement avec les cadres éthiques, les nuances culturelles et leurs capacités de compréhension linguistique. Afin de faire progresser la recherche sur la construction de systèmes d'IA éthiquement alignés pour les entreprises et au-delà, nous publions le jeu de données et le code : https://github.com/amitbcp/multilingual_profanity.
Les récents progrès dans le raisonnement CoT et le post-entraînement par RL ont été rapportés pour améliorer les capacités de raisonnement vidéo des MLLMs. Ces avancées soulèvent naturellement une question : ces modèles peuvent-ils effectuer un raisonnement vidéo complexe de manière comparable à des experts humains ? Cependant, les benchmarks vidéo existants évaluent principalement la perception visuelle et les capacités de mise en contexte, avec des questions qui peuvent être résolues à partir de prompts explicites ou d'indices visuels isolés. De tels benchmarks ne capturent pas pleinement les subtilités du raisonnement dans le monde réel, où les humains doivent activement rechercher, intégrer et analyser de multiples indices avant de parvenir à une conclusion. Pour résoudre ce problème, nous présentons Video-Holmes, un benchmark inspiré du processus de raisonnement de Sherlock Holmes, conçu pour évaluer les capacités de raisonnement vidéo complexe des MLLMs. Video-Holmes comprend 1 837 questions dérivées de 270 courts métrages à suspense annotés manuellement, couvrant sept tâches soigneusement conçues. Chaque tâche est construite en identifiant d'abord les événements clés et les relations causales dans les films, puis en concevant des questions qui nécessitent que les modèles localisent et relient activement de multiples indices visuels pertinents dispersés dans différents segments vidéo. Notre évaluation complète des MLLMs de pointe révèle que, bien que ces modèles excellent généralement en perception visuelle, ils rencontrent des difficultés substantielles à intégrer les informations et manquent souvent des indices critiques. Par exemple, le modèle le plus performant, Gemini-2.5-Pro, atteint une précision de seulement 45 %, la plupart des modèles obtenant des scores inférieurs à 40 %. Nous espérons que Video-Holmes pourra servir de "test Holmes" pour le raisonnement multimodal, incitant les modèles à raisonner davantage comme des humains et mettant en lumière les défis persistants dans ce domaine. Le benchmark est disponible sur https://github.com/TencentARC/Video-Holmes.
L’amélioration du raisonnement sur le code dans les grands modèles de langage (LLMs) est fondamentalement limitée par la rareté des jeux de données de haute difficulté, en particulier ceux incluant des cas de test vérifiables en entrée-sortie, nécessaires pour une validation rigoureuse des solutions à grande échelle. Nous présentons rStar-Coder, qui améliore significativement les capacités de raisonnement sur le code des LLMs en construisant un jeu de données à grande échelle et vérifié, comprenant 418K problèmes de code de niveau compétition, 580K solutions à raisonnement long ainsi que des cas de test riches et variés en termes de difficulté. Cela est réalisé grâce à trois contributions principales : (1) nous sélectionnons des problèmes de programmation compétitive et des solutions de référence pour synthétiser de nouveaux problèmes résolubles ; (2) nous introduisons un pipeline fiable de synthèse de cas de test en entrée-sortie, qui découple la génération en une méthode en trois étapes pour la génération des entrées et un mécanisme de vérification mutuelle pour un étiquetage efficace des sorties ; (3) nous enrichissons les problèmes avec des solutions à raisonnement long, vérifiées par des cas de test de haute qualité. Des expériences approfondies sur les modèles Qwen (1,5B-14B) à travers divers benchmarks de raisonnement sur le code démontrent la supériorité du jeu de données rStar-Coder, atteignant des performances de pointe comparables à celles des LLMs de raisonnement les plus avancés, mais avec des tailles de modèles bien plus réduites. Sur LiveCodeBench, rStar-Coder améliore Qwen2.5-7B de 17,4 % à un impressionnant 57,3 %, et Qwen2.5-14B de 23,3 % à 62,5 %, surpassant o3-mini (low) de 3,1 %. Sur le défi plus exigeant de l’USA Computing Olympiad, notre modèle de 7B atteint une précision moyenne pass@1 de 16,15 %, surpassant le modèle de pointe QWQ-32B. Le code et le jeu de données seront publiés sur https://github.com/microsoft/rStar.
Le récent changement de paradigme vers l'entraînement de grands modèles de langage (LLMs) en utilisant l'apprentissage par renforcement (RL) de style DeepSeek-R1-Zero sur des récompenses vérifiables a conduit à des avancées impressionnantes dans le raisonnement en code et en mathématiques. Cependant, cette méthodologie est limitée aux tâches où une vérification des réponses basée sur des règles est possible et ne s'étend pas naturellement à des domaines du monde réel tels que la chimie, la santé, l'ingénierie, le droit, la biologie, les affaires et l'économie. Les solutions pratiques actuelles utilisent un LLM supplémentaire comme vérificateur basé sur un modèle ; cependant, cela introduit des problèmes tels que la dépendance à un LLM vérificateur puissant, la vulnérabilité au piratage des récompenses, et la charge pratique de maintenir le modèle vérificateur en mémoire pendant l'entraînement. Pour résoudre ce problème et étendre l'entraînement de style DeepSeek-R1-Zero à des domaines de raisonnement général, nous proposons une méthode sans vérificateur (VeriFree) qui contourne la vérification des réponses et utilise plutôt le RL pour maximiser directement la probabilité de générer la réponse de référence. Nous comparons VeriFree avec des méthodes basées sur un vérificateur et démontrons que, en plus de ses avantages pratiques significatifs et de ses besoins réduits en calcul, VeriFree égale et dépasse même les méthodes basées sur un vérificateur lors d'évaluations approfondies sur MMLU-Pro, GPQA, SuperGPQA et des benchmarks liés aux mathématiques. De plus, nous fournissons des insights sur cette méthode sous plusieurs angles : comme une intégration élégante de l'entraînement à la fois de la politique et du vérificateur implicite dans un modèle unifié, et comme une approche d'optimisation variationnelle. Le code est disponible à l'adresse https://github.com/sail-sg/VeriFree.
Les interactions sociales humaines dépendent de la capacité à inférer les intentions, émotions et croyances non exprimées d'autrui – une compétence cognitive ancrée dans le concept psychologique de la Théorie de l'Esprit (ToM). Bien que les grands modèles de langage (LLMs) excellent dans les tâches de compréhension sémantique, ils peinent à gérer l'ambiguïté et les nuances contextuelles inhérentes à la communication humaine. Pour combler cette lacune, nous présentons MetaMind, un cadre multi-agent inspiré des théories psychologiques de la métacognition, conçu pour imiter le raisonnement social humain. MetaMind décompose la compréhension sociale en trois étapes collaboratives : (1) un Agent de Théorie de l'Esprit génère des hypothèses sur les états mentaux de l'utilisateur (par exemple, intention, émotion), (2) un Agent de Domaine affine ces hypothèses en utilisant les normes culturelles et les contraintes éthiques, et (3) un Agent de Réponse génère des réponses contextuellement appropriées tout en validant leur alignement avec l'intention inférée. Notre cadre atteint des performances de pointe sur trois benchmarks exigeants, avec une amélioration de 35,7 % dans les scénarios sociaux réels et un gain de 6,2 % dans le raisonnement ToM. Notamment, il permet aux LLMs d'atteindre pour la première fois des performances équivalentes à celles des humains sur des tâches clés de ToM. Les études d'ablation confirment la nécessité de tous les composants, démontrant la capacité du cadre à équilibrer la plausibilité contextuelle, l'appropriation sociale et l'adaptation à l'utilisateur. Ce travail fait progresser les systèmes d'IA vers une intelligence sociale proche de celle des humains, avec des applications dans les dialogues empathiques et les interactions culturellement sensibles. Le code est disponible à l'adresse https://github.com/XMZhangAI/MetaMind.
Améliorer les performances sur des tâches complexes et permettre une prise de décision interprétable dans les grands modèles de langage (LLMs), en particulier pour les applications cliniques, nécessite un raisonnement efficace. Cependant, cela reste difficile sans un ajustement supervisé (SFT) sur des données coûteuses de chaîne de pensée (CoT) distillées à partir de modèles propriétaires (par exemple, GPT-4o). Dans ce travail, nous présentons AlphaMed, le premier LLM médical à démontrer que la capacité de raisonnement peut émerger uniquement par apprentissage par renforcement (RL), en utilisant des récompenses minimalistes basées sur des règles sur des ensembles de données publics de questions à choix multiples (QA), sans recourir à un SFT ou à des données CoT distillées. AlphaMed obtient des résultats de pointe sur six benchmarks de QA médicale, surpassant les modèles entraînés avec des pipelines conventionnels SFT+RL. Sur des benchmarks difficiles (par exemple, MedXpert), AlphaMed dépasse même des modèles plus grands ou propriétaires tels que DeepSeek-V3-671B et Claude-3.5-Sonnet. Pour comprendre les facteurs derrière ce succès, nous menons une analyse centrée sur les données guidée par trois questions : (i) Le RL minimaliste basé sur des règles peut-il inciter au raisonnement sans supervision CoT distillée ? (ii) Comment la quantité et la diversité des ensembles de données influencent-elles le raisonnement ? (iii) Comment la difficulté des questions façonne-t-elle l'émergence et la généralisation du raisonnement ? Nos résultats montrent que l'informativité des ensembles de données est un facteur clé de la performance en raisonnement, et que le RL minimaliste sur des données QA informatives à choix multiples est efficace pour induire un raisonnement sans supervision CoT. Nous observons également des tendances divergentes entre les benchmarks, soulignant les limites de l'évaluation actuelle et la nécessité de benchmarks de QA médicale plus exigeants et orientés vers le raisonnement.
Les modèles de langage de grande taille pour la vidéo (video LLMs) excellent dans la compréhension vidéo mais se heurtent à une inefficacité computationnelle significative due à la redondance des tokens vidéo. Les méthodes existantes d'élagage de tokens offrent des solutions. Cependant, les approches opérant au sein du LLM (élagage interne au LLM), telles que FastV, entraînent une surcharge computationnelle intrinsèque dans les couches superficielles. En revanche, les méthodes effectuant l'élagage des tokens avant le LLM (élagage externe au LLM) se concentrent principalement sur la redondance spatiale au sein des images individuelles ou de fenêtres temporelles limitées, négligeant les dynamiques temporelles globales et les corrélations cruciales sur des séquences vidéo plus longues. Cela conduit à une réduction spatio-temporelle sous-optimale et n'exploite pas pleinement la compressibilité de la vidéo. De manière cruciale, le potentiel synergique et l'influence mutuelle de la combinaison de ces stratégies restent inexplorés. Pour réduire davantage la redondance, nous introduisons HoliTom, un nouveau cadre d'intégration holistique de tokens sans entraînement. HoliTom utilise l'élagage externe au LLM via une segmentation temporelle globale prenant en compte la redondance, suivie d'une fusion spatio-temporelle pour réduire les tokens visuels de plus de 90%, allégeant ainsi considérablement la charge computationnelle du LLM. En complément, nous proposons une approche robuste d'intégration de tokens basée sur la similarité interne au LLM, conçue pour une performance supérieure et une compatibilité avec l'élagage externe au LLM. Les évaluations démontrent le compromis prometteur entre efficacité et performance de notre méthode sur LLaVA-OneVision-7B, réduisant les coûts computationnels à 6,9% des FLOPs tout en maintenant 99,1% de la performance originale. De plus, nous obtenons une réduction de 2,28x du temps jusqu'au premier token (TTFT) et une accélération de 1,32x du débit de décodage, mettant en évidence les avantages pratiques de notre approche intégrée d'élagage pour une inférence efficace des video LLMs.
L'animation d'images avec un contrôle interactif du mouvement a gagné en popularité pour la génération d'image-à-vidéo (I2V). Les approches modernes reposent généralement sur de larges noyaux gaussiens pour étendre les trajectoires de mouvement comme condition, sans définir explicitement la région de mouvement, ce qui entraîne un contrôle grossier du mouvement et échoue à dissocier le mouvement de l'objet et celui de la caméra. Pour remédier à cela, nous présentons MotionPro, un contrôleur de mouvement précis qui exploite de manière novatrice des trajectoires par région et un masque de mouvement pour réguler la synthèse de mouvement à granularité fine et identifier la catégorie de mouvement cible (c'est-à-dire, le mouvement de l'objet ou de la caméra), respectivement. Techniquement, MotionPro estime d'abord les cartes de flux sur chaque vidéo d'entraînement via un modèle de suivi, puis échantillonne les trajectoires par région pour simuler un scénario d'inférence. Au lieu d'étendre le flux à travers de larges noyaux gaussiens, notre approche de trajectoire par région permet un contrôle plus précis en utilisant directement les trajectoires au sein des régions locales, caractérisant ainsi efficacement les mouvements à granularité fine. Un masque de mouvement est simultanément dérivé des cartes de flux prédites pour capturer la dynamique holistique du mouvement des régions. Pour viser un contrôle naturel du mouvement, MotionPro renforce en outre le débruitage vidéo en incorporant à la fois les trajectoires par région et le masque de mouvement via une modulation de caractéristiques. Plus remarquablement, nous construisons méticuleusement un benchmark, c'est-à-dire MC-Bench, avec 1,1K paires image-trajectoire annotées par l'utilisateur, pour l'évaluation du contrôle de mouvement I2V à la fois à granularité fine et au niveau objet. Des expériences approfondies menées sur WebVid-10M et MC-Bench démontrent l'efficacité de MotionPro. Veuillez consulter notre page de projet pour plus de résultats : https://zhw-zhang.github.io/MotionPro-page/.
L'alignement multilingue est un paradigme efficace et représentatif pour améliorer les capacités multilingues des LLMs (modèles de langage de grande envergure), en transférant les compétences des langues riches en ressources vers les langues pauvres en ressources. Parallèlement, certaines recherches sur les neurones spécifiques à une langue révèlent qu'il existe des neurones spécifiques à une langue qui sont sélectivement activés dans les LLMs lors du traitement de différentes langues. Cela offre une nouvelle perspective pour analyser et comprendre plus spécifiquement les mécanismes des LLMs dans des scénarios multilingues. Dans ce travail, nous proposons un nouvel algorithme d'identification de neurones plus fin, qui détecte les neurones liés à la langue (y compris les neurones spécifiques à une langue et les neurones associés à la langue) et les neurones indépendants de la langue. De plus, en nous basant sur les caractéristiques distributionnelles des différents types de neurones, nous divisons le processus interne des LLMs pour l'inférence multilingue en quatre parties : (1) compréhension multilingue, (2) raisonnement dans un espace sémantique partagé, (3) transformation de l'espace de sortie multilingue, et (4) sortie dans l'espace du vocabulaire. En outre, nous analysons systématiquement les modèles avant et après alignement en nous concentrant sur les différents types de neurones. Nous analysons également le phénomène d'''Alignement Multilingue Spontané''. Globalement, notre travail mène une investigation approfondie basée sur les différents types de neurones, fournissant des résultats empiriques et des insights précieux pour une meilleure compréhension de l'alignement multilingue et des capacités multilingues des LLMs.
La contrôlabilité, la cohérence temporelle et la synthèse des détails restent les défis les plus critiques dans la génération de vidéos. Dans cet article, nous nous concentrons sur une technique cinématographique couramment utilisée mais peu explorée, connue sous le nom de "Frame In and Frame Out". Plus précisément, en partant de la génération d'images vers la vidéo, les utilisateurs peuvent contrôler les objets dans l'image pour qu'ils quittent naturellement la scène ou introduire de nouvelles références identitaires pour entrer dans la scène, guidés par une trajectoire de mouvement spécifiée par l'utilisateur. Pour soutenir cette tâche, nous introduisons un nouveau jeu de données organisé de manière semi-automatique, un protocole d'évaluation complet ciblant ce cadre, ainsi qu'une architecture efficace de Diffusion Transformer préservant l'identité et contrôlable en mouvement. Notre évaluation montre que notre approche proposée surpasse significativement les méthodes de référence existantes.
Les récentes avancées dans les modèles génératifs ont permis une génération d'images à partir de texte de haute fidélité. Cependant, les modèles open-source de retouche d'images restent à la traîne par rapport à leurs homologues propriétaires, principalement en raison de données de haute qualité limitées et de benchmarks insuffisants. Pour surmonter ces limitations, nous introduisons ImgEdit, un ensemble de données de retouche d'images à grande échelle et de haute qualité, comprenant 1,2 million de paires d'éditions soigneusement sélectionnées, qui incluent à la fois des modifications simples novatrices et complexes, ainsi que des tâches multi-étapes exigeantes. Pour garantir la qualité des données, nous utilisons un pipeline multi-étapes qui intègre un modèle vision-langage de pointe, un modèle de détection, un modèle de segmentation, ainsi que des procédures spécifiques de in-painting et un post-traitement strict. ImgEdit surpasse les ensembles de données existants à la fois en termes de nouveauté des tâches et de qualité des données. En utilisant ImgEdit, nous entraînons ImgEdit-E1, un modèle de retouche utilisant un modèle vision-langage pour traiter l'image de référence et l'invite de modification, qui surpasse les modèles open-source existants sur plusieurs tâches, mettant en valeur l'importance d'ImgEdit et de la conception du modèle. Pour une évaluation complète, nous introduisons ImgEdit-Bench, un benchmark conçu pour évaluer la performance de la retouche d'images en termes de respect des instructions, qualité de la retouche et préservation des détails. Il inclut une suite de tests de base, une suite de modifications simples exigeantes et une suite dédiée aux tâches multi-étapes. Nous évaluons à la fois les modèles open-source et propriétaires, ainsi qu'ImgEdit-E1, fournissant une analyse approfondie et des insights exploitables sur le comportement actuel des modèles de retouche d'images. Les données sources sont disponibles publiquement sur https://github.com/PKU-YuanGroup/ImgEdit.
Dans de nombreuses applications réelles, les modèles déployés rencontrent des entrées qui diffèrent des données observées pendant l'entraînement. La détection hors distribution identifie si une entrée provient d'une distribution non vue auparavant, tandis que la reconnaissance en monde ouvert signale de telles entrées pour garantir que le système reste robuste face à l'apparition continue de catégories précédemment inconnues, qui doivent être traitées sans nécessiter de réentraînement. Les modèles de base et les modèles vision-langage sont pré-entraînés sur des ensembles de données vastes et diversifiés avec l'attente d'une généralisation étendue à travers divers domaines, y compris l'imagerie médicale. Cependant, l'évaluation de ces modèles sur des ensembles de test ne contenant que quelques types d'outliers courants réduit silencieusement l'évaluation à un problème en ensemble fermé, masquant les échecs sur des conditions rares ou véritablement nouvelles rencontrées en usage clinique. Nous présentons donc NOVA, un benchmark d'évaluation uniquement, exigeant et basé sur des cas réels, comprenant 900 scans IRM cérébraux qui couvrent 281 pathologies rares et des protocoles d'acquisition hétérogènes. Chaque cas inclut des récits cliniques détaillés et des annotations expertes en double aveugle sous forme de boîtes englobantes. Ensemble, ces éléments permettent une évaluation conjointe de la localisation des anomalies, de la génération de descriptions visuelles et du raisonnement diagnostique. Comme NOVA n'est jamais utilisé pour l'entraînement, il sert de test de stress extrême pour la généralisation hors distribution : les modèles doivent combler un écart de distribution à la fois dans l'apparence des échantillons et dans l'espace sémantique. Les résultats de référence avec les modèles vision-langage leaders (GPT-4o, Gemini 2.0 Flash et Qwen2.5-VL-72B) révèlent des baisses de performance substantielles sur toutes les tâches, établissant NOVA comme un banc d'essai rigoureux pour faire progresser les modèles capables de détecter, localiser et raisonner sur des anomalies véritablement inconnues.
Cet article présente DetailFlow, une méthode de génération d'images autoregressive (AR) 1D allant du grossier au fin, qui modélise les images grâce à une nouvelle stratégie de prédiction des détails suivants. En apprenant une séquence de tokens sensible à la résolution supervisée par des images progressivement dégradées, DetailFlow permet au processus de génération de commencer par la structure globale et d'affiner progressivement les détails. Cette séquence de tokens 1D allant du grossier au fin s'aligne bien avec le mécanisme d'inférence autoregressive, offrant une manière plus naturelle et efficace pour le modèle AR de générer du contenu visuel complexe. Notre modèle AR 1D compact réalise une synthèse d'images de haute qualité avec un nombre de tokens significativement réduit par rapport aux approches précédentes, telles que VAR/VQGAN. Nous proposons en outre un mécanisme d'inférence parallèle avec auto-correction qui accélère la vitesse de génération d'environ 8x tout en réduisant l'erreur d'échantillonnage accumulée inhérente à la supervision par forçage enseignant. Sur le benchmark ImageNet 256x256, notre méthode atteint un gFID de 2,96 avec 128 tokens, surpassant VAR (3,3 FID) et FlexVAR (3,05 FID), qui nécessitent tous deux 680 tokens dans leurs modèles AR. De plus, grâce au nombre de tokens significativement réduit et au mécanisme d'inférence parallèle, notre méthode fonctionne avec une vitesse d'inférence presque 2x plus rapide que VAR et FlexVAR. Les résultats expérimentaux approfondis démontrent la qualité et l'efficacité supérieures de DetailFlow par rapport aux méthodes existantes de pointe.
La vision active, également connue sous le nom de perception active, désigne le processus de sélection active des zones et des manières de regarder afin de recueillir des informations pertinentes pour une tâche donnée. Elle constitue un élément essentiel pour une perception et une prise de décision efficaces chez les humains et les agents incarnés avancés. Récemment, l'utilisation de modèles de langage multimodaux de grande taille (MLLMs) comme modules centraux de planification et de prise de décision dans les systèmes robotiques a suscité une attention considérable. Cependant, malgré l'importance de la perception active dans l'intelligence incarnée, il existe peu ou pas d'exploration sur la manière dont les MLLMs peuvent être dotés ou apprendre des capacités de perception active. Dans cet article, nous proposons d'abord une définition systématique des tâches de perception active basées sur les MLLMs. Nous soulignons que la stratégie de recherche par zoom récemment proposée par le modèle GPT-o3 peut être considérée comme un cas particulier de perception active ; toutefois, elle souffre encore d'une faible efficacité de recherche et d'une sélection de régions imprécises. Pour résoudre ces problèmes, nous proposons ACTIVE-O3, un cadre d'apprentissage par renforcement pur construit sur GRPO, conçu pour doter les MLLMs de capacités de perception active. Nous établissons également une suite de benchmarks complète pour évaluer ACTIVE-O3 sur des tâches générales en monde ouvert, telles que la localisation de petits objets et d'objets denses, ainsi que sur des scénarios spécifiques à des domaines, incluant la détection de petits objets en télédétection et en conduite autonome, ainsi que la segmentation interactive fine. De plus, ACTIVE-O3 démontre également de solides capacités de raisonnement zero-shot sur le benchmark V*, sans s'appuyer sur aucune donnée de raisonnement explicite. Nous espérons que notre travail pourra fournir une base de code simple et un protocole d'évaluation pour faciliter les recherches futures sur la perception active dans les MLLMs.
Le contrôle précis de la génération des modèles de langage est essentiel pour garantir à la fois la sécurité et la fiabilité. Bien que l'ingénierie des prompts et le pilotage soient couramment utilisés pour intervenir sur les comportements des modèles, le grand nombre de paramètres dans ces modèles entraîne souvent des représentations internes fortement imbriquées. Cette interdépendance peut limiter la précision du contrôle et parfois provoquer des effets secondaires indésirables. Des recherches récentes ont exploré l'utilisation d'autoencodeurs épars (SAE) pour démêler les connaissances dans des espaces à haute dimension afin de faciliter le pilotage. Cependant, ces applications ont été limitées à des tâches simplifiées en raison de la difficulté non triviale de localiser les composants de connaissances atomiques. Dans cet article, nous proposons les **Atomes Cibles de Pilotage (STA)**, une méthode novatrice qui isole et manipule des composants de connaissances démêlés pour renforcer la sécurité. Des expériences approfondies démontrent l'efficacité de notre approche. Une analyse plus poussée révèle que le pilotage présente une robustesse et une flexibilité supérieures, en particulier dans des scénarios adverses. Nous appliquons également la stratégie de pilotage à un modèle de raisonnement à grande échelle, confirmant son efficacité dans le contrôle précis du raisonnement.
Nous présentons FinTagging, le premier benchmark XBRL complet et conscient des tables, conçu pour évaluer les capacités d'extraction d'informations structurées et d'alignement sémantique des grands modèles de langage (LLMs) dans le contexte des rapports financiers basés sur XBRL. Contrairement aux benchmarks précédents qui simplifient à l'excès le tagging XBRL en le réduisant à une classification multi-classes plate et se concentrent uniquement sur le texte narratif, FinTagging décompose le problème de tagging XBRL en deux sous-tâches : FinNI pour l'extraction d'entités financières et FinCL pour l'alignement de concepts guidé par la taxonomie. Il exige que les modèles extraient conjointement des faits et les alignent avec l'intégralité de la taxonomie US-GAAP de plus de 10 000 entrées, couvrant à la fois le texte non structuré et les tables structurées, permettant ainsi une évaluation réaliste et granulaire. Nous évaluons un ensemble diversifié de LLMs dans des conditions zero-shot, en analysant systématiquement leurs performances sur les deux sous-tâches ainsi que sur la précision globale du tagging. Nos résultats révèlent que, bien que les LLMs démontrent une forte généralisation dans l'extraction d'informations, ils peinent à réaliser un alignement de concepts granulaire, en particulier pour désambiguïser les entrées de taxonomie étroitement liées. Ces résultats mettent en lumière les limites des LLMs existants dans l'automatisation complète du tagging XBRL et soulignent la nécessité d'améliorer le raisonnement sémantique et la modélisation consciente des schémas pour répondre aux exigences d'une divulgation financière précise. Le code est disponible sur notre dépôt GitHub et les données sur notre dépôt Hugging Face.
Les modèles vision-langage (VLMs) ont démontré des capacités remarquables dans la compréhension et le raisonnement sur le contenu visuel, mais des défis importants persistent dans les tâches nécessitant une compréhension multi-points de vue et un raisonnement spatial. Nous identifions une limitation critique : les VLMs actuels excellent principalement dans le raisonnement spatial égocentrique (du point de vue de la caméra) mais échouent à généraliser aux points de vue allocentriques lorsqu'ils doivent adopter le cadre de référence spatial d'une autre entité. Nous introduisons ViewSpatial-Bench, le premier benchmark complet conçu spécifiquement pour l'évaluation de la localisation spatiale multi-points de vue à travers cinq types de tâches distincts, soutenu par un pipeline d'annotation 3D automatisé qui génère des étiquettes directionnelles précises. Une évaluation approfondie de divers VLMs sur ViewSpatial-Bench révèle une disparité de performance significative : les modèles montrent des performances raisonnables sur les tâches en perspective caméra mais présentent une précision réduite lors du raisonnement à partir d'un point de vue humain. En affinant les VLMs sur notre ensemble de données spatiales multi-perspectives, nous obtenons une amélioration globale des performances de 46,24 % à travers les tâches, mettant en évidence l'efficacité de notre approche. Notre travail établit un benchmark crucial pour l'intelligence spatiale dans les systèmes d'IA incarnés et fournit des preuves empiriques que la modélisation des relations spatiales 3D améliore les capacités de compréhension spatiale correspondantes des VLMs.
Les graphiques vectoriels évolutifs (SVG) offrent un format puissant pour représenter des conceptions visuelles sous forme de code interprétable. Les récents progrès des modèles vision-langage (VLMs) ont permis une génération de SVG de haute qualité en reformulant le problème comme une tâche de génération de code et en exploitant un pré-entraînement à grande échelle. Les VLMs sont particulièrement adaptés à cette tâche car ils capturent à la fois la sémantique globale et les motifs visuels détaillés, tout en transférant des connaissances entre les domaines de la vision, du langage naturel et du code. Cependant, les approches existantes basées sur les VLMs peinent souvent à produire des SVG fidèles et efficaces, car elles n'observent jamais les images rendues pendant l'entraînement. Bien que le rendu différentiable pour la génération de code SVG autorégressif reste indisponible, les sorties rendues peuvent toujours être comparées aux entrées originales, permettant un retour d'évaluation adapté à l'apprentissage par renforcement (RL). Nous introduisons RLRF (Reinforcement Learning from Rendering Feedback), une méthode RL qui améliore la génération de SVG dans les VLMs autorégressifs en exploitant les retours des sorties SVG rendues. Étant donnée une image d'entrée, le modèle génère des séquences SVG qui sont rendues et comparées à l'image originale pour calculer une récompense. Ce retour de fidélité visuelle guide le modèle vers la production de SVG plus précis, efficaces et sémantiquement cohérents. RLRF surpasse significativement le réglage supervisé, en corrigeant les modes d'échec courants et en permettant une génération de SVG précise et de haute qualité avec une compréhension structurelle et une généralisation solides.
Des études récentes montrent que les capacités de raisonnement des modèles de langage à grande échelle (LLMs) peuvent être améliorées en appliquant l'apprentissage par renforcement (RL) à des tâches de question-réponse (QA) dans des domaines tels que les mathématiques et la programmation. Avec une longueur de contexte étendue, les LLMs peuvent apprendre à effectuer des recherches, comme l'indique le comportement d'auto-correction observé dans DeepSeek R1. Cependant, ce comportement de recherche est souvent imprécis et manque de confiance, entraînant des réponses longues et redondantes et mettant en lumière des lacunes dans l'intuition et la vérification. Inspirés par la théorie des processus doubles en psychologie, nous introduisons une modification simple de la tâche de QA qui inclut quatre étapes : la Pensée Rapide, où le LLM doit répondre dans un budget strict de tokens ; la Vérification, où le modèle évalue sa réponse initiale ; la Pensée Lente, où il affine la réponse initiale avec plus de réflexion ; et la Synthèse, où il condense l'affinement de l'étape précédente en étapes précises. Notre tâche proposée améliore la précision moyenne de 24,9 % à 27,9 % pour Qwen2.5-1.5B, et de 45,9 % à 49,8 % pour DeepSeek-R1-Qwen-1.5B. Notamment, pour Qwen2.5-1.5B, le mode Pensée Rapide seul atteint une précision de 26,8 % en utilisant moins de 1000 tokens, démontrant des gains substantiels en efficacité d'inférence. Ces résultats suggèrent que l'intuition et le raisonnement délibératif sont des systèmes distincts et complémentaires qui bénéficient d'un entraînement ciblé.
Nous présentons VisTA, un nouveau cadre d'apprentissage par renforcement qui permet à des agents visuels d'explorer, de sélectionner et de combiner dynamiquement des outils issus d'une bibliothèque diversifiée en fonction de leurs performances empiriques. Les méthodes existantes pour le raisonnement assisté par outils reposent soit sur des techniques de prompt sans entraînement, soit sur un ajustement à grande échelle ; ces approches manquent d'exploration active des outils et supposent généralement une diversité limitée des outils, tandis que les méthodes d'ajustement nécessitent en plus une supervision humaine intensive. En revanche, VisTA exploite l'apprentissage par renforcement de bout en bout pour affiner de manière itérative des stratégies sophistiquées de sélection d'outils spécifiques à chaque requête, en utilisant les résultats des tâches comme signaux de rétroaction. Grâce à l'Optimisation Relative des Politiques de Groupe (GRPO), notre cadre permet à un agent de découvrir de manière autonome des voies efficaces de sélection d'outils sans nécessiter de supervision explicite du raisonnement. Les expériences menées sur les benchmarks ChartQA, Geometry3K et BlindTest démontrent que VisTA obtient des gains de performance substantiels par rapport aux méthodes de base sans entraînement, en particulier sur des exemples hors distribution. Ces résultats mettent en évidence la capacité de VisTA à améliorer la généralisation, à utiliser de manière adaptative des outils diversifiés, et à ouvrir la voie à des systèmes de raisonnement visuel flexibles et guidés par l'expérience.
Les modèles de langage multimodaux de grande taille (MLLMs) restent vulnérables aux exemples adversaires transférables. Alors que les méthodes existantes parviennent généralement à des attaques ciblées en alignant les caractéristiques globales—telles que le token [CLS] de CLIP—entre les échantillons adversaires et cibles, elles négligent souvent les riches informations locales encodées dans les tokens de patch. Cela conduit à un alignement sous-optimal et à une transférabilité limitée, en particulier pour les modèles propriétaires. Pour remédier à cette limitation, nous proposons une méthode d'attaque adverse transférable ciblée basée sur l'alignement optimal des caractéristiques, appelée FOA-Attack, afin d'améliorer la capacité de transfert adverse. Plus précisément, au niveau global, nous introduisons une perte de caractéristiques globales basée sur la similarité cosinus pour aligner les caractéristiques grossières des échantillons adversaires avec celles des échantillons cibles. Au niveau local, étant donné les riches représentations locales au sein des Transformers, nous exploitons des techniques de clustering pour extraire des motifs locaux compacts afin de réduire les caractéristiques locales redondantes. Nous formulons ensuite l'alignement des caractéristiques locales entre les échantillons adversaires et cibles comme un problème de transport optimal (OT) et proposons une perte de transport optimal par clustering local pour affiner l'alignement des caractéristiques fines. De plus, nous proposons une stratégie de pondération dynamique des modèles d'ensemble pour équilibrer de manière adaptative l'influence de plusieurs modèles lors de la génération d'exemples adversaires, améliorant ainsi davantage la transférabilité. Des expériences approfondies sur divers modèles démontrent la supériorité de la méthode proposée, surpassant les méthodes de pointe, en particulier pour le transfert vers des MLLMs propriétaires. Le code est disponible à l'adresse https://github.com/jiaxiaojunQAQ/FOA-Attack.
Nous présentons SeePhys, un benchmark multimodal à grande échelle pour le raisonnement des LLM ancré dans des questions de physique allant du collège aux examens de qualification doctorale. Le benchmark couvre 7 domaines fondamentaux de la discipline physique, intégrant 21 catégories de diagrammes hautement hétérogènes. Contrairement aux travaux antérieurs où les éléments visuels servent principalement de support, notre benchmark comporte une proportion substantielle de problèmes essentiellement visuels (75\%) qui nécessitent l'extraction d'informations visuelles pour obtenir des solutions correctes. À travers une évaluation approfondie, nous observons que même les modèles de raisonnement visuel les plus avancés (par exemple, Gemini-2.5-pro et o4-mini) n'atteignent qu'une précision inférieure à 60\% sur notre benchmark. Ces résultats révèlent des défis fondamentaux dans les capacités de compréhension visuelle des grands modèles de langage actuels, notamment en ce qui concerne : (i) l'établissement d'un couplage rigoureux entre l'interprétation des diagrammes et le raisonnement physique, et (ii) la surmonte de leur dépendance persistante aux indices textuels comme raccourcis cognitifs.
L'évaluation automatique de la génération multimodale représente un défi majeur, car les métriques automatisées peinent souvent à s'aligner de manière fiable avec l'évaluation humaine, en particulier pour les tâches complexes impliquant plusieurs modalités. Pour répondre à cela, nous présentons MMMG, un benchmark complet et aligné sur l'humain pour la génération multimodale couvrant 4 combinaisons de modalités (image, audio, texte et image entrelacés, texte et audio entrelacés), en mettant l'accent sur les tâches qui posent des défis significatifs aux modèles de génération, tout en permettant une évaluation automatique fiable grâce à une combinaison de modèles et de programmes. MMMG englobe 49 tâches (dont 29 nouvellement développées), chacune dotée d'un pipeline d'évaluation soigneusement conçu, et 937 instructions pour évaluer systématiquement le raisonnement, la contrôlabilité et d'autres capacités clés des modèles de génération multimodale. Une validation approfondie démontre que MMMG est fortement aligné avec l'évaluation humaine, atteignant un accord moyen de 94,3 %. Les résultats de benchmarking sur 24 modèles de génération multimodale révèlent que même si le modèle de pointe, GPT Image, atteint une précision de 78,3 % pour la génération d'images, il est en revanche moins performant en matière de raisonnement multimodal et de génération entrelacée. Par ailleurs, les résultats suggèrent une marge d'amélioration considérable pour la génération audio, soulignant une direction importante pour les recherches futures.
Les modèles de langage de grande taille (LLMs) entraînés via l'apprentissage par renforcement (RL) ont démontré de solides capacités de raisonnement et des comportements réflexifs émergents, tels que le retour en arrière et la correction d'erreurs. Cependant, le RL Markovien conventionnel limite l'exploration à la phase d'entraînement pour apprendre une politique déterministe optimale et ne dépend des contextes historiques qu'à travers l'état actuel. Par conséquent, il reste incertain si le raisonnement réflexif émergera pendant l'entraînement RL Markovien, ou pourquoi il est bénéfique au moment du test. Pour remédier à cela, nous reformulons l'exploration réflexive dans le cadre du RL Bayes-Adaptatif, qui optimise explicitement le rendement attendu sous une distribution a posteriori sur les processus de décision Markoviens. Cette formulation bayésienne incite intrinsèquement à la fois l'exploitation maximisant la récompense et l'exploration de collecte d'informations via des mises à jour de croyance. Notre algorithme résultant, BARL, guide le LLM pour assembler et alterner des stratégies basées sur les résultats observés, offrant une orientation rigoureuse sur quand et comment le modèle devrait explorer de manière réflexive. Les résultats empiriques sur des tâches de raisonnement synthétiques et mathématiques démontrent que BARL surpasse les approches RL Markoviennes standard au moment du test, atteignant une efficacité supérieure en termes de tokens avec une amélioration de l'efficacité de l'exploration. Notre code est disponible à l'adresse https://github.com/shenao-zhang/BARL.
Alors que la mise à l'échelle au moment du test devient une frontière de recherche cruciale dans le développement des modèles de langage à grande échelle (LLMs), les méthodologies contemporaines et avancées de post-formation se concentrent de plus en plus sur l'extension de la longueur de génération des réponses longues de type Chaîne de Pensée (CoT) afin d'améliorer les capacités de raisonnement pour atteindre des performances similaires à DeepSeek R1. Cependant, des études récentes révèlent un phénomène persistant de surréflexion dans les modèles de raisonnement de pointe, se manifestant par une redondance excessive ou des schémas de pensée répétitifs dans les réponses CoT longues. Pour résoudre ce problème, nous proposons dans cet article un cadre d'apprentissage par renforcement en deux étapes, simple mais efficace, pour parvenir à un raisonnement concis dans les LLMs, nommé ConciseR. Plus précisément, la première étape, utilisant davantage d'étapes d'entraînement, vise à stimuler les capacités de raisonnement du modèle via l'Optimisation de Politique Relative par Groupe avec des composants de clip-higher et d'échantillonnage dynamique (GRPO++), et la deuxième étape, utilisant moins d'étapes d'entraînement, impose explicitement la concision et améliore l'efficacité via l'Optimisation de Politique Relative par Groupe Sensible à la Longueur (L-GRPO). De manière significative, ConciseR n'optimise la longueur de la réponse qu'une fois que tous les déploiements d'un échantillon sont corrects, suivant le principe "marcher avant de courir". Les résultats expérimentaux approfondis démontrent que notre modèle ConciseR, qui génère des réponses de raisonnement CoT plus concises, surpasse les modèles de raisonnement de pointe récents sans paradigme d'apprentissage par renforcement sur les benchmarks AIME 2024, MATH-500, AMC 2023, Minerva et Olympiad.
Comprendre la perspective est fondamental pour la perception visuelle humaine, mais la mesure dans laquelle les modèles de langage multimodaux de grande taille (MLLMs) intériorisent la géométrie de la perspective reste incertaine. Nous présentons MMPerspective, le premier benchmark spécifiquement conçu pour évaluer systématiquement la compréhension de la perspective par les MLLMs à travers 10 tâches soigneusement élaborées, couvrant trois dimensions complémentaires : Perception de la perspective, Raisonnement et Robustesse. Notre benchmark comprend 2 711 instances d'images réelles et synthétiques avec 5 083 paires question-réponse qui sondent des capacités clés, telles que la perception des points de fuite et le décompte, le raisonnement sur les types de perspective, la compréhension des relations de lignes dans l'espace 3D, l'invariance aux transformations préservant la perspective, etc. À travers une évaluation approfondie de 43 MLLMs de pointe, nous mettons en lumière des limitations significatives : bien que les modèles démontrent des compétences sur des tâches perceptives de surface, ils peinent avec le raisonnement compositionnel et le maintien de la cohérence spatiale face à des perturbations. Notre analyse révèle en outre des motifs intrigants entre l'architecture des modèles, leur échelle et leurs capacités de perspective, soulignant à la fois les goulots d'étranglement en matière de robustesse et les avantages de l'incitation en chaîne de pensée. MMPerspective établit un banc d'essai précieux pour diagnostiquer et faire progresser la compréhension spatiale dans les systèmes vision-langage. Ressources disponibles à l'adresse : https://yunlong10.github.io/MMPerspective/
Les récents progrès des grands modèles de langage (LLMs) ont permis à des agents d'exécuter de manière autonome des tâches complexes et ouvertes. Cependant, de nombreux frameworks existants dépendent fortement d'outils et de workflows prédéfinis manuellement, ce qui limite leur adaptabilité, leur évolutivité et leur généralisation à travers différents domaines. Dans ce travail, nous présentons Alita—un agent généraliste conçu selon le principe "La simplicité est la sophistication ultime", permettant un raisonnement agentique évolutif grâce à une prédéfinition minimale et une auto-évolution maximale. Pour une prédéfinition minimale, Alita est équipé d'un seul composant pour la résolution directe de problèmes, le rendant beaucoup plus simple et épuré que les approches précédentes qui reposaient fortement sur des outils et workflows élaborés et conçus manuellement. Cette conception épurée améliore son potentiel à généraliser des questions complexes, sans être limité par des outils. Pour une auto-évolution maximale, nous favorisons la créativité d'Alita en fournissant une suite de composants polyvalents pour construire, affiner et réutiliser de manière autonome des capacités externes en générant des protocoles de contexte de modèle (MCPs) liés aux tâches à partir de sources ouvertes, ce qui contribue à un raisonnement agentique évolutif. Notamment, Alita atteint une précision de 75,15 % pass@1 et 87,27 % pass@3, ce qui le place parmi les meilleurs agents polyvalents sur le jeu de données de validation du benchmark GAIA, et respectivement 74,00 % et 52,00 % pass@1 sur Mathvista et PathVQA, surpassant de nombreux systèmes d'agents bien plus complexes. Plus de détails seront mis à jour sur https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
Les modèles vision-langage (VLMs) ont obtenu des résultats impressionnants sur des benchmarks de codage et de mathématiques qui sont difficiles pour les humains, mais leur capacité à accomplir des tâches qui sont naturelles pour les humains—telles que la perception, la navigation spatiale et la gestion de la mémoire—reste peu étudiée. Les jeux vidéo réels sont conçus pour être intuitifs à apprendre et à maîtriser en exploitant les biais inductifs innés des humains, ce qui en fait un terrain d'essai idéal pour évaluer ces capacités dans les VLMs. Dans cette optique, nous présentons VideoGameBench, un benchmark composé de 10 jeux vidéo populaires des années 1990 avec lesquels les VLMs interagissent directement en temps réel. VideoGameBench met les modèles au défi de terminer des jeux entiers en ayant accès uniquement à des entrées visuelles brutes et à une description de haut niveau des objectifs et des contrôles, ce qui constitue une rupture significative par rapport aux configurations existantes qui reposent sur des échafaudages spécifiques au jeu et des informations auxiliaires. Nous gardons trois des jeux secrets pour encourager des solutions qui généralisent à des environnements inconnus. Nos expériences montrent que les modèles vision-langage de pointe peinent à progresser au-delà du début de chaque jeu. Nous constatons que la latence d'inférence est une limitation majeure des modèles de pointe dans un contexte temps réel ; par conséquent, nous introduisons VideoGameBench Lite, un mode où le jeu est mis en pause en attendant la prochaine action du modèle de langage. Le meilleur modèle, Gemini 2.5 Pro, ne complète que 0,48 % de VideoGameBench et 1,6 % de VideoGameBench Lite. Nous espérons que la formalisation des compétences humaines mentionnées ci-dessus dans ce benchmark stimulera les progrès dans ces directions de recherche.
Avec les progrès rapides des techniques de post-entraînement pour le raisonnement et la recherche d'informations, les grands modèles de langage (LLMs) peuvent intégrer une grande quantité de connaissances récupérées pour résoudre des tâches complexes. Cependant, la fenêtre de contexte limitée des LLMs entrave la mise à l'échelle de la quantité de connaissances externes en entrée, empêchant ainsi toute amélioration supplémentaire, en particulier pour les tâches nécessitant une quantité importante de connaissances externes. Les méthodes existantes d'extension de la fenêtre de contexte entraînent inévitablement une perte d'information. Les méthodes multi-agents basées sur les LLMs émergent comme un nouveau paradigme pour gérer des entrées massives de manière distribuée, où nous identifions deux goulots d'étranglement principaux dans les processus existants de synchronisation des connaissances et de raisonnement. Dans ce travail, nous développons un cadre multi-agents, ExtAgents, pour surmonter ces goulots d'étranglement et permettre une meilleure scalabilité dans l'intégration des connaissances au moment de l'inférence sans nécessiter d'entraînement sur des contextes plus longs. Évalué avec notre test amélioré de question-réponse multi-sauts, $boldsymbol{inftyBench+}$, et d'autres ensembles de tests publics incluant la génération de longs sondages, ExtAgents améliore significativement les performances par rapport aux méthodes existantes non entraînées avec la même quantité de connaissances externes en entrée, que celles-ci se situent ou non dans la fenêtre de contexte. De plus, la méthode maintient une efficacité élevée grâce à un haut niveau de parallélisme. Une étude approfondie de la coordination des agents LLMs sur l'augmentation des connaissances externes en entrée pourrait bénéficier aux applications du monde réel.
L'interpolation d'images intermédiaires vise à synthétiser des séquences vidéo intermédiaires conditionnées par les images de début et de fin données. Les méthodes actuelles les plus avancées étendent principalement des modèles de diffusion Image-à-Vidéo (I2V-DMs) pré-entraînés à grande échelle en incorporant des contraintes d'image de fin via un ajustement fin direct ou en omettant l'entraînement. Nous identifions une limitation critique dans leur conception : leurs injections de la contrainte d'image de fin utilisent généralement le même mécanisme qui imposait initialement la contrainte d'image de début (image unique). Cependant, puisque les I2V-DMs originaux sont déjà suffisamment entraînés pour la condition d'image de début, introduire naïvement la contrainte d'image de fin par le même mécanisme avec beaucoup moins (voire aucun) d'entraînement spécialisé ne peut probablement pas donner à l'image de fin un impact suffisamment fort sur le contenu intermédiaire, contrairement à l'image de début. Cette asymétrie dans la force de contrôle des deux images sur le contenu intermédiaire conduit probablement à des mouvements incohérents ou à un effondrement de l'apparence dans les images générées. Pour atteindre efficacement des contraintes symétriques des images de début et de fin, nous proposons un nouveau cadre, appelé Sci-Fi, qui applique une injection plus forte pour la contrainte d'une échelle d'entraînement plus petite. Concrètement, il traite la contrainte d'image de début comme auparavant, tout en introduisant la contrainte d'image de fin par un mécanisme amélioré. Le nouveau mécanisme est basé sur un module léger bien conçu, nommé EF-Net, qui encode uniquement l'image de fin et l'étend en des caractéristiques temporellement adaptatives par image, injectées dans l'I2V-DM. Cela rend la contrainte d'image de fin aussi forte que celle de l'image de début, permettant à notre Sci-Fi de produire des transitions plus harmonieuses dans divers scénarios. Des expériences approfondies prouvent la supériorité de notre Sci-Fi par rapport à d'autres méthodes de référence.
Les modèles de diffusion vidéo basés sur les Transformers de Diffusion (DiT) génèrent des vidéos de haute qualité à grande échelle, mais entraînent des latences de traitement et des coûts mémoire prohibitifs pour les vidéos longues. Pour résoudre ce problème, nous proposons une nouvelle stratégie d'inférence distribuée, appelée DualParal. L'idée centrale est que, au lieu de générer une vidéo entière sur un seul GPU, nous parallélisons à la fois les trames temporelles et les couches du modèle sur plusieurs GPU. Cependant, une implémentation naïve de cette division rencontre une limitation clé : puisque les modèles de diffusion nécessitent des niveaux de bruit synchronisés entre les trames, cette implémentation conduit à la sérialisation des parallélismes originaux. Nous exploitons un schéma de débruitage par blocs pour y remédier. Concrètement, nous traitons une séquence de blocs de trames à travers le pipeline avec des niveaux de bruit décroissants progressivement. Chaque GPU gère un sous-ensemble spécifique de blocs et de couches tout en transmettant les résultats précédents au GPU suivant, permettant ainsi un calcul et une communication asynchrones. Pour optimiser davantage les performances, nous intégrons deux améliorations clés. Premièrement, un cache de caractéristiques est implémenté sur chaque GPU pour stocker et réutiliser les caractéristiques du bloc précédent comme contexte, minimisant ainsi la communication inter-GPU et les calculs redondants. Deuxièmement, nous utilisons une stratégie coordonnée d'initialisation du bruit, garantissant une dynamique temporelle globalement cohérente en partageant les motifs de bruit initiaux entre les GPU sans coût supplémentaire en ressources. Ensemble, ces éléments permettent une génération de vidéos rapide, sans artefacts et de longueur infinie. Appliquée au dernier générateur de vidéos par transformer de diffusion, notre méthode produit efficacement des vidéos de 1 025 trames avec une latence jusqu'à 6,54 fois inférieure et un coût mémoire 1,48 fois moindre sur 8 GPU RTX 4090.
La compression post-entraînement réduit les coûts de calcul et de mémoire des grands modèles de langage (LLM), permettant un déploiement efficace des ressources. Cependant, les benchmarks de compression existants se concentrent uniquement sur la modélisation du langage (par exemple, la perplexité) et les tâches de compréhension du langage naturel (par exemple, la précision GLUE), ignorant les capacités agentiques - flux de travail, utilisation d'outils/appels de fonction, compréhension de contexte long et application dans le monde réel. Nous introduisons le benchmark de compression agentique (ACBench), le premier benchmark complet pour évaluer l'impact de la compression sur les capacités agentiques des LLM. ACBench couvre (1) 12 tâches réparties sur 4 capacités (par exemple, WorfBench pour la génération de flux de travail, Needle-in-Haystack pour la récupération de contexte long), (2) la quantification (GPTQ, AWQ) et l'élagage (Wanda, SparseGPT), et (3) 15 modèles, incluant des LLM petits (Gemma-2B), standards (Qwen2.5 7B-32B) et de raisonnement distillé (DeepSeek-R1-Distill). Nos expériences révèlent des compromis de compression : la quantification en 4 bits préserve la génération de flux de travail et l'utilisation d'outils (baisse de 1%-3%) mais dégrade la précision des applications réelles de 10%-15%. Nous introduisons ERank, la corrélation de classement Top-k et l'énergie pour systématiser l'analyse. ACBench fournit des insights actionnables pour optimiser la compression des LLM dans des scénarios agentiques. Le code est disponible sur https://github.com/pprp/ACBench.
Les récentes avancées dans les modèles de langage multimodaux de grande taille (MLLMs) ont montré des résultats prometteurs dans l'intégration de modalités diverses telles que les textes et les images. Les MLLMs sont fortement influencés par le biais de modalité, se reposant souvent sur le langage tout en sous-utilisant d'autres modalités comme les entrées visuelles. Ce document de position soutient que les MLLMs sont profondément affectés par le biais de modalité. Premièrement, nous diagnostiquons l'état actuel du biais de modalité, en mettant en lumière ses manifestations à travers diverses tâches. Deuxièmement, nous proposons une feuille de route de recherche systématique liée au biais de modalité dans les MLLMs. Troisièmement, nous identifions les facteurs clés du biais de modalité dans les MLLMs et offrons des suggestions concrètes pour les recherches futures afin de l'atténuer. Pour étayer ces conclusions, nous menons des expériences qui démontrent l'influence de chaque facteur : 1. Caractéristiques des données : Les données linguistiques sont compactes et abstraites, tandis que les données visuelles sont redondantes et complexes, créant un déséquilibre inhérent dans la dynamique d'apprentissage. 2. Capacités déséquilibrées des modèles de base : La dominance des modèles de langage pré-entraînés dans les MLLMs conduit à une surdépendance au langage et à une négligence des informations visuelles. 3. Objectifs d'entraînement : Les objectifs actuels échouent souvent à promouvoir un alignement intermodal équilibré, résultant en un apprentissage par raccourci biaisé vers le langage. Ces résultats soulignent la nécessité de stratégies d'entraînement et d'architectures de modèles équilibrées pour mieux intégrer les multiples modalités dans les MLLMs. Nous appelons à des efforts interdisciplinaires pour relever ces défis et stimuler l'innovation dans la recherche sur les MLLMs. Notre travail offre une perspective nouvelle sur le biais de modalité dans les MLLMs et fournit des insights pour développer des systèmes multimodaux plus robustes et généralisables, faisant progresser la quête vers l'Intelligence Artificielle Générale.
Les chercheurs en biomédecine s'appuient de plus en plus sur des bases de données structurées à grande échelle pour des tâches analytiques complexes. Cependant, les systèmes actuels de conversion de texte en SQL peinent souvent à traduire des questions scientifiques qualitatives en requêtes SQL exécutables, en particulier lorsqu'un raisonnement implicite sur le domaine est nécessaire. Nous présentons BiomedSQL, le premier benchmark explicitement conçu pour évaluer le raisonnement scientifique dans la génération de texte en SQL sur une base de connaissances biomédicales réelle. BiomedSQL comprend 68 000 triplets question/requête SQL/réponse ancrés dans une base de connaissances harmonisée BigQuery qui intègre des associations gène-maladie, des inférences causales à partir de données omiques et des enregistrements d'approbation de médicaments. Chaque question nécessite que les modèles infèrent des critères spécifiques au domaine, tels que des seuils de signification à l'échelle du génome, la directionnalité des effets ou le filtrage des phases d'essais, plutôt que de s'appuyer uniquement sur une traduction syntaxique. Nous évaluons une gamme de modèles de langage open-source et propriétaires à travers différentes stratégies d'invite et paradigmes d'interaction. Nos résultats révèlent un écart de performance substantiel : GPT-o3-mini atteint une précision d'exécution de 59,0 %, tandis que notre agent personnalisé multi-étapes, BMSQL, atteint 62,6 %, tous deux bien en dessous de la référence experte de 90,0 %. BiomedSQL fournit une nouvelle base pour faire progresser les systèmes de conversion de texte en SQL capables de soutenir la découverte scientifique grâce à un raisonnement robuste sur des bases de connaissances biomédicales structurées. Notre ensemble de données est disponible publiquement à l'adresse https://huggingface.co/datasets/NIH-CARD/BiomedSQL, et notre code est open-source à l'adresse https://github.com/NIH-CARD/biomedsql.
Les modèles de langage de grande taille (LLMs) sont puissants mais sujets aux hallucinations en raison de leur connaissance statique. La Génération Augmentée par Récupération (RAG) aide en injectant des informations externes, mais les méthodes actuelles sont souvent coûteuses, généralisent mal ou ignorent la connaissance interne du modèle. Dans cet article, nous présentons R1-Searcher++, un nouveau cadre conçu pour entraîner les LLMs à exploiter de manière adaptative à la fois les sources de connaissances internes et externes. R1-Searcher++ utilise une stratégie d'entraînement en deux étapes : une phase initiale de SFT Cold-start pour l'apprentissage préliminaire du format, suivie d'un apprentissage par renforcement (RL) pour l'acquisition dynamique de connaissances. L'étape RL utilise une supervision par résultats pour encourager l'exploration, intègre un mécanisme de récompense pour l'utilisation des connaissances internes, et inclut un mécanisme de mémorisation pour assimiler continuellement les informations récupérées, enrichissant ainsi la connaissance interne du modèle. En exploitant à la fois la connaissance interne et un moteur de recherche externe, le modèle améliore continuellement ses capacités, permettant un raisonnement efficace augmenté par la récupération. Nos expériences démontrent que R1-Searcher++ surpasse les méthodes précédentes de RAG et de raisonnement, et réalise une récupération efficace. Le code est disponible à l'adresse suivante : https://github.com/RUCAIBox/R1-Searcher-plus.
Les grands modèles de langage ont démontré des capacités de raisonnement impressionnantes, mais sont intrinsèquement limités par leur réservoir de connaissances. Le raisonnement augmenté par la récupération d'information atténue cette limitation en permettant aux LLMs d'interroger des ressources externes, mais les méthodes existantes récupèrent souvent des informations non pertinentes ou bruyantes, entravant un raisonnement précis. Dans cet article, nous proposons AutoRefine, un cadre d'apprentissage par renforcement post-entraînement qui adopte un nouveau paradigme de « recherche-et-affinage-pendant-la-réflexion ». AutoRefine introduit des étapes explicites de raffinement des connaissances entre des appels de recherche successifs, permettant au modèle de filtrer, distiller et organiser les preuves de manière itérative avant de générer une réponse. De plus, nous intégrons des récompenses spécifiques à la récupération, adaptées et combinées avec des récompenses de justesse des réponses, en utilisant l'optimisation de politique relative par groupe. Les expériences sur des benchmarks de questions-réponses à un saut et à plusieurs sauts montrent qu'AutoRefine surpasse significativement les approches existantes, en particulier dans des scénarios de raisonnement complexes et multi-sauts. Une analyse détaillée révèle qu'AutoRefine effectue des recherches plus fréquentes et de meilleure qualité, tout en synthétisant efficacement les preuves.
L'avancée rapide des modèles multimodaux de grande taille (LMMs) pour les images et vidéos 2D a motivé l'extension de ces modèles à la compréhension de scènes 3D, visant une intelligence visuo-spatiale proche de celle des humains. Néanmoins, atteindre une compréhension spatiale profonde comparable aux capacités humaines pose des défis significatifs en matière d'encodage des modèles et d'acquisition de données. Les méthodes existantes dépendent souvent de capteurs de profondeur externes pour la capture de la géométrie ou utilisent des algorithmes prêts à l'emploi pour pré-construire des cartes 3D, limitant ainsi leur évolutivité, en particulier avec des entrées vidéo monoculaires prédominantes et pour des applications sensibles au temps. Dans ce travail, nous présentons VLM-3R, un cadre unifié pour les modèles vision-langage (VLMs) qui intègre un réglage d'instructions reconstructives 3D. VLM-3R traite les images vidéo monoculaires en utilisant un encodeur de géométrie pour dériver des tokens 3D implicites représentant la compréhension spatiale. En tirant parti de notre fusion Spatiale-Visuelle-Vue et de plus de 200K paires question-réponse (QA) de réglage d'instructions reconstructives 3D soigneusement sélectionnées, VLM-3R aligne efficacement le contexte spatial réel avec les instructions linguistiques. Cela permet une assistance spatiale 3D monoculaire et un raisonnement incarné. Pour faciliter l'évaluation du raisonnement temporel, nous introduisons le benchmark Vision-Spatial-Temporal Intelligence, comprenant plus de 138,6K paires QA réparties sur cinq tâches distinctes axées sur l'évolution des relations spatiales. Des expériences approfondies démontrent que notre modèle, VLM-3R, facilite non seulement un raisonnement visuo-spatial robuste, mais permet également la compréhension des changements de contexte 3D temporels, excellant à la fois en précision et en évolutivité.
La recherche d'information multimodale (MIR) est confrontée à des défis inhérents en raison de l'hétérogénéité des sources de données et de la complexité de l'alignement intermodal. Bien que des études antérieures aient identifié des écarts modaux dans les espaces de caractéristiques, une approche systématique pour relever ces défis reste inexplorée. Dans ce travail, nous introduisons UNITE, un cadre universel qui aborde ces défis à travers deux aspects critiques mais peu explorés : la curation des données et les configurations d'entraînement adaptées aux modalités. Notre travail fournit la première analyse approfondie de la manière dont les propriétés spécifiques des données modales influencent les performances des tâches en aval dans divers scénarios. De plus, nous proposons l'apprentissage contrastif masqué adapté aux modalités (MAMCL) pour atténuer les relations compétitives entre les instances de différentes modalités. Notre cadre obtient des résultats de pointe sur plusieurs benchmarks de recherche multimodale, surpassant les méthodes existantes par des marges notables. À travers des expériences approfondies, nous démontrons que la curation stratégique des modalités et les protocoles d'entraînement sur mesure sont essentiels pour un apprentissage robuste des représentations intermodales. Ce travail non seulement améliore les performances de la MIR, mais fournit également un plan de base pour les recherches futures sur les systèmes multimodaux. Notre projet est disponible à l'adresse https://friedrichor.github.io/projects/UNITE.
L'extraction de parole cible (Target Speech Extraction, TSE) vise à isoler la voix d'un locuteur cible d'un mélange de plusieurs locuteurs en exploitant des indices spécifiques au locuteur, généralement fournis sous forme d'audio auxiliaire (ou audio de référence). Bien que les avancées récentes en TSE aient principalement utilisé des modèles discriminatifs offrant une qualité perceptuelle élevée, ces modèles introduisent souvent des artefacts indésirables, réduisent le naturel et sont sensibles aux écarts entre les environnements d'entraînement et de test. D'un autre côté, les modèles génératifs pour la TSE accusent un retard en termes de qualité perceptuelle et d'intelligibilité. Pour relever ces défis, nous présentons SoloSpeech, un nouveau pipeline génératif en cascade qui intègre des processus de compression, d'extraction, de reconstruction et de correction. SoloSpeech comprend un extracteur de cible sans intégration de locuteur qui utilise des informations conditionnelles issues de l'espace latent de l'audio de référence, en l'alignant avec l'espace latent de l'audio mélangé pour éviter les incohérences. Évalué sur le jeu de données largement utilisé Libri2Mix, SoloSpeech établit un nouvel état de l'art en intelligibilité et qualité pour les tâches d'extraction de parole cible et de séparation de parole, tout en démontrant une généralisation exceptionnelle sur des données hors domaine et des scénarios réels.
Les récents progrès des modèles de langage multimodal à grande échelle (MLLMs) ont considérablement amélioré leurs capacités ; cependant, leurs aptitudes de perception spatiale restent une limitation notable. Pour relever ce défi, la synthèse de données multimodales offre une solution prometteuse. Pourtant, garantir que les données synthétisées respectent le bon sens spatial est une tâche non triviale. Dans ce travail, nous présentons SKG2Data, une nouvelle approche de synthèse multimodale guidée par des graphes de connaissances spatiales, fondée sur le concept de génération de connaissances à données. SKG2Data construit automatiquement un Graphe de Connaissances Spatiales (SKG) pour imiter la perception humaine des directions et distances spatiales, qui est ensuite utilisé pour guider la synthèse de données multimodales. Des expériences approfondies démontrent que les données synthétisées à partir de divers types de connaissances spatiales, incluant la direction et la distance, améliorent non seulement les capacités de perception et de raisonnement spatial des MLLMs, mais présentent également de fortes capacités de généralisation. Nous espérons que l'idée de synthèse de données basée sur les connaissances puisse faire progresser le développement de l'intelligence spatiale.
Alors que les systèmes d'essayage virtuel (VTON) visent à superposer un vêtement sur une image d'une personne cible, cet article aborde la nouvelle tâche de déshabillage virtuel (VTOFF), qui traite du problème inverse : générer des images standardisées de produits vestimentaires à partir de photos réelles de personnes habillées. Contrairement au VTON, qui doit gérer des variations de pose et de style diverses, le VTOFF bénéficie d'un format de sortie cohérent et bien défini — généralement une représentation à plat du vêtement en position allongée — ce qui en fait un outil prometteur pour la génération de données et l'amélioration des jeux de données. Cependant, les approches existantes de VTOFF rencontrent deux limitations majeures : (i) la difficulté à dissocier les caractéristiques du vêtement des occlusions et des poses complexes, entraînant souvent des artefacts visuels, et (ii) une applicabilité restreinte aux vêtements d'une seule catégorie (par exemple, uniquement les vêtements du haut du corps), limitant ainsi la généralisation. Pour relever ces défis, nous présentons TEMU-VTOFF (Text-Enhanced MUlti-category Virtual Try-Off), une nouvelle architecture dotée d'une double structure de base basée sur DiT avec un mécanisme d'attention multimodale modifié pour une extraction robuste des caractéristiques du vêtement. Notre architecture est conçue pour recevoir des informations sur le vêtement à partir de multiples modalités telles que les images, le texte et les masques, afin de fonctionner dans un contexte multicatégoriel. Enfin, nous proposons un module d'alignement supplémentaire pour affiner davantage les détails visuels générés. Les expériences menées sur les jeux de données VITON-HD et Dress Code montrent que TEMU-VTOFF établit un nouvel état de l'art dans la tâche de VTOFF, améliorant significativement à la fois la qualité visuelle et la fidélité aux vêtements cibles.
À mesure que les grands modèles de langage gagnent en capacité et en autonomie, l'identification des vulnérabilités par le biais de red-teaming devient cruciale pour un déploiement sécurisé. Cependant, les approches traditionnelles d'ingénierie des prompts peuvent s'avérer inefficaces une fois que le red-teaming se transforme en un problème de faible à fort, où les modèles cibles surpassent les red-teamers en capacités. Pour étudier ce changement, nous abordons le red-teaming sous l'angle de l'écart de capacité entre l'attaquant et la cible. Nous évaluons plus de 500 paires attaquant-cible en utilisant des attaques de jailbreak basées sur des LLM qui imitent les red-teamers humains à travers diverses familles, tailles et niveaux de capacité. Trois tendances fortes émergent : (i) les modèles plus performants sont de meilleurs attaquants, (ii) le succès des attaques chute brusquement une fois que la capacité de la cible dépasse celle de l'attaquant, et (iii) les taux de réussite des attaques sont corrélés à une performance élevée sur les sections de sciences sociales du benchmark MMLU-Pro. À partir de ces tendances, nous dérivons une loi d'échelle de jailbreak qui prédit le succès des attaques pour une cible fixe en fonction de l'écart de capacité entre l'attaquant et la cible. Ces résultats suggèrent que les attaquants de capacité fixe (par exemple, les humains) pourraient devenir inefficaces contre les modèles futurs, que les modèles open-source de plus en plus performants amplifient les risques pour les systèmes existants, et que les fournisseurs de modèles doivent mesurer et contrôler avec précision les capacités de persuasion et de manipulation des modèles pour limiter leur efficacité en tant qu'attaquants.
La Criminalistique Numérique et la Gestion des Incidents (DFIR) consiste à analyser des preuves numériques pour soutenir les enquêtes judiciaires. Les Modèles de Langage à Grande Échelle (LLMs) offrent de nouvelles opportunités dans les tâches de DFIR telles que l'analyse de journaux et la criminalistique de la mémoire, mais leur susceptibilité aux erreurs et aux hallucinations soulève des inquiétudes dans des contextes à enjeux élevés. Malgré un intérêt croissant, il n'existe aucun benchmark complet pour évaluer les LLMs à la fois dans les domaines théoriques et pratiques de la DFIR. Pour combler cette lacune, nous présentons DFIR-Metric, un benchmark composé de trois éléments : (1) Évaluation des Connaissances : un ensemble de 700 questions à choix multiples revues par des experts, issues de certifications industrielles standard et de documentation officielle ; (2) Défis Forensiques Réalistes : 150 tâches de style Capture The Flag (CTF) testant le raisonnement en plusieurs étapes et la corrélation des preuves ; et (3) Analyse Pratique : 500 cas de criminalistique de disque et de mémoire provenant du programme NIST Computer Forensics Tool Testing (CFTT). Nous avons évalué 14 LLMs en utilisant DFIR-Metric, en analysant à la fois leur précision et leur cohérence à travers les essais. Nous introduisons également une nouvelle métrique, le Score de Compréhension des Tâches (TUS), conçu pour évaluer plus efficacement les modèles dans des scénarios où ils atteignent une précision proche de zéro. Ce benchmark offre une base rigoureuse et reproductible pour faire progresser l'IA dans la criminalistique numérique. Tous les scripts, artefacts et résultats sont disponibles sur le site du projet à l'adresse https://github.com/DFIR-Metric.
Avec l’avancée rapide des modèles génératifs, la génération à usage général a suscité un intérêt croissant en tant qu’approche prometteuse pour unifier des tâches variées à travers différentes modalités au sein d’un système unique. Malgré ces progrès, les frameworks open-source existants restent souvent fragiles et peinent à supporter des applications complexes du monde réel en raison d’un manque de planification structurée des workflows et de rétroaction au niveau de l’exécution. Pour répondre à ces limitations, nous présentons ComfyMind, un système d’IA collaboratif conçu pour permettre une génération à usage général robuste et scalable, construit sur la plateforme ComfyUI. ComfyMind introduit deux innovations majeures : l’Interface de Workflow Sémantique (Semantic Workflow Interface, SWI) qui abstrait les graphes de nœuds de bas niveau en modules fonctionnels invocables décrits en langage naturel, facilitant la composition de haut niveau et réduisant les erreurs structurelles ; et le mécanisme de Planification par Arbre de Recherche avec exécution à rétroaction localisée, qui modélise la génération comme un processus décisionnel hiérarchique et permet une correction adaptative à chaque étape. Ensemble, ces composants améliorent la stabilité et la flexibilité des workflows génératifs complexes. Nous évaluons ComfyMind sur trois benchmarks publics : ComfyBench, GenEval et Reason-Edit, qui couvrent des tâches de génération, d’édition et de raisonnement. Les résultats montrent que ComfyMind surpasse systématiquement les baselines open-source existantes et atteint des performances comparables à GPT-Image-1. ComfyMind ouvre une voie prometteuse pour le développement de systèmes d’IA génératifs open-source à usage général. Page du projet : https://github.com/LitaoGuo/ComfyMind
Les agents web basés sur des modèles vision-langage (VLM) représentent une avancée significative vers l'automatisation de tâches complexes en simulant des interactions de type humain avec des sites web. Cependant, leur déploiement dans des environnements web non contrôlés introduit des vulnérabilités de sécurité importantes. Les recherches existantes sur les attaques par injection environnementale adverses reposent souvent sur des hypothèses irréalistes, telles que la manipulation directe du HTML, la connaissance de l'intention de l'utilisateur ou l'accès aux paramètres du modèle de l'agent, limitant ainsi leur applicabilité pratique. Dans cet article, nous proposons AdInject, une nouvelle méthode d'attaque en boîte noire réaliste qui exploite la diffusion de publicités en ligne pour injecter du contenu malveillant dans l'environnement de l'agent web. AdInject opère sous un modèle de menace bien plus réaliste que les travaux précédents, en supposant un agent en boîte noire, des contraintes de contenu malveillant statiques et aucune connaissance spécifique de l'intention de l'utilisateur. AdInject inclut des stratégies pour concevoir du contenu publicitaire malveillant visant à induire les agents en erreur pour qu'ils cliquent, ainsi qu'une technique d'optimisation de contenu publicitaire basée sur un VLM qui infère les intentions potentielles de l'utilisateur à partir du contexte du site web cible et intègre ces intentions dans le contenu publicitaire pour le rendre plus pertinent ou critique pour la tâche de l'agent, augmentant ainsi l'efficacité de l'attaque. Les évaluations expérimentales démontrent l'efficacité d'AdInject, avec des taux de réussite d'attaque dépassant 60 % dans la plupart des scénarios et approchant 100 % dans certains cas. Cela démontre fortement que la diffusion publicitaire courante constitue un vecteur puissant et réaliste pour les attaques par injection environnementale contre les agents web. Ce travail met en lumière une vulnérabilité critique dans la sécurité des agents web résultant de canaux de manipulation environnementale réalistes, soulignant le besoin urgent de développer des mécanismes de défense robustes contre de telles menaces. Notre code est disponible à l'adresse suivante : https://github.com/NicerWang/AdInject.
Les modèles de pointe en génération de texte-à-mouvement s'appuient sur la représentation cinématique locale relative popularisée par HumanML3D, qui encode le mouvement par rapport au bassin et à la frame précédente avec une redondance intégrée. Bien que cette conception simplifie l'entraînement pour les premiers modèles de génération, elle introduit des limitations critiques pour les modèles de diffusion et entrave leur applicabilité aux tâches en aval. Dans ce travail, nous revisitons la représentation du mouvement et proposons une alternative radicalement simplifiée et longtemps abandonnée pour la génération de texte-à-mouvement : les coordonnées absolues des articulations dans l'espace global. À travers une analyse systématique des choix de conception, nous montrons que cette formulation atteint une fidélité de mouvement significativement plus élevée, une meilleure alignement avec le texte et une forte scalabilité, même avec une simple architecture Transformer et sans pertes cinématiques auxiliaires. De plus, notre formulation supporte naturellement les tâches en aval telles que le contrôle de mouvement piloté par texte et l'édition temporelle/spatiale sans réingénierie spécifique à la tâche et sans génération coûteuse de guidage par classifieur à partir de signaux de contrôle. Enfin, nous démontrons une généralisation prometteuse pour générer directement les vertices du maillage SMPL-H en mouvement à partir du texte, posant ainsi une base solide pour les recherches futures et les applications liées au mouvement.
Les modèles vision-langage (VLMs) excellent dans une variété de tâches, mais souffrent de coûts d'inférence élevés en termes de temps et de mémoire. La parcimonie des tokens atténue les inefficacités dans l'utilisation des tokens, tandis que la parcimonie des neurones réduit les calculs en haute dimension, offrant ainsi des solutions prometteuses pour améliorer l'efficacité. Récemment, ces deux paradigmes de parcimonie ont évolué largement en parallèle, renforçant l'hypothèse dominante qu'ils fonctionnent de manière indépendante. Cependant, une question fondamentale mais peu explorée demeure : fonctionnent-ils vraiment de manière isolée, ou existe-t-il une interaction sous-jacente plus profonde qui reste à découvrir ? Dans cet article, nous menons la première investigation approfondie sur cette question. En introduisant et en analysant le mécanisme de correspondance entre les Neurones Cores et les Tokens Cores, nous avons découvert que les neurones et les tokens clés pour l'inférence s'influencent et se renforcent mutuellement. Sur la base de cette observation, nous proposons CoreMatching, un cadre d'inférence parcimonieux co-adaptatif, qui exploite la synergie entre la parcimonie des tokens et des neurones pour améliorer l'efficacité de l'inférence. Grâce à une analyse théorique et des évaluations d'efficacité, nous démontrons que la méthode proposée surpasse les meilleures approches de référence sur dix tâches de compréhension d'images et trois dispositifs matériels. Notamment, sur le NVIDIA Titan Xp, elle a permis une réduction de 5x des FLOPs et une accélération globale de 10x. Le code est disponible à l'adresse suivante : https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
DeepSeek-R1 a démontré de puissantes capacités de raisonnement dans le domaine textuel grâce à un apprentissage par renforcement (RL) stable. Récemment, dans le domaine multimodal, des travaux ont commencé à appliquer directement le RL pour générer un raisonnement libre de type R1 pour les tâches de Réponse à des Questions Visuelles (VQA). Cependant, les tâches multimodales présentent une nature intrinsèquement différente des tâches textuelles, qui reposent fortement sur la compréhension de l'image d'entrée pour résoudre le problème. Par conséquent, ce type de raisonnement libre rencontre deux limitations critiques dans la tâche VQA : (1) Les chaînes de raisonnement étendues dispersent l'attention visuelle des régions critiques pour la tâche, ce qui dégrade la précision des réponses. (2) Les étapes intermédiaires non vérifiables amplifient la variance du gradient de politique et les coûts de calcul supplémentaires. Pour résoudre ces problèmes, nous introduisons dans cet article SATORI (Optimisation des Tâches Ancrées Spatialement avec Apprentissage par Renforcement), qui décompose la VQA en trois étapes vérifiables, incluant la description globale de l'image, la localisation des régions et la prédiction de la réponse, chacune fournissant des signaux de récompense explicites. De plus, nous introduisons également VQA-Verify, un ensemble de données de 12k annoté avec des descriptions et des boîtes englobantes alignées sur les réponses pour faciliter l'entraînement. Les expériences démontrent des améliorations de performance constantes sur sept benchmarks VQA, atteignant jusqu'à 15,7 % d'amélioration en précision par rapport à la baseline de type R1. Notre analyse de la carte d'attention confirme une focalisation accrue sur les régions critiques, ce qui entraîne des améliorations en précision. Notre code est disponible à l'adresse https://github.com/justairr/SATORI-R1.
Les architectures de type *mixture-of-experts* (MoE) permettent de mettre à l'échelle les grands modèles de langage (LLM) avec un nombre considérable de paramètres sans augmentation proportionnelle des coûts de calcul. Cependant, les exigences mémoire importantes des grands modèles MoE entravent leur déploiement dans divers environnements informatiques, des serveurs cloud aux appareils grand public. Cette étude démontre d'abord une spécialisation marquée des modèles d'activation des experts en fonction des tâches au sein des couches MoE. Sur cette base, nous introduisons PreMoe, un nouveau cadre permettant un déploiement efficace des modèles MoE massifs dans des environnements à mémoire limitée. PreMoe comprend deux composants principaux : l'élagage probabiliste des experts (PEP) et la récupération adaptative des experts en fonction de la tâche (TAER). Le PEP utilise une nouvelle métrique, le *task-conditioned expected selection score* (TCESS), dérivé des logits du routeur pour quantifier l'importance des experts pour des tâches spécifiques, identifiant ainsi un ensemble minimal d'experts critiques. Le TAER exploite ces profils d'importance des experts spécifiques à la tâche pour une inférence efficace. Il précalcule et stocke des modèles d'experts compacts pour diverses tâches. Lorsqu'une requête utilisateur est reçue, le TAER identifie rapidement le modèle de tâche stocké le plus pertinent et reconstruit le modèle en chargeant uniquement le petit sous-ensemble d'experts essentiels pour cette tâche. Cette approche réduit considérablement l'empreinte mémoire dans tous les scénarios de déploiement. DeepSeek-R1 671B maintient une précision de 97,2 % sur MATH500 lorsqu'il est élagué à une configuration 8/128 (réduction de 50 % des experts) et atteint encore 72,0 % avec un élagage agressif 8/32 (réduction de 87,5 % des experts). Pangu-Ultra-MoE 718B atteint 97,15 % sur MATH500 et 81,3 % sur AIME24 avec un élagage 8/128, tandis qu'un élagage encore plus agressif à 4/64 (390 Go de mémoire) préserve une précision de 96,95 % sur MATH500. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/JarvisPei/PreMoe.
Dans ce travail, nous visons à stimuler la capacité de raisonnement des Modèles de Langage Multimodaux de Grande Taille (MLLMs) via l'apprentissage par renforcement (RL) et à développer une approche efficace qui atténue les problèmes de récompense éparse et de disparition des avantages pendant le RL. À cette fin, nous proposons Share-GRPO, une nouvelle approche de RL qui aborde ces problèmes en explorant et en partageant des trajectoires de raisonnement diversifiées sur un espace de questions élargi. Plus précisément, Share-GRPO commence par élargir l'espace des questions pour une question donnée grâce à des techniques de transformation de données, puis encourage le MLLM à explorer efficacement des trajectoires de raisonnement diversifiées sur cet espace de questions élargi et à partager les trajectoires de raisonnement découvertes entre les questions élargies pendant le RL. De plus, Share-GRPO partage également des informations de récompense lors du calcul des avantages, en estimant hiérarchiquement les avantages des solutions entre et au sein des variantes de questions, permettant une estimation plus précise des avantages relatifs et améliorant la stabilité de l'entraînement des politiques. Des évaluations approfondies sur six benchmarks de raisonnement largement utilisés démontrent la performance supérieure de notre méthode. Le code sera disponible à l'adresse https://github.com/HJYao00/R1-ShareVL.
Comprendre les sources de l'incertitude d'un modèle concernant ses prédictions est crucial pour une collaboration efficace entre humains et IA. Les travaux antérieurs proposent d'utiliser des mesures numériques d'incertitude ou des expressions de prudence ("Je ne suis pas sûr, mais..."), qui n'expliquent pas l'incertitude résultant de preuves contradictoires, laissant les utilisateurs incapables de résoudre les désaccords ou de s'appuyer sur les résultats. Nous présentons CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), le premier cadre capable de générer des explications en langage naturel de l'incertitude du modèle en (i) identifiant les relations entre des segments de texte qui révèlent des conflits ou des accords entre des affirmations et des preuves, ou entre différentes preuves, qui influencent l'incertitude prédictive du modèle de manière non supervisée, et (ii) générant des explications via des techniques de prompting et de pilotage de l'attention qui verbalisent ces interactions critiques. Sur trois modèles de langage et deux ensembles de données de vérification des faits, nous montrons que CLUE produit des explications plus fidèles à l'incertitude du modèle et plus cohérentes avec les décisions de vérification des faits que les explications d'incertitude générées sans guidage sur les interactions entre segments. Les évaluateurs humains jugent nos explications plus utiles, plus informatives, moins redondantes et plus logiquement cohérentes avec l'entrée que cette approche de référence. CLUE ne nécessite aucun ajustement fin ni modification architecturale, ce qui le rend prêt à l'emploi pour tout modèle de langage de type "boîte blanche". En reliant explicitement l'incertitude aux conflits de preuves, il offre un soutien pratique pour la vérification des faits et se généralise facilement à d'autres tâches nécessitant un raisonnement sur des informations complexes.
Les algorithmes de programmation dynamique (DP) pour les problèmes d'optimisation combinatoire fonctionnent en utilisant des opérations de maximisation, minimisation et addition classique dans leurs algorithmes récursifs. Les fonctions de valeur associées correspondent à des polyèdres convexes dans le semi-anneau max-plus. Cependant, les modèles existants de raisonnement algorithmique neuronal reposent sur une attention par produit scalaire normalisée par softmax, où le lissage exponentiel atténue ces structures polyédriques nettes et s'effondre dans des contextes hors distribution (OOD). Nous introduisons l'attention tropicale, une nouvelle fonction d'attention qui opère nativement dans le semi-anneau max-plus de la géométrie tropicale. Nous démontrons que l'attention tropicale peut approximer des circuits tropicaux d'algorithmes combinatoires de type DP. Nous proposons ensuite que l'utilisation de transformeurs tropicaux améliore les performances empiriques OOD, tant en généralisation de longueur qu'en généralisation de valeur, sur des tâches de raisonnement algorithmique, surpassant les bases de référence softmax tout en restant stables face aux attaques adverses. Nous introduisons également la généralisation aux attaques adverses comme un troisième axe pour l'évaluation du raisonnement algorithmique neuronal. Nos résultats montrent que l'attention tropicale restaure le raisonnement net et invariant à l'échelle absent dans softmax.
Les grands modèles de langage (LLMs) sont de plus en plus reconnus comme des outils puissants pour la découverte scientifique, en particulier dans le domaine des sciences moléculaires. Une exigence fondamentale pour ces modèles est la capacité à comprendre avec précision les structures moléculaires, généralement encodées dans la représentation SMILES. Cependant, les LLMs actuels peinent à interpréter les SMILES, échouant même à accomplir des tâches basiques telles que le comptage des cycles moléculaires. Pour pallier cette limitation, nous introduisons CLEANMOL, un cadre novateur qui formule l'analyse des SMILES en une série de tâches propres et déterministes, explicitement conçues pour favoriser la compréhension moléculaire au niveau des graphes. Ces tâches vont de la correspondance de sous-graphes à la correspondance globale de graphes, fournissant une supervision structurée alignée avec les propriétés structurales moléculaires. Nous construisons un ensemble de données de pré-entraînement moléculaire avec un système de notation adaptative de la difficulté et pré-entraînons des LLMs open-source sur ces tâches. Nos résultats montrent que CLEANMOL améliore non seulement la compréhension structurelle, mais obtient également les meilleurs résultats ou rivalise avec la référence sur le benchmark Mol-Instructions.
La Génération Augmentée par Récupération améliore la précision des LLM en ajoutant des passages récupérés d'un corpus externe à l'invite du LLM. Cet article étudie comment le biais positionnel - la tendance des LLM à pondérer différemment l'information en fonction de sa position dans l'invite - affecte non seulement la capacité du LLM à tirer parti des passages pertinents, mais aussi sa vulnérabilité aux passages distrayants. À travers des expériences approfondies sur trois benchmarks, nous montrons comment les pipelines de récupération de pointe, tout en cherchant à récupérer des passages pertinents, ramènent systématiquement des passages hautement distrayants aux premiers rangs, avec plus de 60 % des requêtes contenant au moins un passage très distrayant parmi les 10 premiers passages récupérés. En conséquence, l'impact du biais positionnel des LLM, qui dans des contextes contrôlés est souvent rapporté comme très marqué par les travaux connexes, est en réalité marginal dans des scénarios réels puisque les passages pertinents et distrayants sont, à leur tour, pénalisés. En effet, nos résultats révèlent que des stratégies sophistiquées visant à réorganiser les passages en fonction des préférences positionnelles des LLM ne performent pas mieux qu'un mélange aléatoire.
Les Vision Transformers (ViTs) sont devenus l'architecture dominante pour les tâches de traitement visuel, démontrant une excellente scalabilité avec l'augmentation des données d'entraînement et de la taille des modèles. Cependant, des travaux récents ont identifié l'émergence de tokens d'artefacts dans les ViTs qui sont incohérents avec la sémantique locale. Ces tokens anormaux dégradent les performances des ViTs dans les tâches nécessitant une localisation fine ou une cohérence structurelle. Une atténuation efficace de ce problème consiste à ajouter des tokens de registre aux ViTs, qui absorbent implicitement les termes d'artefacts pendant l'entraînement. Étant donné la disponibilité de divers ViTs pré-entraînés à grande échelle, cet article vise à les équiper de tels tokens de registre sans nécessiter de ré-entraînement complet, ce qui est irréalisable compte tenu de leur taille. Plus précisément, nous proposons Post Hoc Registers (PH-Reg), une méthode d'auto-distillation efficace qui intègre des registres dans un ViT existant sans nécessiter de données étiquetées supplémentaires ni de ré-entraînement complet. PH-Reg initialise les réseaux enseignant et étudiant à partir du même ViT pré-entraîné. L'enseignant reste figé et inchangé, tandis que l'étudiant est augmenté avec des tokens de registre initialisés aléatoirement. En appliquant une augmentation au moment du test aux entrées de l'enseignant, nous générons des embeddings denses débruités exempts d'artefacts, qui sont ensuite utilisés pour optimiser uniquement un petit sous-ensemble de poids déverrouillés de l'étudiant. Nous montrons que notre approche peut efficacement réduire le nombre de tokens d'artefacts, améliorant la segmentation et la prédiction de profondeur du ViT étudiant en mode zero-shot et par sondage linéaire.
Les modèles de langage protéique (PLM) sont apparus comme des outils puissants pour détecter des motifs complexes dans les séquences protéiques. Cependant, la capacité des PLM à capturer pleinement les informations sur les séquences protéiques pourrait être limitée par une focalisation sur des tâches de pré-entraînement uniques. Bien que l'ajout de modalités de données ou d'objectifs supervisés puisse améliorer les performances des PLM, le pré-entraînement reste souvent centré sur le débruitage de séquences corrompues. Pour repousser les limites des PLM, notre recherche a exploré une stratégie de pré-entraînement multi-tâches. Nous avons développé Ankh3, un modèle optimisé conjointement sur deux objectifs : la modélisation de langage masqué avec des probabilités de masquage multiples et la complétion de séquences protéiques utilisant uniquement les séquences protéiques comme entrée. Ce pré-entraînement multi-tâches a démontré que les PLM peuvent apprendre des représentations plus riches et plus généralisables uniquement à partir des séquences protéiques. Les résultats ont montré une amélioration des performances dans des tâches en aval, telles que la prédiction de la structure secondaire, la fluorescence, la fitness GB1 et la prédiction de contacts. L'intégration de multiples tâches a permis au modèle d'acquérir une compréhension plus complète des propriétés des protéines, conduisant à des prédictions plus robustes et précises.
Les interactions protéine-protéine (PPI) sont fondamentales pour de nombreux processus cellulaires, et leur caractérisation est essentielle pour comprendre les mécanismes des maladies et orienter la découverte de médicaments. Bien que les modèles de langage protéique (PLM) aient démontré un succès remarquable dans la prédiction de la structure et de la fonction des protéines, leur application à la prédiction de l'affinité de liaison des PPI basée sur les séquences reste relativement peu explorée. Cette lacune est souvent attribuée à la rareté de jeux de données de haute qualité et rigoureusement affinés, ainsi qu'à la dépendance envers des stratégies simples pour concaténer les représentations protéiques. Dans ce travail, nous abordons ces limitations. Premièrement, nous introduisons une version méticuleusement curatée du jeu de données PPB-Affinity, comprenant un total de 8 207 entrées uniques d'interactions protéine-protéine, en résolvant les incohérences d'annotation et les entrées en double pour les interactions protéiques multi-chaînes. Ce jeu de données intègre un seuil strict d'identité de séquence inférieur ou égal à 30 % pour garantir une division robuste en ensembles d'entraînement, de validation et de test, minimisant ainsi les fuites de données. Deuxièmement, nous proposons et évaluons systématiquement quatre architectures pour adapter les PLM à la prédiction de l'affinité de liaison des PPI : la concaténation des embeddings (EC), la concaténation des séquences (SC), le pooling hiérarchique (HP) et l'addition d'attention poolée (PAD). Ces architectures ont été évaluées en utilisant deux méthodes d'entraînement : un ajustement fin complet et une approche légère utilisant des têtes ConvBERT sur des caractéristiques PLM gelées. Nos expériences approfondies sur plusieurs PLM de pointe (ProtT5, ESM2, Ankh, Ankh2 et ESM3) ont démontré que les architectures HP et PAD surpassent systématiquement les méthodes de concaténation conventionnelles, atteignant une augmentation allant jusqu'à 12 % en termes de corrélation de Spearman. Ces résultats soulignent la nécessité de conceptions architecturales sophistiquées pour exploiter pleinement les capacités des PLM dans la prédiction nuancée de l'affinité de liaison des PPI.
Le diagnostic différentiel des démences neurodégénératives constitue une tâche clinique complexe, principalement en raison du chevauchement des symptômes et de la similarité des motifs observés en imagerie cérébrale structurelle. Pour améliorer l'efficacité et la précision diagnostiques, des méthodes basées sur l'apprentissage profond, telles que les réseaux de neurones convolutifs et les Vision Transformers, ont été proposées pour la classification automatique des IRM cérébrales. Cependant, malgré leurs performances prédictives élevées, ces modèles trouvent une utilité clinique limitée en raison de leur processus décisionnel opaque. Dans ce travail, nous proposons un cadre intégrant deux composants clés pour renforcer la transparence diagnostique. Premièrement, nous introduisons un pipeline modulaire pour convertir des IRM cérébrales 3D pondérées en T1 en rapports radiologiques textuels. Deuxièmement, nous explorons le potentiel des modèles de langage modernes (LLMs) pour assister les cliniciens dans le diagnostic différentiel entre les sous-types de démence frontotemporale, la maladie d'Alzheimer et le vieillissement normal, en s'appuyant sur les rapports générés. Pour combler l'écart entre précision prédictive et explicabilité, nous utilisons l'apprentissage par renforcement pour encourager le raisonnement diagnostique dans les LLMs. Sans nécessiter de traces de raisonnement supervisées ou de distillation à partir de modèles plus grands, notre approche permet l'émergence de justifications diagnostiques structurées, ancrées dans les observations d'imagerie. Contrairement aux méthodes d'explicabilité post-hoc qui justifient rétrospectivement les décisions du modèle, notre cadre génère des justifications diagnostiques durant le processus d'inférence, produisant des explications causalement fondées qui informent et guident la prise de décision du modèle. Ainsi, notre cadre atteint des performances diagnostiques comparables aux méthodes d'apprentissage profond existantes tout en fournissant des justifications qui étayent ses conclusions diagnostiques.